elsur.jpn.org >

« 2009年8月 | メイン | 2009年10月 »

2009年9月25日 (金)

 片側検定が許されるのはどんな状況だろうか?
 こういうことを延々と考えても,なんら益がないことははっきりしているのだが,それでもいったん考え始めると,途中で投げ出すのは難しい。いや,むしろどうでもいいことだからこそ,ここまで真剣にあれこれ考えるのかもしれない。展望なき人生において,真に考えるべき事柄はおしなべて深刻な事柄であり,そして深刻な事柄を考えるだけで頭のなかにブザー音が響く。ストップ! 考えるな!
 こういうのをなんていうんだっけ? 現実に対して真剣に向き合うだけの力がないことを。「駄目な人」? もっとひどい言い回しもたくさんありそうだ。その辺について熟考するのは,次回の人生にとっておいて,当座の問題は。。。片側検定が許されるのはどんな状況か。

 仮説検定は統計学やデータ解析法の初級コースに登場する基礎的概念だ。片側検定は,仮説検定の説明のなかで登場する考え方で,これまた初歩的内容にはちがいない。
 ところが,こういう話題の困ったところは,基本的な疑問であるにもかかわらず,統計学の教科書に答えが書いてあるとは限らない,という点である。たとえば,手元にある本のなかから中村隆英ほか「統計入門」(1984)をめくってみると,この本でひとり勉強したころの手垢や落書きが目に付いて,もう涙が出そうである。20年近い年月が経ってしまった。いや,そういう感傷は置いておいて。。。

「棄却域が x ≦ a または x ≧ b ( a < b ) の範囲となる検定方式を両側検定といい,[...] 棄却域が x ≧ c といった範囲になる検定方式を片側検定という。」(p.211)

 これだけである。この直後から,説明は所与の対立仮説の下での棄却域設定についての議論へと移っていく(帰無仮説μ=c, 対立仮説μ≠c に対する一様最強力検定は存在しない,とか)。しかし,棄却域が片側になるような対立仮説(たとえば μ>0)を設定してよいのはいったいどんなときなのか,という疑問には,この本は答えてくれない。それこそが,俺にとっての疑問であり,多くの人にとっての疑問であるはずなのだ。
 この「統計入門」は初学者向けの統計学の教科書で,決して数理統計学の専門書ではない。大変わかりやすい,良い本だと思う。それでも,ユーザの肝心の疑問にはなかなか答えてくれない。教科書とは往々にしてそういうものである。一冊の教科書に頼ってはいけない。

 「片側検定が許されるのはどんなとき?」という疑問に対し,可能な答えが3つあるように思う。例として,母平均μと定数cとを比較する検定について考えよう。H1:μ>cという対立仮説を設定し,片側検定を行ってよいのはどんなときか?

 もっと具体的な事例に当てはめて書き直したいのだが,これが案外難しい。平均と定数を比較する検定など,実際にはなかなか用いられないからだ。そこで,俺がかつて考えた素晴らしい事例を紹介したい。以前統計学の講義を担当していたときに考案した名作である。これが人々に知られないまま消えていくのは,あまりにもったいない。

町工場経営の山田さんはパチンコ玉を作っています。愛用のパチンコ玉製造機は,もう何十年も休みなく動き続け,新品のパチンコ玉を吐き出し続けています。パチンコ玉一個の重さの平均はぴったり2g, 寸分の狂いもありません。年月とともにスイッチやツマミの文字は薄れてしまいましたが,あまりに安定的な機械なので,オーバーホールの必要もツマミをまわす必要もなく,山田さんはすっかり安心していました。
 ところがある日,山田さんの愛猫が,パチンコ玉の重さを変えるツマミの上に飛び乗ってしまいました。そのツマミを右に回すと,パチンコ玉は少しだけ重くなり,左に回すと少しだけ軽くなってしまうのです。大変だ!山田さんはあわててツマミを調べましたが,目盛がすっかり消えてしまっているので,ネコがツマミをまわしたのかどうか,まったく見当がつきません。
 そこで山田さんは,ネコが飛び乗ったあとで生産されたパチンコ玉からN個を抜き出し,その重さを測定器で調べることにしました。
 山田さんは次のように考えました。これから生産されるパチンコ玉の重さの集合を母集団と考えよう。私はこれから,無作為抽出したサイズNの標本を手に入れるわけだ。母平均が2gと異なっているといえるか,検定によって調べてみよう。

 。。。おかしいな,名作だと思ったのに。こうして書いてみると,俺の資質と能力,人としての常識,といったあたりに深刻な疑念を感じざるを得ない。
 まあいいや,この例で話を進めると,山田さんが片側検定を行って良い場合について,以下の3つの答えかたがある。

。。。書いていてだんだん頭が痛くなってきた。ネコの神ってなんだよ。
 この3つの説明の違いは,いっけん言い回しの差のようにみえるかもしれないが,よく考えてみるとかなり異なる示唆を持っている。そのことは,山田さんが得た標本平均が,たとえば1.95gだった場合を考えればよくわかる。

 この問題について述べている解説書を探してみると,意外なほどに意見が割れている。手元にある日本語の解説書に限定して書き抜いてみよう。
 まず,(A) μ<cではないと事前に知っているときしか片側検定を認めない解説書。

吉田「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本」(1998), p.164

研究者がある方向の差を研究仮説として設定したというだけでは片側検定を行なうべきではなく,研究仮説とは逆の方向の差がその領域や文脈においてまったく意味をもたないと考えられるような特殊な場合でない限り,基本的には両側検定を行うべきだと思います

市原「バイオサイエンスの統計学」(1990), p.194

あらかじめデータがどちらの方向に偏るかを特定できる場合[...]は,片側の効果だけを調べればよいという理屈になる。しかしそのような場合ですら,例外的に逆の効果をもつこともありえるので,やはり,両方の可能性を考えて両側検定しておくのが妥当と考えられる

実のところ,(A)における片側検定に反対する人はいないのではないかと思う。もしμ<cではないことをあらかじめ知っているのであれば,仮に標本平均がcをはるかに下回ったとしても,帰無仮説μ=cを棄却する理由がない。事前知識を生かして棄却域を設定すること自体には,文句のつけようがない。意見が割れるのは,(A)以外の状況での片側検定を認めるか,という点である。上の2冊は,片側検定が許される状況を(A)に限定している解説書であるといえよう。
 (A)の状況は現実にはほぼあり得ないから(ふつうネコは喋らない),この立場に立てば,片側検定はめったに適用できないことになる。

 次に,(B) μ>cと予測しているときに片側検定を許容する解説書。

山内「心理・教育のための統計法」(1987) p.104

[片側検定の]このような方向性を決定するのは,いままでに知られている情報や,理論的な仮定である。ただし,実験が行われる前に,方向性に関してH1や棄却域は決定しておかなければならない。[...] 例題:心理学者は,ある社会性のテストにおいて,テストの誤答数が通常の小学4年生において平均値25個,標準偏差4.3個であることがわかっているとしよう。いま,リーダーシップの高い子どもは,そのテストでより少ない誤答数を示すであろうと想定した(したがって,H1は方向性のある片側検定を要請する)

いま手元にないのだけれど,名高い古典である岩原信九郎「教育と心理のための推計学」も,たしかこのような説明をしていたと思う。
 うーむ。ど素人の俺がこんなことを書くのは身の程知らずもよいところだが,こういう説明は,そのー,ちょっとまずいんじゃないでしょうか,と思う次第である。
 たいていの分析者は,なんらかの予測なり想定なりを事前に胸に抱いているものだ。リーダーシップの高い子どもは誤答が少ないんじゃないかとか,ネコはツマミを右に回したんじゃないかとか。上記の解説書に従えば,とにかく想定がはっきりしていれば片側検定が使用できる,ということになろう(両側検定の出番などほとんど無くなってしまうのではなかろうか)。さて,健全な実証研究においては,蓋を開けてみると,事前の想定は往々にして裏切られるものである。実のところ,リーダーシップの高い子どものほうが誤答が多い,ということがあきらかになるかもしれない。山田さんの予測とは逆に,パチンコ玉の重さの標本平均は1.8gかもしれない。データに裏切られた分析者は,そのデータを投げ出すべきだろうか? それはデータに失礼というものだ。むしろ,自らの理論を修正するために,そのデータを再分析するのがあるべき姿であろう。というわけで,今度は新たな対立仮説についての検定が有用になるだろう。その新たな対立仮説が,たとえばμ<cならば,片側検定を2回繰り返すことになるわけだ。2回の検定をあわせたType I Errorは有意水準の2倍になってしまう。だったら最初から両側検定でType I Errorを制御しておいたほうが良いのではないでしょうか?
 と,どきどきしながら偉そうなことを書いているわけだが,だんだん気弱になってきたので援軍を呼ぼう。世の中には物好きな人がいるもので,Lombardi&Hurlbert(2009)は統計学の教科書を52冊集め,片側検定が許される状況についての説明を抜き出し,Reasonable(白), Vague(灰色), Bad(黒)の3つに分類している。俺の分類と照らし合わせると,どうやら(A)と(C)は白,(B)は黒とされているようだ。ただし,この著者らはなかなか厳しくて,俺の目から見て(C)タイプの説明であっても,分析者が対立仮説を片側に設定する理由がassumptionとかpredictionなどと表現されているだけで,その教科書はもう黒呼ばわりである。ひええ。

 さて,いよいよ本命の登場である。(C) μ=c か μ<c かというちがいに関心がないときに片側検定を許容する解説書。

南風原「心理統計学の基礎―統合的理解のために」(2002)

いま,帰無仮説をH0:ρ≦0とし,対立仮説をH1:ρ>0と設定したとします。つまり,『母集団相関はゼロまたは負である』という帰無仮説を『母集団相関は正である』という対立仮説に対して検定するということです。このような検定は,たとえばある市において,学級の児童数と,学級のなかで授業がわからないという不満を持つ児童の割合との相関係数について,帰無仮説が棄却されて『母集団相関は正である』という対立仮説が採択されたら,学級定員を減らすための検討を開始する,というような場合などに考えられる可能性のあるものです。このとき,r=-.5のように,負で絶対値が比較的大きな r が得られたとしても,これは明らかに対立仮説を支持するものではありませんから,こうした負の領域には棄却域を設けず,正で値の大きい r の範囲のみを棄却域とする片側検定を用いるのが合理的です。このように,片側検定が有効であるケースは考えられますが,通常の研究において検定が用いられる文脈では,このようなケースはあまりありません

永田「統計的方法のしくみ―正しく理解するための30の急所」(1996), p.107

たとえば,何らかの新しい機械の購入を考えているとしよう。その機械のある特性値の母平均μが"基準値"よりも上回るときのみ購入の価値があると考えるのならば[...](右)片側検定をおこなうことが妥当である

吉田「直感的統計学」(2006), p.245

消費者グループが,A自動車会社の『高速道路では一リットルあたり30キロ走る』という新車に関する主張をテストしている。[...] 消費者は一リットル30キロ走るのかそれ以下なのかに興味がある。もしもA自動車会社の主張に対して,サンプル平均が著しく低ければ,μ=30は到底受け入れることはできない。H0を棄却するということは会社を訴えるといったアクションを取ることになるかもしれない。それに対して,もしもサンプル平均が 30キロ以上だったら,つまり燃費が自動車会社が主張しているより良いときに消費者はアクションを取るだろうか?多分彼らはただH0を受け入れ,黙っているだろう。そういう意味でμ=30キロでもμ=35キロでも同じ受容域に入るのである

俺の手元にある本の中では,このタイプの解説が一番多い。英語なので抜き書きは省略するが,古典的名著として知られるWiner "Statistical Principles In Experimental Design" (2nd ed.)も,一番頼りにしている Kirk "Experimental Design" (3rd ed.) も,このタイプの説明であった。
 告白すると,(C)の状況下での片側検定は間違っている,と俺はこれまで固く固く信じてきた。片側検定について他人に説明する際にも,それは山田さんの関心の持ちようで決まる問題じゃない,ネコがツマミを左に回していないと山田さんが事前に知っているかどうかという,事前知識の問題なんですよ,と強調してきた。時々見かける(B)(C)タイプの説明は,筆が滑ったか,ないし誤りだと考えていたのである。
 このたび,仕事でこの関連の話を考える用事があって,南風原(2002)を読み直し,この名著がなんと(C)の状況での片側検定を認めていることに気づいて,うわあ,また俺は嘘をついていたか,と青ざめた。それがこの文章を書くきっかけである。

 (C)の状況下での片側検定は誤りだ,と俺が考えていたのはなぜか。たぶん,吉田(1998)や市原(1990)のようなタイプの説明をどこかの本で読んだせいだろう。それがなんという本だったのか,思い出せないのがつらいところだ。
 でも,思い返してみれば,自分なりに納得した理由が,大きく二つあったように思う。テクニカルな理由プラクティカルな理由である。

 まずテクニカルな理由。(C)の状況での片側検定を許容すると,物事はもう泣きたいくらいにややこしくなってしまう。
 両側検定の場合について考えよう。帰無仮説をμ=c, 対立仮説をμ≠cとする。帰無仮説の下での平均の標本分布を考え,その両側5%ぶんを塗りつぶす。この5%を有意水準と呼ぶ。有意水準はType I Errorの確率,すなわち「帰無仮説が真のときそれを棄却してしまう確率」に等しい。
 では,片側検定の場合はどうなるか。対立仮説をμ>cとしよう。素直に考えると,(C)の場合,対立仮説が真でないときはμ=cかもしれないしμ<cかもしれないのだから,帰無仮説はμ≦cだ。南風原(2002)もそう述べている。しかし,南風原先生は説明を端折っておられるが,帰無仮説がμ≦cであっても,棄却域を決める際にはμ=cの下での平均の標本分布を用いざるをえない。μ≦cの下での標本分布は一意に決まらないからだ。すると,この分布の右側5%ぶんを塗りつぶしたとして,この5%の意味,すなわち有意水準の意味が変わってくる。それはもはやType I Errorの確率ではない。「Type I Errorの最大確率」とでも呼ぶべきものになってしまうのである。
 これに対し,永田(1996)がそうしているように,片側検定においても帰無仮説はμ=cだ,と言い張る手もある。(A)における片側検定と同じく,μ<cを考慮の外に置いてしまうわけである。クリアな解決策だが,μ<cはどこにいったんだ,という疑問が浮かぶ。
 南風原流の説明と永田流の説明ではどちらが一般的だろうか。また物好きな人がいるもので,Liu&Stone(1999)は44冊の教科書を調べ,うち24冊はH0:μ≦c(南風原路線),20冊はH0:μ=c(永田路線)であると報告している。彼らに言わせると,どっちの説明でもかまわないけど,前者の路線を取る場合には有意水準の意味が変わることを説明しなければならない。しかし,永田路線の20冊のうち11冊がその点をちゃんと説明しているのに対し,南風原路線を取る24冊のうち実に20冊はその説明を端折っている由。これは統計教育における由々しき問題点だ,と彼らは憂えているのだが,うーん,教科書がややこしい話を端折ったからと言って,一概に責めることはできないと思うんだけど。
 それはともかく,このややこしさこそが,(C)の状況下での片側検定が許されない理由なのだ,と俺は考えていた。H0:μ≦0ならば(南風原路線),仮説検定においてもっとも基礎的な概念である有意水準の意味が,両側か片側かというちょっとした選択によって変わってしまうことになる。H0:μ=0とすると(永田路線),直感に反する帰無仮説を設定することになる。
 いまこうして書いてみると,俺が感じていたのは,(C)の状況下での片側検定はいろいろとややこしい問題を抱えている,ということに過ぎないようだ。片側検定が誤りだという根拠とは言い難い。反省。

 というわけで,(C)における片側検定は間違いだ,という俺の確信は哀れにも揺らぎ始めているのだが,完全な納得にまでは至っていない。そのように未練がましく考える背後にあるのは,かつて(C)が誤りだと思った第二の理由,プラクティカルなほうの理由である。
 素朴な言い方で恥ずかしいが,「μ=c か μ<c かというちがいに関心がない」だなんて,そんなの嘘じゃないか,と思うのである。
 これは具体的な例で考えた方がいい話だと思う。二つ例を挙げてみたい。まず非劣性試験の話。聞きじったところによると,ジェネリック医薬品の承認申請のためには,新薬の場合とは異なり,先行薬よりも(ある限界を超えて)劣っていない,ということを示すための臨床試験を行うのだそうだ。で,テクニカルにはいろいろな工夫があるにせよ,基本的発想としては片側検定を用いるのだそうである。なるほど,既存の薬との間に差がなかろうが,ジェネリック薬のほうが優れていようが,それはどうでもいいわけだから,まさに(C)の状況であるといえよう。
 今度は市場調査の話。日本の市場調査業界の基礎を築いた有名な実務家が書いたハンドブックから引用する。製品テストを例に,(C)的な状況を端的に説明している。

後藤「市場調査マニュアル」(1997)

テストの目的が製品A, Bのどちらを選ぶか,または選択を保留するかという場合には両側検定となる。[...] 製品Aの評価が高ければAを選び,そうでなければBを選ぶという場合には[...]片側検定となる。[...たとえば] 改良品Aがよければ現行品Bを改良品に切り替えるが,そうでなければ現行品Bを変えない,あるいは競合銘柄Bよりよければ当社製品Aを発売するが,そうでなければ発売しない場合。

新製品が対照製品と同等であろうが,新製品のほうが劣っていようが,それはどうでもいい,だから片側検定だ,というわけである。理屈としてはさきほどの臨床試験の話と同じなのだが,こんどは違和感を感じる。これは本当に(C)の状況なのか,と疑問に思われてならない。
 なぜなら,もし新製品Aの評価が対照製品Bよりも低かったら,単に「発売しない」と決定するだけでは済まないだろう,と思うからだ。Aは,Bよりも劣った製品になってしまったのだろうか,それとも差がないだけなのだろうか。観察された差が統計的にみて意味を持つものなのかどうか,調べてみたくなりませんか? 再び検定してみたくなりませんか? 新製品が対照製品と同等であろうが劣っていようがどうでもいいなんて,嘘じゃありませんか?
 このふたつの話はどこがちがうのか。まず,統計的推測と意思決定の間の距離がちがうと思う。臨床試験のほうは,その結果がそのまま製造販売の承認という社会的決定に直結する。いっぽう,消費者調査の結果をそのまま新製品上市の決定に直結させる発想は,あまり現実的とは思えない。むしろ,ビジネス上の意思決定は(科学的推論がそうであるように)幅広い情報に基づいてなされるべきものであり,消費者調査はそのデータソースの一つに過ぎない,と考えたほうがよいだろう。
 別の観点からいうと,このふたつの話は,分析主体の「関心」の多様性が異なる。前掲のLombardi&Hurlbert(2009)は面白いことをいっている。現代の仮説検定論を築いたNeyman(1937)は,片側検定が許される状況について"[where] we are interested only [...] in one limit"と表現しているそうなのだが(Cタイプですね),このinterestはただのinterestではなく,個々の分析者から独立な"collective interest"として解するべきものである由。なるほど,上手いことをいうものだ。統計的仮説の設定において問われるのは,個々の分析者の関心ではなく,データにアクセス可能な当事者たちの間のコンセンサスなのだ。臨床試験の場合は,「ジェネリック薬が先行薬と同等であろうが,ジェネリック薬のほうが優れていようが,そのちがいはどうでもいい」という点に関係者すべてが合意するだろう。いっぽう製品テストのほうでは,この合意が得られるかどうか怪しい。調査のステイク・ホルダーは多種多様な関心を持っているはずだ。経営陣は「新製品が対照製品と同等であろうが,新製品のほうが劣っていようが,そのちがいはどうでもいい」と思っているのに対して,R&Dは大いに関心がある,という風に。
 こうして整理してみると,俺が(C)タイプの説明に抵抗を感じるのは,μ<cとμ=cのちがいに「全く関心がない」場合の片側検定が論理的に誤っていると思うからではない。単に,そんな状況は極めて限定的だ,と感じているに過ぎない。いいかえると,片側検定が許される状況を,その場その場の「関心」をキーワードにして定義するのは甘すぎる,と危惧しているだけである。これもまた,(C)タイプの説明を誤りとみなすだけの根拠とはいえない。反省。

 片側検定が許される状況をどのように定義するかという問題について,勝手に悩み,勝手に論破されて勝手に反省しているわけだが,そんな定義にかまけていないで,(D)そもそも片側検定をやめちゃえばいいじゃん,という意見もあるだろう。日本語でみかけた例としては,佐伯・松原編「実践としての統計学」(2000)のなかで,佐藤俊樹がそういう意見を書いている。この先生は「不平等社会日本」で知られる気鋭の社会学者だが,こういうテクニカルな話題にも造詣が深いんですね。
 佐藤によれば,(C)の状況における片側検定には論理的飛躍がある。

帰無仮説θ=0の否定はθ≠0であって,θ>0 (やθ<0)ではない。にもかかわらず,何の説明もなしに『片側検定では帰無仮説θ=0を棄却することでθ>0(あるいはθ<0)という対立仮説がとられる』といえば,それはまさに論理的飛躍である

しかし佐藤は(A)の立場も拒否する。

論理を一貫させようとすれば,いくつかの本でやっているように,片側検定は何らかの根拠でθ<0(あるいはθ>0)でないと確定できる(無視できる)場合に使われる,とするしかない。[...]こういう形にすれば明確だが,[...] 限られたケースでしか片側検定は使えなくなる

 佐藤の議論の眼目はこうだ。この論理的飛躍は片側検定に限ったことではない。両側検定だって同じことである。なぜなら,分析者は両側検定によって帰無仮説μ=cを棄却するが,それを根拠として彼が主張するのは,たいていμ≠cではなく,μ>cなりμ<cなりであるからである。検定ユーザはどのみち論理的に飛躍しているのである。

この飛躍は統計学的論理の一貫性と有用性という二つのメタ手順を同時に考えることでしか対処できない。θ<0 (あるいはθ>0)でないと確定している場合や,『差がある』とだけいえればいい場合には単純である。そうでない場合が問題になる。これについてはいくつかの解があろう。一つの解は,どちらにしても飛躍が発生するのだから,両側検定と片側検定は無差別である,とする。要するに,どちらを使ってもよい。例えば『片側で有意水準5% (両側なら10%)』と明記して,有意水準の実質的値について誤解が起きないようにすればよい。もう一つの解は,両側検定を使った上で,統計学的には根拠のない推論を一部していると認めるほうがよい,とする。結論だけいえば統計学的論理の一貫性を追求するのと同じだが,理由がちがう。飛躍を統計学に押し付けて消去するより,研究の内部にリスクとして明示的におくべきだ,という判断による。私としては第2の解がよいと思う

二つの解が実質的にどう異なるのか,俺はちょっと理解できていないんだけど,魅力的な見解だと思う。こうしてみると,片側検定が許される状況の定義なんて,どうでもいいような気がしてくる。
 しかし,個々の分析者が佐藤に従い,熟慮した上で片側検定を使うのを止めたとしても,他人が片側検定を乱用するのを止めることはできない。誰もが仮説検定論について熟慮するわけではないのだ(仮にそんなことが起きたら,それこそ労力の無駄遣いだと思う)。さらに,片側検定が乱用される動機は十分にある。分析者はなんとか有意差を得たいと思っていることが多い。想定する方向での棄却域を広げてくれる片側検定は,分析者にとっての甘い誘惑なのである。実は私はμ>cだけに「関心」があるのです!と勝手に宣言し,片側検定を乱用する人々の姿が目に浮かぶ。
 片側検定を使うのを止めよう,という呼びかけだけでは不十分だ。片側検定が許容されるのはどんな状況か,ユーザのための操作的ガイドラインが必要だと思う。

 というわけで,あれこれ読みかじってみた結果,論理的には(C)タイプの説明が正しいと,半ば納得するに至った。その反面,(C)が示唆するcollective interestという基準はなかなか理解されにくいだろうなあ,という危惧も捨てきれない。南風原先生がそうしているように,片側検定の乱用を戒める文言を付け加えるのも大事だが,我々統計ユーザに対するガイドラインとしては,いっそ(A)タイプの説明にまで後退しちゃったほうがいいんじゃないか,と未練がましく考える次第である。

雑記:データ解析 - 片側検定の迷路

2009年9月23日 (水)

Bookcover 二月逆流―中国文化大革命 1967年 [a]
趙 峻防,紀 希晨 / 時事通信社 / 1988-02
文革発動の翌年(67年),軍の老幹部たちと文革派との間で生じた権力闘争「二月逆流」を描いた小説。古本屋で見つけて目を通してみたら,ごく通俗的な読み物という感じの内容であった。
 善玉は周恩来と葉剣英,悪玉は康生(のちに中国のベリヤと怖れられた情報機関のボス)。江青や葉群(林彪の妻)は,天下の大悪人というよりも醜悪な俗物として描かれている。かの国ではこうしておけばいろいろ差し障りがないんだろうけど,なんだか性的偏見を感じるなあ。

Bookcover 倒壊する巨塔〈下〉―アルカイダと「9・11」への道 [a]
ローレンス ライト / 白水社 / 2009-08
911事件を引き起こしたオサマ・ビンラディンらアルカイダのメンバーの遍歴と,彼らを追うFBI捜査官たちを描いたノンフィクション。
 どちらの側を描く際にも,その人間的側面に紙幅が割かれている。テロリストたちは子煩悩な父親でもあり(ビンラディンの息子は任天堂のゲーム機で遊んでいたりする),FBIの腕利き捜査官はほとんど犯罪的な女たらしでもある。
 もしジャンボジェット機が,ニューヨークではなく東京の高層ビルに突っ込んでいたら,その後日本の誰かが,こういう重層的なノンフィクションを書いただろうか。仮に書けたとしても,犯人たちの人間的側面について語ることが許されただろうか。なにしろ,オウム事件を引き起こした教祖の娘は大学にも入れてもらえない,というお国柄なのである。

Bookcover 黒澤明という時代 [a]
小林 信彦 / 文藝春秋 / 2009-09-11
文春のPR誌「本の話」で連載していたらしい。
 黒沢監督に「野良犬」という傑作があるが(ああ,志村喬の刑事が良かったなあ),この映画は海外での評価が遅れたのだそうで,その理由のひとつは,日本映画の紹介に力を尽くした評論家ドナルド・リチーさんがこの映画を買っていなかったからなのだそうだ。「進駐軍出身の人物がその後もアメリカで日本映画紹介の要職にあったのは,この映画にとって不幸であった」とのこと。
 小林信彦さんって,こういう嫌みったらしい文章が本当にうまい。この作家のことを評して,都会的含羞の人,などと書いているのを時々見かけるが,あれはどうなんだろうか。確かに小林信彦さんの文章に出てくる小林信彦さんはその通りだし,実際のお人柄もそうかもしれないけれど,文章家としては,どうみても底意地わるーいご老人だと思う。

ノンフィクション(-2010) - 読了:09/22まで (NF)

Bookcover あたしンち 15巻 [a]
けら えいこ / メディアファクトリー / 2009-09-16

Bookcover シグルイ 13 (チャンピオンREDコミックス) [a]
南條 範夫 / 秋田書店 / 2009-09-18

Bookcover さよなら群青 1 (BUNCH COMICS) [a]
さそう あきら / 新潮社 / 2009-09-09

Bookcover 思ってたよりフツーですね (1) (単行本コミックス) [a]
榎本 俊二 / 角川書店(角川グループパブリッシング) / 2009-08-28

コミックス(-2010) - 読了:09/22まで (C)

2009年9月14日 (月)

Bookcover 無印ニッポン―20世紀消費社会の終焉 (中公新書) [a]
堤 清二,三浦 展 / 中央公論新社 / 2009-07
考えてみたら,俺は前に三浦展と上野千鶴子の対談本を読み,それから上野千鶴子と堤清二の対談本を読み,そしてこうして堤清二と三浦展の対談本を読んでいる。俺はいったい何をやっているんだ?

Bookcover 倒壊する巨塔〈上〉―アルカイダと「9・11」への道 [a]
ローレンス ライト / 白水社 / 2009-08

ノンフィクション(-2010) - 読了:09/13まで (NF)

Bookcover 新装版 のんちゃんのり弁 上 (KCデラックス モーニング) [a]
入江 喜和 / 講談社 / 2009-09-04
Bookcover 新装版 のんちゃんのり弁 下 (KCデラックス モーニング) [a]
入江 喜和 / 講談社 / 2009-09-04
94年から97年にかけて発表された入江喜和さんの未完の傑作が,このたびの映画化に伴い再刊された。誠に喜ばしいことである。実のところ,本棚には連載当時の単行本(とっくに品切)が並んでいるのだが,著者の最新コメントか何か載っているかも。。。と思って,つい買ってしまった。ファンというのはありがたいものですね。
 残念ながら,ほんとに原稿を再録しただけで,追加は一ページもなし。しかも,既刊四巻のうちなぜか三巻まで(95年連載分まで)しか収録していない,という奇妙な内容であった。すなわち,バツイチ子持ちの小巻さんが下町の実家に出戻ってくる冒頭部から,夜中の台所で「決めた!私お弁当屋さんやる!」と叫ぶに至るまで。97年の連載再開以降の,小巻さんと高校の同級生の朝帰りのエピソードとか,パート先の小料理屋の店主とのやりとりとかも,素晴らしいと思うんだけどなあ。もったいないなあ。

 本屋で「シナリオ」誌を立ち読みしていたら,この映画の監督さんの対談が載っていて,原作者の入江喜和さんが監督に対し,いまならこういう物語にはしない,まわりの大人たちが小巻をもう少しばしっと叱りつける物語にするだろう,と自己批判した。。。というような意味のことが書いてあった。小巻さんとて30過ぎですから,大人ってのはもっと年上のことでありましょう。
 「モーニング」連載時には,主人公の小巻さんは俺よりも年上であったわけで,結婚して子どもができても,いろいろ大変なんだなあ。。。という,いわば見上げるような印象であった。その点,いま読み直すとずいぶん印象がちがうのだが,でも著者のように,もっとしっかりしろ小巻,まわりの年寄りも彼女をもっと叱ってやれ,という地点にまでは,まだ至らない。そのへんが,俺の子どもっぽいところなのかもしれない。いまの俺としては,ふらふらと試行錯誤する小巻さんの未熟さが愛おしいのである。

Bookcover ミツバチのキス 1 (アクションコミックス) [a]
伊図 透 / 双葉社 / 2009-01-28
Bookcover ミツバチのキス 2 (アクションコミックス) [a]
伊図 透 / 双葉社 / 2009-06-27
久々に新鮮で面白いマンガを読んだ。「漫画アクション」連載,これが長編デビュー作だそうだ。
 触れただけで相手のすべてを理解してしまうという,特殊な能力を持つ娘がいて,彼女を利用しようとする宗教団体や諜報機関があって。。。というサスペンス。どこかで読んだような設定だが,相手が「見える」場面の描写がとてもユニークで,魅力的である。
 いったいどんな大風呂敷に発展するのかと思ったら,二巻のエピソードは急に小さくなって,なぜか美大生たちの鬱屈した青春模様となってしまった。うーむ,よっぽど描きたかったんだろうなあ。

Bookcover チェーザレ 破壊の創造者(7) (KCデラックス モーニング) [a]
惣領 冬実 / 講談社 / 2009-08-21

Bookcover リンコちゃんハーイッ (わんCOMI) [a]
流水 りんこ / 少年画報社 / 2009-09-01

Bookcover 深夜食堂 4 (ビッグコミックススペシャル) [a]
安倍 夜郎 / 小学館 / 2009-08-28

コミックス(-2010) - 読了:09/13まで (C)

2009年9月10日 (木)

 二群の比率の差の検定法としてFisherの正確検定が広く知られている。俺も学生のときに習った。この方法には,2x2クロス表の周辺度数をすべて固定して考えるという特徴がある。有名な紅茶実験を例に挙げると,Fisher先生は紅茶のカップを8つ用意し,うち4つには紅茶を先に,残りの4つにはミルクを先に注いだ。で,農業試験場の同僚の女性がこれらを飲み比べ,どのカップで紅茶が先に注がれたかを言い当てようとした。さて,このとき同僚の女性は,紅茶を先に注いだカップが8つのうち4つだということをあらかじめ知っている。つまり,正解を行,女性の回答を列に置いた2x2クロス表を考えると,女性の舌が正確だろうがいい加減だろうが,行周辺度数も列周辺度数も4であることはあらかじめ決まっているわけである。この事実がFisherの正確検定の基盤になる。
 しかし,我々が二群の比率の差を調べる際,各群のサイズ(行周辺度数)はあらかじめ固定されているとしても,両群あわせた比率(列周辺度数)は固定されていないのが普通である。紅茶実験のたとえでいえば,同僚の女性が「紅茶を先に注いだカップが何杯あるのか」さえ知らされていない状況に相当する。こうした問題にFisherの正確検定を適用するということは,本来固定されていない周辺度数を固定して考えてしまっているわけだ。これはなんだか変じゃないか?。。。という疑問を,院生のころから漠然と胸に抱いていたのだけれど,そういう難しいことにはあまり立ち入らないようにしようと思っていた。なんといっても,統計学は苦手なのだ。

 このたび仕事の都合で,ちょっと正確検定のことを調べていて知ったのだが,上の疑問は古典的な議論の種なのだそうで,すでに膨大な論争の積み重ねがあるらしい。ふうん。
 哲学的論争だけではなく,具体的な検定手法としても,Fisherの方法とちがって列周辺度数を固定しないタイプの正確検定(これをunconditionalな検定という)がいろいろ提案されているのだそうである。Fisher法は保守的であることが知られているが,これは周辺度数をすべて固定した上で数え上げているからであり(検定統計量が過度に離散的になる),unconditionalな手法ならば少しはマシになるだろう,と期待されているわけである。へー。

Mehrotra, D.V., Chan, I.S.F., Berger, R.L. (2003) A cautionary note on exact unconditional inference for a difference between two independent binomial proportions. Biometrics, 59, 441-450.
 というわけで,たまたま拾った論文に目を通してみた。11種類の検定手法について,実質的なType I Error率や検定力を比較している。その内訳は,まずconditionalな検定としてFisherの正確検定。unconditionalな検定として,Suissa&Shuster(1985)が提案した2種類の方法,Santner&Snell(1980)の方法,Boshloo(1970)の方法,そしてこれら4つの方法をBerger&Boos(1994)に基づいてそれぞれ改訂したもの4種類,以上あわせて8種類(やれやれ,いろいろあるものですね)。最後に漸近的手法として,Pearsonのカイ二乗検定ともう一種類。
 結論としては,状況によって手法の良し悪しは大きく変わるし,unconditionalな手法の検定力が高いとは限らない由。一般的なお勧めは,Boshlooの方法,その改訂版,Sussa&Shusterの"Z-pooled"法の3つだそうだ。ほー。

 論文の本筋とは離れるが,帰宅する電車のなかでこの論文をめくっていて,表のなかのある箇所に目を吸い寄せられ,あまりの意外さに茫然としてしまった。またもや勉強不足をさらすようで,ここにセキララに書くのはちょっと勇気がいるのだが...
 独立な2群間の比率の差の検定について考える。Pearsonのカイ二乗検定,各群N=150,両側検定,α=.05とする。さて,実は母比率は両群ともに50%であるとしよう。このとき,誤って有意差が得られてしまう確率は?
 そりゃもちろん5%であろう,というのが俺の答えである。αとはType I Errorの確率,つまり「帰無仮説が真のときに誤って棄却する確率」だ。もし母比率が等しい,つまり帰無仮説が真ならば,そのとき有意差が得られる確率とは,すなわちαにほかならない。そうですよね? このように信じ込んで,わたくし,これまでのうのうと生きて参りました。
 ああ,俺と同じように答える人が多からんことを。あなたたちは私の心の友である。そして心の友よ,我々は深く反省すべきだ。この論文のTable 1.によれば,正解は5.7%である。
 (正直いって信じられなかったので,翌朝簡単なシミュレーションのコードを書いて確かめてみた。嘘じゃありませんでした。二項乱数を使って100万試行繰り返したところ,有意差が得られたのは56,357試行であった)
 このズレは,検定統計量の分布をカイ二乗分布で近似している点に由来する。セルの期待度数が5を下回っているときにこの近似が成立しないことは良く知られているが,それどころか,N=300という大きな標本サイズにおいてさえ,カイ二乗検定の実質的なαは名目上のαをかなり上回ってしまうことがあるのだ。いやあ驚いた,思ってもみなかった。
 そんならコンピュータにモノを言わせて,大標本においてもバンバン正確検定を使い倒せばよいのかといえば,もちろんそういう問題でもない。上の状況でFisherの正確検定を使うと,その実質的αは4.3%。こんどは過度に保守的になってしまう。そこで上記のような研究が登場するわけである。比率の差の検定というオーソドックスな問題にも,意外な難しさがあるんだなあ。いやいや,勉強になりました。

論文:データ解析(-2014) - 読了:09/09まで (A)

2009年9月 7日 (月)

Bookcover ハーバードビジネススクール 不幸な人間の製造工場 [a]
フィリップ・デルヴス・ブロートン / 日経BP社 / 2009-05-21
ハーバードビジネススクールの体験記。類書はほかにもありそうだが,これは著者がジャーナリストを廃業した男であるというところが面白い。イギリスの記者がアメリカ資本主義の総本山に向けるシニカルな視線と,ともに悩み苦しむ仲間たちへの共感とが入り交じっている。なかなか表に出ない世界を紹介した読み物として面白いだけではなく,社会の一断面への批評として,日本にも通じる普遍的な意義を持っていると思った。。。こう書くとなんだか堅苦しいけど,とにかく,一気に読ませる本でした。
 それにしても,英語がしゃべれるってイイですね。読んでてだんだん落ち込んできたぞ。

Bookcover 同和と銀行 三菱東京UFJ“汚れ役”の黒い回顧録 (現代プレミアブック) [a]
森 功 / 講談社 / 2009-09-04
 関西の同和利権の帝王と呼ばれた男・小西邦彦の半生を,その腹心であった三和銀行行員の証言に基づいて描いたノンフィクション。
 男は山口組組員から解同の活動家に転じ,関西の同和行政に深く食い込み,その最盛期には政財界,芸能界,国税局,警察にまで影響力を持った。その一方で,男は老人ホームの運営を生き甲斐とする,情に厚い好人物でもあった。この魅力的なアンチ・ヒーローぶりに,書き手も惚れ込んでいるように思える。
 証言者である銀行員・岡野さんは,小西担当になった当初,直接に声を掛けることも許されない。ノイローゼ寸前にまで陥った若い銀行員は,意を決して単身小西の部屋に乗り込み,ソファに勝手にドンと腰を下ろして話しかける。『支部長,阪神強いですな』 意外にも,闇の世界のドンは怒るどころか,『おう,飯でも食うか』
 誰もが怖れる男との間に密接なコネクションを築き上げた銀行員は,ノンキャリアながら行内政治を勝ち抜いた。晩年,小西は失脚し孤独な死を遂げる。その後行われたインタビューに答えた,元銀行員の台詞がちょっと泣かせる。あなたは汚れ役として,三和銀行という組織に利用されたのではないかと問われて,元銀行員はこう答える。「それは私にとって最大の賛辞です。そのために身体を張ってきたのですから。小西担当になった当初,ほんまにノイローゼになり,気が狂いそうになった。そのときもう銀行を辞めようと思って,開き直って小西さんと向き合ったのです」「『おまえ,誰に口きいとるや』。そう言われるのを覚悟していましたし,それで担当を外され,銀行を追われる羽目になってもいい,と思っていました」「そのあと,小西事務所に行くと,見慣れない真新しい青色の電話機が小西さんの机に置いてある。『岡野,これお前の専用電話やで』という。うれしかったですね。以来,彼と心が通じるようになった。『おい,岡野,電話が鳴っとるがな』とよく叱られました。私は"汚れ役"として,銀行に利用されたことに悔いはありません」

Bookcover 図説 日本建築の歴史 (ふくろうの本/日本の文化) [a]
玉井 哲雄 / 河出書房新社 / 2008-11-22
本屋で見かけて,無性に読みたくなった本。ときどきこういう浮世離れした本とともに過ごしたくなるのです。写真がいっぱい入っているとなおよろしい。
 著者によれば,日本の伝統建築を見る際のキー・ポイントは「組物」なのだそうだ。組物とは,ええと,お寺や神社の軒下を見上げたとき,柱と屋根の間にあるごちゃごちゃした奴のこと。歴史的事情により,寺社建築には組物があり,住宅建築(お城や土蔵などを含む)には組物がない,のだそうだ。へえええー。
 ところで,奈良の正倉院はアゼクラヅクリだ,と小学校のときに訳もわからず習ったものだが,柱を使わず木材を井桁状に組み上げた建物のことを板倉造,その木材が板ではなく,断面が三角形になっている場合を校倉造,そしてその木材が丸太の場合をログハウスという,のだそうである。。。この本は学部一年生向けの講義内容が元になっているそうだが,きっと人気講義だっただろうな。

Bookcover ネトゲ廃人 [a]
芦崎治 / リーダーズノート / 2009-05-01

ノンフィクション(-2010) - 読了:09/06まで (NF)

Bookcover チェーザレ 破壊の創造者(4) (KCデラックス モーニング) [a]
惣領 冬実 / 講談社 / 2007-11-22
Bookcover チェーザレ 破壊の創造者(5) (KCデラックス モーニング) [a]
惣領 冬実 / 講談社 / 2008-07-23
Bookcover チェーザレ 破壊の創造者(6) (KCデラックス モーニング) [a]
惣領 冬実 / 講談社 / 2008-11-21

Bookcover 岳 10 (ビッグコミックス) [a]
石塚 真一 / 小学館 / 2009-08-28

Bookcover ノンストップ おヨメ道―独身漫画家・柘植文のマイペース花嫁修業!! [a]
柘植 文 / 竹書房 / 2006-07
独身女性マンガ家が花嫁修業と称してあれこれ体験するコミックエッセイ。安彦麻理絵「再婚一直線」と全く同じコンセプトだ。版元ももう少し工夫すればいいのに。

コミックス(-2010) - 読了:09/06まで (C)

2009年9月 6日 (日)

 勤め先で検定力関数のグラフを描く用事があった。サンプルサイズを横軸に,仮説検定で得られる検定力を縦軸にプロットした折れ線グラフ。たまにはそういう変わった仕事もある。
 必要なグラフは描けたので,戯れにパラメータをいろいろ変えてみては,グラフの様子が変化するのを,頬杖をついてぼんやり眺めていた。ふつうの検定力関数は滑らかな単調増加曲線だが,パラメータによってはガタガタの階段状になったり,ノコギリの歯みたいな形になったりする。ふうん,面白いなあ。さて,昼飯でも食いに行くか,と席を立った。で,ぼーっと外に出て,ぼけーっと交差点をわたり,ぼんやりコーヒーを啜っているあたりで,はた,と気が付いた。
 ノコギリの歯?! それはつまりその,サンプルサイズを増やすと検定力が下がることがある,ということですか? ま・さ・か,そんなはずがない。。。

 このブログを誰が読んでいるのかわからないが,なかには俺の同類,すなわち自分に統計学の知識が欠けていることを認めたがらない哀れな解析ユーザもいるだろう。そういう人はきっと,やれやれ,こいつ幻覚でも見るようになったか,と思うに違いない。
 証拠を載せておこう。下に貼ったのは独立二群間の比率差の検定における検定力曲線(母比率60%と50%,α=.05,標本サイズは群間で等しい)。いまG*Power3で描いた。

Clipboard01.png

このグラフはFisherの正確検定の場合。たとえばN=18(群あたりN=9)の場合の検定力は3%,N=20の場合の検定力は2%であり,二例ふやしたせいで検定力が落ちてしまう,ということがわかる。こういうことがあるんですね。専門家には鼻で笑われちゃうかもしれないけど,俺は驚いた。これで統計学の講義などやってたんだから,ホントに申し訳ない。言い訳になりますが,心理学出身者は正確検定なんてあんまり使わないんです。

 しばらく考えて自分なりにようやく納得したのだが,このからくりは,棄却のための臨界値を決めるとき,与えられたNの下でα=.05以下となる上限を求める,という点に由来するんじゃないかと思う。その結果として達成されるactualなαは往々にして.05を下回ってしまう。上記の例の場合,α=.05, N=20の下で,実際のαは実に.012である。名目的なα=.05からのギャップが大きい分だけ,無駄に保守的になっている,つまり,検定力を失っていることになる。
 というわけで,このような例はFisherの正確検定に限らず,検定統計量の分布が離散的なときには常に生じうる。いっぽう下のグラフのように,Pearsonのカイ二乗検定のような漸近法では生じない。

Clipboard02.png

ついでに関連論文を一本読んでみた。ここまでくると,仕事に役立つわけではないので,純粋に趣味というべきである。

Chernick,M.R., Liu,C.Y. (2002) The Saw-Toothed Behavior of Power versus Sample Size and Software Solutions: Single Binomial Proportion Using Exact Methods. The American Statistician. 56(2), 149-155.
 SAS のマニュアルで引用されていた論文。検定力関数がノコギリ状になることがある点を指摘したうえで,市販ソフトがそれにどう対応しているかを紹介している。問題はノコギリ状になることそのものではなく,検定力からサンプルサイズを決定する際に,ソフトがちゃんと事態を説明してくれるか,という点にあるようだ。つまり,たとえば「ご指定の検定力を達成するためにはN=18必要です」と出力されたとして,読み手はうっかり「なるほど,N=18以上あればいいんだな」と思ってしまうが,実はそうではないかもしれない。ソフトはそのことをちゃんと教えてくれるか,ということである。なるほどね,そういう業界の人にとってはシビアな話であろう。
 なお,取り上げられていたソフトはnQuery Advisor, Power and Precision, StatXact, PASS, UnifyPow。最後のやつはSASのマクロで,SAS 9.1から実装されたPOWERプロシジャの元になったらしい。

論文:データ解析(-2014) - 読了:09/06まで (A)

2009年9月 1日 (火)

Bookcover <風俗>体験ルポ やってみたら、こうだった (宝島SUGOI文庫) [a]
本橋 信宏 / 宝島社 / 2009-08-06
1998年から2002年にかけて,講談社「フライデー・スペシャル」に掲載された風俗ルポ。「リムジンつきデリヘル」なるものを利用してみたり,通販でエログッズを買い集めてみたり,沖縄サミットにあわせて沖縄の「ちょんの間」の客になってみたり。取材費使い放題。いい時代でしたね。

ノンフィクション(-2010) - 読了:08/31まで (NF)

« 2009年8月 | メイン | 2009年10月 »

rebuilt: 2020年11月16日 22:48
validate this page