elsur.jpn.org >

« 読了:09/06まで (NF) | メイン | 読了:09/13まで (C) »

2009年9月10日 (木)

 二群の比率の差の検定法としてFisherの正確検定が広く知られている。俺も学生のときに習った。この方法には,2x2クロス表の周辺度数をすべて固定して考えるという特徴がある。有名な紅茶実験を例に挙げると,Fisher先生は紅茶のカップを8つ用意し,うち4つには紅茶を先に,残りの4つにはミルクを先に注いだ。で,農業試験場の同僚の女性がこれらを飲み比べ,どのカップで紅茶が先に注がれたかを言い当てようとした。さて,このとき同僚の女性は,紅茶を先に注いだカップが8つのうち4つだということをあらかじめ知っている。つまり,正解を行,女性の回答を列に置いた2x2クロス表を考えると,女性の舌が正確だろうがいい加減だろうが,行周辺度数も列周辺度数も4であることはあらかじめ決まっているわけである。この事実がFisherの正確検定の基盤になる。
 しかし,我々が二群の比率の差を調べる際,各群のサイズ(行周辺度数)はあらかじめ固定されているとしても,両群あわせた比率(列周辺度数)は固定されていないのが普通である。紅茶実験のたとえでいえば,同僚の女性が「紅茶を先に注いだカップが何杯あるのか」さえ知らされていない状況に相当する。こうした問題にFisherの正確検定を適用するということは,本来固定されていない周辺度数を固定して考えてしまっているわけだ。これはなんだか変じゃないか?。。。という疑問を,院生のころから漠然と胸に抱いていたのだけれど,そういう難しいことにはあまり立ち入らないようにしようと思っていた。なんといっても,統計学は苦手なのだ。

 このたび仕事の都合で,ちょっと正確検定のことを調べていて知ったのだが,上の疑問は古典的な議論の種なのだそうで,すでに膨大な論争の積み重ねがあるらしい。ふうん。
 哲学的論争だけではなく,具体的な検定手法としても,Fisherの方法とちがって列周辺度数を固定しないタイプの正確検定(これをunconditionalな検定という)がいろいろ提案されているのだそうである。Fisher法は保守的であることが知られているが,これは周辺度数をすべて固定した上で数え上げているからであり(検定統計量が過度に離散的になる),unconditionalな手法ならば少しはマシになるだろう,と期待されているわけである。へー。

Mehrotra, D.V., Chan, I.S.F., Berger, R.L. (2003) A cautionary note on exact unconditional inference for a difference between two independent binomial proportions. Biometrics, 59, 441-450.
 というわけで,たまたま拾った論文に目を通してみた。11種類の検定手法について,実質的なType I Error率や検定力を比較している。その内訳は,まずconditionalな検定としてFisherの正確検定。unconditionalな検定として,Suissa&Shuster(1985)が提案した2種類の方法,Santner&Snell(1980)の方法,Boshloo(1970)の方法,そしてこれら4つの方法をBerger&Boos(1994)に基づいてそれぞれ改訂したもの4種類,以上あわせて8種類(やれやれ,いろいろあるものですね)。最後に漸近的手法として,Pearsonのカイ二乗検定ともう一種類。
 結論としては,状況によって手法の良し悪しは大きく変わるし,unconditionalな手法の検定力が高いとは限らない由。一般的なお勧めは,Boshlooの方法,その改訂版,Sussa&Shusterの"Z-pooled"法の3つだそうだ。ほー。

 論文の本筋とは離れるが,帰宅する電車のなかでこの論文をめくっていて,表のなかのある箇所に目を吸い寄せられ,あまりの意外さに茫然としてしまった。またもや勉強不足をさらすようで,ここにセキララに書くのはちょっと勇気がいるのだが...
 独立な2群間の比率の差の検定について考える。Pearsonのカイ二乗検定,各群N=150,両側検定,α=.05とする。さて,実は母比率は両群ともに50%であるとしよう。このとき,誤って有意差が得られてしまう確率は?
 そりゃもちろん5%であろう,というのが俺の答えである。αとはType I Errorの確率,つまり「帰無仮説が真のときに誤って棄却する確率」だ。もし母比率が等しい,つまり帰無仮説が真ならば,そのとき有意差が得られる確率とは,すなわちαにほかならない。そうですよね? このように信じ込んで,わたくし,これまでのうのうと生きて参りました。
 ああ,俺と同じように答える人が多からんことを。あなたたちは私の心の友である。そして心の友よ,我々は深く反省すべきだ。この論文のTable 1.によれば,正解は5.7%である。
 (正直いって信じられなかったので,翌朝簡単なシミュレーションのコードを書いて確かめてみた。嘘じゃありませんでした。二項乱数を使って100万試行繰り返したところ,有意差が得られたのは56,357試行であった)
 このズレは,検定統計量の分布をカイ二乗分布で近似している点に由来する。セルの期待度数が5を下回っているときにこの近似が成立しないことは良く知られているが,それどころか,N=300という大きな標本サイズにおいてさえ,カイ二乗検定の実質的なαは名目上のαをかなり上回ってしまうことがあるのだ。いやあ驚いた,思ってもみなかった。
 そんならコンピュータにモノを言わせて,大標本においてもバンバン正確検定を使い倒せばよいのかといえば,もちろんそういう問題でもない。上の状況でFisherの正確検定を使うと,その実質的αは4.3%。こんどは過度に保守的になってしまう。そこで上記のような研究が登場するわけである。比率の差の検定というオーソドックスな問題にも,意外な難しさがあるんだなあ。いやいや,勉強になりました。

論文:データ解析(-2014) - 読了:09/09まで (A)