読書日記: 読了：Wagenmakers (2007) p値はやめてBICの差を使いなさい

« 読了：Kass & Raftery (1995) ベイズ・ファクターとはなにか | メイン | 読了：Weinberg & Williams (2005) ウンコ問題：ハビトゥス、身体化、逸脱 »

2016年8月22日 (月)

Wagenmakers, E.J. (2007) A practical solution to the pervasive problems of p values. Psychonomic Bulletin & Review, 14(5), 779-804.
　伝統的な仮説検定(NHST)をディスりまくった上でベイジアン・アプローチを推す解説論文。
　JASA(統計学の雑誌)に掲載されたベイズ・ファクターの解説論文を読んで、難しさに困惑したので、方針を変えてPB&Rの解説論文に目を通した次第。実験心理学の雑誌ですわよ奥さん！必ずしも数学が得意とはいえないかもしれない方向けの啓蒙論文ですわよ！あーらステキ！これが臨床心理学の雑誌とかだと、数学が得意でないと言い切れる方向けになってもっとステキなのに！

　以下、内容のメモ。予想に反して面倒くさかった。

　イントロダクション。
　心理学におけるNHST批判の主な論点は次の3つだ。

NHSTはデータの下での仮説の確率と仮説の下でのデータの確率とを混同させてしまう。
有意水準が恣意的。
帰無仮説は厳密には真でなく、よって標本サイズが大きくなるといつも棄却される。

　こうしてみると、統計学におけるNHST批判とちがい、心理学者は解釈上の問題にばかり焦点を当てていることがわかる。本論文では無知モーマイな心理学者の諸君に[←そうは書いてないけどまあそれに近い]、統計学者からみたNHSTの真の問題点を指摘しよう。そして輝けるベイジアン・パラダイムについて教えてやるから聞け。
　注意：

NHSTが間違っているとはいわない。たとえば、データが瞳孔間外傷検査(interocular trauma test)を通過した場合、NHSTは正しい。[←目で見て腑に落ちる結果ならその検定結果も正しいよ、という意味のユーモラスな言い回しらしい...]。
経験を積んだ統計学者が注意深くNHSTを使えば賢明な判断ができることもあるだろう。要はp値に機械的に頼らないことだ。
現象の存在は反復的再現によって確かめられるのであって、単一の結果についての統計的推論なんて細かいことじゃん、という意見について。そりゃまあそうだけど、だからといって単一の結果についての判断がどうでもいいとはいえないでしょ。ついでにいうと、再現確率の指標$p_{rep}$だってp値の問題をそっくり継承しているのよ。

　[いかん。面白いんで細かめにメモ取っちゃったけど、このペースではなかなか終わらない。以下、もう少し粗めにメモする]

　NHSTとはなにか。
　[...略...] 本論文ではネイマン・ピアソン流のNHSTではなくフィッシャー流のNHSTに焦点を当てる。

　NHSTの問題点[豊富な事例がついている...]:

p値は決して観察されることのないデータ(帰無仮説の下での架空のデータ)に依存している。[事例が3つ。たとえば、たとえデータが同じでも、実は(現実にはあきらかにひっかかってないんだけど)測定にセンサリングがあったのだとあとでわかったら、標本分布が変わってきちゃうことになるよね、それっておかしくない？というような話]
p値は未知の主観的意図に依存しうる。[事例3つ。たとえば、途中までの結果を見てデザインを微妙に変えることって、実際にはよくあるし、それ自体は本来悪いことじゃないはずじゃん？でもそういうのNHSTだとうまく対応できないじゃん？というような話。なるほど、これは納得]
p値は統計的証拠の定量化になっていない。[事例1つ。p値が全く同じでサンプルサイズが違う実験がふたつあったとき、Fisherの見方では証拠の強さは同じなのに、サンプルサイズが大きいほうが強いと思う人が多い、という話]

[疑問に思った点をメモしておく。ま、私ごときのこんな疑問は、この分野の膨大な議論の蓄積に照らせば屁のようなものだろうが。。。
　1.は、ほんとにNHSTの問題点なのかどうか、よくわからなかった。統計的推論はどうしたってデータと知識のアマルガムだ。頻度主義の立場に立ち、データをある確率分布のひとつの実現値として捉えようとするとき、その確率分布について考える際にデータには基づいていない知識が用いられること自体は、ベイズ流の立場に立った時の事前分布がデータに基づいていないとの同じで、別に奇妙な話ではないのではなかろうか。もっとも、頻度主義的な統計的推論においては知識の混入を明示する枠組みが欠けているのが問題だ、とか、尤度原理は死守すべきだ、といった主旨なら納得するけど。あ、そういう主旨なのかな、ひょっとして。
　3.は、Fisherの考え方を人々が正しく理解しているかという問題と、Fisherの考え方とベイジアンの考え方のどっちがよいかという問題が混じっているように思う。前者は単に多くの人が勘違いしているよねという話であって、後者の議論への決定打にはならないはずだ]

　ベイズ推論とは何か。
　[いまベイズの論文って増えてますねん.. でも心理学では見かけませんなぁ... どういう仕組みかというとですね、二項パラメータの推定を例にとると... 云々を2p強で説明]
　[ベイジアンの仮説検定とは ... ベイズファクター(BF)とは... 計算例... Jeffreyの解釈基準...云々で1p]
　事前分布をどうするか。検定の文脈では、主観的ベイジアンにとっては事前分布はそんなに大問題ではないが(それは事前の信念だから)、客観的ベイジアンにとっては大問題だ。客観的事前分布は十分にあいまいでなければならないが、それはパラメータのありそうにない値に確率を与えることになるわけで、つまり仮説の複雑性を増大させることになり、仮説の事後確率が常に低くなるからだ。これを避けるために、local BF, intrinsic BF, partial BF, fractional BFなどが提案されている[←恥ずかしながら存じませんでした。Gillの本を読むと良いらしい]
　云々。

　p値が同じなら証拠の強さも同じだといえるか
　[もちろん、いえない、という話である。いや、それはさあ、証拠の強さというのをベイズ的に定義すれば、それはそうなるんでしょうけど...
　事例として、p値を固定した状態で標本サイズを増やすと帰無仮説の事後確率は高くなるという現象を示している。正直、ベイズ流の事後確率と頻度主義のp値を比較するほうがどうかしているよと思ったが、著者もその点は言い訳していて、いわく、どんな事前分布を使おうが帰無仮説の事後確率は標本サイズを増やしたときp値と単調に関連したりはしないのだということを示したかったのだ、とかなんとか。
　きちんと読んでないのにこんなことを書いてはいけないんだけど、これはなんというか、まず文中にp値に対する素朴な誤解を忍び込ませ、やおらそれを叩く、というタイプの藁人形論法ではなかろうか。正直、私にはよくわかんないや...]

　NHSTに代わる手法
　p値に代わる手法としてこれまでに提案されたものを挙げると:

Bayesian-frequentist compromises (Berger, 2003 Stat.Sci.; etc.)
AIC
交差妥当化
ブートストラップ法
prequential methods (Wagenmakers et al, 2008 J.Math.Psych.; etc.)
minimum description lengthの原理に基づく手法 (Grunwald et al., 2005 書籍; etc.)

いずれもモデル選択手法である。
　p値に代わる手法に求められる要件として以下が挙げられる。1-3は理論的要件、4-5は実験心理学者の実用的要件:

観察されたデータだけに依存する手続きであること
調査者の未知の意図に依存しないこと
帰無仮説と対立仮説の両方を考慮した指標であること
実装しやすいこと(SPSSのボタンをクリックしたら結果が得られるというような簡単さが必要)
客観的であること

上に挙げた手法は1-3を通過できない。ベイジアンの手法1は1-3を通過するけど4に反する(MCMCは実験心理学者には難しすぎる)。主観ベイジアンは5にも反する。そこで、客観ベイジアンの手法をどうにか簡単にすることを考えよう。

　BIC近似によるベイジアン仮説検定
　[というわけで、ベイズファクターを$\exp(\Delta BIC / 2)$で近似できるという説明で1p。事前分布はunit information priorがいいよとのこと。詳細は付録をみよとのことだが、えーっと、それってハイパーパラメータがデータで決まるってことですよね... 経験ベイズのススメっていう理解でよいのでしょうか...]
　[BIC近似の注意点。細かいはなしなのでメモ省略]
　[ANOVAで検定のかわりにBICで近似したベイズファクターを使うという例。ANOVA表から手計算する。面倒なので読み飛ばした]

　結論
　実験心理学者たちよ、p値じゃなくてBICで近似したベイジアンな検定をつかいたまい。

　やれやれ... 長かった... 面倒くさかった...

　それにしても、p値というのは巨大な怪物だなあ、とため息がでた。
　この論文のようにベイジアンに足場を置いてp値を批判することは可能だろう。あるいは、ネイマン=ピアソンが諸悪の根源なり、フィッシャーに戻れ、と主張することも可能だろう。二値的な統計的判断そのものを批判し、信頼区間を使いましょうとか図を使いましょうとか、そもそも我々はもっと不確実性を受容するべきなのだとか、そういったタイプの批判も可能だろうし、お望みならば、世の中大きくは変えられないけど、従来の検定の代わりにもっと手法Xを使おうよ、そうすれば世の中ちょっぴりましになるよ、と主張することも可能だろう(Xには好きな手法の名前を入れる。FDRとか)。
　ここに巨大な怪物が居座っている、現状はまずいよねとみんながうなずく。でもいざどうするかとなると百家争鳴、どこかの足場に立った批判と提案しかできない。困ったことに、足場によって怪物の姿はまるきり異なる...という感じだ。

論文：データ解析(2015-) - 読了：Wagenmakers (2007) p値はやめてBICの差を使いなさい

読書日記

読んだ本を淡々と記録します

2016年8月22日 (月)