読書日記: 読了：Jamil, et al. (2016) クロス表のベイズ・ファクター

« 読了：粕谷 (2015) AIC では正しいモデルを選べない、なぜならAICは正しいモデルを選ぶためのものではないから | メイン | 読了：Masson (2011) p値はやめてBICの差を使いなさい：実践編 »

2016年8月25日 (木)

Jamil, T., Ly, A., Morey, R.D., Love, J., Marsman, M., Wagenmakers, E.J. (2016) Default "Gunel and Dickey" Bayes factors for contingency tables. Behavioral Research Methods.
　先日たまたまベイズ・ファクターについて考える機会があって、そういえばクロス表のベイズファクターの事前分布って、あれどうなってんの？と気になった。ちょっと探してみたら、先月公開された解説記事が見つかった。第三著者はRのBayesFactorパッケージの中の人。こりゃラッキーだ、というわけで、ざっと目を通した。

　クロス表の独立性の検定のためによく使われる手法は、カイ二乗検定、尤度比検定、フィッシャーの正確検定である。しかし[...ひとしきりp値の悪口...]。
　本論文では、ベイズ・ファクター(BF)による仮説検定について説明しよう。この手法、実は長い歴史を持っているのだが、先行研究のほとんどは、統計的洗練のレベルが高い人々とか、古い数式記号フェチの人々とか、プログラミングやデバッグが目的の人々にしか相手にされてこなかった。[←そう書いてあるんです、私が言っているんじゃないです]

　ほんとは古典的統計学の場合でもそうなんだけど、標本抽出デザインについて考えないといけない。クロス表の標本抽出デザインとして次の4つを区別できる。

ポワソン抽出スキーム。全部ランダム。
同時多項抽出スキーム。全頻度のみ固定。
独立多項抽出スキーム。行周辺度数すべて、ないし列周辺度数すべてが固定。実験心理学ではこれが一番多い。
超幾何抽出スキーム。行周辺度数すべて、かつ列周辺度数すべてが固定。

　いったんクロス表の話から離れて、ベイズファクターについての説明。[...略...]
　なお、Jeffreyの解釈基準[BF>10が「強い証拠」だというような早見表]の有用性については、本論文の著者のあいだでも意見が一致していない。[←面白いコメントだ]

　クロス表のBFについてはGunel&Dickey(1974 Biometrika)が定式化している。ここからは彼ら(GD74)の議論を追いかける。
　$R \times C$のクロス表$y_{**}$を考える。$r$行$c$列の頻度を$y_{rc}$とする。
　事前パラメータの行列$a_{**}$を考える。サイズは $R \times C$で, $r$行$c$列のパラメータを$a_{rc}$とする。このパラメータってのは、あとで出てくるけど、ガンマ分布なりディリクレ分布なりの形状パラメータのこと。
　行と列が独立しているというモデルを$H_0$, 独立でないというモデルを$H_1$とし、この2つのモデルを比較するベイズファクターを定式化する。

ポワソン抽出スキームの場合。
　$y_{rc} \sim Poisson(\lambda_{rc})$
　$\lambda_{rc} \sim \Gamma(a_{rc}, b)$
と考える。ここからBFが導出される。数式は複雑すぎるので省略するけど、とにかく導出できるのである。これを$BF_{01}^P$とする。
同時多項抽出スキームの場合。
　$(y_{11}, \ldots, y_{rc}) \sim Multinomial(y_{..}, \pi_{**})$
　$\pi_{} \sim Dirichlet(a_{**})$
と考える[あー、なるほどね...]。で、ここから$BF_{01}^M$が導出される。
独立多項抽出スキームの場合。
　固定されていないほうの周辺分布が多項分布に従うと考える[書いてないけど、その事前分布はディリクレ分布ってことになるのかしらね]。ここから$BF_{01}^I$が導出される。なお、片側検定に相当するBFはどうなるかというと...[略]
超幾何抽出スキームの場合。
　(非心)超幾何分布を想定する。ここから$BF_{01}^H$が導出される。[なんだか知らんが、信じます]

　というわけで、いずれの抽出スキームでも、$a_{**}$があればBFが出せる。(正確にいうと、ポワソン抽出スキームの場合は尺度パラメータ$b$が必要だけど、GD74が$b$の決め方を提案してくれている由)。で、GD74に従えば、 $a_{**}$を全部 1 にするのがデフォルト。一様分布ってことね。

　シミュレーション。いろいろ試してみると、BFはポワソン、同時多項、独立多項、超幾何の順に高くなる。サンプルサイズを動かすと同じように大きくなるけど、4つのBFの差は結構広いし、漸近的に近くなるわけではないので要注意。

　事例。[各抽出スキームについてひとつづつ。略]

　結論。[...中略...]
　本論文ではGD74が定式化したBFについて解説したけど、ほかの定式化もある。対数線形モデルの枠組みでやるとか。また、GD74とはちがう形式の事前分布を使う手もある。解析的には解けなくなって、MCMCを使わないといけなくなるかもしれないけどね。
　云々。

　。。。へー、こういう仕組みだったんすか。細かいところはわかんないけど、おおざっぱには理解できたので、良しとしよう。
　クロス表の独立性検定のとき、ふだんは抽出スキームについてほとんど考えないけれど(サンプルサイズが大きければ大差ないから)、BFの場合はきちんと考えないといけない、というのが最大の収穫であった。BayesFactorパッケージのcontingencyTableBF()だと、引数typeで上記の4つのスキームが選べる。

論文：データ解析(2015-) - 読了：Jamil, et al. (2016) クロス表のベイズ・ファクター

読書日記

読んだ本を淡々と記録します

2016年8月25日 (木)