読書日記: 読了：Kass & Raftery (1995) ベイズ・ファクターとはなにか

« 読了：Ozaltın, Hunsaker, Shaefer (2011) 整数計画問題があとどのくらいで解けるかを予測する新手法 | メイン | 読了：Wagenmakers (2007) p値はやめてBICの差を使いなさい »

2016年8月19日 (金)

Kass, R.E., Raftery, A.E. (1995) Bayes Factors. Journal of the American Statistical Association, 90(430), 773-795.
　題名の通り、Bayes Factor(BF)についての総説的論文。前から気になっていたんだけど、このたびきっかけがあってざっと目を通した。難しかったー。めんどくさかったー。

　以下、内容のメモ。

　まず、BFが役立ちそうな事例を5つ紹介。帰無仮説を支持する事例が3つ、モデル不確実性を考慮する奴がひとつ、変数選択課題がひとつ。[めんどくさいのでパス]

　BFの定義。2つの仮説$H_1, H_2$について、BFとは$P(D|H_1)/P(D|H_2)$であり、事後オッズ = BF × 事前オッズである。それぞれの仮説が自由パラメータのない単一の分布であれば、BFとは尤度比のこと。未知パラメータを含んでいても、BFは形としては尤度比だけど、いわゆる尤度比ってのは最大尤度の比なのに対して、BFは周辺尤度の比である。つまり、ここでの$P(D|H_k)$はパラメータ空間を通じて積分して得られるものである。また、尤度比検定では仮説がネストしているけど、BFではそうとも限らないという点に注意。
　解釈の仕方。BFのlog10を{0.5,1,2}で4分割してみたり[よく本に載っているJeffreysの基準ね]、尤度比みたいに2logを{2,6,10}で4分割したりする[へー]。
　ところで、モデルが真であるかどうかを話から切り離し、BFを次のように解釈することもできる。いまデータ$D=\{y_1, \ldots, y_n\}$があり、それぞれの$i$に対して、$\{y_1, \ldots, y_{i-1}\}$に基づく$y_i$の予測分布$\hat{P}_i(\cdot)$を生成するなんらかのルールを構成できたとしよう。そのルールの性能評価を、対数スコアリング・ルール$\log \hat{P}_i(y_i)$によって行うとすると、全体のスコアは$LS=\sigma_i log \hat{P}(y_i)$。このルールってのが$H_k$から得られるのだとすると、$\log P(D|H_k) = \sum_i \log P(y_i | y_1, \ldots, y_{i-1}, H_k) = LS_k$だ。ってことは、BFの対数ってのはふたつの$LS_k$の差だ。つまりBFとはデータを２つの仮説に基づく予測の相対的成功度の差だとみることができるのだ。[←うううう... 話が急展開過ぎてついていけない... あとでゆっくり考えよう]

　BFの計算の仕方。本来は
　$I = P(D|H_k) = \int P(D|\theta_k, H_k) \pi (\theta_k|H_k) d \theta_k$
を求めたいわけだけど($\pi(\theta_k|H_k)$ってのはパラメータの事前分布ね)、こんなの真っ正直に求めてらんない。３つの方法がある。

漸近近似。ラプラス法、その変形、シュワルツ基準、がある[前の二つの説明は完全にスキップ。そんな体力はないぞ]。シュワルツ基準とは、$\pi(\theta_k|H_k)$を使わず、シュワルツ基準
　$S = \log P(D|\hat\theta_1, H_1) - \log P(D|\hat|\theta_2, H_2) - (1/2) (d_1 - d_2) \log n$
を使おうというもの。$\hat\theta_k$とは仮説$k$の下での$\theta_k$の最尤推定量、$d_k$とはその次元数。$n$が大きくなるにつれ、$(S-\log BF)/(\log BF)$は0に近づくので、$S$は$log BF$のラフな近似とみることができる。なお、$S$を-2倍した奴のことをBICと呼ぶことが多い。さらにこの方法はですね、片方の仮説のパラメータを事前分布をこれこれな正規分布にしますとですね...云々云々。[だめだ、力尽きた。よっぽど暇になったら読み直そう]
モンテカルロ積分。[パス！]
シミュレーション。[パス!!]

手法の比較。解析的に求められるんならそれがベスト。ラプラス法とその変形もなかなか正確。複雑なモデルならモンテカルロ積分。MCMCは今後に期待。シュワルツ基準は簡単なのが取り柄、自由度がでかいときには正確でない。

　事前分布をどうするか。
　既存知識から構成するやり方については、Kadane et al (1980 JASA)をみよ。云々、云々...[めんどくさいのでパス]
　感度分析 ... [パス。すいませんいまちょっとそんな心の余裕がないです]
　非正則事前分布 ... [パス]

　モデルの不確実性。[読んでないからわかんないけど、ベイジアンモデル平均みたいな話だろうか。とにかく一章まるごとパス]

　BFの実例。冒頭の５つの事例について、BFによるアプローチを紹介。[パス]

　議論の的となる話題を３つ。

そもそもあるシャープな仮説が正しいかどうか検証しようという姿勢がバカバカしい、という批判について。そんなことはない、もともと、科学において仮説が正しいとは、そこからの逸脱が十分に小さいということだ。だからといって検定より推定のほうが自然だということにはならない。[←なるほど。仮説検定へのラディカルな批判として、仮説に対する二値的な判断がよろしくないという意見があるが、そういう立場には立たないってことね]
BFと伝統的な仮説検定のどっちがよいか。膨大な議論があるが、主な論点は:
- p値は帰無仮説が真である事後確率ではないけど、誤解が後を絶たないよ。
- 頻度主義的な検定はサンプルサイズが大きいといつも有意になっちゃうよ。
- BFは尤度原理に従っているから安心だよ。ケースが逐次的に生じる臨床試験のような場面で、事前に計画していない分析をするときとかさ。
- BFはネストしてないモデルでも比較できるよ。
- モデルが3つ以上あるとき、検定だと大変だけど、BFならモデル不確実性への対処という形で対応できるよ。云々。
BFじゃなくて、ご存知 AIC=-2(対数最大尤度)+2(パラメータ数) を支持する議論。主に２つある。
- Akaike(1973)に代表される予測の観点からの議論。いま、所与のデータと一連のモデルの下で、将来のデータについての予測分布を構成したいとしよう。もし予測分布が、単一のモデルと、そのパラメータ推定値に条件づけられたものでよいならば、AICで選択されるモデルは漸近的に最良なモデルである。なるほど。しかし、パラメータの値とモデルの形式には依然として不確実性があるわけで、それを考慮していないという意味で、得られる予測分布は正しくない。実際、AICはパラメータ数を漸近的にさえ過大推定するといわれている。
- Akaike(1983)に代表されるベイズ的な議論。 AICによるモデル選択は、BFによるモデル選択と漸近的に等価である。なるほど。でもそれは事前分布の精度が尤度の精度と比較できるレベルである場合に限られる。実際には、事前情報はデータが与える情報と比べて乏しい場合が多い。そのときは、事後確率が最大なモデルとは、AICじゃなくてBICが最小なモデルである。
云々。

　研究紹介。[パス]
　結論。[パス]

論文：データ解析(2015-) - 読了：Kass & Raftery (1995) ベイズ・ファクターとはなにか

読書日記

読んだ本を淡々と記録します

2016年8月19日 (金)