elsur.jpn.org >

« 読了:Dahan & Mendelson (2001) コンセプト・テストの極値モデル | メイン | 読了:Zeugner & Feldkirchner (2015) RのBMAパッケージ »

2016年2月 6日 (土)

Hoeting, J.A., Madigan, D., Raftery, A.E., Volinsky, C.T. (1999) Bayesian Model Averating: A Tutorial. Statistical Science, 14(4), 382-417.
 ベイジアン・モデル・アベレージング(BMA)についての解説。仕事の都合で必要に迫られ急遽目を通した。オフィスの本棚には解説書もあるはずなのに、そっちは手に取らず、題名に"A Tutorial"なんて書いてある奴をふらふらと読んでしまう、という...

 BMAとはなにか。いきなりフォーマルに書いちゃうと気持ちが萎えますが、いまデータ$D$から関心ある量$\Delta$を予測するモデル$M_1, M_2, \ldots, M_K$があるとして、
 $P(\Delta | D) = \sum_k P(\Delta|M_k, D) P(M_k|D)$
を求めましょうよ、という話である。
 モデルの事後確率$P(M_k | D)$は、事前確率$P(M_k)$と尤度$P(D|M_k)$の積を、全モデルを通じて合計1になるようにしたものである。
 尤度$P(D|M_k)$というのは積分尤度である。つまり、モデルのパラメータを$\theta$として、
 $P(D|M_k) = \int P(D | \theta_k, M_k) P(\theta_k | M_k) d\theta_k$
である。[←ここですごく混乱したんだけど、一晩寝て読みなおしたら腑に落ちた。ここでいうモデルの事後確率$P(M_k | D)$とは、「推定されたモデル」が正しい確率ではなくて、なんていえばいいんだろう、モデルの式そのものが正しい確率というか、SASのPROC GLMのMODEL文が正しい確率というか、Rのlm()に与えるformulaが正しい確率というか、そういうものを指しているのだ、きっと。だから、尤度は推定されたモデルの持つ尤度$P(D|\theta_k, M_k)$ではなく、周辺尤度$P(D|M_k)$でなければならないのだ]
 BMAには次の問題がある。

 問題Aについて。これには大きく2つのアプローチがある。

 問題Bについて。

 問題Cに進む前に、ここで具体的なモデル・クラスを4つ挙げる。

 気を取り直して、問題C、モデルの事前確率をどうやって決めるか。

 予測成績をどうやって測るか。[このくだりは次の事例1のための説明らしい。事例2では使ってない]
 データを学習データ$D^B$と検証データ$D^T$に折半します。成績はこうやって測ります。検証データのすべての実現値 $d$ について
 $- \sum_{d \in D^T} \log P(d | M, D^B)$
 BMAそのものの予測成績は、logの右側を、それぞれのモデルにおける確率をモデルの事後確率で重み付け合計した奴に変えればよい。
 [←これ、対数スコアリング・ルールじゃん。びっくり。この手法はプロパー・スコアリング・ルールになっているんだよ、なんて書いてある。ゲーム理論の文脈で出てくる考え方なんだけど、こういう場面でも使うのかー]

 事例紹介をふたつ。
 ひとつめ、Cox回帰の共変量を選ばずにBMAでやったという話。[難しくはなさそうだけど、面倒なので読み飛ばした]
 ふたつめ、体脂肪率を回帰で予測するときにBMAでやったという話。データは$N=251$、説明変数は年齢、身長、体重など13個。全部使った重回帰で$R^2=0.75$。さて、データを折半し、学習データ側で変数選択ないしBMAをやってみた。BMAは、モデル$2^{13}=8192$個、モデルの事前確率は一様、モデルの事後確率の求め方は俺たちの論文を読め。変数選択手法としては、F値によるステップワイズ、Mallowの$C_p$最小化、調整済$R^2$最小化を試す。[←論文には「良く知られている」なんて書いてあるけど、ごめんなさい、後ろの2つがよく理解できない。$C_p$なり調整済$R^2$なりを基準に最良サブセットを悉皆検索したってこと? 8192本のモデルから? それって良いやり方なの?]
 結果:BMAでは、モデルの事後確率は上位3位がそれぞれ12~14%、上位10位で計57%[←ほんとだ、BMAって事実上のモデル選択だ...]。変数選択のほうは、どの手法でも同一の8変数モデルが選ばれた。予測精度はBMAの勝ち。[←いやあ、悪評高きステップワイズ法なんかに勝っても、ねぇ...]

 考察。

この論文には3人の研究者によるコメントと返事がついているので、そっちも一応目を通してみたのだけど、難しい話が多いわ、眠いわ、疲れたわ、途中でうっかり芋焼酎を飲み始めてしまったわで、ほとんど頭にはいらなかった。また次の機会にということで...

論文:データ解析(2015-) - 読了:Hoeting, et al. (1999) ベイジアン・モデル・アベレジーングへの招待

rebuilt: 2020年4月20日 18:55
validate this page