« 読了:Xiao, Cao, & Zu (2015) 協調PLS回帰 (Rのenplsパッケージ) | メイン | 読了:劉(2009) モデル平均理論レビュー »
2016年2月10日 (水)
Clyde, M. & George, E.I. (2004) Model Uncertainty. Statistical Science, 19(1), 81-94.
ベイジアン・モデル・アベレージングについてのレビュー。
重回帰などのいくつかのモデルにおける変数選択問題を中心に先行研究を概観。モデル空間の探索手法と事前分布の決め方について概観。木モデルとグラフィカル・モデルでの例について簡単に紹介。周辺尤度が解析的に求められないときの手法を紹介。最後に決定理論的観点からの諸問題を紹介。という構成であった。
多くの話題について、差し迫った関心がないので適当に読み飛ばしてしまったが(←「難しくてわかんなかった」の婉曲表現)、勉強になった箇所をいくつかメモしておく。
- 重回帰の変数選択問題の場合、事前分布の王道は、パラメータについてはゼルナーのg事前分布、モデル空間については独立ベルヌ―イ分布(つまり、各変数がモデルに含まれるかどうかを独立ベルヌーイ試行だと捉える)。
- 独立ベルヌーイ分布のほかに、変数の数についてトランケートつきのポワソン分布を想定するという手もあって、これはスパースなモデルを表現するのに向いている。
- ベルヌーイ事前分布の弱点は、共線性がきついとき、一連のよく似たモデル群に高すぎる事前確率が割り振られちゃうという点。[←そうですよね! この点、Hoetingたちの論文のコメントにも書いてあったんだけどそのときは意味がわからず、実データで試してみてやっと腑に落ちた。モデル・アベレージングって意外に共線性に弱いのだ]
- ベルヌーイとg事前分布の黄金ペアでやるとして、じゃあ無情報だからgはなるべく大きくしよう、という作戦は失敗する。なぜなら、ベイズ・ファクターで見るとナルモデルとすごく極端なパラメータ推定値を持つモデルが有利になっちゃうからだ[←そういうもんか...]。これをLindley-Bartlettパラドクスという。そういうわけで、とりあえずのおすすめは、ベルヌーイ分布のパラメータwは1/2 [←無情報ってことであろうか]、gは10000以下にすること。
- $\sigma^2$が固定されている限り、gとwをどう定めても、事後確率が高くなるモデルはAICやBICも良いことがわかっている。[←えええ? よくわからんけど、なんだかやる気をなくすねえ。George & Foster (2000, Biometrika)をみよとのこと]
論文:データ解析(2015-) - 読了:Clyde & George (2004) ベイジアン・モデル・アベレージング・レビュー