読書日記: 読了：MacCallum, Edwards, & Cai (2012); Rindskopf(2012); Muthen & Asparouhov (2012): ベイジアンSEM問答

« 読了：Barnes & Bero (1998) 受動喫煙の害についてのレビュー論文の結論は著者がたばこ会社から金をもらっているかどうかで説明できる | メイン | 読了：Mahajan, Muller & Bass (1990) 新製品普及モデルレビュー in 1990 »

2016年3月11日 (金)

MacCallum, R.C., Edwards, M.C., Cai, L. (2012) Hopes and Cautions in Implementing Bayesian Structural Equation Modeling. Psychological Methods, 17(3), 340-345.
Rindskopf, D. (2012) Next Steps in Bayesian Structural Equation Models: Comments on, Variations of, and Extensions to Muthen and Asparouhov. Psychological Methods, 17(3), 336-339.
Muthen, B., Asparouhov, T. (2012) Rejoinder to MacCallum, Edwars, and Cai (2012) and Rindskopf (2012): Mastering a New Methods. Psychological Methods, 17(3), 346-353.

　MuthenらのベイジアンSEM(BSEM)に対してPsychological Methods誌上に載ったコメントと回答。原稿の準備で読んだ。

　ここでいっているBSEMとは、SEMへのベイジアン・アプローチそのもののことではなく、Muthen & Asparouhov (2012)が提唱した方法論のこと。CFA(確認的因子分析)モデルをML推定するのではなく、因子負荷や残差共分散といったパラメータに事前分布を与えてMCMC推定する。伝統的には因子負荷行列にエイヤッとゼロを埋めるんだけど、その代わりに情報事前分布をいれる、というのがミソ。従来のEFA(探索的因子分析)とCFAの中間くらいの使い方が想定されている。
　BSEMについては、このやり取りの後、Stromeyer et al. (2014)という批判論文も出ているが、そちらのほうにはMuthen一門がほぼコテンパンといってよい返事をしている。

　せっかくなので(なにがだ)、原文通りではなく、勝手に問答体に翻訳してメモしてみよう。
　以下, MacCallum et al. をMEC, RindskopfをR, Muthen & Asparouhovを導師と略記する。

[MEC] 導師はこうおっしゃいました。伝統的なSEMならゼロに固定したであろうパラメータに分散の小さな事前分布を与え、自由推定するパラメータに分散の大きな事前分布を与えよ。
　導師よ、そのハイパーパラメータの値はどうやって決めるのがよろしいでしょうか。これ、結果に響くんですが、とても決めにくうございます。
　事前分布の解釈は、特にパラメータが自然な制約を持っているとき(分散は非負だとか)、すごく難しくなります。
　パラメータ同士に関係がある場合もそうです。たとえば、因子が直交してるCFAでは、ある測定変数の共通因子負荷の平方和は共通性で、これに独自因子負荷を足すと全分散となり、これはデータで固定されています。つまり、因子負荷の事前分布は独自因子分散の事前分布に影響するわけです。さらに、共通性は負荷の非線形関数なので、因子負荷に対称な事前分布を与えると、独自因子の分散への影響は非対称になります。
　交差負荷に与えた事前分布が共分散に与える影響が、残差共分散に与えた事前分布のせいで変わってくる、という問題もあります。たとえば、独立クラスタ解で直交因子が$p$個ある場合を考えましょう[←おそらく、因子数$p$、因子は直交、各測定変数はそのうちひとつだけに負荷を持つという状況を指しているのだと思う]。同じ因子に負荷を持たない任意の2変数の間の共分散は0です。しかし、もしすべての交差負荷に事前分布$N(0, \sigma)$を与えると、同じ因子に負荷を持たない任意の2変数の間の共分散に、平均0, 分散$(p-1)\sigma$の事前分布を与えてしまったことになります。
　BSEMのユーザはよほど気を付けないといけないと思うのです。導師が仰るように、いろんな事前分布を試して感度分析するとか...
[導師] 間違った印象を与える質問だ。
　BSEMでは全分散はデータで固定されていない。それは事後分布を持つ推定パラメータだ。
　あるパラメータの事前分布が、他のパラメータの事前分布とデータの共分散によって決まってしまう、なんてこともない。事前分布はデータとは関係ない。
　残差共分散の事前分布の選択については、確かに検討が必要だ。もっとも、負荷のような重要なパラメータの推定にはそれほど影響しないであろう。
　
[MEC] 導師よ、MCMCに関してお伺いします。MCMCとMLでは目標が違うのではないでしょうか。
　ML推定は尤度関数を最大化するパラメータ推定値を探すのが目標で、そこに全精力が注がれます。たとえば、1因子5指標のCFAで負荷がすべて0.6だとして、尤度の観点からいえば、負荷がすべて-0.6であってもやはり良いモデルです。どちらになるかは初期値次第です。
　いっぽうMCMCは、事後分布の全体を正しく表現しようとします。上の例の場合、MCMCはきっと、事後分布に2つのmodeがあると報告するでしょう。MCMCによほど詳しいユーザでないと、事後分布の平均を点推定値としてしまいかねません。
[導師] 確かに、潜在変数モデルのMCMC推定には符号スイッチングという問題がある。負荷が小さく標準誤差が大きい、複雑なモデルで問題になる。EFAとか, bifactorモデルとか、MTMMモデルとかが危険だ。
　わがMplusは符号スイッチングを回避する再ラベリング・アルゴリズムを備えている。だから心配しなくてよろしい。

[MEC] 導師よ、MCMCを使うにはかなりの習熟と努力が必要ではないでしょうか。
　たとえば、収束の判断、バーンインの設定、MHアルゴリズムのチューニングパラメータ、間引き(thinning)の設定など、とても難しいです。複雑なモデルになるほど、ケース・バイ・ケースな側面が強くなります。
[導師] 確かにその通り。
　しかし、いくつかの問題については実用的な解決策がある(PSRによる収束判断とか)。また、これから人々は経験を積み、ソフトは改良される。かつてのSEM普及初期を思い出すがよい。EFAの因子得点でパス解析するのと比べ、SEMは難しすぎるといわれたものだ。

[MEC] 導師よ、ベイジアンのフレームワークですと、モデルの識別の問題がよりややこしくなりませんでしょうか。
　もともと識別というのは難しい問題ですが、MLなら、まだルールのようなものがあります。ベイジアンのおかげで、推定できるモデルが広がったという良い面もありますが、どんなモデルが識別不能かわかんなくなったという面もあると思います。
[導師] 識別できないモデルは収束しない。

[MEC] 導師はこうおっしゃいました。伝統的なSEMならゼロに固定したであろうパラメータに分散の小さな事前分布を与えよ。
　導師よ、ゼロに固定していたであろうパラメータはたくさんあります。どれに分散の小さい事前分布を与えればよいのでしょうか。導師は、交差負荷に与えたり、残差相関に与えたり、全部に与えたりなさっておられますね。できますれば、すべての迷える応用研究者を導く明確な原理をお与えいただきたいのです。
[導師] 当該の研究分野が証拠構築のどの段階にあるかによる。
　初期段階で探索に焦点が当たっているならば、事前分布は無情報ないしある程度大きめにして、データに語らせないといけない。この場合はMLもベイジアンもたいしてかわらない。測定モデルについていえば、できるだけ構造を制約しないこと。EFA, ESEMが望ましい。
　証拠が蓄積されて来たら、ゼロであるはずのパラメータに分散の小さな事前分布を与えてBSEMを行う。このスペクトラムの極北が伝統的SEMだ。
　注意しないといけないのは、BSEMモデルでは、モデルの適合が良くても、ゼロに近いはずのパラメータの推定値がゼロから離れていたら、モデルを見直さないといけないということだ。

[MEC] 導師はこうおっしゃいました。分散の小さな事前分布(情報事前分布)を与えたのに信用区間がゼロを含まなかったパラメータがあったら、分散を大きくして(無情報事前分布にして)再推定せよ。
　伝統的SEMでは、修正指標の値が大きいパラメータを探し、自由パラメータにして再推定、モデルの適合度が上がるまで繰り返す、という所業が広く行われて参りました。これは事前理論を放棄してデータにあわせているわけで、深刻な問題を引き起こしますこと、よく御存じのとおりです。
　導師よ、BSEMにおける情報事前分布から無情報事前分布への切り替え手続きも、哲学としてはこれと同じではありませんか。
　もちろん、違いはございます。伝統的方法では自由パラメータをひとつづつ増やします。修正指標が引き起こす問題の多くは、この系列的手続きによるものだと考えられておりました。いっぽう導師は、複数のパラメータを一気に無情報事前分布にせよと仰っています。この違いはわかっておりますが、やはり危険に感じるのでごさいます。モデルの妥当性に問題は生じないでしょうか。
[導師答えず]

[MEC] 導師はこうおっしゃいました。 BSEMは「母集団においてパラメータが0」という厳しい想定をより穏やかな想定に置き換えるので、その分モデル・エラーが小さくなる。
　導師よ、仰せのとおりではありますが、代償もあろうかと存じます。
　伝統的SEMでは、自由パラメータを減らすと適合度があがりました。自由パラメータが減るということは、推定誤差が減るということでもあります。
　BSEMにおいて、パラメータをゼロに固定せず事前分布を与えると、そのことによって推定誤差は増えるはずです。ひいては、安定性と一般化可能性が損なわれるかもしれません。分散を小さくしておけば大丈夫だと言い切れるのでしょうか。
[導師答えず。いい指摘だと思うんだけどな。その場その場でモンテカルロ・シミュレーションするしかないのだろうか]

[MEC] 導師よ、交差妥当化についてお伺いします。伝統的SEMでは、自由パラメータの点推定値の一般化可能性を交差妥当化によって評価できました。BSEMでは、事後分布の一般化可能性をどのように評価すればよろしいでしょうか。
[導師答えず]

[R] 導師よ、情報事前分布は交差負荷や残差共分散だけでなく、注目されるパラメータに与えてもよいのではないでしょうか。たとえば、値が大きいであろうと期待されている負荷に事前分布として$N(0.7, 0.15)$を与える、というのはいかがでしょうか。
[導師] 良い指摘である。その事例を示そう。[略]

[R] 導師よ、LISRELには負荷の上下限を制約するという機能がございます。BSEMでも、事前分布として上下限を決めた一様分布を与えるのはいかがでしょうか。もし推定値が上下限に張り付いたら、見直して再推定すればよいではありませんか。
[導師答えず]

[R] 導師よ、BSEMは bifactorモデルを容易に推定できるのでありませんか。特に、一般因子が直交していないようなモデルでも大丈夫なのではないでしょうか。
[導師] まことにその通りである。

[R] 導師よ、ハイパーパラメータを動かして感度分析するのはよいですが、研究者はいろいろ試した中で都合の良い部分だけを報告してしまうのではないでしょうか。
[導師答えず]

Rさんはほかにもいくつかネタを振っているが、導師は答えていないし、あんまりおもしろい話ではなかったので省略。

論文：データ解析(2015-) - 読了：MacCallum, Edwards, & Cai (2012); Rindskopf(2012); Muthen & Asparouhov (2012): ベイジアンSEM問答

読書日記

読んだ本を淡々と記録します

2016年3月11日 (金)