« 読了:Marinovic, Ottaviani, & Sorensen (2011) 予測市場と美人投票のあいだで | メイン | 読了:Pfaff (2008) Rのvarsパッケージ »
2015年8月 1日 (土)
Stromeyer, W.R., Miller, J.W., Sriramachandramurthy, R., DeMartino, R. (2014) The prowess and pitfalls of bayesian structural equation modeling: Important considerations for management research. Journal of Management, 41(2), 491-520.
SEM-NETで紹介されていて、あわてて入手した。この雑誌のこの号は"Bayesian Probability and Statistics in Management Research"という特集号。この論文はかのMuthen導師が提唱するベイジアンSEM(BSEM)への批判論文である。仕事で頻繁に使っている手法であるから、他人事じゃないっす。
ここでいうベイジアンSEMとは、単にSEMをMCMCで推定することではなくて、Muthen & Asparouhov (2012, Psychological Methods)が提案した方法のこと。通常のCFAでは因子パターン行列にある程度ゼロを埋めるが、そのかわりに事前分布を与えまくり、常識的には到底識別できないモデルもMCMCで推定してしまう。EFAとCFAのあいだくらいの使い方ができる。
著者いわく...
BSEMのどこが優れているのか。Muthen & Asparouhov (2012), そしてその支持者である Fong & Ho (2013, Quality of Life Research), Golay et al. (2013, Psych.Assessment) の言い分はこうだ。CFAでは、小さな交差負荷 [cross-loading. 因子1を測定しているはずの項目が因子2に対して持っている因子負荷、という意味だろう]をゼロに固定する。これは不必要に強い仮定である。なぜなら、
- (主張1) 測定の道具というのはたいていそんなに正確ではないのであって、交差負荷をゼロに固定してよいという保証はない。
- (主張2) 理論との整合性という観点からいえば、交差負荷がゼロであろうが小さな値であろうがかわりはない。
- (主張3) 交差負荷をゼロに固定すると共通因子の共分散がインフレを起こす。
これらの議論はどれも論理的に欠陥がある。
(主張1)の問題点:
- 交差負荷は尺度開発が下手だったせいで生じているのかもしれない(ダブル・バーレル設問とか)。交差負荷をわざわざ推定することは、その下手さを誤魔化す(dust under the rug)結果になりかねない。[←この論点はよくわからないなあ。ある項目が因子2に対して負荷を持たないという誤った仮説を持っていたとして、BSEMなら交差負荷の推定値をみてその誤りに気づくことができる。通常のCFAならオムニバスな適合度なり個々の修正指標なりをみるところだが、果たしてその誤りに気づき得るか?]
- 測定の道具が不正確なせいで交差負荷が生まれているのならばその交差負荷は理論的重要性が低いわけで、なんだってそんなノイズをモデル化しないといけないのか。
- 測定が不正確かもしれないという理由で交差負荷の推定を許容すると、それはプアな測定を正当化するための脱出口になってしまいかねない。
(主張2)の問題点。そもそも因子分析ってのは、解釈容易な単純構造をみつけるためにやるものだ。だから、いくつかの項目が小さな負荷を持つような尺度を注意深くデザインする、なんてことは実際にはありそうにない。
[ううむ... ここまでのどの論点も、モデリングと尺度開発をごっちゃにした言いがかりのような気がするんですが... まあ先を読んでみよう]
(主張3)の問題点:
- たしかに、共通因子間の多重共線性は弁別的妥当性への脅威である。しかし、交差負荷のパラメータを推定しないと誤ったモデルになる、というのは本当か。それがただのノイズなら、たいした問題じゃないはずじゃん。むしろ弁別的妥当性が低いということが隠れてしまうことのほうが怖い。
- 共通因子に多重共線性が起きるのは、たいてい指標の信頼性が低いからだよね。指標をどうにかすうるのが先決じゃん。
- ほんとに因子間相関が高いんだったらbifactorモデルを組んだほうがよい。
話変わって...
- 情報的事前分布の正当化について。通常のCFAならパラメータは自由推定するか固定するかだが、ベイジアンSEMでは情報事前分布を与えるという選択肢も登場する。事前分布の特定はベイズ推論の肝なので、Gregory(2005 書籍), Kruschke et al.(2012 ORMの"The time has come"論文), Yuan & MacKinnon(2009 Psych.Methods), Zyphru & Oswald (この特集号) あたりをよく読め。
- 独自因子の共分散推定について。BSEMだと片っ端から推定できちゃうわけだが、そんなモデルは理論的な意味づけが難しいんじゃないかという批判もある(Rindskopf, 2012 Psych.Methods)。また、そんなモデルは絶対データに適合しちゃうわけで、モデルが根本的に間違っててもそれに気づけないわけだ(MacCallum et al., 2012 Psych.Methods)。
- 一般化可能性の喪失。BSEMはパラメータ数がすごく多いせいで標本抽出ノイズまで拾ってしまう。
とはいえ、BSEMが完全に有罪だというわけではなく、要は使い方に気をつけようねという話である。
実データ解析例。自己効力感についての尺度、5因子19項目のデータ。CFAとBSEMを比べる。ちゃんと読んでないのでメモは省略するけど、BSEMを何度か走らせてモデルを改善していくという話であった。
考察。BSEMの利用にあたっては以下の点に注意せよ。
- BSEMはプアな尺度開発の特効薬ではない。
- 単純構造を見失うな。まず、どの負荷が統計的に有意かを示せ[←この主張には批判がありそうだなあ...]。McDonaldに従って、標準化した負荷が0.30の奴に注目せよ。要するにだ、交差負荷に平均ゼロ, 分散小な事前分布を与えたBSEMをやってはい終わり、じゃなくて、なんとかして単純構造に持ちこめ。
- 多次元的指標(複数の因子に負荷を持つ指標)が本当に必要かどうか真剣に考えろ。次の順序で考えるとよい。
- (1)交差負荷は統計的に重要? Noなら推定するな。
- (2)交差負荷は実務的に重要? Noなら推定するな。
- (3)実務的に重要な交差負荷は理論的に正当化される? Noなら項目を削れ。[←ええええ] なお、理論的に正当化できる場合とはたぶん次の2つだ。(a)構成概念自体が多次元的で、下位次元もまた広範かつ相互に相関している場合。(b)指標が複雑な構造を持っている場合。たとえば、ある時間的ステージにおいて別の指標と共変し、意味内容においてはまた別の指標と共変する、というような場合は、意味内容の因子と時間の因子ができることになるわけで、多次元的指標を認めざるを得ない。
- (4)共通因子は独立したcluster basis(「俺にしか負荷を持っていない項目」)を持ってるか?Noなら項目を削れ。
- (5)項目はその概念をユニークな形で捉えているか? Noなら項目を削れ。
- (6)その項目の共通性は高いか? Noなら削れ。
- (7)"Do conditions make capitalization on chance more likely?" つまり、標本サイズが小さいとか、共通性が低い指標を使っているといった理由で交差負荷が生じているのではないか? Noなら交差負荷を認めるしかないし、Yesでも要検討。
- モデル構築にあたっては交差妥当化の原則を忘れるな。
- モデル選択にあたってははっきりした原則に従え。
- (1)PPCの信頼区間がゼロを含むか、という点に頼るのはやめろ。そんなの非現実的だ。
- (2)近似のdiscrepancyの指標として、PPC信頼区間とpSRMRを調べよ。
- (3)全体的なdiscrepancyの指標としてBICを調べよ(BIC_SSA, DICよりもおススメ)。
- (4)Burnham & Anderson (2004, Sociological Methods & Res.)に従ってモデルの事後確率を求めよ[←なんだそれは...]。
- reflectiveな多次元的構成概念のモデルでは、独自因子の共分散を推定するのはやめておけ。理由:(1)因子分析の目標は主要な共通因子の発見だから。(2)モデルの指定の誤りが吸収されちゃうから。(3)適合度が上がっちゃうから。
- BSEM支持者のいう正当化は信じるな。[←ははは。このくだり、いろいろ書いてあるけど疲れたので省略]
結論。要するにBSEMはデータの記述の方向に寄っている。この論文では検証可能なモデルの構築という観点からBSEMの柔軟性をどう生かすかという点について考えた。
... いやー。ざっと読んだだけだから理解できてないのかもしれないけど、全体を通して、尺度構成の話をしているのかデータ分析の話をしているのかが区別されていない感じで、読むのがちょっとつらかった。組織研究ってこういう雰囲気なのかしらん。
いっぽう、独自因子の共分散を片っ端から推定しちゃうのはやめとけ、というのはその通りだと思った。Muthenさんたちの論文にはそういうのが出てくるけど、あれは手法のデモンストレーションなんじゃないかと思う。
ベイジアンSEMについてはすでに2011年のPsychological Methodsでも議論の応酬があった模様。知らなかった。この論文にもMuthen一家からの反論論文が出ているらしい。
論文:データ解析(2015-) - 読了:Stromeyer et al. (2014) ベイジアンSEM、その剛勇とアキレス腱