« 読了: Gelman (2007) ウェイティングと回帰モデリングを巡る悪戦苦闘 | メイン | 読了: 桑島 (2002) 新製品開発研究の変遷 »
2014年2月27日 (木)
Barratt, P. (2007) Structural equation modelling: Adjudging model fit. Personality and Individual Differences. 42, 815-824.
この雑誌のこの号はSEMについての特集号で、編集委員の問題提起に対して9人の専門家がコメントする、という構成であった。たまたま入手したまま放置していたのだけど、このたびファイルを整理していて、問題提起の要旨を読んでみたら、これが妙に面白くて... PDFをずるずるとスクロールして本文も読み終えてしまった。こんなことしている場合じゃないんだけどな。
SEMでは、データに対するモデルの不適合度を調べるためにカイ二乗検定を行う。これはかの悪名高きNHSTであって(みんな大好きな「検定」のこと)、本来は帰無仮説を支持することはできないのだが(つまり、モデルがデータに適合していることを示す証拠にはならないが)、その目的で使われている。サンプルサイズが大きくなればちょっとした不適合でも有意になってしまう、という問題点がある。
これに対して、カイ二乗検定統計量をサンプルサイズや変数の数や自由度などで調整した適合度指標をつくろうという考え方もある。そういうのは距離とか相関係数みたいなもので、読み方がむずかしい。Bentlerさんたちは読み方のゴールデン・ルールをつくろうとしていて、Hu, Li, & Bentler (1999, SEM) がその「聖書」となっている(RMSEAは0.05以下じゃなきゃ、というような話ですね)。しかあし! 最近の研究はそういう閾値の有用性を疑問視している(挙げられているのは: Beauducel & Wittmann(2005, SEM), Fan & Sivo(2005, SEM); Marsh, Hau, & Wen(2004, SEM); Yuan(2005, Multivariate Behav. Res.))。そもそも、そうした適合度指標の使われ方も、NHST的な二択ツールに堕落しているではないか。
科学の他の領域であれば、モデルの適合度は説明・予測の良さの観点から評価される。交差妥当化とか、情報量基準とか。SEMの世界の問題は、モデルが「因果メカニズムを近似している」というときの「近似」ということばの意味を誰も知らないという点にある。RMSEA=0.08のモデルを受け入れたらなにが困るのか、説明できますか? 適合度は予測の正確さではないのに、みんなそう勘違いしている。
項目反応理論をごらんなさい。同じ潜在変数モデリングでも、あれは測定志向のよりしんどい世界なのに(in the more demanding measurement-oriented area of LV), 「近似的に適合」(approximate fit)なんていう概念は存在すらしません。適合するかしないかしないかどっちかなんです(←いや先生、それとこれとは...)。ANOVAをごらんなさい、DIFをごらんなさい。approximate mean difference とかapproximate biasとか、聞いたことありますか? それがあなた、マーケティングとか組織心理学とか個人差研究なんかだと、急にapproximate fit が最重要議題になっちゃうんです。論理的とはいえませんね。
とはいえ、SEM自体は有用なツールである。使用にあたっては以下の点を推奨する。
- カイ二乗検定を必ず報告すること。「サンプルサイズが大きすぎるから有意になっちゃうんだ」なんていう寝言は10000ケースくらい集めてから言え。
- 十分なサンプルサイズを得ること。母集団がよほど小さい場合やよほど均質な場合はともかく、200以下のSEMの論文なんてリジェクトします。あなたたちに荷が重いことは重々わかっているからあまり言いたくないんだけど(ほんとにこう書いてある)、Muthen & Muthen (2002, SEM)を読んでモンテカルロ法で検定力を調べなさい。
- カイ二乗検定で棄却されちゃったら、(a)まずは、あなたが使った推定法(ML法とか)の前提が正しいかどうかチェックしなさい。多変量正規性とか。(b) そのチェックに通ったら、モデルをそのまま報告してその意義を論じなさい。(c) ないし、残差行列を調べてモデルを改善していきなさい。
- カイ二乗検定の結果を無視するなら、まずその根拠を述べなさい。適合度指標の「ゴールデン・ルール」とか「誰々がこういっている」基準は許しません。本当云うと、私は適合度指標なんてみんな禁止したい。その上で、(a) もしモデルの結果を定量的に評価できるならば、交差妥当化で予測の正確性を示し、情報量基準でモデルの倹約性を示しなさい。(b) CFAのような結果のないモデルの場合は、残差行列の分析によってカイ二乗検定を無視する理由を示すか、なんらかの外的基準を探しなさい。Reise, Widaman & Pugh (1993, Psych. Bul.)はCFAモデルの評価には理論や主観的判断が説得力が大事だといっているが、そんなのはでたらめです。
いやー、楽しくなっちゃってどんどんメモしちゃったけど、原文にはもっとキツイことが書いてあります。結局のところ、SEMユーザはモデル構築が大変な作業だということを理解する気がないんだよ、なあんて。ははははは。
著者が全力で批判している適合度指標とは、GFIとかCFIとかRMSEAとかのことで、BICやAICは原理的にはオッケーなのであろう。解釈上のゴールデン・ルールもないしね。
この論文にコメントしている9人は、Bentler (ははは), Goffin, Hayduk et al., Markland, Miles & Shevlin, Millsap, Mulaik, Steiger. 読んでないけど、いずれもかなり否定的な模様。元論文の話の進め方が雑なぶん、論点が多岐にわたりそうで (適合度指標の是非, ゴールデン・ルールの是非、NHST批判, カイ二乗検定の是非、モデル構築に実質科学的推論がどこまで必要か、云々...)、どうにも面倒くさそうだ。よほど時間ができたら、ということで...
論文:データ解析(-2014) - 読了: Barrett (2007) 私はSEMの適合度指標を禁止したい