« 読了:Hox, de Leeuw, Brinkhuis (2010) 国と国とを比較する方法を比較しよう (多群SEM vs. マルチレベルSEM vs. 潜在クラスモデル) | メイン | 読了:永田(1998) 「統計的多重比較法の基礎」をめぐる10個の質疑応答 »
2014年11月10日 (月)
ふとしたきっかけで、市場調査会社に勤める若い友人から、こんな質問を受けた。細部を剥ぎ取って簡単にいえば、「探索的因子分析で得た因子得点を調べてみたら、varimax回転なのに因子得点は直交してないし、分散が1でもないんですけど...」。アカデミックなトレーニングを全く受けていないのに、この疑問である。弊社の同僚の話は内輪褒めになるからやめるけど、彼女といい、私の前職の調査会社の同僚たちといい、若い人はほんとに優秀で困ってしまう。大変失礼な言い方ですが、わたくし10年くらい前まで、市場調査会社の人ってのは、黒澤明「生きる」の市役所の窓口の人みたいな感じの、肘のところに黒い布巻いて、青焼きにむっつりとペンをいれたり、チャートの軸の目盛のラベルをピンセットで貼ったりしている人たちだと思ってました。実際には違いますよ、最近ではチャートは電子計算機で描きますし、リサーチャーはアクティブかつ優秀ですよ、少なくとも若い人は。
で、彼女には「因子分析モデルが正しければ漸近的にそうなるってことなんじゃない?そいで因子分析モデルなんてたいがい間違ってんだから、大いにずれててもしょうがないんじゃない?」という意味の返事をしたんだけど、本日別件の一仕事を終えてぼんやり夕空を眺めていたら、ふいに、ワタシ嘘ついちゃったんじゃないか、と。。。
DiStefano, C., Zhu, M., Mindrila, D. (2009) Understanding and using factor score: Considerations for the applied researcher. Practical Assessment, Research, & Evaluation. 14(20).
ネットで見つけた論文。掲載誌はよくわからないオープンジャーナルで、ためらったのだけど、第一著者は本当にUSCの助教授らしいし(教育研究)、google scholar様的には被引用度数がかなり多いので、まあ大丈夫だろう、と。
ええと、Psycinfoで探して数えたら、因子得点を使っている2000年代の229件の研究のうち、54%は探索的因子分析(EFA), 19%は確認的因子分析(CFA), 28%は不明だそうである。うーん、EFAが多いんだかそうでもないんだか、よくわかんないな。
著者らいわく、EFAでの因子得点の算出の方法にはnon-refinedとrefinedがある。前者は、負荷の高い項目を選んで生データを平均するとか、そういうローテクなやつ。標本に対して安定的である。後者はいわゆる因子得点で、メジャーな方法として、回帰法、Bartlett法、Anderson-Rubin法がある。どう違うかと申しますと... (これ院生時代に習ったっけ? たぶん習って忘れているのであろう)
ひとつめ、回帰法。発想としては、観察データから因子得点を予測する重回帰式を組む。因子数をm, 変数の数をnとする。ある個体について、標準化した観察ベクトルを$Z$(サイズ$1 \times n$)、回帰係数行列を$B$($n \times m$)として、因子得点は$F = ZB$。さて、この回帰係数行列$B$は、観察変数の相関行列を$R$、因子負荷行列を$A$、因子間相関行列を$\Phi$として、$B = R^{-1} A \Phi$とする。
この手続きは因子得点の推定値の妥当性を最大化することを目的にしていて(つまり、推定された因子得点と真の因子得点との相関を最大化することを目的にしていて)、因子得点の不偏推定にはなっていない。平均は0, 分散はその因子の全項目に対するSMCになる (あ、そうだ!そうでした!)。直交回転であっても因子得点の推定値は因子間で直交しない。
ふたつめ、Bartlett法。発想としては、独自因子を無視し、観察値と因子負荷から共通因子を再現しようとする。因子得点の分散を表す対角行列の逆行列を$U^{-2}$として、$F = Z U^{-2} A (A' U^{-2} A)^{-1}$。むむむ、なぜこうなるんだろう? いずれきちんと勉強しよう。
この手続きは、真の因子得点の不偏推定を提供する。妥当性も、最大ではないけど高い。さらに、直交回転の場合、他の因子の真の因子得点とは相関しないという特徴がある由。ただし、因子得点の推定値が因子間で直交するわけではない(そ、そうだったのか...)。平均は0, 分散はSMC。
みっつめ、Anderson-Rubin法。計算式は省略するけど(ちょっとややこしい)、これはBartlett法を修正したもので、平均は0, 分散は1, 直交回転なら推定された因子得点同士も無相関、という... 実に出来の良い子である。妥当性もそこそこ高いのだそうである。ただし、因子得点は不偏推定にはなっていない。また、直交回転のときに無相関になるのはあくまで推定された得点同士であり、ある因子についての推定された因子得点と他の因子の真の因子得点が無相関になるわけではない。
まとめると、妥当性は回帰法が最大、Bartlettが高、A&Rがそこそこ。直交回転の場合、ある因子の推定された得点が他の因子と無相関になるのはBartlett法、他の因子の推定された得点と無相関になるのはA&R。真の因子得点の不偏推定になっているのはBartlett。
最後に、著者のみなさまからのアドバイス。(1)因子得点は因子抽出手法や回転手法に対して敏感である。まずはEFAが受容できるかどうかを考え、しかる後に使うように。(2)そもそも因子分析ってのは解が不定であるということを肝に銘じるように。このへん、解の不定性の深刻さについて調べる方法について紹介されているのだが、Grice(2001, Psych. Methods)の素人向け簡略紹介らしいので、本家を読むことにしよう。(3)データの質。元データの分布、因子得点の分布をちゃんと見るように。(4)CFAを使え。
というわけで、EFAの因子得点に対するわたくしの理解が浅かったことがあきらかになった(なんとなくA&R法の挙動を前提にしてしまっていた)。仕事に害を及ぼす嘘ではなかったが、彼女に今度会ったら謝らないといけないな... その頃はもう覚えてないかもしれないけど。優秀な人は私と違って忙しいのだ。
論文:データ解析(-2014) - 読了:DiStefano, Zhu, Mindrila (2009) おまえら因子得点の求め方わかってんのか