読書日記: 読了: Reise, Widaman, Pugh (1993) 測定不変性の検討：CFA vs IRT

« 読了：「革新幻想の戦後史」 | メイン | 読了: Gelman (2007) ウェイティングと回帰モデリングを巡る悪戦苦闘 »

2014年2月24日 (月)

Reise, S.P., Widaman, K.F., Pugh, R.H. (1993) Confirmatory factor analysis and item response theory: Two approacehs for exploring measurement invariance. Psychological Bulletin, 114(3), 552-566.
　測定不変性の検討方法についての論文。
　えーと、まかり間違ってこのブログに目を留められた奇特な方のためにご紹介いたしますと、たとえば、同じ調査を日本と中国でやりました。調査票の翻訳には十分気を配ったんですけど、果たして回答を比較しちゃっていいものなのでしょうか？日本ではこの項目への回答が対象者の××という特性の程度をあらわしていると考えられているのですが、中国でもそうなんでしょうか？... というようなのが、測定不変性(measurement invariance)という問題である。市場調査に関わる方であれば、これがものすごく深刻な話題であることをご理解いただけると思います。
　その割には、測定不変性の実証的検討について関心を持つ実務家は、不思議に少ない、というか、恥ずかしながらお目にかかったことがない(以前お世話になっていた教育測定の会社は別にして)。もしかすると、なにか言霊信仰のようなものがあるのかもしれない。「測定不変性」とひとたび口に出すだけで、その深刻さが現実となり、異なる集団の間で調査結果を比較できなくなり、商売あがったり、というような。

　まあいいや。測定不変性を検討する際の二大流派、CFA(確認的因子分析)とIRT(項目反応理論)のそれぞれについて、その使い方を示します、という論文であった。えー？ 2パラメータIRTはカテゴリカルCFAと同じことでしょ、そんな細かいことを... と思って放っておいた論文なのだが、ふと見たら、いつのまにか「必ず読むこと」というタグが付いている。なぜ・いつ付けたんだか、全然記憶にない。困るなあ、こういうの...

　CFAといっても、カテゴリカルCFAがIRTと等しいというような話ではなくて、あくまで線形なCFAの話なのであった。
　まずCFA。$n$個の項目への反応のベクトル $X$ を次のようにモデル化する:
　$X = \Lambda \xi + \delta$
$\xi$は$r$個の潜在変数得点のベクトル、$\Lambda$はサイズ$n \times r$の負荷行列である。途中はしょりまして、標本共分散行列を$S$として
　$S \sim \hat{\Lambda} \hat{\Phi} \hat{\Lambda}' + \hat{\Psi}$
$\Phi$は潜在変数の共分散行列、\Psiは誤差の共分散行列である。多群に拡張して
　$S_g \sim \hat{\Lambda}_g \hat{\Phi}_g \hat{\Lambda}'_g + \hat{\Psi}_g$
　この文脈における測定不変性は、$\Lambda_g$がどこまで群間で等しいか、という問題になる。

　実例。1因子5項目(5件法リッカート)の不安尺度。中国とアメリカの標本を比較。カイ二乗検定で$\hat{\Lambda}_g$ 全体の等値制約を棄却。修正指標で部分測定不変モデルを作る手順を示している。この頃はこういうチュートリアルがまだ少なかったのであろう。眠いので省略。適合度指標はカイ二乗のほかにTLI, noncentrality index, RMSEAを使っている。
　
　次、IRT。5件法なのでSamejimaモデルを使う(懐かしい...)。潜在変数 $\theta$の下で反応 $x$ がカテゴリ $k$ に落ちる確率は、
　$P(x = k | \theta) = P*(j-1) - P*(j)$
$P*$ は項目反応関数で、j番目の閾値を上回る確率は
　$P*(j) = 1 / (1 + exp[-a (\theta - b_j) ])$
　識別性$a$, 困難度$b$の意味についての懇切丁寧な説明があって(省略)... IRTの文脈では、測定不変性とは各項目の$a, b_1, b_2, b_3, b_4$が群間で等しいかという問題である(DIFって奴ですね)。適合度の指標としては -2*対数尤度を使う。MULTILOGの出力ではこれを$G^2$という由。また、個人レベルでperson-fit統計量を調べる。項目反応関数の下でのある対象者の反応の尤度を標準化した値を $Z_l$ 統計量と呼び、person-fitの下で$N(0,1)$に従うのだそうだ。へぇー。
というわけで、実例に突入。ところで、多群CFAならば、識別のためにどこかの群の因子分散を1に固定したり、どこかの項目の因子負荷に等値制約をかけたりするけど、多群IRTではどうやるのか。著者いわく、こういう話は計量心理学の外側ではあまり紹介されないので、ゆっくりご説明しましょう。ちょっとそこに座んなさい。(←とは書いてないけど)
　「各群の$\theta$の分散を1にする」作戦はもちろん使えない(パラメータ$a, b$が比較できなくなる)。「どこかの項目のパラメータを群間等値にする」作戦もある。この哀れな生贄をアンカー・テストという。でも、どの項目を生贄にするかをどうやって決めるのか。
　そこで次の作戦を採る。USと中国の対象者をたて積みにし、USの対象者は項目1～5に、中国の対象者は項目6～10に回答したのだ、と考える(他の項目への回答は欠損になる)。USブロックの$\theta$の分布を平均0, 分散1に固定する。中国ブロックの$\theta$の平均は自由推定、分散は適当な値に固定する。これをもってベースライン・モデル、すなわち群間等値制約のないモデルとみなす。云々。うっわー、めんどくさいー。
　そんなこんなで、手間暇かけて部分測定不変モデルを構築する手順を示している。

　考察。

CFAでは潜在変数と反応の線形な関係が仮定されている。IRTではそうではない。もっとも、これから非線形的な因子分析モデルの研究が進むだろう。
潜在変数の推定には、測定不変じゃない項目でも有用だが、潜在変数の分布を比較するためには測定不変な項目がいくつか必要である。これはCFAでもIRTでもかわらない。
CFAのほうがモデルの指定が楽。段階反応IRTで多群分析をやろうと思ったらMULTILOGが必要で、使い方が難しい。(←この論文の当時の話でありましょう)
IRTの適合度指標はCFAほどリッチじゃない。とかなんとか。

　なんで2013年になってこんな論文を読んでんだか、と面倒になってきて、途中から読み飛ばしてしまった。思うにこの時代には、「測定不変でない項目は分析からまるごと除外しなきゃいけない」というような通念があって、それがこの論文のひとつの仮想敵だったのかもしれない。よくわかんないけど。
　ま、いいや。person-fit についての知識が足りない、というのがこの度の教訓であった。

論文：データ解析(-2014) - 読了: Reise, Widaman, Pugh (1993) 測定不変性の検討：CFA vs IRT

読書日記

読んだ本を淡々と記録します

2014年2月24日 (月)