elsur.jpn.org >

« 読了: Tellis (2006) マーケティング・ミックス・モデリングについて初心者諸君のために解説してあげよう | メイン | 読了:Chow, Ho, Hamaker, Dolan (2010) SEMと状態空間モデルのどこが同じでどこが違うか »

2019年1月12日 (土)

 目の前の仕事に日々追い立てられる毎日であるが、副業というか研究開発的な案件のほうもそれはそれで追い詰められていて、年末、階層モデルについて考えていて頭が混乱してしまい、ちょっとしたパニックに陥った。とりあえず、抱えている問題と関係ありそうなPDFを拾って印刷し、年末年始でだだだーっと読んでみた。そのなかの一本。要は測定不変性に関する話で、とっつきやすい。

Im, M.H., Kim, E.S., Kwok, O.M., Yoon, M., Willson, V.L. (2016) Impact of Not Addressing Partially Cross-Classified Multilevel Structure in Testing Measurement Invariance: A Monte Carlo Study. Frontiers in Psychology, 7, 328.

 いわく。
 教育や社会科学においてはマルチレベルデータを扱うことが多いけど、たいていの場合階層線形モデルが用いられている。そこでは、下のレベルの事例は上のレベルのあるひとつのクラスタに属する。たとえば、ある生徒はある教室に属し、ある教室はある学校に属する。
 しかし現実はそうでない。生徒はふたつの学校に通っていたりするし、学校と地域のように、一方が他方の下にあるわけではないこともある。こういう非階層的なマルチレベルデータをcross-classifiedマルチレベルデータという。
 近年ではcross-classifiedマルチレベルデータを正しく分析することが大事だという理解が広まっている。Goldstein(1986 Biometrika, 1995書籍), Rasbash & Goldstein (1994 J.Educ.Behav.Statist.), Raudenbush & Bryk(2002書籍) をみよ。教科書への記載も増えておるぞ。実証研究も増えておるぞ。Fielding (2002 Sch.Eff.Sch.Improv.), Jayasinghe et al.(2003 JRSS), Marsh et al.(2008 J.Edu.Psy.)をみよ。
 しかるに、一部の者どもはcross-classifiedデータをいまだ階層線形モデルで分析しておる。実に嘆かわしいことである。
 cross-classifiedデータを階層データとして扱うとどうなるか。研究は少ないんだけど、分散成分の推定にバイアスがかかると指摘されている。

 さて。近年の社会科学においては、異なる集団間なり時点間なりでの測定不変性(MI)の検証が一般的になっている。階層的マルチレベルデータでにおけるMIの検証にはマルチレベル確認的因子分析(MCFA)が広く用いられている。それはいいんだけど、実際のマルチレベルデータは必ずしも階層になっていないのに、それでもふつうのMCFAが使われているのである。一般的なSEMのソフトではcross-classifiedマルチレベルデータのMCFAができないからである。[←これを読んで慌てて調べたが、これはちょっと吹かし気味のご発言で、Mplusには2012年秋リリースのVer.7の時点でがTYPE=CROSSCLASSIFIEDが搭載されている。現在もっとも一般的なSEMソフトといえばMplusだと思うんですが。ま、要するにMplus買いましょうってことっすね]

 というわけで、本研究は、cross-classifiedマルチレベルデータが測定不変性を持っているかどうかを検討するとき、cross-classifiedであることを正しく扱わなかったらどうなるかを調べる。

 まずは、ふつうのMCFAとcross-classified MCFAのちがいについて説明しよう[←ありがとうありがとう。それが読みたかったのよー]。

 2レベル, 1因子, 4指標の場合を考える。
 ふつうのMCFAの場合、ある生徒 $i$ はある学校 $j$ にのみ属する。観察ベクトルを$X[i,j]$と呼ぼう。いっぽうcross-classified MCFAでは、$i$は学校$j_1$と地域$j_2$に属する。観察ベクトルを$X[i, (j_1, j_2)]$と書こう。[原文では$X_{ij}$, $X_{i(j_1, j_2)}$なのだが、添字が深くなりすぎるので表記を変える。以下同様]

 ふつうのMCFAでは、Withinレベルで$x_1, x_2, x_3, x_4$に因子FWからパスが刺さり、さらにBetweenレベルで、$x_1, x_2, x_3, x_4$に因子FBからパスが刺さる。いっぽうcross-classified MCFAでは、Betweenレベルが学校のパートと地域のパートに分かれる。学校のパートでは$x_1, x_2, x_3, x_4$に因子FB1からパスが刺さり、地域のバートでは$x_1, x_2, x_3, x_4$に因子FB2からパスが刺さる。

 式で書こう。まず単純に、潜在変数を$\eta$として、普通のMCFAでは
 $X[i,j] = \tau + \Lambda \eta[i,j] + \varepsilon[i,j]$
cross-classified MCFAでは
 $X[i,(j_1,j_2)] = \tau + \Lambda \eta[i,(j_1,j_2)] + \varepsilon[i,(j_1,j_2)]$
観察値はMVNに従うものとする。(IID正規である必要はない。階層データだから)

 クラスタ間で変動するランダム効果をいれよう。ふつうのMCFAの場合、$\eta[i,j]$が2つに分かれる。
 $\eta[i,j] = \alpha + \eta_w[i,j] + \eta_b[j]$
$\alpha$は$\eta[i,j]$の期待値というか全体平均である。
 いっぽうcross-classified MCFAの場合、$\eta[i,(j_1,j_2)]$は3つに分かれる。
 $\eta[i,(j_1, j_2)] = \alpha[j_1] + \alpha[j_2] + \eta_w[i,j] + \eta_b[j_1] + \eta_b[j_2]$
$\alpha[j_1], \alpha[j_2]$はFB1, FB2の期待値である。[FWの期待値は0ってことね]

 元の式のほうも分解してみよう。ふつうのMCFAでは
 $X[i,j] = \tau_b + \Lambda_w \eta_w[i,j] + \Lambda_b \eta_b[j] + \varepsilon_w[i,j] + \varepsilon_b[j]$
 MCFAでは切片はBetweenレベルにしかないという点に注意。
 これがcross-classified MCFAだと
 $X[i,(j_1, j_2)]$
 $= \tau_b[j_1] + \tau_b[j_2]$
 $+ \Lambda_w \eta_w[i,j] + \Lambda_b[j_1] \eta_b[j_1] + \Lambda_b[j_2] \eta_b[j_2]$
 $+ \varepsilon_w[i,j] + \varepsilon_b[j_1] + \varepsilon_b[j_2]$
となる。切片は2つになる。

 因子分散も分解できる。ふつうのMCFAだと
 $V(\eta[i,j]) = \Psi_w + \Psi_b$
で、全分散に占める$\Psi_b$の割合を級内相関(ICC)という。いっぽうcross-classified MCFAだと
 $V(\eta[i,(j_1, j_2)]) = \Psi_w + \Psi_b[j_1] + \Psi_b[j_2]$
となる。ICCが2つできることになる。

 独自分散も分解できる。ふつうのMCFAだと
 $V(\varepsilon[i,j]) = \Theta_w + \Theta_b$
 $V(\varepsilon[i,(j_1,j_2)]) = \Theta_w + \Theta_b[j_1] + \Theta_b[j_2]$

 最後に、共分散行列$\Sigma_T$の分解。ふつうのMCFAの場合、共通因子$\eta$と独自因子$\varepsilon$が独立だという仮定の下で、
 $\Sigma_b = \Lambda_b \Psi_b \Lambda^{'}_b + \Theta _b$
 $\Sigma_w = \Lambda_w \Psi_w \Lambda^{'}_w + \Theta _w$
として$\Sigma_T = \Sigma_b + \Sigma_w$である。同様にcross-classified MCFAでは...[面倒なのでメモは省略するが、$\Sigma_T$が3つに分かれる]

 さて、測定不変性の話。
 測定不変性というのは因子-指標間の非線形的関係を含んだ広い言葉だが、線形因子モデルにおける測定不変性(因子不変性, FI)とは、パラメータが群間で等しいことをいう。その検証のためには、MCFAモデルにパラメータ等値制約を掛けていく。因子パターンが同じ(配置不変)、負荷が同じ(メトリック不変)、潜在変数の切片が同じ(スカラー不変)、独自分散が同じ(厳密不変)、というふうに。[ここで因子パターンといっているのは、いわゆる因子パターン行列のことじゃなくて、因子負荷行列のどこが0でないか、ということであろう]
 cross-classified MCFAの場合だとこうなる。以下、群を$g$で表す。モデルは
 $X_[i,(j_1,j_2),g]$
 $= \tau_b[j_1,g] + \tau_b[j_2,g]$
 $+ \Lambda_w[g] \eta_w[i,j,g] + \Lambda_b[j_1,g] \eta_b[j_1,g] + \Lambda_b[j_2,g] \eta_b[j_2,g]$
 $+ \varepsilon_w[i,j,g] + \varepsilon_b[j_1,g] + \varepsilon_b[j_2,g]$
 共分散行列を分解して
 $\Sigma_b[j_1,g] = \Lambda_b[j_1,g] \Psi_b[j_1,g] \Lambda^{'}_b[j_1,g] + \Theta_b[j_1,g]$
 $\Sigma_b[j_2,g] = \Lambda_b[j_2,g] \Psi_b[j_2,g] \Lambda^{'}_b[j_2,g] + \Theta_b[j_2,g]$
 $\Sigma_w[g] = \Lambda_w[g] \Psi_w[g] \Lambda^{'}_w[g] + \Theta_w[g]$
 まず配置不変性を検討する(因子数と各因子の指標数が群間で等しいといえるかを調べる)。
 次にメトリック不変性を調べる。帰無仮説は
 $\Lambda_b[j_1,1]=\Lambda_b[j_1,2]= \cdots = \Lambda_b[j_1,G]$,
 $\Lambda_b[j_2,1]=\Lambda_b[j_2,2]= \cdots = \Lambda_b[j_2,G]$,
 $\Lambda_w[1]=\Lambda_w[2]= \cdots = \Lambda_w[G]$。
 次にスカラー不変性を調べる。帰無仮説は
 $\tau_b[j_1,1]=\tau_b[j_1,2]= \cdots =\tau_b[j_1,G]$,
 $\tau_b[j_2,1]=\tau_b[j_2,2]= \cdots =\tau_b[j_2,G]$。
 最後に厳密不変性を調べる。帰無仮説は...めんどくさいから省略するけど、$\Theta$が等価だという3つの仮説ね。

 ここからは実験をふたつ。

 実験1。学校が20個、地域が50個あり、一方が決まると他方がある程度まで決まるというデータ(部分的cross-classifiedデータ)をつくる。cross-classified MCFA、1因子4指標で、3つのどのパートでも負荷は0.7から1のあいだであり、とりあえずはレベル間で共通とする(因子不変)。独自分散はwithinレベルで0.25, betweenレベルで0.05。
 動かす要因は2つ。(1)因子不変か。学校を2群にわけ、片方の群についてのみ、学校レベルの因子負荷を変える。大きく変える、小さく変える、変えない、の3水準。(2)ICC。因子分散を動かす。3水準。
 で、地域を無視したふつうのMCFAで測定不変性を調べる。
 結果。カイ二乗検定では、本当は因子不変である場合のType Iエラーには問題がないんだけど、本当は因子不変でない場合でも全然検出できない。学校レベルの因子負荷$\lambda_b[j_1]$の群間差(DIF)は過小評価される。

 実験2ではcross-classified MIMICモデルで測定不変性を調べる(群間で切片が異なるかどうかを、群を因子の共変量にいれることで調べられるかという話であろう)。これもMplus 7.4で実験している。面倒になったのでスキップ。

 考察。
 実験1では、FB2を無視したせいで、$\Psi_b[j_2]$が$\Psi_w$に再配分されてしまい、ICCが低く評価され、DIFが検出できなくなってしまった。[←ああ、そういうことなのか、なるほどね。2要因のANOVAをやるべきところを1要因でやったら、そのぶんセル内の分散が大きくなって、要因の主効果が有意じゃなくなっちゃいました、と云うような話なのであろう]
 このように、cross-classifiedデータで、一方のbetweenレベルの因子負荷が群間で異なるかどうか調べる場合、もう一方の因子を無視したふつうのマルチレベルCFAをやるのはお勧めできない。
 云々。

 ちゃんと読んでないけど、実験1は「注目しているクラスタ変数とクロスしているクラスタ変数を無視して階層多群分析するとクラスタ間での測定変動性を見落とすよ」という話、実験2は「群間で切片が異なることを見つけるだけでよければ多群分析じゃなくて群を共変量にいれたMIMICモデルにするといいよ」という話なのではないかと思う。でもこの実験、Mplus 7.4でやったんでしょ? なんでTYPE=CROSSCLASSIFIEDを使わないの?と不思議に思いながら読んでいたのだが、あー、そうか、CROSSCLASSIFIEDだとGROUPING=オプションが使えないのかも。

 ともあれ、cross-classified SEMというのがどういうものなのかが理解できたので良しとしよう。
 ほんとはさあ... Muthen一家の誰かが解説を書いてくれるといいんだけどさあ... とぶつぶつ不満を漏らすわけだが、別に新しい話題ってわけじゃないのだろうな。いまのホットトピックはきっと強縦断データとかだろうし。すいません、自分で勉強します。とりあえずはRaudenbush & Brykを手に入れるか...

論文:データ解析(2018-) - 読了: Im, et al.(2016) cross-classifiedマルチレベルデータをただの階層データとみなしたときの弊害 (多群CFAで測定不変性を検証する編)