読書日記: 読了：Rhemtulla, et al. (2012) 順序カテゴリ変数を連続変数とみたてて確認的因子分析をやっちゃってよいものか

« 覚え書き：調査におけるX件法尺度のXをどうするか研究レビュー by Krosnick(1997) | メイン | 読了：Bae & Shin (2007) 家計に占める通信費はどこまで増えるか予測する in 韓国 »

2018年10月 7日 (日)

Rhemtulla, M., Brosseau-Liard, P.E., Savalei, V. (2012) When can categorical variables be treated as continous? A comparison of robust continous and categorical SEM estimation methods under suboptimal conditions. Psychological Methods, 17(3), 354-373.

　仕事の都合で読み始め、「本研究の目的」が示されたところで、あ、これはちがう...と気がついたんだけど、個人的に興味ある話ではあるので、そのままだらだらと読んでしまった奴。

　どういう話かというと、5件法評定値みたいなカテゴリカルデータを指標にしたCFAモデルを組むとき、それを量的データとみなしてそのままあてはめちゃう場合と、ちゃんとポリコリック相関行列を推定してからあてはめる場合とあるよね？結果はどうちがうのかシミュレーションしてみました！という話である。かの萩生田・繁桝(1996)のCFA版といったところである。
　いやあなたね、2012年にもなってその比較？なぜにFIMLでやらない？と思ったんだけど、そこの説明はイントロ部分で縷々なされている(メモは末尾に)。

　さて。ポリコリック相関行列にCFAモデルをあてはめるとき、その推定方法にはいろいろある。
　以下、変数の数を$p$, ポリコリック相関を縦に並べたベクトル(長さ$p(p-1)/2$)を$r$とします。ポリコリック相関の共分散行列を推定した行列を$\hat{V}$とします。CFAモデルでの下でのポリコリック相関行列の構造を$\rho(\theta)$とします。

WLS(以下cat-WLS)。
　$F_{cat-WLS} = (\rho(\theta) - r)' \hat{V}^{-1}(\rho(\theta) - r)$
を最小化する$\hat{\theta}$を求めます。その標準誤差は...[中略]。検定統計量
　$T_{cat-WLS} = (N-1) F_{cat-WLS}(\hat{\theta})$
はモデルが真であるとき漸近的にカイ二乗分布に従います。ね、かんたんでしょ？ [←とは書いてないけど]
　これが一番古い方法である。標本サイズが大きければ、もっとも有効性が高い(完全情報法ほどではないけれど)。
重み付けなしのLS(cat-LS)。[←脚注によれば、MplusでいうところのULSMVだそうだ]
　$F_{cat-LS} = (\rho(\theta) - r)' (\rho(\theta) - r)$
を最小化する。$\hat{V}$の逆行列を計算しないので小標本で安定する。標準誤差には修正が必要で(頑健標準誤差)、ちょっとややこしくなる[中略]。検定統計量も修正が必要[中略]。
diagonal WLS(cat-DWLS)[←MplusでいうところのWLSMVだそうだ]。$\hat{V}$の対角要素だけを持つ行列を$\hat{D}$として、
　$F_{cat-DWLS} = (\rho(\theta) - r)' \hat{D}^{-1}(\rho(\theta) - r)$
を最小化する。結果はcat-LSとほとんど変わらないんだけど、ちょっぴり良いといわれている。

　なお、cat-LSとcat-DWLSにおいて頑健標準誤差を推定するのは、ちゃんとWLSを求めてないので有効性が失われているから。ときどき「cat-LSとcat-DWLSは、観察変数の背後にある連続変数の正規性仮定を緩和したものだ」といわれることがあるけど、これは間違いで、依然として正規性仮定は必要。もとも頑健標準誤差ってのは、最尤推定量の有効性がデータの非正規性のせいで失われるのに対処するためにつくられたものなので、混乱が生じたのであろう。

　連続量とみたててCFAモデルを当てはめる場合、正規性は仮定できないわけで、そのことを考慮して頑健修正した最尤法を用いるのがよろしかろう...[最小化する関数と検定統計量の説明。メモ省略。これ、MplusでいうとMLMVかなあ？]。とはいえ、ほんとは変数は連続量ではなく、変数と潜在変数の関係は線形でないわけで、パラメータ推定は歪む。

　先行研究概観。さすがは一流誌という感じで、長い。
　要点のみメモすると...連続量とみて最尤推定するとパラメータ推定は過小になるが、4～5カテゴリくらいあれば大丈夫。cat-DWLS, cat-LSのパラメータ推定は歪まない。
　標準誤差や検定統計量は無修正だと歪む。修正すると、連続量MLの場合は少し過小のままで、cat-DWLS, cat-LSはほぼ歪まない。[大幅中略]
　パフォーマンスに影響する要因としては... まず正規変数からカテゴリ変数を作る際の閾値が項目によって大きく違うとうまくいかなくなるといわれている。裏にある連続変数が正規分布じゃないときもバイアスが生じる。[要は、項目によって分布が大きく違うと困るってことね... どう困るのか色々書いてあったけど読み飛ばした]
　他に、モデルサイズが大きいときも困る。

　おまたせしました、実験します... なんだけど、疲れてきちゃったのでメモは簡略に。
　まずデータをつくる。動かす条件は以下の通り。各セルあたり1000セット。

指標の数: {10,20}
裏の変数の分布: {正規, 非正規}
カテゴリ数: {2,3,4,5,6}
閾値: {対称, やや非対称1, やや非対称2, すごく非対称1, すごく非対称2}
標本サイズ:{100,150,350,600}

　CFAモデルは、2因子, 因子当たり指標数は5ないし10, 負荷は0.3,0.4,0.5,0.6,0.7。因子間相関0.3。[交差負荷はないんやろね...]
　Mplusで推定した結果を報告する。
　[いい加減に読み飛ばしているので自信がないんだけど、cat-WLSは試さなかったみたい。cat-DWLSは報告から省略しているらしい。よって以下はcat-LSと連続量MLの比較である]
　
　結果。長い... メモは超簡略に...
　収束の失敗と不適解は、カテゴリ数が2の時に多く、4以上で少ない。収束失敗は連続量MLで、不適解はcat-LSで多い。指標が20あるとほぼ起きない。
　負荷の推定は、連続量MLだと過小で、カテゴリ数が多いと減る。5カテゴリあれば10%未満。cat-LSはおおむね正確...[いろいろ書いてあるけど読み飛ばした]。因子間相関はどちらもおおむね正確だった。
　推定量の有効性は...[えーい省略だ]
　頑健標準誤差は...検定統計量は... [著者の先生すいません、疲れたのでパスさせてください]

　考察。
　cat-LSは優秀です。ただし、小標本かつ非正規のとき問題が生じる。カテゴリ数が5以上ならば連続量MLでもよろしい。
　測定モデルはどうでもいい、構造モデルのパラメータだけに関心があるんだという場合には、カテゴリ数が4以下であっても連続量MLを使うのはアリ。小標本の場合にはむしろ望ましいかもしれない。
　[他、いろいろ書いてあったけど、省略...]

　... というわけで、カテゴリ数が5以上ならまあ連続量とみなしてもいいんじゃない？という、よく言われている話を裏付ける論文であった。

　ところで、二十一世紀、アベノミクスの大成功によりいままさに美しい日本を取り戻そうとしているこの現代においてですね(すいません冗談です)、いまさらカテゴリカルCFAのためにいったんポリコリック相関行列を推定するのってどうなの？時代は完全情報最尤法でしょう？と思ったわけですけど、著者らの説明は以下の通り。

たしかに理論的には、完全情報法のほうがパラメータ推定の有効性が高い。しかし実務的にはたいした差はなく、むしろ限定情報法(モデルを相関行列にあてはめることね)のほうが良いこともあるといわれている。ご不審の向きはKnol & Berger (1991 MultivariateBehav.Res.), Forero & Maydeu-Olivares (2009 Psych.Methods)をみよ。
完全情報法は計算が大変。
著者らの知る限り、完全情報法ができるSEMのソフトはMplusとMxのみ。心理学者はIRTのソフトに馴染みがない。
検定統計量がつかいものにならない。

... 論点2、計算が大変だから実用に適しませんってのは、そうなんですかね、よくわからん。論点3については、私はMplusの信者なのでMplusを買いましょうとしかいいようがない。論点4はたぶんカイ二乗統計量の話だろう、別の適合度指標を使えばいいんじゃないかしらん、よくわからない。
　いっぽう、最初の論点はすごく意外だった。そうなの？へえええ。

論文：データ解析(2018-) - 読了：Rhemtulla, et al. (2012) 順序カテゴリ変数を連続変数とみたてて確認的因子分析をやっちゃってよいものか

読書日記

読んだ本を淡々と記録します

2018年10月 7日 (日)