読書日記: 読了：Flora & Curran (2004) カテゴリカルCFAで潜在反応変数に二変量正規性がなかったときにどうなるか、WLS推定とWLSMV推定を比べてみた

« 読了：大隅(2002, 2006) ネット調査の課題 | メイン | 読了：Royston, Ambler, Sauerbrei (1999) fractional polynomialsによる非線形回帰への招待 »

2016年6月 7日 (火)

調査手法論とか経験デザインとか考えているのがなんだか嫌になっちゃって、飯のついでの息抜きに、会社のソファーでうとうとしながら読んだやつ。仕事しろよ...

Flora, D.B., Curran, P.J. (2004) An empirical evaluation of alternative methods of estimation for confirmatory factor analysis with ordinal data. Psychological Methods, 9(4), 466-491.
　順序尺度のCFAの推定方法をシミュレーションで比べました、という話。別にどうでもいいっちゃどうでもいいような話なんだけど(すいません)、リッカート尺度のCFAは仕事で頻繁に使うので、前からちょっと気になっていた話題ではあるので。
　いまみたら、鬼のように引用されている論文であった。google様的には被引用件数1342。まじか。

　以下、Muthenにならって[←ほんとにそう書いてある]、カテゴリ数$C$の順序変数$y$の背後に、潜在反応を表す連続変数$y^*$と閾値$\tau_0, \tau_1, \ldots, \tau_C$を考える。$\tau_0 = -\infty$, $\tau_C = +\infty$ね。

　まずはポリコリック相関についておさらい。$y_1$の閾値を$a_i$, $y_2$の閾値を$b_j$とする。セル$(i,j)$の観察度数を$n_{ij}$、観察割合を$P_{ij}$、確率を$\pi_{ij}$とする。
　ポリコリック相関の算出には、ふつうOlsson(1979)の2段階手続きが用いられる。以下、$y^*_1$と$y^*_2$が2変量正規分布に従うと仮定する。
　第1段階では単変量でみて閾値を推定する。すなわち、周辺の観察累積割合を$P_{i.}, P_{.j}$として、
　$a_i = \Phi^{-1}_1 (P_{i.})$
　$b_i = \Phi^{-1}_1 (P_{.j})$
$\Phi^{-1}_1$ってのは標準正規累積分布の逆関数。
　第2段階では、2変量の相関$\rho$をML推定する。対数尤度は
　$l = \log K + \sum\sum n_{ij} \log \pi_{ij}$
$pi_{ij}$から$\rho$を逆算できる [式は省略]。

　さて、ポリコリック相関行列をそのまま使ってML推定するSEMはよろしくない。それでもたいてい一致推定量は得られるのだが[←あ、そうなの？]、検定統計量とSEが歪む。
　一般的なのはWLS推定量を使う方法。上で求めたポリコリック相関のベクトルを$s$、モデルから出てくるベクトルを$\sigma(\theta)$として、
　$F_{WLS} = [s - \sigma(\theta)]' W^{-1} [s - \sigma(\theta)]$
ここで重み$W$は正定値行列で、ポリコリック相関の分散共分散から求める(頭が混乱してくるね...)。まあとにかくこいつから漸近的に有効なパラメータ推定量が得られることがわかっている。観察変数の分布を特定していないので、漸近的分布自由(ADF)推定量とも呼ばれる。
　エレガントなんだけど、問題点が二つ。(1)もともとの2変量正規性が破られていたらどうなるかがわかっていない。(2)変数の数が多いと$W$が正定値行列でなくなる。Joreskogさんは、変数の数を$k$として、データサイズが最低$(k+1)(k+2)/2$ないと困ると云っている由。
　
　そこで登場したのが、MuthenのロバストWLS推定量[MplusでいうところのWLSMVね]。
　その理屈は... [なんか疲れてきちゃったので省略。要するに、$W$の逆行列を求めないですむようにちょっとズルするのである]

　。。。さて、$y^*$のペアの間の2変量正規性が破られていたらどうなるか、シミュレーションで調べましょう、というのがこの論文の主旨である。
　なんか疲れてきちゃったので、委細すっとばして要点のみメモ。

　以下を操作する。

連続潜在反応分布、5水準。ひとつはMVNで、残り四つは尖度と歪度を動かして作る。[読み飛ばしたんだと思うけど、どうやって作ったんだろう？独自因子の分布は正規のままで、因子得点の尖度と歪度をいじっているってことかしらん]
カテゴリ数、2水準。2と5。閾値は動かさない。[よくわからんが、たぶん全項目で同じ閾値にしているんだろうな]
真のモデル、4水準。1因子5指標、1因子10指標、2因子各5指標で因子間相関あり、2因子10指標で因子間相関あり。負荷はぜーんぶ0.7、独自性はぜーんぶ0.51、因子間相関は0.3。
サンプルサイズ。4水準。100, 200, 500, 1000。

　結果がいろいろ書いてあったんだけど... すいません、根気が尽きたので、パラパラ捲って済ませてしまいました。まあ結論としてはこういうことである由。

潜在反応変数が多少非正規でも、CFAモデルの推定はわりかしロバスト。
でもWLS推定ではカイ二乗値が高め、パラメータのSEが低めになる。ロバストWLSならそれほどでもない。
非正規性がすごくきついと、クロス表にちっちゃなセルができちゃうのでやばい。

　というわけで、ユーザ諸君に告ぐ。潜在変数の正規性という仮定についてはCFAは比較的にロバスト。推定量はロバストWLSがおすすめ。でもまあ、モデルの指定が正しければの話だけどな。はっはっは、グッドラック！[←とは書いてないけど]

　いやー、途中からもう眠くて眠くて... ある段落を読んでいると、途中から内容が小説に代わってしまったりするのである(もちろん夢をみているのだ)。困るなあ。
　疑問点が2つ。(1)推定はMplusでやっているけど、いまでもMplusはこの論文で説明されている手順でポリコリック相関を求めているのかしらん。なんかこの... もっとカッコいい方法があったりしないのかしらね...。これはMuthen導師の論文をちゃんと読めばわかりそうな話だ。(2)WLS, ロバストWLSをベイズ推定と比べるとどうなのかしらん。これもMuthen一家がやってそうだな。

論文：データ解析(2015-) - 読了：Flora & Curran (2004) カテゴリカルCFAで潜在反応変数に二変量正規性がなかったときにどうなるか、WLS推定とWLSMV推定を比べてみた

読書日記

読んだ本を淡々と記録します

2016年6月 7日 (火)