読書日記: 読了：Vermunt (2010) 潜在クラスと他の変数との関係を調べる方法 (蘭学バージョン)

« 読了：Royston (1993) 電卓でできる Shapiro-Francia 検定 (電卓でやりたいかどうかは別として) | メイン | 読了：Pennock, et al. (2001) 人工市場で科学的発見を予測 »

2012年3月26日 (月)

Vermunt, J.K. (2010) Latent class modeling with covariates: Two improved three-step approaches. Political Analysis. 18(4), 450-469.
　先日読んだ Clark & Muthen (2009)に引き続き、潜在クラスと共変量の関係を調べる方法について。こんどは Latent Gold 開発者のVermuntさんの論文。ここでthree-step approachesといっているのは、要するに「分類してから分析」作戦のことで、潜在クラスモデル構築、対象者の分類、共変量と所属先の関係を調べる、で計3ステップになる。Clarkらが比較していた5つの方法のうち、pseudo-class drawを除く4つが検討範囲で、そのかわり所属確率でウェイティングする手法の改善案が2つ提案されている。

　第一の改善案は... Clarkらは引用していなかったが(なぜだろうか)、もともと Bolck, Croon, & Hagenaars(2004, Political Analysis) の方法というのがある。潜在クラスをX, 指標のベクトルをY, LCAモデルによって推定された所属クラスをWとする。対象者 i のカテゴリカル共変量群のベクトルが Z_i であるとき、彼がクラス s に分類される確率は、「Z_i の下で彼がクラス t に属する確率」と「クラス t に属する人が Y を示す確率」と「Yを示した人が s に分類される確率」の積の和、つまり
　P(W = s | Z_i) = \sum_t \sum_Y P(X=t | Z_i) P(Y | X=t) P(W=s | Y)
これを整理すると
　P(W = s | Z_i) = \sum_t P(X=t | Z_i) P(W=s | X=t)
後ろのほうは誤判別率で、LCAではふつう所属確率の経験分布から推定する。要するに、P(W=s | Z_i) は P(X=t | Z_i)を誤判別率P(W=s | X=t)を重みにして結合したものになっている。いま、左辺のP(W=s | Z_i), 右辺のP(X = t | Z_i), 誤判別率 P(W=s | X=t) がそれぞれ行列 E, A, Dの要素であるとすると
　E = A D
Dに逆行列がある限り
　A = E D^{-1}
そこで、共変量ベクトルが取りうる値のパターンを行, Wを列にとったクロス表を N とし(ここにEの情報がはいっている)、N* = N D^{-1} をAの推定値としましょう... というのがBolckらのアイデア。尤度関数に書き換えると、ウェイティングしたロジスティック回帰になっているんだそうだ(数式を追いかけるのが面倒になってきた...)。で、Vermuntさんが提案しているのは、この方法をちょっと変えて、共変量が量的である場合にも対応できるようにしたもの。

　どちらにしても、誤判別率P(W=s | X=t) を経験分布から推定しているせいで、標準誤差は多少なりとも過小評価されるはずなのだが、シミュレーションによれば(適当に飛ばし読み)、どちらもBolckらの方法よりは良いのだそうな。ついでに実データへの適用例をLatent Goldのシンタクス付きで示している(こちらも飛ばし読み。すいません)。

　私のような素人からみると、西海岸のMuthenさんたち(Mplus製造元)や東海岸のCollinsさんたち(proc lca製造元)の論文と、オランダのVermuntさんたち(Latent Gold製造元)の論文は、内容がとても近いことが多いように思えるのだが、相互引用はなぜか少ない。研究分野の違いだろうか。
　Mplusで誤判別率既知のLCAをどう書けばいいのか、知りたいところだが... Muthen先生はきっと「pseudo-class drawにしとけ」と仰せだろうなあ。

論文：データ解析(-2014) - 読了：Vermunt (2010) 潜在クラスと他の変数との関係を調べる方法 (蘭学バージョン)

読書日記

読んだ本を淡々と記録します

2012年3月26日 (月)