elsur.jpn.org >

« 読了:Demaris(2002) ロジスティック回帰の説明率指標をもっときちんと品定め | メイン | 読了:Abdi (2007) PLS回帰 »

2012年3月23日 (金)

Clark, S., & Muthen, B. (2009) Relating latent class analysis results to variables not included in the analysis. Submitted for publication.
 未公刊のdraftらしいのだが、MplusでLCAを行うという話のなかでよく引き合いに出されるので、ざっと目を通した。第一著者の修論かなにかかしらん。

 潜在クラス分析で個体を分類した際、次に問題になるのは、潜在クラスの説明変数になっているかもしれない変数(共変量)とクラスとの関係を調べることである。えーっと、市場調査におけるアドホックなセグメンテーションの例でいえば、なにかの項目群への回答によって調査対象者をセグメントに分けてから、デモグラフィック特性とセグメントのクロス表をみる、というのがそれですね。しかし、所属先クラス別に共変量の分布を調べるのは、実はあまりうまいやり方ではない、かもしれない。あるクラスに分類された個体のなかには、所属確率が1に近い個体もあれば低めな個体もあるからだ。じゃあどうすればいいか、という研究。
 実データ(2つ)とシミュレーションで、5つの方法を比較する。(1)クラス別に共変量の分布を調べて比較。(2)各クラスへの所属確率のロジットを目的変数、共変量を説明変数にした回帰。(3)所属先を目的変数、共変量を説明変数にした回帰を、所属確率でウェイティング。(4)pseudo-class drawという方法。所属確率の分布に従って個体を抽出し、得られたクラスについて共変量の分布を比べる。最近Mplusに追加された「AUXILIARY= ほにゃらら(r)」ってのがこれであろう。(5)「分類してから分析」という発想を悔い改め、LCAモデルのなかに共変量を入れて一発推定。
 推定として(5)が正しいことはわかっているけど、潜在クラスの解釈が難しくなるわけで(その分類はいったい何に基づく分類なんですか?という話になる)、焦点は(1)-(4)のうち少しでもましなものを選ぶことである。例によって、シミュレーションの部分は斜め読みで済ませた。すいません。
 著者らいわく、もしLCAのエントロピーが高かったら(0.80以上とか)、所属先クラスをつかっちゃってかまわない。いっぽうエントロピーが低い場合は、(1)-(4)のどの方法でも、標準誤差を低めに推定してしまうことになる由。というわけで、お勧めの手順は以下の通り: まず、共変量抜きでLCA。次に、共変量群が潜在クラスに効いてるかどうか、pseudo-class Waldテストで確認。もし効いていたら、pseudo-class回帰で共変量を絞り込む。そして最後に、効いている共変量をモデルに投入して再推定。

 実のところ、潜在クラスがなんらかのアウトカムの説明変数になっているかもしれない場合について知りたかったんだけど、まあ勉強になったからいいや。そういう話としてはPetras & Masyn(2009)というのが引用されているが、成長混合モデルの文脈での研究らしい。

論文:データ解析(-2014) - 読了: Clark & Muthen (2009) 潜在クラスと他の変数との関係を調べる方法