Muthen, B., Asparouhov, T. (2020) Latent Transition Analysis with Random Intercepts (RI-LTA). Psychological Methods, 27(1), 1-16.
仕事の都合で手に取った。Mplusの開発元であるMuthenチームが提案しているランダム切片潜在遷移分析(RI-LTA)の論文。
説明が丁寧でとても読みやすいし、内容も面白いのだが、ちょっといま時間がないもので、おおまかな主旨がわかったところで中断した。記録の都合で読了にしておくけれど、いつか必要になったら読み直そう、ということで…
1. (イントロダクション)
縦断データでは潜在離散状態(潜在クラス)における時間変化を特徴づけるために潜在遷移分析(LTA)が良く用いられている。しかし、通常のLTAは不必要なまでに制約的である。
通常のLTAは単一レベルのwide formatモデルである。しかし、マルチレベルモデルで被験者間変動と被験者内変動を分離したLTAモデルも可能である。この観点では被験者がbetweenレベルで時間がwithinレベルである。しかし、このアイデアの本質的な部分は、単一レベルのモデルでも表現できる。ランダム切片をいれて被験者間変動を許せばよいのである。これがランダム切片LTA(RI-LTA)である。
2. 通常のLTA
通常のLTAモデルは3つの部分からなる。
- 潜在クラス変数\(C_t\)の最初の時点。つまり\(P(C_1)\)。
- 遷移の部分。つまり、\(P(C_2|C_1), P(C_3|C_2), \ldots\)。普通のLTAはラグ1の影響しか受けない(マルコフ性)。定常性を課することもある。
- 測定の部分。つまり、\(P(U_t|C_t)\)。ふつうは指標\(U_t\)は\(C_t\)のみに影響され、かつ時点を通じて測定不変とされる。
通常のLTAはふつう最尤推定されるけど、ベイズ推定もできる。
通常のLTAモデルは単一モデル、wide formatで分析される。しかし、時間がwithinレベル(レベル1)、被験者がbetweenレベル(レベル2)である2レベルモデルとみることもできる。一般的な2レベルモデリングと同様に、被験者間のbetweenレベル変動を、withinレベルの時点間潜在遷移と切り離すことが重要である。主たる関心は個人内過程にあり、時点を通じて安定している個人間差異を取り除くのが本質である。
これは一般的なアイデアであって、他のいろんな文脈でみられる:
- 潜在特性-状態モデリング。安定的個人差を量的潜在変数としてモデル化する。
- Hamaker, Kuiper, & Grasman (2015 Psych.Methods)のいうcross-laged panel modeling (CLPM)とか。そのうち安定的個人差をランダム切片とする奴をRI-CLPMアプローチという。本論文の発想のもとになっている。
- Kenny & Zautra (1995) のモデル。連続的潜在状態\(s_t\)を考える。\(s_t\)には\(s_{t-1}\)からのパスと攪乱項のパスが刺さる。で、指標\(y_t\)があって\(s_t\)からのパスと攪乱項のパスが刺さり、さらに、共通する潜在特性変数\(t\)からのパスが刺さる。これを潜在特性-状態モデリングという人もいる。本論文はこれにも似ている。
[…] 本論文は以下の2つの側面に焦点を当てる。(1)通常のLTAにおいて、個人間の安定的な差異を無視しているせいで潜在遷移確率が歪むということ。(2)指標の測定的品質を正しく評価するのが大事だということ。
3. ランダム切片LTA (RI-LTA)
3.1 連続ランダム切片
RI-LTAというのはこの図のモデルである。[離散的潜在状態\(c_t\)があって\(c_{t-1}\)からパスが刺さっている。その指標\(u_{t1}, u_{t2}, \ldots\)に\(c_t\)からパスが刺さっている。さらに、連続的潜在変数\(f\)なり\(f1, f2\)なりなんなりからもパスが刺さっているけれど負荷は時点の間で共通]
因子数1の場合についてフォーマルに書こう。指標番号を\(r\), 被験者を\(i\), 時点を\(t\)として $$ logit(P(U_{rit} = 1 | c_{it} = j, f_i)) = \alpha_{rj} + \lambda_r f_i$$ 因子は\(N(0, 1)\)に従うと仮定する。
仮にこのモデルで生成されたデータを通常のLTAで分析したら、同じ状態にstayする確率が過大推定されるだろう。また、たとえば状態が満足と不満足だったとして、因子と負荷がポジティブだったら指標は満足側に寄るわけで、クラスの判別はちょっと難しくなる。ということは、仮にこのモデルで生成されたデータを通常のLTAで分析したら、クラスの分離がインフレを起こすわけである。
通常のLTAでは潜在クラスで条件づけた指標の確率は\(P(U_{rt} = 1|C_t = j)\)だが、RI-LTAでは因子で積分しないとわからない。でも近似的にはこういうことが言える。ロジスティック密度の分散は\(\pi^2/3 = 3.2865\)だから、ロジットをプロビットに変換して$$ P(U=1 | C = j) = \Phi \left( \frac{\alpha_j}{\sqrt{3.2865+\lambda^2 V(f)}} \right) $$ \(\lambda\)は負荷ね。\(V(f)\)は1にしておるわけだから、負荷が大きくなると確率は0.5に近づくわけだ。
3.2 二値ランダム切片
\(f\)を二値潜在変数\(I\)に差し替える。$$ logit(P(U_{rt}=1 | C_t = j, I = k)) = \alpha_r + \beta_{rj} + \gamma_{rk} $$
[ここで中断。あとは見出しのみメモする]
3.3 推定・モデリングにおける考慮事項
3.4 群と共変量
4. 関連するモデル: マルチレベルの視点から
4.1 マルチレベル因子分析におけるランダム切片
4.2 マルチレベル潜在クラス分析におけるランダム切片
5. モンテカルロ・シミュレーション
5.1 通常のLTAのパフォーマンス
5.2 RI-LTAのパフォーマンス
6. 分析例
6.1 気分データの分析
6.2 デート・データの分析
7. 考察
7.1 計算的側面
7.2 その他の変異的モデル
7.3 将来の課題
時点数とか指標数とかクラス数とか共変量とかに応じた必要標本サイズ。モデル誤指定への感受性。複数ステップからなる分析手順の確立。データがほんとに階層になってるときのマルチレベルRI-LTA。
———–
要するに、LTAの指標に時間不変な共通因子を刺すという話であった。なるほどね。いまやりたいこととはちょっと違うけど、いずれ使う機会があるかもしれない。幸いMplusのコードもたくさん公開されている。
ときに、LTAについて全然無知なもので、素朴な疑問なのだけれど… このモデルって潜在状態についてはマルコフ過程になっていると思うけど、推定に際して遷移行列に定常性の制約が掛かっている感じなのだろうか。たとえば潜在状態が人の状態不安だとして、観察期間中に不安が増大するトレンドがあるといった事態はありそうだから、定常性を仮定するのは強すぎるような気がする。マルコフ過程では吸収状態って言い方があるけれど、「その状態になったらもう出られない」ような状態があってもおかしくなさそうだし、動的因子分析のアナロジーでいうと、ランダムウォークみたいに収束先を持たない過程であってもおかしくないと思う。きっとちゃんと読んだら書いてあるだろうな、この話。