elsur.jpn.org >

« 読了:「状態空間時系列分析入門」「An introduction to State Space Time Series Analysis」 | メイン | 読了:Braun & Johnson (2010) 多国間調査のデータを国と国の間で比較できるかどうかを調べる方法を総ざらえ »

2014年10月31日 (金)

Ram, N., Brose, A., Molenaar, P.C.M. (2013) Dynamic factor analysis: Modeling person-specific process. in Little, T.D. (ed.) The Oxford Handbook of Quantitative Methods in Psychology: Vol. 2: Statistical Analysis. Chapter 21. Oxford Univ. Press.
 動的因子分析の解説。なんだか億劫で読んでいなかったのだが(第三著者の名前のせい。この先生の文章って難しいのだ)、整理の都合もあるので目を通した。

 背景。
 単一のヒトのオケージョンx変数行列を分析する方法としてはキャッテルのP-technique因子分析があった。その後、データの時間依存性を正面からモデル化する時系列手法が出てきた(Box-Jenkinsとか)。この2つを合わせたのがワシMolenaarの動的因子分析(DFA)じゃ。DFA的なモデルは状態空間モデルの枠組みで広く用いられておる。
 えーと、個人レベルの行動の背後にある適応過程や制御過程に注目する、person-specificアプローチというのがあって(Nesselroadeという人の研究がいくつか挙げられている。発達研究かな)、ワシMolenaarはエルゴード定理の観点からその重要性をあきらかにしたのじゃ。云々。

 技術的背景。
 $p$変量の観察時系列を $y(t)$とする$(t = 1,2, \ldots, T)$。P-technique因子分析モデルは
 $y(t) = \Lambda \eta(t) + \epsilon(t)$
ここで観察は時点間で独立だと仮定されている (←そうなのか、キャッテルは$\eta(t)$の時系列構造を考えたわけじゃなかったのか...)。
 MolenaarのDFAだと、さらにこう考える:
 $\eta(t) = B_1 \eta(t-1) + B_2 \eta(t-2) + \cdots + B_s \eta(t-s) + \zeta(t)$
 潜在因子に自己回帰とクロス回帰を組むわけだ。これを$y(t)$の式に代入して
 $y(t) = \Lambda [\zeta(t) + B_1 \eta(t-1) + \cdots + B_s \eta(t-s)] + \epsilon(t)$
 一般化して
 $y(t) = \Lambda_0 \eta(t) + \Lambda_1 \eta(t-1) + \cdots + \Lambda_s \eta(t-s) + \eta(t)$
 そうか、$\eta(t)$に時系列構造を与えようが、$y(t)$にラグつき因子負荷を与えようが、結局は同じことか...
 もっとも著者ら曰く、同じDFAであっても、configurationsのちがい、モデルが示唆する過程の本質のちがいによって、数多くの差が出てくる、とのこと。

 DFAを行う5つのステップ。
 ステップ1. リサーチ・クエスチョンを立てる。たとえば(←ということだと思うんだけど)、DFAは個人の安定性維持過程を調べるのに向いている。モデルのパラメータは均衡からの/への移動の定量化であるとみなすことができる(キャリーオーバーとかスピルオーバーとかバッファリングとか)。
 ステップ2. 研究デザインとデータ収集。十分な長さのデータを、現象に照らして適切なタイム・スケールで、等間隔に採るべし。少なくとも100時点、パラメータあたり5時点はほしい。さらに、個人内の変動をちゃんと捉えていないと困る。
 ステップ3. 変数選択とデータの前処理。SDが0.1を切る変数を抜くとか、8割がた同じ値である変数を抜くとか。問題は抜くべき変数が人によって違っていたときで、人ごとに抜くべき変数を抜く(人によって変数セットが変わってきちゃうけど)、抜くべき変数が多い人を丸ごと抜く、人も変数も抜いてどうにか綺麗に揃える、といった手がある。前処理の目標は弱定常性を確保すること(←おおっと...)。回帰で循環成分を抜くとかなんとか、手法はいっぱいある(Shumway & Stofferの教科書を読めとのこと)。
 ステップ4. フィッティング。SEMのソフトでML推定する路線、カルマンフィルタを使う路線、ベイジアン路線、OLS路線など。
 ステップ5. 個人差の検討。SEMの多群モデルで、2人のひとのパラメータが同じかどうか調べるとか、なんとか。

 今後の課題。
 その1、非定常性の問題。ここ、私にとっては深刻な話なのでメモすると...
 発達研究ではintra-individual changeとintra-individual variabilityを区別する。従来、前者は成長曲線とかで、後者は弱定常性の仮定の下での動的過程として捉えられてきた。しかし残念ながら人間というシステムは定常でない。よってDFAのような定常モデル(←???)には限界があり、非定常性へと拡張しなければならない。
 Kim & Nelson(1999, 書籍)は多レジーム状態空間モデルを示している。カテゴリカルなスイッチング変数 $S(t)$を考えて
 $y (t) = \Lambda_{S(t)} \eta(t) + \epsilon(t)$
 $\eta(t) = B_{1 S(t)} \eta(t-1) + \zeta(t)$
完全な時変パラメータに拡張することもできる。Molenaar et al.(2009, Dev.Psy.), Molenar & Ram(2009, 論文集)はカルマン・フィルタを使って
 $y (t) = \Lambda(t) \eta(t) + \epsilon(t)$
 $\eta(t) = B_1(t) \eta(t-1) + \zeta(t)$
ほかに状態空間モデルで循環成分を組み込んだ研究もある。云々。
 著者らいわく「要約すると、非定常性は人間の機能の現実なのだからそれに取り組まねばならない。それが可能なモデルが利用可能だし、人間のデータに対して今や利用されつつある。このトレンドが続くなら - 語呂合わせになっちゃいましたが [mind the pun] -現実の生活を特徴づける複雑な変化を記述し予測する我々の能力は、ますます拡張するであろう」とのこと。
 その2、適応のためのガイドの提供。モデルによって個人に対する適切な介入ができるようになるかも。
 その3、個性記述フィルタ。指標のモデルは人によって違うけど背後のプロセスは人を問わず同じ、というようなモデルが組めるかも。云々。

 よくわからなかった点:
 著者らの発想では、DFAとはもともと弱定常性を持つ多変量時系列のための手法なんだけど、ここで弱定常性が要請されているのはなぜだろうか。私はあきらかに平均非定常な多変量時系列に関心があるので(消費者指標やマーケット指標のことを考えているから)、これは切実な疑問だ。
 著者らの観点からは、弱定常性はそれがintra-individual variablityのモデルだという実質的解釈から要請されていたのであって、DFAモデルそのものからの要請ではないような気がする。DFAモデルのパラメータ推定という観点からは、まあ撹乱項の共分散は時間独立でないと困るけど、観察変数なり状態変数なりの期待値が時間独立であることは、最初からどうでもいいんじゃないですかね... だから、「DFAモデルは定常モデルだ、多レジームモデルや時変パラメータなどへの拡張が必要だ」というのは、言い方として正確なのかしらん、と... うううむ...

論文:データ解析 - 読了:Ram, Brose, Molenaar (2013) 動的因子分析による個人の心的過程のモデル化