« 動的因子分析ってなんですか | メイン | 読了: Zhang, Hamaker, & Nesselroade (2008) 動的因子分析の地上最強の推定方法はどれだ »
2014年7月 6日 (日)
Molenaar, P.C.M., Ram, N. (2009) Advances in dynamic factor analysis of psychological processes. Valsiner et al.(eds), "Dynamic Process Methodology in the Social and Developmental Sciences." Chapter 12.
先日読んだDu & Kamakura でお勧めされていた、動的因子分析についてのレビュー。苦手分野なので、メモを取りながら読んだ。
著者らいわく:
心理学における統計的分析は、ふつう標本における個人差の構造を分析しそれを母集団に一般化するわけだけど[←スキナリアンの方は異論がおありでしょうね]、それらは対象者の等質性という想定に依存している。この想定は古典的エルゴード定理に基づいている。(←ここで放り投げて寝ちゃおうかと思ったけど、我慢我慢)
たとえば時間に注目しよう。心理学が探求しているのは、知覚、感情、認知、生理、などの下位システムを含む高次元の動的システムである。システムの振る舞いを特徴づける時間依存変数の集合は、ある高次元空間における座標として表現できる。この空間のことを行動空間と呼ぼう。
行動空間において個人間変動は以下のようにして定義される:
- 変数の固定された下位集合を選択し、
- 固定された測定時点をひとつないし複数個選択し、
- その変数のその時点の得点の、対象者を通じた変動を決定する。
これに対し、個人内変動は以下のように定義される:
- 変数の固定された下位集合を選択し、
- ある固定された対象者を選択し、
- その変数におけるその対象者の得点の、時点を通じた変動を定義する。
前者はCattellいうところのRテクニック、後者はPテクニックである。
プロセスが定常で(つまり平均が一定で系列的依存性が時間不変)、かつそれぞれの個人が同一のダイナミクスに従っているとき、このプロセスはエルゴード性があるという。Rテクニックの結果とPテクニックの結果に法則的な関係が生じるのは、エルゴード性が満たされているとき、そのときに限られる。これが古典的エルゴード定理である。
古典的エルゴード定理は心理学における統計手法すべてに影響する。たとえば、発達過程は定常でない。研究者は平均における変化について考えるが、本当は変化というのは分散や系列的依存性のなかにひそんでいるのかもしれないのだ。
さて、動的因子分析とは単一の被験者の多変量時系列の因子分析である。これはCattellのPテクニックの一般化である。Pテクニック因子分析についてはMolennar & Nesselroade (2008, MBR)をみよ。
時点 $t$ における $p$ 個の変量のベクトル $y(t)$ について考える。時点 $t$ におけるその平均を $E[y(t)] = \mu(t)$ とする。時点$t_1$と$t_2$の系列共分散を $\Sigma(t_1, t_2) = cov[ y(t_1), y(t_2)' ]$ とする。$\mu(t)$が定数で、$\Sigma(t_1, t_2)$が $t_1-t_2=u $にのみ依存していたら、$y(t)$は弱定常であるという。
心理学において最初に動的因子分析を用いたのはワシじゃ(Molenaar, 1985)。あれは弱定常多変量ガウシアン時系列のモデルじゃった。
$y(t) = \mu + \Lambda(0) \eta(t) + \Lambda(1) \eta(t-1) + \ldots + \Lambda(s) \eta(t-s) + \epsilon(t)$
$\eta(t)$は$q$個の因子系列。$\Lambda(u)$は$(p,q)$行列でラグ$u$の因子負荷を表す。$\Lambda(0) \eta(t)$ から $\Lambda(s) \eta(t-s)$までの線形結合を畳み込みという。
なお、$s=0 $のケース、すなわち
$y(t) = \Lambda(0) \eta(t) + \epsilon(t)$
は状態空間モデルとかプロセス因子モデルとか言われておる。
共分散については
$cov[ \epsilon(t), \epsilon(t-1)' ] = diag-\Theta(u)$
$cov[ \eta(t), \eta(t-1)' ] = \Psi(u)$
と考えておった。$diag-A$ってのは正方対角行列のことね。
ちょっとややこしい話になるが、ラグの最大値 $s$ が$0$以上であり、かつすべての$\Lambda(u)$ を自由推定する場合、$\eta(t)$の共分散関数は識別できなくなる。そこでワシは
$cov[ \eta(t), \eta(t-1) ] = \delta(u) I_q $
とした。$\delta(u)$はクロネッカーのデルタってやつで、$u=0$のとき$1$, でなければ$0$である。つまり、$\eta(t)$はランダム・ショック、ないしホワイト・ノイズだとしたのである。もっとも他の定式化も可能である。Molennar & Nesselroade (2001, Psychometrika)をみよ。
いっぽう、ラグの最大値が$0$だったら(状態空間モデル)、ないし検証的なモデルで$\Lambda(u)$ が固定されていたら、$\eta(t)$の共分散関数は識別可能となる。このときは$\Psi(u)$を自由推定できる、ないし$\eta(t)$のパラメトリック時系列モデルを推定できる(自己回帰モデル $\eta(t) = B \eta(t-1) + \zeta (t)$ とかね)。
状態空間モデルを考えちゃうのは都合は良いが、$\eta(t)$が$y(t)$に及ぼす効果が遅延している場合には不適切で、お勧めできない。いっぽう、$\eta(t)$と$y(t)$のあいだにあんまりヤヤコシイ関係を考えなくてもいい。(実例省略)
こういう定常多変量ガウシアン時系列モデルを推定する方法はいろいろあって:
- ブロック・トープリッツ行列に基づく方法。そのへんのSEMのソフトで推定できる。またBrowne & Zhang はDyFAというプログラムを作っていて、これはブロック・トープリッツ行列を使わず、自己相関関数に直接フィッティングする。
- 状態空間モデルだったら、ローデータの尤度についてのEMアルゴリズムという手がある。Hamaker, Doran, Molenaar(2005,MBR)とか。
- 離散フーリエ変換を使い、一連のfrequency-dependent complex-valued factor modelを作る(←???)。これは通常の最尤法因子分析で推定できる。
- 潜在因子系列だけではなく未知パラメータを含む状態空間モデルに書き直して拡張カルマンフィルタを使う。
ここで動的因子分析のイノベーティブな応用をご紹介しよう。複数の対象者から得た多変量時系列を使い、個人記述的な観察から法則定立的な関係性を導き出すのだ。(→以下、ご自身の研究の紹介。妊娠中の気分の変化の分析。ブロック・トープリッツ行列を使う。原論文がどれなのかいまいちはっきりしないんだけど、たぶんNesselroade, et al.(2007, Measurement)。省略)
さあ、こんどは定常性の問題を考えよう。定常性をどうやって検証したら良いか、また非定常系列をどうモデル化するか。
状態空間に基づき、こう考えよう。
$y(t) = \Lambda[\theta(t)] \eta(t) + v(t)$
$\eta(t+1) = B[\theta(t)] \eta(t) + \zeta(t+1)$
$\theta(t+1) = \theta(t) + \xi(t+1)$
$\theta(t)$は長さ $r$ の時間変動パラメータ・ベクトルで、ガウシアン・ホワイトノイズ $\xi(t)$ によってランダム・ウォークする。因子負荷も自己回帰ウェイトも $\theta(t)$ に依存する。共分散行列は以下の通りとする。(←なんでこんなややこしい記号の振り方をするんですかね。$\xi$の共分散を$diag-\Xi$にすりゃいいのに)
$cov[ v(t), v(t-u)' ] = \delta(u) diag-\Xi$
$cov[ \zeta(t), \zeta(t-u)' ] = \delta(u) diag-\Psi$
$cov[ \xi(t), \xi(t-u)' ] = \delta(u) diag-\Phi$
推定にはEMアルゴリズムと拡張カルマンフィルタを使う... (略)。シミュレーションの結果を見てくれたまえ... (略)。
まとめ。動的因子分析の将来はチャレンジングである。非エルゴード的な心理過程の研究においては、古典的エルゴード定理により、個人内変動の構造に焦点を当てなければならんからである。云々、云々。
いやー、Molenaar先生という方の癖なのかもしれないけど、ちょっと肩肘張った感じの文章で辛かった。
いちばん勉強になった点は... Molenaar先生に由来するといわれているタイプの動的因子分析では、潜在変数と観測変数の間にラグ付きのパスをひきまくり、たくさんのパス係数(因子負荷)を推定するのだけれど、しかし潜在変数の時系列には構造を考えない。これは「しょせん人間なんて根っこのところでは定常で、変動なんてただのホワイトノイズさ、でも指標においていろいろ遅延が生じるせいで、見た目上複雑な時系列的連関を示す多変量時系列が生まれちゃうのさ」というシニカルな視点があるのかと思っていた。なんというか、強力な仮定の下での分析だなあ、という印象だったのである。
でもこの論文での説明をみる限り、まず最初に「観測変数がそれぞれ異なる遅延を抱えている」という実質的な信念があって、それを探索するためにとりあえず時系列構造のない潜在変数系列を考えるけど、でもそれは方便で、もし遅延の構造について見通しが立ったら、因子負荷行列に検証的な制約を与え潜在変数についての時系列モデルを組むのも良い... という感じだ。いやー、なんか君のことを誤解してたような気がするよピーター。(←大きな態度)
論文:データ解析(-2014) - 読了:Molenaar & Ram (2009) 動的因子分析レビュー