elsur.jpn.org >

« 読了:Little, Slegers, Card (2006) 潜在変数モデルを識別するためのeffect-coding制約 | メイン | 読了:Reise (2012) 忘却の淵から甦れ、bifactorモデルよ »

2017年8月25日 (金)

Alvarez, I., Niemi, J., Simpson, M. (2014) Bayesian Inference for a Covariance Matrix. Proceedings of 26th Annual Conference on Applied Statistics in Agriculture, 71-82.
 ベイズ推定で共分散行列の事前分布は逆ウィシャート分布とするのが定番だが、お兄さんがた、ほんとにそれでいいと思うのかい? という論文。SEM-NETで紹介されていて、仕事と関係する話ではあるので、ざっと目を通した次第。

 ベクトル$Y_i$ ($i=1, \ldots, n$)がiidに$N(\mu, \Sigma)$に従う、というMVNなモデルを考える。$\Sigma$は$d$次元の正定値行列。
 データ全体を$y$として、その尤度は
 $\displaystyle p(y | \mu, \Sigma) \propto |\Sigma|^{-n/2} \exp \left( -\frac{1}{2} tr(\Sigma^{-1} S_\mu) \right)$
である。ただし$S_\mu = \sum^n_i(y_i-\mu)(y_i-\mu)^T$。

 さて、共分散行列$\Sigma$の事前分布をどうするか。ふつうは自然共役事前分布である逆ウィシャート(IW)分布を使うところだが、ここではその他に、scaled IW分布, 階層IW分布, 分離方略を紹介しよう。

 事前分布その1, IW分布。
 $\displaystyle p(\Sigma) \propto |\Sigma|^{\frac{\nu+d+1}{2}} \exp(-\frac{1}{2}tr(\Lambda \Sigma^{-1}))$
ここで$\Lambda$は$d$次元の正定値行列, $\nu$は自由度で、$\nu > d-1$のときにproper。平均は$\nu > d+1$のときに $\Lambda / (\nu-d-1)$である。ふつうは$\Lambda=I, \nu = d+1$とする。こうするとすべての相関の周辺分布が一様になる。[←このくだり、全く意味を考えず虚心に写経している。だって、らららー、文系なんだものー]
 その共役性によって広く愛されているIW分布だが、欠点が3つある。

 事前分布その2、scaled IW(SIW)分布。えーと、これはですね、要素$\delta_i$を持つ対角行列$\Delta$について$\Sigma \equiv \Delta Q \Delta$としてですね、
 $Q \sim IW(\nu, \Lambda)$
 $\log(\delta_i) \sim N(b_i, \xi_i^2)$ (iidで)
とするわけです。要するに変数ごとに分散を変えられるわけね。

 事前分布その3、階層Half-t分布。まず
 $\Sigma \sim IW(\nu+d-1, 2\nu\Lambda)$
とする。ここで$\Lambda$は対角行列で、その要素を
 $\lambda_i \sim Ga(1/2, 1/\xi_i^2)$ (iidで)
とするんだそうです。なんだかさっぱりわからん。これはSDの事前分布をhalf-t分布にしていることになる由。なんだかさっぱりわからん。(繰り返し)

 事前分布その4、分離方略。
 $\Sigma \equiv \Lambda R \Lambda$とする。$\Lambda$は要素$\sigma^i$を持つ対角行列で、SDの事前分布。$R$は要素$\rho_{ij}$を持つ相関行列。とこのように分離しておいて、別々に事前分布を与える。ああそうか、SDと相関を別々にモデル化するのか。
 相関のほうは、$R=\Delta Q \Delta$とし($\Delta$は対角行列で... 詳細省くけど、$Q$をうまいこと相関行列に変換するという主旨だと思う)、$Q \sim IW(\nu, I)$とする。で、$\log(\sigma^i)$はiidに$N(b_i,\xi_i)$に従うものとする。
 なんでこれを取り上げるかというと、これがStanのオススメだから。

 ...なんだか関心がなくなっちゃったので(「能力が及ばない」の婉曲表現)、シミュレーションと実例をパスして一気に結論に飛ぶと...

というわけで、Stanをお使いの場合は分離方略がオススメ。でも計算が大変だったり無理だったりする場合、もし相関が推定できるだけでいいってんなら、あらかじめデータを分散1にしておいてIW分布を使うのがよろしい。とのこと。

 ...いやー、正直わたくし仕事ではMplus一択、よって共分散行列の事前分布はIW一択なんだけど、こうしてみると、Mplusではやっぱ事前のスケーリングが大事ってことやね。Muthen導師の日頃のご託宣のとおりである。南無南無。

論文:データ解析 - 読了:Alvarez, et al. (2014) 共分散行列の事前分布は逆ウィシャート分布でいいのか