« 読了:Little, Slegers, Card (2006) 潜在変数モデルを識別するためのeffect-coding制約 | メイン | 読了:Reise (2012) 忘却の淵から甦れ、bifactorモデルよ »
2017年8月25日 (金)
Alvarez, I., Niemi, J., Simpson, M. (2014) Bayesian Inference for a Covariance Matrix. Proceedings of 26th Annual Conference on Applied Statistics in Agriculture, 71-82.
ベイズ推定で共分散行列の事前分布は逆ウィシャート分布とするのが定番だが、お兄さんがた、ほんとにそれでいいと思うのかい? という論文。SEM-NETで紹介されていて、仕事と関係する話ではあるので、ざっと目を通した次第。
ベクトル$Y_i$ ($i=1, \ldots, n$)がiidに$N(\mu, \Sigma)$に従う、というMVNなモデルを考える。$\Sigma$は$d$次元の正定値行列。
データ全体を$y$として、その尤度は
$\displaystyle p(y | \mu, \Sigma) \propto |\Sigma|^{-n/2} \exp \left( -\frac{1}{2} tr(\Sigma^{-1} S_\mu) \right)$
である。ただし$S_\mu = \sum^n_i(y_i-\mu)(y_i-\mu)^T$。
さて、共分散行列$\Sigma$の事前分布をどうするか。ふつうは自然共役事前分布である逆ウィシャート(IW)分布を使うところだが、ここではその他に、scaled IW分布, 階層IW分布, 分離方略を紹介しよう。
事前分布その1, IW分布。
$\displaystyle p(\Sigma) \propto |\Sigma|^{\frac{\nu+d+1}{2}} \exp(-\frac{1}{2}tr(\Lambda \Sigma^{-1}))$
ここで$\Lambda$は$d$次元の正定値行列, $\nu$は自由度で、$\nu > d-1$のときにproper。平均は$\nu > d+1$のときに $\Lambda / (\nu-d-1)$である。ふつうは$\Lambda=I, \nu = d+1$とする。こうするとすべての相関の周辺分布が一様になる。[←このくだり、全く意味を考えず虚心に写経している。だって、らららー、文系なんだものー]
その共役性によって広く愛されているIW分布だが、欠点が3つある。
- 全パラメータの不確実性がたったひとつの自由度によってコントロールされている。
- $\nu > 1$のtき、個々の分散の確率密度が0のあたりで極端に低くなり、事後分布にバイアスをもたらす。
- 分散が大きいと相関1ちかくに、分散が小さいと相関0ちかくになりやすい。
事前分布その2、scaled IW(SIW)分布。えーと、これはですね、要素$\delta_i$を持つ対角行列$\Delta$について$\Sigma \equiv \Delta Q \Delta$としてですね、
$Q \sim IW(\nu, \Lambda)$
$\log(\delta_i) \sim N(b_i, \xi_i^2)$ (iidで)
とするわけです。要するに変数ごとに分散を変えられるわけね。
事前分布その3、階層Half-t分布。まず
$\Sigma \sim IW(\nu+d-1, 2\nu\Lambda)$
とする。ここで$\Lambda$は対角行列で、その要素を
$\lambda_i \sim Ga(1/2, 1/\xi_i^2)$ (iidで)
とするんだそうです。なんだかさっぱりわからん。これはSDの事前分布をhalf-t分布にしていることになる由。なんだかさっぱりわからん。(繰り返し)
事前分布その4、分離方略。
$\Sigma \equiv \Lambda R \Lambda$とする。$\Lambda$は要素$\sigma^i$を持つ対角行列で、SDの事前分布。$R$は要素$\rho_{ij}$を持つ相関行列。とこのように分離しておいて、別々に事前分布を与える。ああそうか、SDと相関を別々にモデル化するのか。
相関のほうは、$R=\Delta Q \Delta$とし($\Delta$は対角行列で... 詳細省くけど、$Q$をうまいこと相関行列に変換するという主旨だと思う)、$Q \sim IW(\nu, I)$とする。で、$\log(\sigma^i)$はiidに$N(b_i,\xi_i)$に従うものとする。
なんでこれを取り上げるかというと、これがStanのオススメだから。
...なんだか関心がなくなっちゃったので(「能力が及ばない」の婉曲表現)、シミュレーションと実例をパスして一気に結論に飛ぶと...
- IWの場合、相関と分散とのあいだにアプリオリに強い依存性がみられる。その結果、IWを使うと事後分布に極端なバイアスがかかる(標本分散が小さい変数の分散が大きめになり、相関が0に接近する)。
- SIW, 階層Half-t分布も上記の傾向あり。
- 分離方略は、上記の点については大丈夫なんだけど、計算が大変。StanみたいなHMCサンプラーならどうにかなるんだけど、それでも大変だし、BUGSみたいなGibbsサンプラーだと超大変。
...いやー、正直わたくし仕事ではMplus一択、よって共分散行列の事前分布はIW一択なんだけど、こうしてみると、Mplusではやっぱ事前のスケーリングが大事ってことやね。Muthen導師の日頃のご託宣のとおりである。南無南無。
論文:データ解析(2015-) - 読了:Alvarez, et al. (2014) 共分散行列の事前分布は逆ウィシャート分布でいいのか