読書日記: 読了：Alvarez, et al. (2014) 共分散行列の事前分布は逆ウィシャート分布でいいのか

« 読了：Little, Slegers, Card (2006) 潜在変数モデルを識別するためのeffect-coding制約 | メイン | 読了：Reise (2012) 忘却の淵から甦れ、bifactorモデルよ »

2017年8月25日 (金)

Alvarez, I., Niemi, J., Simpson, M. (2014) Bayesian Inference for a Covariance Matrix. Proceedings of 26th Annual Conference on Applied Statistics in Agriculture, 71-82.
　ベイズ推定で共分散行列の事前分布は逆ウィシャート分布とするのが定番だが、お兄さんがた、ほんとにそれでいいと思うのかい？という論文。SEM-NETで紹介されていて、仕事と関係する話ではあるので、ざっと目を通した次第。

　ベクトル$Y_i$ ($i=1, \ldots, n$)がiidに$N(\mu, \Sigma)$に従う、というMVNなモデルを考える。$\Sigma$は$d$次元の正定値行列。
　データ全体を$y$として、その尤度は
　$\displaystyle p(y | \mu, \Sigma) \propto |\Sigma|^{-n/2} \exp \left( -\frac{1}{2} tr(\Sigma^{-1} S_\mu) \right)$
である。ただし$S_\mu = \sum^n_i(y_i-\mu)(y_i-\mu)^T$。

　さて、共分散行列$\Sigma$の事前分布をどうするか。ふつうは自然共役事前分布である逆ウィシャート(IW)分布を使うところだが、ここではその他に、scaled IW分布, 階層IW分布, 分離方略を紹介しよう。

　事前分布その1, IW分布。
　$\displaystyle p(\Sigma) \propto |\Sigma|^{\frac{\nu+d+1}{2}} \exp(-\frac{1}{2}tr(\Lambda \Sigma^{-1}))$
ここで$\Lambda$は$d$次元の正定値行列, $\nu$は自由度で、$\nu > d-1$のときにproper。平均は$\nu > d+1$のときに $\Lambda / (\nu-d-1)$である。ふつうは$\Lambda=I, \nu = d+1$とする。こうするとすべての相関の周辺分布が一様になる。[←このくだり、全く意味を考えず虚心に写経している。だって、らららー、文系なんだものー]
　その共役性によって広く愛されているIW分布だが、欠点が３つある。

全パラメータの不確実性がたったひとつの自由度によってコントロールされている。
$\nu > 1$のｔき、個々の分散の確率密度が0のあたりで極端に低くなり、事後分布にバイアスをもたらす。
分散が大きいと相関1ちかくに、分散が小さいと相関0ちかくになりやすい。

　事前分布その２、scaled IW(SIW)分布。えーと、これはですね、要素$\delta_i$を持つ対角行列$\Delta$について$\Sigma \equiv \Delta Q \Delta$としてですね、
　$Q \sim IW(\nu, \Lambda)$
　$\log(\delta_i) \sim N(b_i, \xi_i^2)$ (iidで)
とするわけです。要するに変数ごとに分散を変えられるわけね。

　事前分布その３、階層Half-t分布。まず
　$\Sigma \sim IW(\nu+d-1, 2\nu\Lambda)$
とする。ここで$\Lambda$は対角行列で、その要素を
　$\lambda_i \sim Ga(1/2, 1/\xi_i^2)$ (iidで)
とするんだそうです。なんだかさっぱりわからん。これはSDの事前分布をhalf-t分布にしていることになる由。なんだかさっぱりわからん。(繰り返し)

　事前分布その４、分離方略。
　$\Sigma \equiv \Lambda R \Lambda$とする。$\Lambda$は要素$\sigma^i$を持つ対角行列で、SDの事前分布。$R$は要素$\rho_{ij}$を持つ相関行列。とこのように分離しておいて、別々に事前分布を与える。ああそうか、SDと相関を別々にモデル化するのか。
　相関のほうは、$R=\Delta Q \Delta$とし($\Delta$は対角行列で... 詳細省くけど、$Q$をうまいこと相関行列に変換するという主旨だと思う)、$Q \sim IW(\nu, I)$とする。で、$\log(\sigma^i)$はiidに$N(b_i,\xi_i)$に従うものとする。
　なんでこれを取り上げるかというと、これがStanのオススメだから。

　...なんだか関心がなくなっちゃったので(「能力が及ばない」の婉曲表現)、シミュレーションと実例をパスして一気に結論に飛ぶと...

IWの場合、相関と分散とのあいだにアプリオリに強い依存性がみられる。その結果、IWを使うと事後分布に極端なバイアスがかかる(標本分散が小さい変数の分散が大きめになり、相関が0に接近する)。
SIW, 階層Half-t分布も上記の傾向あり。
分離方略は、上記の点については大丈夫なんだけど、計算が大変。StanみたいなHMCサンプラーならどうにかなるんだけど、それでも大変だし、BUGSみたいなGibbsサンプラーだと超大変。

というわけで、Stanをお使いの場合は分離方略がオススメ。でも計算が大変だったり無理だったりする場合、もし相関が推定できるだけでいいってんなら、あらかじめデータを分散1にしておいてIW分布を使うのがよろしい。とのこと。

　...いやー、正直わたくし仕事ではMplus一択、よって共分散行列の事前分布はIW一択なんだけど、こうしてみると、Mplusではやっぱ事前のスケーリングが大事ってことやね。Muthen導師の日頃のご託宣のとおりである。南無南無。

論文：データ解析(2015-) - 読了：Alvarez, et al. (2014) 共分散行列の事前分布は逆ウィシャート分布でいいのか

読書日記

読んだ本を淡々と記録します

2017年8月25日 (金)