読書日記: 読了：Navarro, et al. (2005) ディリクレ過程に基づく個人差モデリング

« 読了：Goldstein (2006) 主観ベイジアン宣言 | メイン | 読了：Zubizarreta(2012) ケース・コントロール研究でのマッチングを混合整数計画でやりましょう »

2016年8月 2日 (火)

Navarro, D.J., Griffiths, T.L., Steyvers, M., Lee, M.D. (2005) Modeling individual differences using Dirichlet processes. Journal of Mathematical Psychology, 50(2), 101-122.
　調べ物をしていて偶然みつけ、なんとなくディスプレイ上で眺めていたら、これがちょっぴり面白くて、ついつい全部読んでしまった。
　ひとことでいっちゃうと、有限混合分布モデルならぬ無限混合分布モデルを提案する論文。

　まず、認知モデル構築において個人差を正面からモデル化することがいかに大事かという話があって...

　従来の主なアプローチはふたつある。(1)確率的(stochastic)パラメータ・モデル。個々の対象者が持っているパラメータ$\theta$を、あるパラメトリックな分布からの標本とみなす。(2)グループ・モデル。質的に異なる少数のグループがあると考える。

　階層ベイズモデルの観点からみてみよう。対象者数を$n$、対象者$i$の観察事例数を$m_i$とする。$i$の$j$番目の値$x_{ij}$として、
　$x_{ij} | \theta_i \sim F(\cdot | \theta_i) $
　$\theta_i | \phi \sim G(\cdot | \phi)$
データセットを$x$として、尤度関数は
　$p(x|\phi) = \prod_i \int \left( \prod_j F(x_{ij}|\theta_i) \right) G(\theta_i | \phi) d \theta_i$
モデルの適用に際しては$\phi$の事前分布が必要。$\phi \sim \pi(\cdot)$としておく。
　主に関心が持たれるのは次の2つだ。(1)認知モデルのパラメータの事後分布$p(\theta|x)$。(2)個人差モデルのパラメータの事後分布$p(\phi|x)$。

　確率的パラメータモデルはふつう、$G(\cdot|\phi)$について正規分布とかを想定する。いっぽうグループ・モデルは
　$G(\cdot | w, \theta) = \sum_z^k w_z \delta(\cdot | \theta_z)$
　$\sum_z w_z = 1$
という風に考える。つまり$\phi = (w, \theta)$となっている点に注意。ここで$\theta$ってのは$\theta_z$のベクトル、$\theta_z$ってのは個人じゃなくてあるグループのパラメータね。

　どっちのアプローチにも良し悪しがある。
　確率的パラメータモデルは個人差をユニモーダルな分布として捉えようとしている。つまり個人差を単一の典型的パラメータ値からの変動として捉えようとしているわけで、これは多くの場合不自然であろう(課題における個人差が課題の解釈のちがいから生まれているのなら、個人差はマルチモーダルであろう)。
　いっぽうグループ・モデルは、グループの数を決めるという難題を抱える。

　提案モデル。
　グループ・モデルのグループが無限にあると考える。すなわち
　$G(\cdot | w, \theta) = \sum_z^\infty w_z \delta(\cdot | \theta_z)$
と考えるわけ。実際のデータは有限だから、無限個のグループのなかから有限個のグループを抽出していることになるわけだ。これって心理学的にplausibleでしょ、云々。

　$\phi = (w, \theta)$の事前分布$\pi(\cdot)$については次のように考える。[ここからちょっとややこしくなる。さあ深呼吸]
　いったん話をグループ・モデルに戻す。ここで標準的な事前分布は以下であろう。
　$\theta_z \sim G_0(\cdot)$
　$w | \alpha, k \sim Dirichlet(\cdot, \zeta)$
　一本目、$G_0(\cdot)$をベース分布という。それをどう選ぶかというのは、通常のベイジアン・モデリングと同じく諸説あり、この論文の主題ではない。
　ポイントは二本目の式である。和が1になる有限個の確率変数の分布としては、ふつう$k$次元ディリクレ分布をつかうものだ。[...ここでディリクレ分布の密度関数について説明。省略。それにしても、この式に$\alpha$が出てくるのは話の先取りだろう。$\zeta$の誤植じゃないかな]
　$w_i$の並び順には意味がないので、パラメータはすべて同じ値とする。これを対称事前分布という。この値の大きさは、事前分布がどのくらい重視されるかを表す。ここではすべてのパラメータは$\alpha/k$であると仮定する。なぜなら...[ここ、勉強になったので全訳]

　ディリクレ・パラメータのこの特性を理解するためには、理想化された曲がったコイン(bent coin)を使った例について考えるのが有用であろう。
　ここにある曲がったコインがあり、データはの$n$回の独立なコイン投げによって得られるとする。これらはiidなベルヌーイ試行系列で、表が出る確率は$p$だ、という単純なモデルを考える。
　この未知の$p$の事前分布について考えよう。それは可能な結果を$k=2$通りしか持たないディリクレ分布、すなわちベータ分布だと考えることができる。コインがどう曲がっているのかわからないわけだから、$p$は対称でないとおかしい。そこでディリクレ・パラメータは$\alpha/2$としよう。
　データ中に表が$h$、裏が$t=n-h$回観察されたとする。事後分布は依然としてベータ分布だ(なぜならベータ族は二項分布の尤度関数に対して共役だから)。事後ベータ分布のパラメータは$h+\alpha/2, t+\alpha/2$となる。$p$の事後期待値は$\bar{p}=(h+\alpha/2)/(n+\alpha)$となる。分母をみるとわかるように、事後期待値への影響という観点から見て$n$と$\alpha$はcommensurateである。この性質は$k$が大きくなっても変わらない。
　さて、ここでの私たちの目標は、ある限られた量の情報だけを持つ無限次元の結果空間$W$について事前分布を指定することだ。情報の量が次元数$k$とは独立に決まるような事前分布を選ぶとよいだろう。そこでパラメータ数として$\alpha/k$を用いる。$k$がどうなっても合計が$\alpha$であるという点で都合が良い。

　さて、いよいよ$k \rightarrow \infty$としたときの事前分布について考える。
　$i$番目の観察が属するグループを$g_i$とする。$w_z$とは、$i$番目の観察がグループ$z$に属する確率であった。だから、
　$p(g_i = z | w) = w_z$
である。事前分布はこうなる。
　$x_{ij} | \theta, g_i \sim F(\cdot | \theta_z) $
　$g_i | w \sim Multinomial(\cdot | w)$
　$w | a, k \sim Dirichlet(\cdot | \alpha/k)$
　$\theta_z | G_0 \sim G_0(\cdot)$
　ここから無限長の$w$を消しにかかります。
　すでに$g_{-i} = (g_1, \ldots, g_{i-1})$が観察されているとしよう。$i$がグループ$z$に落ちる条件付き確率は、[...途中省略して...] 結局こうなる。
　$p(g_i = z | g_{-i}, \alpha, k) = \frac{s_z + \alpha/k}{i-1+\alpha}$
ここで$s_z$は、それまでの$i-1$個のうち$z$に落ちた数。$k \rightarrow \infty$とすると、$s_z$が0より大ならば
　$p(g_i = z | g_{-i}, \alpha, k) = \frac{s_z}{i-1+\alpha}$
となり、[...途中省略して...] また、$s_z$が0だったら$\frac{\alpha}{i-1+\alpha}$となる。
　この話をよくみると、実は中華料理店過程になっていて...[略]
　$\theta_i$の抽出は、よくみるとポリアの壺からの抽出になっていて...[略]

　[えーっと、途中から流し読みになっているけど、要するに、グループ数が無限のグループ・モデルでも、無限長のベクトルをうまいこと積分消去して推定できるよという話なのではないかと思う。さらに、ディリクレ過程混合モデルによって$\alpha$を推定しますとかって書いてある... もうやだ、パス、パス]

　分析例。10人の被験者の認知課題成績の分析。心理学者125人の論文掲載誌の分析。web閲覧ログの分析。いずれもパス。

　。。。数分の一も理解できていないんけど、これ、要するに個体パラメータの分布をマルチモーダルにできるような階層モデル、みたいなもんなのであろう。そいでもって、実は無限個の潜在クラスを想定していて、潜在クラスへの所属を潜在ディリクレ配分みたいにディリクレ分布で説明しているのであろう。なんだかしらないけど、ふうん、そうなんすか。

　つまんないことだけど、心理学のジャーナルに載っているのに心理学における個人差モデルの先行研究が全然出てこないが、ちょっと意外。キャッテルのなんとかテクニックとか、認知発達の個体記述的モデルとか、そういうのは引用されず、むしろ機械学習系の論文が多数挙げられている。世の中広い。

論文：データ解析(2015-) - 読了：Navarro, et al. (2005) ディリクレ過程に基づく個人差モデリング

読書日記

読んだ本を淡々と記録します

2016年8月 2日 (火)