« GLM空間モデルのバリオグラムとはなんぞや | メイン | 読了:Bivand, Gomez-Rubio, Rue (2015) R-INLAパッケージで楽しい楽しい空間統計モデリング »
2017年10月26日 (木)
Jing, L., De Oliveira, V. (2015) geoCount: An R package for the analysis of geostatistical count data. Journal of Statistical Software. 63(11).
カウントデータに特化した空間モデリングパッケージ geoCountについての紹介。実戦投入前の儀式として読んだ。
カウントデータの空間モデリングにはふつう一般化線形空間モデル(GLSM)が使われるが、実際にはいろいろ大変である。(1)なにより計算が大変。メモリが足らん。(2)MCMCがめっちゃ遅い。(3)MCMCが収束しない。
そこで新しいパッケージをお届けしよう。このパッケージは、C++で書いてあり速い。並列計算に対応しておる。そして効率的な新アルゴリズム。それではご紹介しましょう! geoCountパッケージです!
モデル。
$\{S(\mathbf{x}): x \in A\}$を正規確率場とする。$\mathbf{S} = (S(\mathbf{x}_i), \ldots, S(\mathbf{x}_n))^T$とする。
$Y_i | S(\mathbf{x}_i) \sim p(\cdot | \mu_i), \ \ i=1, \ldots, n$
$\mu_i = t_i g^{-1} (S(\mathbf{x}_i))$
$\mathbf{S} \sim N_n (D\beta, \Sigma)$
$(\beta, \theta) \sim \pi(\beta, \theta)$
説明しよう。
一本目。$\mu_i = E(Y_i | S(\mathbf{x}_i))$である。$p(\cdot | \mu_i)$については後述。
二本目。$g(\cdot)$はリンク関数である。
三本目。$D$はフルランク計画行列で、なかに共変量がはいっておる。$\Sigma = (\sigma_{ij})$は正定な共分散行列で、要素$\sigma_{ij}=\sigma^2 \rho(u_{ij})$はユークリッド距離$u_{ij}=||\mathbf{x}_i - \mathbf{x}_j||$で決まる(つまり等方性がある)。
四本目。$\pi(\beta, \theta)$はパラメータの事前分布。
$\rho(u)$としては、球面ファミリー、Maternファミリー、power exponentialファミリーをご用意しておる。
$p(\cdot | \mu_i)$とリンク関数$g(\cdot)$については、良く用いられる次の2つをご用意。
その1、ポワソン対数正規モデル:
$Y_i | S(\mathbf{x}_i) \sim Poisson(\mu_i)$
$\mu_i = t_i \exp(S(\mathbf{x}_i))$
その2、二項ロジット正規モデル:
$Y_i | S(\mathbf{x}_i) \sim Binomial(t_i, \mu_i/t_i)$
$\mu_i = t_i \exp(S(\mathbf{x}_i)) / (1+\exp(S(\mathbf{x}_i)))$
事前分布は次のようにご用意しております...[めんどくさいので略]
プログラミング上の工夫と並列処理...[パス]
アルゴリズムの工夫...[パス]
プログラム例... [パス。実際に使うときに読めばいいや]
他のパッケージとの比較。
- 同様のモデルはgeoRglmパッケージでも組めるけど、MCMCの際のパラメータ化のやり方が違っており...[よくわからんので中略... 何だか知らんが、うちらのほうがイケているよとのこと]。ただし、計算時間はこっちのほうがかかるかも。[←よく考えてみたらオイオイって話ですね。C++かつ効率的アルゴリズムで速いんちゃうんかと]
- INLAパッケージと比べると...そもそもINLAは潜在ガウスモデルを共分散関数として特徴づけるのではなくて、ガウス・マルコフ確率場(GMRF)として特徴づける。ベイズ推論の際、MCMCは周辺分布を確率的に近似しようとするが、INLAはラプラス近似とnumerical quadrature rules[←なにそれ]を用いて決定論的に近似する。
GMRFを使う利点は計算が速いこと。欠点は、定常性とか等方性といった特徴を持つ共分散関数を持つGRMFを構築するのが難しいこと。しかしこれには部分的解決策が提案されている。Matern族の一種である、ある族に属する共分散関数を持つガウス確率場は、ガウシアン・ホワイトノイズを持つある種のstochastic partial differential equations(SPDE)の解であることが示されているのだ。これらの解はある種のGMRFによって与えられる、ランダム係数を持つある種の基底関数へと拡張できることが示されている。その結果、Matern族の共分散関数を使ってモデリングつつ、それと対応する確率場をGMRFで表現して計算をすることができる。これがINLAで採用されているアプローチである。[←ああなるほど...って、何言ってんだかさっぱり分かんないよこの野郎]
geoCountと比べてみると、計算は確かに速い。結果は似てたり違っていたり。[←詳細略]
限界。
- データがでかいと遅くなる。たまに収束しないこともある。どちらの場合もINLAがおすすめ。
- ポワソン分布のときは対数リンク、二項の場合はロジットリンクしか選べない。実はidentityリンクのほうがいいという話もある[←へー]。
- 事前分布についても改善の余地がある。
云々。
2017/10/27追記: INLAと比較しているくだりについて、メモを追加。
論文:データ解析(2015-) - 読了:Jing & De Oliveira (2015) RのgeoCountパッケージ