elsur.jpn.org >

« GLM空間モデルのバリオグラムとはなんぞや | メイン | 読了:Bivand, Gomez-Rubio, Rue (2015) R-INLAパッケージで楽しい楽しい空間統計モデリング »

2017年10月26日 (木)

Jing, L., De Oliveira, V. (2015) geoCount: An R package for the analysis of geostatistical count data. Journal of Statistical Software. 63(11).
 カウントデータに特化した空間モデリングパッケージ geoCountについての紹介。実戦投入前の儀式として読んだ。

 カウントデータの空間モデリングにはふつう一般化線形空間モデル(GLSM)が使われるが、実際にはいろいろ大変である。(1)なにより計算が大変。メモリが足らん。(2)MCMCがめっちゃ遅い。(3)MCMCが収束しない。
 そこで新しいパッケージをお届けしよう。このパッケージは、C++で書いてあり速い。並列計算に対応しておる。そして効率的な新アルゴリズム。それではご紹介しましょう! geoCountパッケージです!

 モデル。
 $\{S(\mathbf{x}): x \in A\}$を正規確率場とする。$\mathbf{S} = (S(\mathbf{x}_i), \ldots, S(\mathbf{x}_n))^T$とする。
  $Y_i | S(\mathbf{x}_i) \sim p(\cdot | \mu_i), \ \ i=1, \ldots, n$
  $\mu_i = t_i g^{-1} (S(\mathbf{x}_i))$
  $\mathbf{S} \sim N_n (D\beta, \Sigma)$
  $(\beta, \theta) \sim \pi(\beta, \theta)$

 説明しよう。
 一本目。$\mu_i = E(Y_i | S(\mathbf{x}_i))$である。$p(\cdot | \mu_i)$については後述。
 二本目。$g(\cdot)$はリンク関数である。
 三本目。$D$はフルランク計画行列で、なかに共変量がはいっておる。$\Sigma = (\sigma_{ij})$は正定な共分散行列で、要素$\sigma_{ij}=\sigma^2 \rho(u_{ij})$はユークリッド距離$u_{ij}=||\mathbf{x}_i - \mathbf{x}_j||$で決まる(つまり等方性がある)。
 四本目。$\pi(\beta, \theta)$はパラメータの事前分布。

 $\rho(u)$としては、球面ファミリー、Maternファミリー、power exponentialファミリーをご用意しておる。
 $p(\cdot | \mu_i)$とリンク関数$g(\cdot)$については、良く用いられる次の2つをご用意。
 その1、ポワソン対数正規モデル:
  $Y_i | S(\mathbf{x}_i) \sim Poisson(\mu_i)$
  $\mu_i = t_i \exp(S(\mathbf{x}_i))$
 その2、二項ロジット正規モデル:
  $Y_i | S(\mathbf{x}_i) \sim Binomial(t_i, \mu_i/t_i)$
  $\mu_i = t_i \exp(S(\mathbf{x}_i)) / (1+\exp(S(\mathbf{x}_i)))$

 事前分布は次のようにご用意しております...[めんどくさいので略]

 プログラミング上の工夫と並列処理...[パス]
 アルゴリズムの工夫...[パス]

 プログラム例... [パス。実際に使うときに読めばいいや]

 他のパッケージとの比較。

 限界。

 云々。

2017/10/27追記: INLAと比較しているくだりについて、メモを追加。

論文:データ解析 - 読了:Jing & De Oliveira (2015) RのgeoCountパッケージ