elsur.jpn.org >

« 読了:Rabiee, F. (2004) グループ・インタビューの逐語録をどうやって分析するか | メイン | 読了:Bowman & McMahan (2007) ヴァーチャル・リアリティってのは視覚的没入性が高ければ高いほどよいというものでもないだろう »

2017年9月14日 (木)

Zammit-Mangion, A., Cressie, N. (2017) Fixed Rank Kriging: The R Package.

 Rの空間統計パッケージFRKのvignette。適当にめくるだけのつもりが、面白くてついつい読み耽ってしまった。ま、最初の3頁だけだけど。
 FRKとはFixed Rank Kriging (固定ランク・クリギング)の略である。

 いわく。
 FRKと似たパッケージとして以下がある。[このくだり、まったく意味がわからない箇所もあるが、後日のために逐語訳する。精度行列というのは共分散行列の逆行列のことね]

 モデルの概要。
 FRKパッケージはふつうのバリオグラム・モデルではなく、空間ランダム効果モデル(SRE)で問題を定式化する。

 地点$\mathbf{s}$における量$Y(\mathbf{s})$に関心があるとしよう。古典的な空間モデルなら、共変量ベクトルを$\mathbf{t(s)}$、回帰係数ベクトルを$\mathbf{\alpha}$、空間的相関があるランダム効果を$\upsilon(\mathbf{s})$、空間的相関がないランダム効果を$\xi(\mathbf{s})$ととして
 $Y(s) = \mathbf{t(s)}^\mathrm{T} \mathbf{\alpha} + \upsilon(\mathbf{s}) + \xi(\mathbf{s})$
ただし$E(\upsilon(\cdot)) = E(\xi(\cdot)) = 0$、とするところである。

 ここで、
 $\upsilon(\mathbf{s}) = \sum_{l=1}^r \phi_l(\mathbf{s}) \eta_l$
とする。$\mathbf{\eta} \equiv (\eta_1, \ldots, \eta_r)^{\mathrm{T}}$はランダムベクトル、$\mathbf{\phi} \equiv (\phi_1(\ldots), \ldots, \phi_r(\ldots))$はあらかじめ定められた空間基底関数である。
 [理解するまでに手間取ったのだが、ここがこの話のミソなのである。この$\mathbf{\phi}$こそがバリオグラム・モデルの変わり果てたお姿なのだと思う。話の先取りになるけど、FRKパッケージにはデータとバリオグラム関数の形状を指定すると$\mathbf{\phi}$の行列を自動的に作ってくれる関数がある。それを使わずに自力で作ってもよい]

 さて、空間を$N$個の重ならない小さな空間に完全に分ける[メッシュみたいなものであろう]。これを基本地域単位 BAU と呼ぶ。BAUの数$N$は基底の数$r$よりずっと大きいものとする。
 それぞれのBAUにおいて$Y(\mathbf{s})$を平均する。つまり、$i$番目のBAU $A_i$において
 $Y_i \equiv \frac{1}{|A_i|} \int_{A_i} Y(\mathbf{s}) d(\mathbf{s})$
このレベルでも、
 $Y_i = \mathbf{t}_i^\mathrm{T} \mathbf{\alpha} + \upsilon_i + \xi_i$
と分解できる。
 以下、各項について順にみていくと...

 BAUレベルの共変量$\mathbf{t}_i$はこうなる。
 $\mathbf{t}_i \equiv \frac{1}{|A_i|} \int_{A_i} \mathbf{t}(\mathbf{s}) d \mathbf{s}$

 BAUレベルの相関ありランダム効果$\upsilon_i$は
 $\upsilon_i \equiv \frac{1}{|A_i|} \int_{A_i} \upsilon(\mathbf{s}) d \mathbf{s}$
ここに$\upsilon(\mathbf{s}) = \mathbf{\phi}(\mathbf{s}) \mathbf{\eta}$を代入すると... [面倒くさいから書かないけど] 係数ベクトルと$\mathbf{\eta}$の積になる。係数の部分を取り出して$N \times r$行列$\mathbf{S}$とすれば、$\mathbf{\upsilon} = \mathbf{S\eta}$となる。なおこのパッケージでは、実際にはそれぞれの係数について積分するのではなく、BAUは十分に小さいとみて、BAUの重心$\mathbf{s}_i$を使い$\mathbf{\phi}(\mathbf{s}_i)$と近似する。
 $\mathbf{\eta}$について。このパッケージでは、$\mathbf{\eta}$を平均0, 共分散行列$\mathbf{K}$の正規ベクトルとする。$\mathbf{K}$は自由推定してもいいし、なんらかの構造を与えても良い。前者をFRK-Vと呼び(Vはバニラの略)、後者をFRK-Mと呼ぶ(Mはモデルの略)。

 相関なしのランダム効果について。$\xi(\mathbf{s})$についてはもう関心を持たない。BAUのレベルでの平均$\xi_i$について、平均0, 分散$\sigma^2_\xi \nu_{\xi i}$の正規分布に独立に従うとする。ここで$\sigma^2_\xi$は全BAUを通したパラメータ、$\nu_{\xi i}$は既知の定数でBAUの異質性を表す。

 ここまでをまとめよう。BAUレベルの式
 $Y_i = \mathbf{t}_i^\mathrm{T} \mathbf{\alpha} + \upsilon_i + \xi_i$
を書き直して
 $\mathbf{Y} = \mathbf{T} \mathbf{\alpha} + \mathbf{S} \mathbf{\eta} + \mathbf{\xi}$
$\mathbf{T}$は行数$N$の共変量行列、$\mathbf{\alpha}$は係数ベクトル。$\mathbf{S}$は$N \times r$の行列、$\mathbf{\eta}$は長さ$r$のランダム効果ベクトルでその共分散行列が$\mathbf{K}$。$\mathbf{\xi}$は長さ$N$のランダム効果ベクトルでその共分散行列は$\sigma^2_\xi \mathbf{V}_\xi$、ただし$\mathbf{V}_\xi$は既知。

 さて、ここまで考えてきた$Y(\cdot)$というのは潜在過程であって、観察自体は$m$個のフットプリントについてのみ可能であるとしよう。ここでフットプリントとは、ひとつ以上のBAUからなる地域のことで、重複していてもかまわない。$m$は$r$よりずっと大きいものとする。なお、$m$はBAUの数$N$より大きくても小さくてもよい。
 フットプリント$B_j$における観察値は次の3つの和とする[面倒くさいので式は省略]:

 結局、推定するパラメータは、バニラFRKでは$\mathbf{\alpha}, \sigma^2_\xi, \sigma^2_\delta$, そして$\mathbf{K}$ の4つ。モデルFRKでは、$\mathbf{K}$の代わりに$\mathbf{K}$について組んだモデルのパラメータがはいることになる。

 [以下、力尽きたので、ほとんど読んでいない]
 パラメータはEMアルゴリズムで推定する...
 このモデルにより、任意の予測領域についての予測が可能で...

 コード付きの事例が2つ...
 時空間でクリギングする事例が2つ...
 
 空間異方性を持たせるには...
 既定関数とBAUを手動で与えるには...

 今後の課題:

云々、云々。

 ...というわけで、正直なところ頑張って読んだのは最初の3頁だけなんだけど、固定ランク・クリギングという発想がよくわかった(ような気がする)。$m$個の観察値の後ろに$N$個のメッシュの値を考え、そのまた後ろにもっと少ない$r$個の隠れた値を考えるわけね。時系列モデルで言うと、観察変数のうしろに状態変数を考え、そのまた後ろにたまにしか動かないような状態変数を考えているわけだ。
 だから大データでもクリギングが楽だ、ってわけね。なるほどねー、面白いなあ。(←すっかりわかったような気分)

論文:データ解析(2015-) - 読了:Zammit-Mangion & Cressie (2017) 大きな空間データを固定ランク・クリギングするRパッケージ FRK

rebuilt: 2020年4月20日 18:54
validate this page