« 読了:Bail, et al. (2018) Twitterでリベラルなツイートを読むと保守派は少しは歩み寄るか? →それどころかもっと保守的になる | メイン | 読了:「ゴールデンゴールド」「めしにしましょう」「天地創造デザイン部」「ハコヅメ」「アレンとドラン」「天国大魔境」 »
2018年9月10日 (月)
地球統計学モデルによる空間的推測をやってるとき、コバリオグラムとバリオグラムのちがいについてたびたび混乱したので、メモをとった。というか、ふだん頼りにしているDiggle&Ribeiro(2010)って、このくだりについては結構わかりにくいような気がするのである。(←理解力の低さをさりげなく他人のせいにする)
瀬谷・堤「空間統計学」5.2節のメモ。話がややこしくなるので異方性の話は省略する。
観測地点$\mathbf{s}_i$($i=1,\ldots,n$)における観測値を$y(\mathbf{s}_i)$とし、
$y(\mathbf{s}_i) = Y(\mathbf{s}_i) + \epsilon(\mathbf{s}_i)$
$\epsilon(\mathbf{s}_i)$は平均0, 分散$\sigma_\epsilon^2$, iidとする。
ついでに共分散関数を定義しておこう。任意の$\mathbf{s}, \mathbf{h}$について、
$C(\mathbf{s}, \mathbf{h})$
$= Cov[Y(\mathbf{s}), Y(\mathbf{s}+\mathbf{h})]$
$= E[\{Y(\mathbf{s}) - m(\mathbf{s})\}\{ Y(\mathbf{s}+\mathbf{h}) - m(\mathbf{s}+\mathbf{h}) \}$
ここで$m(\mathbf{s})$は空間過程の期待値である。
さて、空間過程が強定常であるとは、確率変数$\{Y(\mathbf{s}_1), \cdots, Y(\mathbf{s}_n)\}$によって構成される多変量分布の分布関数が、任意の移動に関して不変であるということである。
強定常性は強すぎる仮定なので緩和し、1次モーメントと2次モーメントの定常性だけを仮定することにしたい。そこでふたつのアプローチが生じる。
その1、弱定常性(二次定常性)。
任意の$\mathbf{s}, \mathbf{h}$について以下が成り立つと仮定する。
$E[Y(\mathbf{s})] = m(\mathbf{s}) = \bar{m}$
$Cov[Y(\mathbf{s}), Y(\mathbf{s}+\mathbf{h})] = C(\mathbf{h})$
$Cov[Y(\mathbf{s}), Y(\mathbf{s}+\mathbf{0})] = Var[Y(\mathbf{s})] = C(\mathbf{0})$
つまり、2地点間の共分散が$\mathbf{h}$の関数だと捉えているわけである。いいかえると、変数の一次モーメントと二次モーメントが定常だと考えている。
その2、固有定常性。
任意の$\mathbf{s}, \mathbf{h}$について以下が成り立つと仮定する。
$E[Y(\mathbf{s}+\mathbf{h}) - Y(\mathbf{s})] = \mathbf{0}$ [あれ?右辺はなぜ太字なの?]
$Var[Y(\mathbf{s}+\mathbf{h})-Y(\mathbf{s})] = 2\gamma(\mathbf{h})$
つまり、2地点の差の分散が$\mathbf{h}$の関数だと捉えているわけである。いいかえると、変数の差の一次モーメントと二次モーメントが定常だと考えている。
[ここでいつも混乱するのだが... 二次定常であれば固有定常だが、逆は成り立たない。つまり、二次定常性のほうが強い仮定である。ってことで合ってますかね?]
さて。
$C(\mathbf{h})$を二次定常共分散関数、またはコバリオグラムという。次の性質を持つ。
有界である: $|C(\mathbf{h})| \leq C(\mathbf{0})$
対称である: $C(-\mathbf{h}) = C(\mathbf{h})$
分散は非負である: $C(\mathbf{0}) \geq 0$
$2\gamma(\mathbf{h})$をバリオグラム、$\gamma(\mathbf{h})$をセミバリオグラムという。えーと、バリオグラムってのは差の分散だが、差の期待値は0だと思ってんだから、差の二乗の期待値だと言い換えてもいいわね。
次の性質を持つ。
$\gamma(\mathbf{0}) = 0$
$\gamma(\mathbf{h}) \geq 0$ [原文に誤植があると思うので勝手に直した]
$\gamma(-\mathbf{h}) = \gamma(\mathbf{h})$
固有定常性の下では、バリオグラムは有界ではないかもしれないという点に注意。
二次定常性が満たされていれば、共分散関数とバリオグラムとの間には
$\gamma(\mathbf{h}) = C(\mathbf{0}) - C(\mathbf{h})$
という関係が成り立つ。
空間予測を可能にするためには、共分散関数は非負定値性、バリオグラムは条件付き非正定値性を満たさなければならないんだけど、ややこしいので省略して...
バリオグラムの形状は、ナゲット、シル、レンジの3つで規定される。ナゲットは切片(正確に言うと、$\mathbf{h}$を$0$に近づけた時の極限値)、シルは空間過程の分散、レンジは$Y(\mathbf{s})$と$Y(\mathbf{s}+\mathbf{h})$が相関を持たなくなる最小の$\mathbf{h}$である。
具体例を挙げよう。
例1、線形バリオグラム。
$||h||=0$のとき $\gamma(\mathbf{h}) = 0$
$||h||>0$のとき $\gamma(\mathbf{h}) = \tau^2 + \sigma^2 ||\mathbf{h}||$
$\tau^2$がナゲットで、シルとレンジは無限大。
共分散関数は存在しない。このように、バリオグラム・モデルというのは文字通りバリオグラムのモデルなのであって、共分散のモデルではない。ああそうか、ここで私は混乱していた...
例2、指数型バリオグラム。
$||h||=0$のとき $\gamma(\mathbf{h}) = 0$
$||h||>0$のとき $\gamma(\mathbf{h}) = \tau^2 + \sigma^2[1-\exp(-\phi ||\mathbf{h}||)]$
$\tau^2$がナゲット。シル$\tau^2 + \sigma^2$は漸近的にしか到達できず、レンジは無限大なので、セミバリオグラムがシルの95%を達成する距離$3/\phi$のことを有効レンジと呼ぶ。
共分散関数は、
$||h||=0$のとき $C(\mathbf{h}) = \tau^2+\sigma^2$
$||h||>0$のとき $C(\mathbf{h}) = \sigma^2 \exp(-\phi^2||\mathbf{h}||^2)$
となる。
...ってな感じですね。端的にいっちゃうと、セミバリオグラム$\gamma(\mathbf{h})$は$\mathbf{h}$とともに上がっていく関数、コバリオグラム$C(\mathbf{h})$は下がっていく関数である。いまのどっちの話をしてんだか、注意せんといかん。
雑記:データ解析 - 覚え書き:コバリオグラムとバリオグラムはちがうのだ