読了: Seber & Salehi (2013) 適応的標本抽出デザインの世界へようこそ

Seber, G.A.F., Salehi, M.M. (2013) “Adaptive Sampling Design: Inference for Sparse and Clustered Populations.” Springer. Chapter 1. Basic Ideas.

 適応的な標本抽出についての70ページくらいのモノグラフの第一章。
 著者らが書いた別の資料を読んでいて、理屈が全くわかんなかったので(特にMurthey推定量というのがわからんかった)、勉強のために読んでみた。不得意分野でもあることだし、細かくメモを取るぞ!と気合を入れて読み始めたのだが、まだイントロなもので、あんましややこしい話はない。

1. 推定問題
 [細かくメモするぞといいつつ、いきなり省略]

2. 抽出デザイン
 個体数\(N\)の母集団から個体数\(n_1\)の標本を選ぶ方法について考えよう。これを抽出デザインという。

2.1 伝統的デザイン
 広く用いられているデザインとして、単純無作為抽出、復元単純無作為抽出、系統抽出、確率不均一抽出、逆抽出、系列抽出、がある。ここではSRS、確率不均一抽出、層別抽出について紹介しよう。

2.2 単純無作為抽出
 個体数\(n\)の単純無作為標本から得られる\(y\)の平均を\(\bar{y}\)としよう。標準理論が教えてくれることを下に示す。Cochran(1977), Thompson(2002, “Sampling”)をみるように。なお、正しく書くと標本の値は\(y_{i_1}, y_{i_2}, \ldots, y_{i_n}\)なんだけど、世間におもねって\(y_1, y_2, \ldots, y_n\)と書く。[ああなるほどね。母集団における個体の背番号が\(1, …, N\)で、標本の個体の背番号を記録していったのが\(i_1, i_2, \ldots, i_n\)じゃん? だから\(y_{i_1}, y_{i_2}, \ldots, y_{i_n}\)って書かなきゃおかしくね? 馬鹿じゃね? という話だろう。前にそう思ったことがあったんだけど、活字で読んだのははじめてだ] $$ E[\bar{y}] = \mu $$ $$ var[\bar{y}] = \frac{1}{n} \cdot \frac{1}{N-1} \sum_{i=1}^N (y_i-\mu)^2 \left( 1- \frac{n}{N} \right) $$ $$ \hat{var}[\bar{y}] = \frac{1}{n} \cdot \frac{1}{n-1} \sum_{i=1}^{n_1} (y_i-\mu)^2 \left( 1- \frac{n}{N} \right) $$ [母分散を定義してないから式がくどいぞ。ところで、3本目の総和記号でインデクスの終点を\(n\)じゃなくてわざわざ\(n_1\)って書いているのはなぜだろう。なにかのお気持ちがあるのかな]

2.3 不均一確率抽出
 単位数\(N\)の母集団の単位に\(i = 1, 2, \ldots, N\)とラベルが振ってあり、そこからなんらかの抽出デザインで、固定サイズ\(n\)の標本を非復元でドローしたとしよう。最初のドローの確率を\(p_i\)とする。標本の単位のラベルの順不同な系列を\(s_R = \{i_1, i_2, \ldots, i_n\}\)とする。
 標本におけるペア\((i, y_i)\)の順不同な集合を\(d_R = \{(i, y_i): i \in s_R\}\)とする。[く、くどい…でもこのくどさがあとで生きてくるんだろう…]

 Murthy(1957)は、母平均\(\mu = \frac{1}{N} \sum_{i=1}^N y_i\)について次の推定量を得た。最初にドローされたのが単位\(i\)であるときに\(s_R\)を得る条件付き確率を\(P(s_R | i)\)として、$$ \hat{\mu}_M = \frac{1}{N} \sum_{i=1}^n y_i \frac{P(s_R|i)}{P(s_R)} $$ [しばし途方に暮れて天井を眺めたが、うん、まあそうかもね… おなじみの逆確率ウェイト\(1/p_i\)ってのは、\(\frac{P(s_R|i)}{P(s_R)}\)の特殊ケースのような気もするね… どういう条件のもとでの特殊ケースなのかよくわかんないけど…]
 Murthyは以下も示している。$$ var[\hat{\mu}_M] = \frac{1}{N^2} \sum_{i=1}^N \sum_{j \lt i}^N \left( 1 – \sum_{s_R \ni i,j} \frac{P(s_R|i)P(s_R|j)}{P(s_R)} \right) \left( \frac{y_i}{p_i} – \frac{y_j}{p_j} \right)^2 p_i p_j$$ $$ \hat{var}[\hat{\mu}_M] = \frac{1}{N^2} \sum_{i=1}^n \sum_{j \lt i}^n \left(\frac{P(s_R|i,j)}{P(s_R)} – \frac{P(s_R|i)P(s_R|j)}{[P(s_R)]^2} \right) \left( \frac{y_i}{p_i} – \frac{y_j}{p_j} \right)^2 p_i p_j$$

2.4 層別抽出
 以下の内容もCochran本とかThompson et al.(1992, Biometrics)とかをみるように。
 母集団が\(H\)個の層に分かれていて、層\(h\)の単位数が\(N_h\)だとしよう。抽出は相関で独立で、[…母集団特性の記号の定義…], \(\hat{\mu}_h\)は\(\mu_h\)の不偏推定量で、\(\hat{var}[\hat{\mu}_h]\)は\(var[\hat{\mu}_h]\)の不偏推定量とすると、$$ \hat{\mu} = \sum_{h=1}^H \frac{N_h}{N} \hat{\mu}_h $$ $$ \hat{var}[\hat{\mu}] = \sum_{h=1}^H \frac{N^2_h}{N^2} \hat{var}[\hat{\mu}_h] $$ である。もし層ごとに単純無作為抽出していたら… [ \(var[\hat{\mu}], \hat{var}[\hat{\mu}]\)を\(y_{hi}, N_h, n_h\)の式で書いている。メモ省略]
 \(var[\hat{y}]\)を最小化する\(n_h\)の決め方として知られているのがネイマン配分で, \(n_h\)は[…中略…]

2.5 いくつかの問題
 上で紹介した方法がうまくいかない母集団もある。そのひとつが、レアだったり捉えにくかったりする動物の場合だ。特に、母集団が疎だがクラスタになっているような場合が厄介である。魚が魚群になって泳いでいるとしよう。区画の単純無作為抽出だとほとんどの区画が空だし、逆抽出だと抽出区画数がすごく多くなる。
 こういう問題に対処する方法のひとつが、本書のテーマ、適応的抽出である。

3. 適応的抽出
 池でボートを出して釣りをする。魚がどこにいるか全然わからない。そこで、ランダムに選んだ場所で釣りをし、坊主だったら別の場所をランダムに選んでやりなおす。もし釣れたら、その近隣で釣りをする。
 こういうのが適応的抽出である。抽出のプロセスの各段階に合わせて抽出パターンを適応させていくわけである。

3.1 適応的クラスタ抽出
 もっとも有名な適応的抽出法は適応的クラスタ抽出である。次の3つのステップからなる。

  1. 個体\(i\)の近隣の個体を定義する。どんな定義でもいいけれど対称性が必要である(\(j\)が\(i\)の近隣なら逆もそうでなければならない)。
  2. 近隣を抽出するべき条件を定義する。たとえば、\(y_i\)がカウントで、それが0以上だったら近隣を抽出する、とか。条件が満たされたらすべての近隣個体を抽出する。すると個体のクラスタができますわね。このクラスタは、その境界にある個体はすべてこの条件を満たしていない、という性質を持っている。ところで、ある単位について、それが属しているクラスタが抽出される確率は、そのクラスタのサイズに依存する。しがたってこれは確率不均一なクラスタ抽出ともいえる。[ああ、なるほどね]
  3. 初期標本のサイズ\(n_1\)を決める。ちなみに標本サイズは確率変数となる。

3.2 適応的クラスタ二重抽出
 この手法を拡張して、補足変数を使うという提案もあって… [パス]

3.3 層別抽出
それぞれの層で適応的クラスタ抽出をやるという手もある。クラスタに層超えを許す方法と許さない方法がある。本書4.5節でふれる。

3.4 適応的配分
 話変わって…
 層別抽出の標本サイズ配分って難しい。ふつう層の母分散はわからんのでネイマン配分できないのである。そこで、まず適当に配分して層別抽出して調査して分散推定して、配分を系列的に増やしていくという手がある。これもまた適応的抽出である。本書6章でふれる。

4. 関連手法
 逆抽出と系列抽出も適応的抽出である。ただし、適応的なのは抽出方法でなくて標本サイズだけどね。
 Sirken (1970)のネットワーク・サンプリング (Kalton & Anderson(1986, JRSS-A)をみよ)は適応的抽出ではない。
 スノーボール抽出は適応的抽出である。本書2.5節でふれる。

5. モデルベースの手法
 本書はデザインベース推定に焦点を当てる。つまり、分布理論が抽出のランダム性だけに依存するような推定である。
 ときには、標本単位の抽出において確率抽出の適切な形式を使えない場合もある。代替案はふたつある。

  • もし\(y_i\)が単位\(i\)におけるモノの個数だったら、モノの空間的分布を仮定するという手がある。\(y_i\)の合計が二項分布、\(y_i\)の同時分布は多項分布、みたいな。NBDという手もあるよね。
  • もし\(y_i\)が測定値なら、\(\mathbf{y} = (y_1, \ldots, y_N)^\top\)が確率ベクトルの観察値で、その確率ベクトルは多変量正規分布なり対数正規分布なりに従っていると考えるという手がある。これは超母集団モデルと呼ばれている。

デザインベース手法とモデルベース手法をベイジアンアプローチで結合するというのもある。適応的抽出の文脈での話は、Rapley & Welch (2008 Bayesian Analysis), Thompson et al.(1992 Biometrics), Thompson & Seber (1996 “Adaptive Sampling”)をみよ。

6. 最適デザイン
よく知られていることだが、デザイン・ベース・アプローチでは、未知のいかなる\(y\)変数に対しても一様に最適である抽出方略は存在しない。しかし、母集団の確率モデルがあるとき、その下での最適デザインは存在することが多く、それはたいてい適応的デザインである。[…後略…]