読了: Ohlsson (1998) 系列ポアソン抽出

Ohlsson, E. (1998) Sequential Poisson Sampling. Journal fo Official Statistics, 14(2), 149-162.

　いまやっている調べ物のついでに読んだやつ。標本サイズを固定した確率不均一抽出デザインのひとつ、系列ポアソン抽出を提案した論文である。
　標本抽出法について調べていると、考案したあなたしか使ってないんじゃないかというようなマイナーな新手法提案がちらほらあるんだけど、この論文はgoogle様曰く被引用回数116。実際に現役の抽出デザインだと思う。

1. イントロダクション
　サイズ$N$の有限母集団$U$があって(層別デザインのある層と考えてもよい)、正の補足変数$\mathbf{p}=(p_1, \ldots, p_N)$があり[おっと、$p_i$が包含確率でないことに注意]。$p_i$の和が1になっているとする。ここからサイズ$n$の標本$s$を得るために $Pr(i \in s) = n p_i$となる手続き(厳密なpps抽出)を使うことがある。
　復元抽出は効率性が下がるので非復元でやりたい。単純な非復元ppsとしてポアソン抽出がある。$[0,1]$の一様乱数$X_i$が$X_i \leq n p_i$なら包含する。これ、たとえば米センサス局のAnnual Survey Manufacturersとか、スウェーデンの1989年以前のCPIとかで使っていた。[へえええ]
　繰り返し調査するとき、効率性とコスト削減のために標本間でオーバーラップさせたいという面と、いや母集団の変化を反映させたいという面がある。そこで提案されたのがpermanent random numbers(PRN)である。最初の標本抽出の際に$X_i$を生成して母集団に付与しておき、2回目の抽出以降もこれを使い続ける。$n, p_i$のほうを毎回変えるのである。オーバーラップをコントロールできる。[へええええ！]

　ポアソン抽出の欠点は、標本サイズ$m$が期待値$n$の確率変数になってしまうことだ(近似的にポアソン分布になる)。PRNを使ったポアソン抽出で標本サイズを固定したい。
　そこでご紹介しましょう、系列ポアソン抽出です。これ、89年以降のスウェーデンのCPIで使っている抽出である。

　固定サイズppsについては山ほど研究がある。Brewer & Hanif (1983 書籍)をみよ。でも、一般的な$n$に関して標本を更新する方法はなかった。
　系列ポアソン抽出の欠点は、一次と二次の包含確率を閉形式で書き切れないということだ。だからHorvitz-Thompson推定量は使えない。でも推定と分散推定は意外に簡単である。理屈は難しいけどな。

2. 順序ポアソン抽出と系列ポアソン抽出
[途中で混乱したので表記について整理しておく。母集団サイズは$N$, 補足変数(ppsでいうところのサイズ)が$p_i$, 標本サイズの期待値が$n$, よってポアソン抽出の場合の抽出確率は$n p_i$となる。結果的な標本サイズが$m$だ]

　以下では$n p_i \leq 1$とする。そうでない要素は「全部抽出する」層に移してください。
　目的は合計 $$ Y = \sum_{i=1}^N y_i $$ の推定である。

2.1 ポアソン抽出(PS)
　手続きはすでに述べた。なお、$$ Pr(m=0) = \prod_{i=1}^n (1-np_i) \leq \exp(-n) $$ は無視できる大きさだとする(そうでないとPSは使えない)。
　不偏推定量(HT)は $$ \hat{Y}_{HT} = \frac{1}{n} \sum_{i \in s} \frac{y_i}{p_i} $$ [誤植じゃないぞ！ $n$は標本サイズじゃないし$p_i$は抽出確率ではないことに注意] その分散は次式となる。Sarndal et al.(1992)をみよ。$$ Var(\hat{Y}_{HT}) = \frac{1}{n} \sum_{i=1}^N (1-np_i) \left( \frac{y_i}{p_i} \right) p_1$$ 分散が往々にして大きいので、Brewer et al. (1972)は次の推定量を提案した。$m > 0$のとき、$$ \hat{Y}_R = \frac{1}{m} \sum_{i \in s} \frac{y_i}{p_i} $$ これは$\mathbf{p}$を使った比推定量である[たぶんHajek推定量ですよね、これ]。この分散も書ける。Sarndal本を見よ。
　$\hat{Y}_R$は$N(Y, \sigma^2)$に近似的に従う。$\hat{Y}_{HT}$より分散が小さい。

2.2 系列ポアソン抽出(SPS)
　乱数$X_i$を生成して $\xi_i = X_i / p_i$とし、$n$以下だったら抽出する。厳密にはppsになっていないが、近似的にはppsである。推定量としては$$ \hat{Y}_S = \frac{1}{n} \sum_{i \in s} \frac{y_i}{p_i}$$ $\hat{Y}_S$は近似的に$N(Y, \sigma^2)$に従う。つまり近似的に不偏で分散は$\hat{Y}_R$の分散に近い。

　なお、$p_i$が均等な時、SPSは非復元SRSと同じである。PSはそうでないが、分散は非復元SRSと漸近的に等しい。

2.3 分散推定
[これはまあ、必要になったら読もう。パス]

2.4 抽出実務についての注釈
　SPSにおいては補足変数の基準化はいらない。手順はこうなる。まず台帳をぜんぶ舐めて$\xi_i$を生成する。で、またぜんぶ舐めてその合計$S$を求める。次に台帳を$\xi_i$の順にソートして最初の$n$個を抽出する。$S$を使って、$n p_i \neq 1$が成り立ってないやつがどれかを調べる(推定の際には「すべて取る」層の扱いになるから)。
　[…中略…]

3. 漸近的結果
[この節はちゃんと読んでない。わが精神衛生を守るためである。わたしゃ推定量の性質について知りたいとは思ったけど、漸近論の話まで聞きたいとは思ってないのよ、わかるかいOhlssonくん…
もっとも次の小節の「条件の解釈」には関心があるので、必要な部分だけメモしておく]

　$n$と$N$がともに無限大に近づいていく母集団の系列を$\{U_k: k=1,2,3,\ldots\}$とする[漸近論の話ってこういうことをいうから嫌いなのよ…]。
　母合計を$Y_k$、母平均を$\bar{Y}_k = Y_k / N_k$とする。「pps母分散」を定義する。$$ \eta^2_k = \sum_{i=1}^{N_k} \left( \frac{y_{ki}}{N_k p_{ki}} – \bar{Y}_k \right)^2 p_{ki} $$ 次の二つの条件を定義する。

C1. 下式が成り立つ: $$ \frac{ max_i \left| \frac{y_{ki}}{N_k p_{ki}} – \bar{Y}_k \right| }{ \sqrt{n_k} \eta_k } \rightarrow 0 \ \ \mathrm{as} \ k \rightarrow \infty$$
C2. すべての$i$とについて$n_k p_{ki} \leq 1-\alpha \lt 1 $が成り立つような定数$\alpha, 0 \lt \alpha \lt 1$が存在する

この2つの条件のもとで、以下が示せる。$$ \frac{\hat{Y}_R,k – Y_k}{\sigma_k} \rightarrow^d N(0, 1) \ \ \mathrm{as} \ k \rightarrow \infty $$ $$ \frac{\hat{Y}_S,k – Y_k}{\sigma_k} \rightarrow^{d} N(0, 1) \ \ \mathrm{as} \ k \rightarrow \infty $$
つまり、$\hat{Y}_R, \hat{Y}_S$はともに漸近不偏であり、効率性は漸近的に等しい。

3.1 条件の解釈
　C1, C2は十分条件だが必要条件ではないものの、近似が成立する条件について示唆してくれる。
　pps抽出をやるのは、pとyの間に強い関係があると我々が信じているときだ。C1は、この関係に「外れ値」がないことを意味している。C2は、包含確率が1に近いユニットは「ぜんぶ取る」層に移すとよいということを示している。
　以上の議論は$n$が十分大きいことを暗黙の前提にしている。さらにPSの場合、$Pr(m=0)$が無視できるくらいに大きくないといけない。

4. 数値例
　[モンテカルロ・シミュレーションをやっている。略]

5. 結論
　PSとSPSはとてもシンプル。PRNを使えば標本の更新もできる。
　PSはSPSと違って厳密にppsである。でもHT推定量は非効率で、結局は漸近的な結果に基づき比推定量を使うじゃないか[Hajek推定のことね]。だから別に厳密にppsである必要はないんじゃないか。SPSだって効率性は同じなのである。
　というわけで、PSよりSPSのほうがよいでしょう。$n=5$みたいな小標本をSPSで得たときの特性については今後の課題である。
　云々。

読書日記

読んだ本を淡々と記録します

読了: Ohlsson (1998) 系列ポアソン抽出