Ohlsson, E. (1998) Sequential Poisson Sampling. Journal fo Official Statistics, 14(2), 149-162.
いまやっている調べ物のついでに読んだやつ。標本サイズを固定した確率不均一抽出デザインのひとつ、系列ポアソン抽出を提案した論文である。
標本抽出法について調べていると、考案したあなたしか使ってないんじゃないかというようなマイナーな新手法提案がちらほらあるんだけど、この論文はgoogle様曰く被引用回数116。実際に現役の抽出デザインだと思う。
1. イントロダクション
サイズ\(N\)の有限母集団\(U\)があって(層別デザインのある層と考えてもよい)、正の補足変数\(\mathbf{p}=(p_1, \ldots, p_N)\)があり[おっと、\(p_i\)が包含確率でないことに注意]。\(p_i\)の和が1になっているとする。ここからサイズ\(n\)の標本\(s\)を得るために \(Pr(i \in s) = n p_i\)となる手続き(厳密なpps抽出)を使うことがある。
復元抽出は効率性が下がるので非復元でやりたい。単純な非復元ppsとしてポアソン抽出がある。\([0,1]\)の一様乱数\(X_i\)が\(X_i \leq n p_i\)なら包含する。これ、たとえば米センサス局のAnnual Survey Manufacturersとか、スウェーデンの1989年以前のCPIとかで使っていた。[へえええ]
繰り返し調査するとき、効率性とコスト削減のために標本間でオーバーラップさせたいという面と、いや母集団の変化を反映させたいという面がある。そこで提案されたのがpermanent random numbers(PRN)である。最初の標本抽出の際に\(X_i\)を生成して母集団に付与しておき、2回目の抽出以降もこれを使い続ける。\(n, p_i\)のほうを毎回変えるのである。オーバーラップをコントロールできる。[へええええ!]
ポアソン抽出の欠点は、標本サイズ\(m\)が期待値\(n\)の確率変数になってしまうことだ(近似的にポアソン分布になる)。PRNを使ったポアソン抽出で標本サイズを固定したい。
そこでご紹介しましょう、系列ポアソン抽出です。これ、89年以降のスウェーデンのCPIで使っている抽出である。
固定サイズppsについては山ほど研究がある。Brewer & Hanif (1983 書籍)をみよ。でも、一般的な\(n\)に関して標本を更新する方法はなかった。
系列ポアソン抽出の欠点は、一次と二次の包含確率を閉形式で書き切れないということだ。だからHorvitz-Thompson推定量は使えない。でも推定と分散推定は意外に簡単である。理屈は難しいけどな。
2. 順序ポアソン抽出と系列ポアソン抽出
[途中で混乱したので表記について整理しておく。母集団サイズは\(N\), 補足変数(ppsでいうところのサイズ)が\(p_i\), 標本サイズの期待値が\(n\), よってポアソン抽出の場合の抽出確率は\(n p_i\)となる。 結果的な標本サイズが\(m\)だ]
以下では\(n p_i \leq 1\)とする。そうでない要素は「全部抽出する」層に移してください。
目的は合計 $$ Y = \sum_{i=1}^N y_i $$ の推定である。
2.1 ポアソン抽出(PS)
手続きはすでに述べた。なお、$$ Pr(m=0) = \prod_{i=1}^n (1-np_i) \leq \exp(-n) $$ は無視できる大きさだとする(そうでないとPSは使えない)。
不偏推定量(HT)は $$ \hat{Y}_{HT} = \frac{1}{n} \sum_{i \in s} \frac{y_i}{p_i} $$ [誤植じゃないぞ! \(n\)は標本サイズじゃないし\(p_i\)は抽出確率ではないことに注意] その分散は次式となる。Sarndal et al.(1992)をみよ。$$ Var(\hat{Y}_{HT}) = \frac{1}{n} \sum_{i=1}^N (1-np_i) \left( \frac{y_i}{p_i} \right) p_1$$ 分散が往々にして大きいので、Brewer et al. (1972)は次の推定量を提案した。\(m > 0\)のとき、$$ \hat{Y}_R = \frac{1}{m} \sum_{i \in s} \frac{y_i}{p_i} $$ これは\(\mathbf{p}\)を使った比推定量である[たぶんHajek推定量ですよね、これ]。この分散も書ける。Sarndal本を見よ。
\(\hat{Y}_R\)は\(N(Y, \sigma^2)\)に近似的に従う。\(\hat{Y}_{HT}\)より分散が小さい。
2.2 系列ポアソン抽出(SPS)
乱数\(X_i\)を生成して \(\xi_i = X_i / p_i\)とし、\(n\)以下だったら抽出する。厳密にはppsになっていないが、近似的にはppsである。推定量としては$$ \hat{Y}_S = \frac{1}{n} \sum_{i \in s} \frac{y_i}{p_i}$$ \(\hat{Y}_S\)は近似的に\(N(Y, \sigma^2)\)に従う。つまり近似的に不偏で分散は\(\hat{Y}_R\)の分散に近い。
なお、\(p_i\)が均等な時、SPSは非復元SRSと同じである。PSはそうでないが、分散は非復元SRSと漸近的に等しい。
2.3 分散推定
[これはまあ、必要になったら読もう。パス]
2.4 抽出実務についての注釈
SPSにおいては補足変数の基準化はいらない。手順はこうなる。まず台帳をぜんぶ舐めて\(\xi_i\)を生成する。で、またぜんぶ舐めてその合計\(S\)を求める。次に台帳を\(\xi_i\)の順にソートして最初の\(n\)個を抽出する。\(S\)を使って、\(n p_i \neq 1\)が成り立ってないやつがどれかを調べる(推定の際には「すべて取る」層の扱いになるから)。
[…中略…]
3. 漸近的結果
[この節はちゃんと読んでない。わが精神衛生を守るためである。わたしゃ推定量の性質について知りたいとは思ったけど、漸近論の話まで聞きたいとは思ってないのよ、わかるかいOhlssonくん…
もっとも次の小節の「条件の解釈」には関心があるので、必要な部分だけメモしておく]
\(n\)と\(N\)がともに無限大に近づいていく母集団の系列を\(\{U_k: k=1,2,3,\ldots\}\)とする[漸近論の話ってこういうことをいうから嫌いなのよ…]。
母合計を\(Y_k\)、母平均を\(\bar{Y}_k = Y_k / N_k\)とする。「pps母分散」を定義する。$$ \eta^2_k = \sum_{i=1}^{N_k} \left( \frac{y_{ki}}{N_k p_{ki}} – \bar{Y}_k \right)^2 p_{ki} $$ 次の二つの条件を定義する。
- C1. 下式が成り立つ: $$ \frac{ max_i \left| \frac{y_{ki}}{N_k p_{ki}} – \bar{Y}_k \right| }{ \sqrt{n_k} \eta_k } \rightarrow 0 \ \ \mathrm{as} \ k \rightarrow \infty$$
- C2. すべての\(i\)と\(\)について\(n_k p_{ki} \leq 1-\alpha \lt 1 \)が成り立つような定数\(\alpha, 0 \lt \alpha \lt 1\)が存在する
この2つの条件のもとで、以下が示せる。$$ \frac{\hat{Y}_R,k – Y_k}{\sigma_k} \rightarrow^d N(0, 1) \ \ \mathrm{as} \ k \rightarrow \infty $$ $$ \frac{\hat{Y}_S,k – Y_k}{\sigma_k} \rightarrow^{d} N(0, 1) \ \ \mathrm{as} \ k \rightarrow \infty $$
つまり、\(\hat{Y}_R, \hat{Y}_S\)はともに漸近不偏であり、効率性は漸近的に等しい。
3.1 条件の解釈
C1, C2は十分条件だが必要条件ではないものの、近似が成立する条件について示唆してくれる。
pps抽出をやるのは、pとyの間に強い関係があると我々が信じているときだ。C1は、この関係に「外れ値」がないことを意味している。C2は、包含確率が1に近いユニットは「ぜんぶ取る」層に移すとよいということを示している。
以上の議論は\(n\)が十分大きいことを暗黙の前提にしている。さらにPSの場合、\(Pr(m=0)\)が無視できるくらいに大きくないといけない。
4. 数値例
[モンテカルロ・シミュレーションをやっている。略]
5. 結論
PSとSPSはとてもシンプル。PRNを使えば標本の更新もできる。
PSはSPSと違って厳密にppsである。でもHT推定量は非効率で、結局は漸近的な結果に基づき比推定量を使うじゃないか[Hajek推定のことね]。だから別に厳密にppsである必要はないんじゃないか。SPSだって効率性は同じなのである。
というわけで、PSよりSPSのほうがよいでしょう。\(n=5\)みたいな小標本をSPSで得たときの特性については今後の課題である。
云々。