読了: Williams, et al.(1998) ポアソン抽出デザインにおける母合計推定量を比較する

Williams, M.S., Schreuder, H.T., Terrazas, G.H. (1988) Poisson Sampling: The Adjusted and Unadjusted Estimator Revisited. Research Note, RMRS-RN-4. U.S. Department of Agriculture, Forest Service, Rocky Mountain Research Station.

別に読む必要は全然、全くないんだけど、標本抽出についての資料を作っていて悩んでいるときにぱらぱらめくったもの。ポアソン抽出での母合計推定量を比べるという話。なんであれ、めくったものはとりあえず記録しておこう、ということで…

1. イントロダクション
 ポアソン抽出とはHajekが紹介した抽出デザインで、標本ユニットが不均等な選択確率\(\pi_i\)で独立に選択され、標本サイズ\(n\)も確率変数だというデザインである。母合計のHajek推定量は$$ \hat{Y}_u = \sum_{i = 1}^n \frac{y_i}{\pi_i} $$ ただし\(E[n] = n_e\), 共変量\(x_i\)の母合計を\(X\)として\(\pi_i = n_e x_i / X\)である。[この書き方だと\(\pi_i > 1\)のケースが生じちゃいませんかね。まあ細かい話だけどさ]
 Grosenbaugh (1964)は林業研究の文脈で3-P抽出というのを提案していて、そこでの推定量は$$ \hat{Y}_a = \frac{n_e}{n} \sum_{i=1} \frac{y_i}{\pi_i} = \frac{n_e}{n} \hat{Y}_u$$ である。ちょっとバイアスがある。
 先行研究では\(\hat{Y}_a\)のほうが効率的だという例が多く示されていたが、最近では同じくらいだという例もある。

 太平洋岸北西部には価値の高い材木用の樹があって、その総容積の正確な推定値がほしい。容積は切り倒して測るので、ポアソン抽出が適している(立っている状態で目検で測ったのが\(x_i\)になる)。目検の推定がすごく小さくて実際の容積が大きいとき、\(\hat{Y}_a\)では問題が発生する。
 [へえええ、そういう問題があるのか、と感心。ポアソン抽出というのはほぼ架空の議論だと思っていたよ。林業の人は\(n\)が確率変数であるような抽出デザインでも困らないのだろうか? 広大なフィールドで時間をかけて調べる話で、最終的に何本切り倒すことになるかにはさほど関心がない、ということなのかなあ]

2. 文献レビュー
 標本成員インジケータを\(I_i\)とし、\(P[I_i = 1] = \pi_i\)とする。ポアソン抽出での標本\(s\)の選択確率は$$ P[s] = \prod_{i \in s} \pi_i \prod_{i \notin s} (1-\pi_i)$$ となる。
 標本サイズは\(E[n] = \sum_{i =1}^N \pi_i, \ Var[n] = \sum_{i=1}^N \pi_i (1-\pi_i)\)となる。
 さて、推定量の分散はこうなる。$$ Var(\hat{Y}_u) = \sum_{i=1}^N \frac{y^2}{\pi_i} – \sum_{i=1}^N y_i^2$$ $$ Var(\hat{Y}_a) \approx \left( \sum_{i=1}^{y_i^2} \frac{y^2}{\pi_i} – \frac{Y^2}{n_e} \right) \left(1 + \frac{Var[n]}{n^2_e} \right)$$ [確認してないけど、後者は1次までのテイラー近似なんだろうな、きっと]
 先行研究では後者のほうが効率がいいといわれていて…[中略]
 考えてみると、\(\hat{Y}_u\)と同じように\(\hat{X}_u\)を定義したとして$$ \hat{Y}_a = (\hat{Y}_u / \hat{X}_u) X$$ である。\(\hat{Y}_a\)は平均の比推定量なのである。相対的効率はこう書ける。$$ RE=\frac{Var(\hat{Y}_u)}{Var(\hat{Y}_a)} \approx \left( 1 + R^2 \frac{Var(\hat{X}_u)}{Var(\hat{Y}_u)} – 2 \rho R \frac{\sqrt{Var(\hat{X}_u)}}{\sqrt{Var(\hat{Y}_u)}} \right)^{-1} $$ ただし、\(\rho\)は\(\hat{X}_u, \hat{Y}_u\)の相関で、\(R = Y/X\)である。ここから、\( \rho \lt \frac{1}{2} \left( \frac{CV(\hat{X}_u)}{CV(\hat{Y}_u)} \right) \)のときは\(\hat{Y}_u\)のほうが効率的だとわかる。Cochran(1977)をみよ。
 [この論文にはなんの関心もないんだけど、ポアソン抽出下での母平均のHorvitz-Thompson推定量とHajek推定量の分散の比較について悩んでいるときにたまたまこの論文をめくって、ここでへえええっと思ったので、メモした次第である。分散の比を取ればいいのか…
 もっとも、いまここでは分散の話ばかりしていて、バイアスの話をしていないけど、いいの? という疑問がある。たぶん小さいんだろうけどさ]

 実は、以下の想定がみたされているとき、\(\hat{Y}_a\)は少なくとも\(\hat{Y}_u\)と同程度に効率的である。証明は付録をみよ。[わけわからんし関心もないけれど、いちおう写経しておく]

  • \(n_e^2 \geq N\)
  • すくなくともひとつの\(k\)について、\(y_k\)と比べて小さな\(\beta x_k\)を使って\(y_k \geq \bar{X} + e_k\)である。
  • \(\beta^2 \leq \frac{X}{N^2(n_e -1)} \)
  • \(X – 1 \approx X\)
  • \(\beta(X-1) + \bar{X})^2 \approx \beta^2 X^2\)

 ほかにSrivastava推定量という不偏推定量とか、SarndalのGREG推定量とかがあって…[中略]

データの紹介と結果
 [架空データで比べている。パス]

結論と推奨事項
 \(\hat{Y}_a\)より\(\hat{Y}_u\)のほうが効率的な場面がある。\(x_k\)に下方向の外れ値があって、\(\beta x_k\)が\(y_k\)よりすごく小さくなる時だ。
 云々。