読了: Greco & Naddeo (2007) 抽出確率が不均一な逆抽出デザインでの母合計推定量

Greco, L., Naddeo, S. (2007) Inverse Sampling with Unequal Selection Probabilities. Communications in Statistics: Theory and Methods. 36, 1039-1048.

 いま調べていることの足しになるかなと思ってめくったやつ。抽出確率が確率不均一な逆抽出デザインでの母合計推定の話。Google様いわく、被引用件数18件。さみしい。

1. イントロダクション
 関心ある特性を示す単位が少ないときや、関心ある変数がゼロないしゼロに近いことが多いとき、古典的な標本サイズ固定デザインでは母パラメータを効率的に推定できない。それより、関心ある特性が事前に決めた値に達するまで要素を抽出し続けるやり方がよろしい。これが逆抽出デザインである。

  • Christman & Lan(2001 Biometrics): 単位の選択確率が均一な復元・非復元逆抽出について母合計と母分散の不偏推定量を与えている(分散推定は与えていない)。またシミュレーションで効率性を調べている。
  • Salehi &; Seber (2001 Austral.NZ.J.Statist., 2004 Austral.NZ.J.Statist.): 確率均一な逆抽出法のひとつであるMurthy法がRao-Blackwell定理の応用であることを示している。また母合計の分散推定を与えている。

 本論文では、母集団が2群からなるときの、単位の選択確率が不均一な復元逆抽出(ISWR)の母合計・母分散の不偏推定量とその分散推定を与えるぞ。Christman & Lan(2001)の推定量はその特殊ケースだ。また、非復元逆抽出(ISWOR)についても考えるぞ。

2. 不均一な選択確率
[小見出しは私が勝手につけた]

(設定)
 サイズ\(N\)の母集団が実は群1,2の2群からなっているとしよう。各群のサイズを\(N_1, N_2\)とする。関心ある変数は群1の\(Y_{1i}\), 群2の\(Y_{2i}\)とする。母合計を\(T_1, T_2\)とする。選択確率を群1で\(p_{1i}\)、群2で\(p_{2i}\)とし、群1での合計を\(P\), 群2での合計を\(1-P\)とする。説明のため群1がレアだとするぞ。
 標本に群1の\(k\)個の単位が出てくるまで単位選択を続ける。標本サイズを確率変数\(v\)とする。

(標本の確率)
 \(v = n\)であるようなすべての可能な標本について考える。そのうち群1の単位は\(k\)個なわけね。

 ISWRのもとで、すべての標本の全確率[単位選択が\(v = n\)で停止する確率ということであろう]は$$ P^k (1-P)^{n-k} $$であるからして、ある標本が所与の順序で選ばれる確率は$$ \frac{ \prod_{i=1}^{N_1} p_{1i}^{m_{1i}} \prod_{i=1}^{N_2} p_{2i}^{m_{2i}} }{ P^k (1-P)^{n-k}} = \prod_{i=1}^{N_1} \left( \frac{p_{1i}}{P} \right)^{m_{1i}} \prod_{i=1}^{N_2} \left( \frac{p_{2i}}{1-P} \right)^{m_{2i}} $$ となる。\(m_{1i}\)ってのは、群1の母集団要素\(i\)が抽出される回数のことで、\( \sum_{i=1}^{N_1} m_{1i} = k\)である。\(m_{2i}\)も同様で、合計は\(n-k\)である。かっこのなかにある\( p_{1i}/P \)は、\(n\)を所与としたときの、群1の母集団単位\(i\)の選択確率である。\( p_{2i}/P \)も同様。つまり、\(n\)で条件づければ、逆抽出というのは層サイズ\(k, n-k\)の層別抽出なのである。

(母合計の推定量)
 母合計の推定について考えよう。$$ \hat{T} = \hat{T}_1 + \hat{T}_2 = \frac{P}{k} \sum_{i=1}^k \frac{Y_{1i}}{p_{1i}} + \frac{1-P}{v-k} \sum_{i=1}^{v-k} \frac{Y_{2i}}{p_{2i}} $$ と書ける。[待って待って… ええっと、これ母合計のHT推定量の重みづけ和だよね]
 通常\(P\)は未知だが、その不偏推定量は、\(v\)の分布(NBD)より、$$ \hat{P} = \frac{k-1}{v-1}$$ である。これを使って書き換えるぞ。\(W_{1i} = Y_{1i}/p_{1i}\)という風に略記する(これもまたiidな確率変数だ)。いきまーす。$$ \tilde{T} = \tilde{T}_1 + \tilde{T}_2 = \frac{\hat{P}}{k} \sum_{i=1}^k W_{1i} + \frac{1-\hat{P}}{v-k} \sum_{i=1}^{v-k} W_{2i} $$ $$ = \hat{P} \bar{W}_1 + (1-\hat{P})\bar{W}_2$$ ただし $$ E(\bar{W}_1 | v = n) = W_1 = \frac{T_1}{P} $$ $$ E(\bar{W}_2 | v =n) = W_2 = \frac{T_2}{1-P}$$

 この\(\tilde{T}\)は不偏推定量です。確認しよう。$$ E_v[E_Y(\tilde{T})] = PW_1 + (1-P)W_2 = T_1 + T_2 $$ ほらね?

(母合計の推定量の分散とその推定量)
 では分散推定だ。\( \sigma^2_{1w} = \sum_{i=1}^{N_1} (W_{1i} – W_1)^2 p_{1i} \)とする。\( \sigma^2_{2w}\) も同様。いくぞ。$$ V(\tilde{T}) = (W_1 – W_2)^2 V_v(\hat{P}) + \frac{\sigma^2_{1w}}{k} E_v(\hat{P}^2) + \frac{\sigma^2_{2w}}{k-1} E_v[\hat{P} (1-\hat{P})] $$ [ううう。なんとか追いかけていたのだがここで脱落した。落ち着いて考えればわかるような気もするけれど、いまその体力がない…]

 分散の不偏推定量\(\hat{V}(\tilde{T})\)は… [略]

3. 停止ルール
 金とか時間とかが尽きて、目標到達の前に停止した場合も、母合計とその分散を不偏推定できる。[どういう話かとおもったら、単に場合分けするらしい。嫌だよめんどくさいよ。すいませんがまるごとパス]

4. 均一な選択確率
 選択確率が等しく\(1/N\)だったらどうなるかというと… [略]

 最後にISWORで確率が均一な場合について。結局、一次包含確率は上記とおなじく、\(\frac{k}{N_1}, \frac{n-k}{N_2}\)になる。分散は…
 […以下略…]
————–
 途中で気が付いたけど、これ、論文というより啓蒙的解説という感じだ。途中で関心をなくして斜め読みになってしまったが、まあいいや、必要になったら読み返そう。
 めっちゃ素朴な疑問でお恥ずかしいのだが、抽出確率が不均一な確率抽出では母合計・母平均の推定量としてたいがいHT推定量じゃなくてHajek推定量を使うじゃないですか。不偏じゃないけど分散が小さいから。でもここではHT推定量を使っている。なんで? 逆抽出のときはHajek推定量ではあかんということなの? いや、まさかね。著者らのいうとおり、母集団が2群というセッティングの下では、標本サイズで条件づけちゃえばもはや層別抽出なんだから。