覚え書き:proportion-to-size抽出デザインで推定量の分散が減少するのはなぜか

 仕事とは直接に関係しているわけではないんだけど、あれこれ考えていたら訳が分かんなくなってしまったので。頭を整理するためにメモしておく。自分のための覚書です。

 ポアソン抽出について考える。
 サイズ\(N\)の母集団\(U\)の\(k\)番目の要素の包含インジケータ(つまり、その要素が標本に包含されたときに1、そうでないときに0となる二値変数)を\(I_k\)とする。\(E[I_k] = \pi_k\)と略記する。すべての要素について\(\pi_k \gt 0\)とする。
 標本サイズ\(n_s = \sum_{k \in U} I_k \)は確率変数で、期待値は $$ E[n_s] = \sum_{k \in U} E[I_k] = \sum_{k \in U} \pi_k $$ \(n_s\)は確率変数\(I_k\)の線形和で、\(I_k\)は互いに独立だから、\(n_s\)の分散は$$ Var(n_s) = \sum_{k \in U} Var(I_k) = \sum_{k \in U} \pi_k(1-\pi_k)$$ となる。
 ここまではいいっすね? 文句ないっすね?

 母合計\(t = \sum_U y_k\)の推定量について考えよう。素朴に考えれば、包含確率\(\pi_k\)の\(k\)さんは、\(1/\pi_k\)人にひとりの確率で選ばれたわけで、その\(1/\pi_k\)人の合計は\(y_k\)に人数をかけて\(y_k / \pi_k\)と推定できる。これを標本の全個体について繰り返して足し上げると、いわゆるHorvitz-Thompson推定量となる。$$ \hat{t}_{HT} = \sum_{k \in s} \frac{y_k}{\pi_k} = \sum_{k \in U} \frac{I_k y_k}{\pi_k} $$ その期待値は $$ E[\hat{t}_{HT}] = \sum_{k \in U} \frac{E[I_k] y_k}{\pi_k} = \sum_{k \in U} y_k = t$$ というわけで、母合計\(t\)の不偏推定量であることがわかる。
 この推定量の分散はどうなるか。\(\hat{t}_{HT}\)は\(\frac{I_k y_k}{\pi_k}\)の線形和で、それらは互いに独立だから、$$ Var[\hat{t}_{HT}] = \sum_{k \in U} Var(I_k) (\frac{y_k}{\pi_k})^2 = \sum_{k \in U} \pi_k(1-\pi_k) (\frac{y_k}{\pi_k})^2 = \sum_{k \in U} \left( \frac{1}{\pi_k} – 1 \right) y^2_k$$ ちなみに分散は大きい(標本サイズ次第で決まるので当然である)。なので、実際には母平均のHajek推定量を\(N\)倍した $$ \hat{t}_{Hajek} = N \frac{\sum_{k \in s} \frac{y_k}{\pi_k}}{\sum_{k \in s} \frac{1}{\pi_k}} $$ を使うけれども、それはそれとして。

 さて、ここからがお題である。\(\pi_k\)を好きに決められるとしよう。ただし、「よし全数調査 \(\pi_k = 1\)だ」なんて云われても困るので、期待標本サイズ \(n = \sum_{k \in U} \pi_k\)は所与とする。このとき、どうすれば推定量\(\hat{t}_{HT}\)の分散が小さくなるだろうか?

 \(Var(\hat{t}_{HT})\) の式を眺めるに、\(\sum_{k \in U} \frac{y^2_k}{\pi_k}\)を最小化したいわけである。ちょっとずるいけど、$$ \left( \sum_{k \in U} \frac{y^2_k}{\pi_k} \right)\left( \sum_{k \in U} \pi_k \right) $$ の最小化だといってもよい (\(n = \sum_{k \in U} \pi_k\)は所与だから掛けても害はない)。で、\(a_k = y_k/\sqrt{\pi_k}, b_k = \sqrt{\pi_k}\)とおこう。すると最小化したいのは$$ \left( \sum_{k \in U} a_k^2 \right)\left( \sum_{k \in U} b_k^2 \right) $$ おっとー、コーシーシュワルツの不等式の形になってんじゃん。$$ \left( \sum_{k \in U} a_k^2 \right)\left( \sum_{k \in U} b_k^2 \right) \geq \left(\sum_{k \in U} a_k b_k \right)^2$$ 等号が成立するのは、\(a_k/b_k = \lambda\)が成り立つときである。つまり、\(y_k / \pi_k = \lambda\)のときである。
 \(\pi_k\)は正の値だから、等号が実現できるのは、すべての要素について\(y_k\)の符号が同じで0がないときである。以下ではすべての要素について\(y_k \gt 0\)としよう。\(\pi_k = y_k / \lambda\)である。その合計\(\sum_{k \in U} \pi_k = \frac{t}{\lambda} \)が所与の\(n\)だってんだから \(\lambda = t/n\)である。結局、すべての個体について\(y_k \gt 0\)ならば$$ \pi_k = n \frac{y_k}{t} $$ とするのが最適だということになる。包含確率は期待標本サイズに目的変数のシェアをかけたものになさい、という話だといってもよい。
 そういわれても、もし母集団の全要素の\(y_k\)について知ってたら、なにも標本から\(t\)を推測する必要はないわけだが、しかし神のお告げかなにかの謎の方法によって、\(y_k\)について知らないままにそういう\(\pi_k\)を手に入れたなら、推定量は$$ \hat{t}_{HT} = \sum_{k \in s} \frac{t}{n y_k} y_k = (n_s/n) t $$ となる。もはや標本サイズの変動だけが残るわけだ。

 このように、いま\(y_k\) (すべて0以上) の母合計なり母平均なりについて推測したかったら、なんらかの方法で\(y_k\)を予測し、標本包含確率をその大きさに比例させた確率抽出、いわゆるPPS抽出(probability proportional-to-size)を行えばいいことになる。予測が当たっていれば、Horvits-Thompson推定量の分散は小さくなる。

 以上、Sarndal, Swensson, Wretman (1992) “Model Assisted Survey Sampling” の3.5節 “Posisson Sampling” を見ながらとったメモだが、かなり加筆しているので、すべての誤りは私に由来する。

 私はともすれば混乱してしまうのだけれど、これは一貫してdesign-basedな議論であり、最初から最後まで\(y_k\)はひたすら定数である。\(y_k\)の分布がどうだとか、データ生成プロセスがどうだとか、測定誤差がどうだとか、そういう話とは一切無関係に、「母集団の\(y_k\)を予測してデカそうな奴を優先的に抽出せよ」といえる。これはそういう話なのである。
 この話題、以前からなんだか納得がいかないなあ… ともやもやしていたのだが、今思うと、proportional-to-sizeのsizeという言葉や、「もし全要素で\(y_k \gt 0\)だったら」という部分に惑わされていたのだと思う。そこはポイントではない、と気が付いた。たとえば層別抽出で母平均の推定量の効率が向上するのは、目的変数について層間分散が大きくて層内分散が小さいとき、つまり、層が目的変数の分散を説明しているときだ。この話もそれと同じで、話のポイントは、一次包含確率が目的変数の分散を説明しているときに推定量の効率が向上する、ということなのだと思う。