読了: Godambe & Thompson (1986) 推定関数理論からみた超母集団パラメータと調査母集団パラメータ

Godambe, V.P., Thompson, M.E. (1986) Parameters of Superpopulation and Survey Population: Their Relationships and Estimation. International Statistical Review, 54(2), 127-138.

 有限母集団特性の推定の話を読んでいるとときどき出てくる、推定関数・推定方程式という考え方がどうにも理解しにくく、悔しい思いをしている。腹立ちまぎれに、標本抽出論の解説書Arnab (2017) の該当章を読んでみたんだけど、やはりよくわからない。よし、原典に戻ってみよう! 逐語訳に近いレベルでメモを取れば俺にだって少しはわかるだろう! と思って、Godambeさんの論文を読んでみた。無謀だなあ。
 短い論文だが、たぶん当該領域の重要文献だと思う。google様曰く被引用回数238。

1. イントロダクション
 標本調査を「分析的」に用いる際、その目的は、超母集団モデルパラメータの推定、ないし母集団モデルに動機づけられた形式の有限母集団関数の推定です。
 たとえば、超母集団モデルが $$ y_i = \beta x_i + \epsilon_i $$ だとしますね。\(\epsilon_i\)は\(E(\epsilon_i)=0, V(\epsilon_i)=\sigma^2 \)に独立に従うとします。目的は、標本から\(\beta\)を推定すること、ないし、有限母集団の値 \((x_1, y_1), \ldots, (x_N, y_N)\)から得られる\(\beta\)のOLS推定値\(\beta_N\)を推定すること、です。[…]
 \(\beta\)のようなパラメータの最適な推定手続きを決定する際には、\(x, y\)の標本の値に基づく推定量\(\hat{\beta}_s\)が、標本抽出デザインの観点から見て不偏ないし不偏に近いかどうかが問題となります。\(\hat{\beta}_s\)がデザイン不偏であり、さらに標本抽出デザインとモデルの観点から見て同時MSE最小であるとき、\(\hat{\beta}_s\)を最適と呼ぶことができるでしょう。

 本論文では、上記の最適性基準を推定関数の理論に拡張します。
 調査母集団の母集団ベクトル\(\mathbf{y} = (y_1, \ldots, y_N)\)が、超母集団モデル\(C = \{\xi\}\)の成員である分布\(\xi\)から生成されていると仮定しましょう。超母集団モデルのパラメータを\(\theta\)とします。推定関数の理論では、すべての\(\xi \in C\)について $$ E_\xi[ g(\mathbf{y}, \theta(\xi)) ] = 0 $$ である関数\(g(\mathbf{y}, \theta)\)を不偏推定関数と呼びます。さらに、適切な正則性条件を満たす不偏推定関数のうち、すべての\(\xi \in C\)において $$ \frac{E_\xi(g^2)}{\left\{ E_\xi \left( \frac{\partial g}{\partial \theta} \right)_{\theta = \theta(\xi)} \right\}^2 } $$ を最小にする推定関数\(g^{*}(\mathbf{y}, \theta)\)を最適と呼び、\(g^{*}(\mathbf{y}, \theta) = 0\)を最適推定方程式、\(\theta\)の解を最適推定値と呼びます。
 \(\mathbf{y} = (y_1, \ldots, y_N)\)が調査母集団ベクトルならば、\( g^*(\mathbf{y}, \theta_N) = 0\)は次の2つの性質を同時に持ちます。

  • \(\mathbf{y}\)の全要素が既知ならば、\(\theta_N(\mathbf{y})\)は超母集団パラメータ\(\theta\)の推定値です。
  • そうでなければ\(\theta_N(\mathbf{y})\)は調査母集団のパラメータの定義です。

[ここまでを振り返るに、不偏だとか最適だとかいっているのはあくまで推定関数の期待値と分散の話であって、得られる\(\hat{\theta}\)が不偏だとか最適だとかいっているんじゃないよね? 俺の理解は正しいのか?]

2. 最適推定関数・線形最適推定関数
 \(y_i\)が互いに独立なら、最適推定関数が以下の形式で決まるケースがあります。$$ g^* = \sum_{i=1}^N \phi_i(y_i, \theta) $$ ただし\(E_\xi [\phi_i(y_i, \theta)] = 0\)です。
 推定関数が $$ g(\mathbf{y}, \theta) = \sum_{i=1}^N \{ \phi_i(y_i, \theta)\} a_i(\theta) $$ という形になっていることを線形であるといいます(これは不偏です)。最適な推定関数は決まらないけれど、線形推定関数の中でなら最適な推定関数が決まる、ということもあります。
 [つまり、推定関数が個体レベルの関数(期待値ゼロ)の線形和になっている場合のことを線形推定関数というということね]

 以下では次のクラス\(C\)に焦点を当てます。(式2.3)

  • すべての\(\xi \in C\)について、\(y_i\)は互いに独立。
  • すべての\(\xi \in C\)について、\(E_\xi [ \phi_(y_i, \theta(\xi))] = 0 \)。
  • \(g^* = \sum \phi_i(y_i, \theta)\)は最適推定関数ないし最適線形推定関数。

[つまり、\(C\)は不偏推定関数のクラスで、\(g^*\)はそのクラスの中で最適、かつそのクラスに属する線形推定関数のなかでも最適、ということではないかと思う]

 \(g^*\)が線形最適である十分条件として、$$ \frac{ E_\xi(\partial \phi_i / \partial \theta)_{\theta = \theta(\xi)} }{ E_\xi(\phi^2_i) } = constant (\theta(\xi)) $$ があります。[個人レベルの推定関数 \(\phi_i(y_i, \theta)\)を\(\theta\)で偏微分したときの真値\(\theta(\xi)\)での傾きの期待値を、\(\phi_i(y_i, \theta)\)の二乗の期待値で割ると、真値の定数倍になっている、ということだと思う。証明が載っている。パス]
 全ての\(i\)で\(\phi_i = \phi\)なら、\(g^* = \sum \phi(y_i, \theta)\)は最適推定関数になります。

 たとえば、

  • \(y_i\)は互いに独立。
  • \(E_\xi [ y_i ] = \theta(\xi)\)。
  • \(E_\xi (y – \theta(\xi))^2 \)は\(i\)から独立。

この3つを満たすすべての分布からなるクラスを\(C\)としましょう。このとき、\(g^* = \sum_i \phi_i = \sum_i (y_i – \theta)\)は線形最適関数です。\(\theta(\xi)\)の推定値は調査母平均 \(\theta_N = (\sum_i y_i)/N\)です。
 もう一つ例を挙げましょう。超母集団モデルを\(y_i = \beta x_i + \epsilon_i\)とし、\(\theta = \beta\)とすると、\(g^* = \sum_i \phi_i(y_i, \theta) = \sum_i (x_i(y_i-\theta x_i))\)は線形最適関数であり、$$ \theta_N = \left( \sum_i^N x_i y_i \right) / \left( \sum_i^N x^2_i \right) $$ となります。

[まだだ… まだ本題ではない… 耐えるのだ…]

3. 超母集団パラメータと調査母集団パラメータの同時推定
 標本を\(s\)とします。抽出デザイン\(p\)とは、\(\mathcal{T} = \{s\}\)上の確率分布です[抽出デザインとは、ありうる標本のひとつひとつに確率を割り当てるものだ、ということであろう]。観察を \(\chi_s = \{(i, y_i): i \in s\} \)とします。
 式(2.3)の条件を満たす超母集団モデル\(C = \{\xi\}\)があり、最適ないし線形最適な推定関数\(g^*\)があり、その解が\(\theta_N\)だとします。

 \(\theta_N\)を推定するために、\(h(\chi_s, \theta) = 0\)という形式の方程式を解くという場面について考えます。抽出デザイン\(p\)のもとで期待値をとったとき、$$ E(h(\chi_s, \theta)) = \sum_i^N \phi_i(y_i, \theta)$$ が満たされていてほしいと期待するのが自然でしょう(式3.1)。これはデザイン不偏性に対応しています。包含確率を \( \pi_i = \sum_{s:i\in s} p(s)>0 \) として$$ h(\chi_s, \theta) = \sum_{i \in s} \frac{\phi_i(y_i, \theta)}{\pi_i} $$ は上の性質を満たします。
 [この論文ではじめて、添え字のない期待値記号\(E\)が登場した。これはデザイン・ベースの期待値、つまり抽出デザインを固定して標本抽出を繰り返したとしてそれらを通じた期待値。いっぽう\(E_\xi\)はモデル・ベースの期待値、つまり、有限母集団の生成を生成するメカニズムが繰り返し発動したとしてそれらを通じた期待値を意味している。ですよね?]

 さて、上の性質を満たす\(h\)のなかで最適な選択は、$$ \frac{E_\xi E(h^2(\chi_s, \theta(\xi)))}{ \left\{ E_\xi E \left( \frac{\partial h}{\partial \theta} \right)_{\theta = \theta(\xi)} \right\}^2} $$ を最小化する\(h\)だといえるでしょう[これは1節の最適関数の定義を繰り返しているだけだと思うが、モデルベース期待値\(E_\xi\)の内側にデザインベース期待値\(E\)が入っているところが異なる]。\(E(h(\chi_s, \theta)) = \sum_i^N \phi_i(y_i, \theta)\)より、分母のカッコの中身は $$ E_\xi E \left( \frac{\partial h}{\partial \theta} \right)_{\theta = \theta(\xi)} = E_\xi \left( \frac{\partial}{\partial \theta} \sum_i^N \phi_i \right)_{\theta = \theta(\xi)} $$ です。
 ここで以下がいえます。

  • 式2.3の\(\sum_i \phi_i\)は任意の定数倍が可能ですが、その定数を固定すれば、対応する\(h\)の定数倍が決まります。
  • 上の最小化関数は分子部分の最小化だと考えてかまいません。なぜならば分母部分は \( E_\xi ( \frac{\partial}{\partial \theta} \sum_i^N \phi_i )_{\theta = \theta(\xi)} \)であり、\(h\)から独立だからです。
  • 分子部分の最小化は、$$ E_\xi \left[ h(\chi_s, \theta(\xi)) – \sum_i^N \phi_i(y_i, \theta(\xi)) \right]^2 $$ の最小化と等価です。これは最初に論じた標本抽出理論での最適性基準と整合します。つまりこの文脈阿では、標本抽出理論の最適性基準と推定関数の最適性基準は一致します。

定理1. 式2.3と同じく、超母集団モデル\(C = \{\xi\}\)の下で\(\phi_i(y_i, \theta)\) が独立であり\(E_\xi (\phi_i(y_i, \theta)) = 0\)だとする。\(h(\chi_s, \theta)\)がすべての\(\mathbf{y}, \theta\)で式(3.1)を満たすとする。このとき、\(h\)の最適な選択は $$ h^*(\chi_s, \theta) = \sum_{i \in s} \frac{\phi_i(y_i, \theta)}{\pi_i} $$である。
証明: [パス]
[えーっと、個人レベルのモデル不偏推定関数を包含確率の逆数で重みづけた関数が、式(3.1)を満たすデザイン不偏推定関数のクラスにおける最適推定関数になるってことね?]

定理2. 定理1の下で、$$ E_\xi E \left\{ \sum_{i \in s} \frac{\phi_i(y_i, \theta(\xi))}{\pi} \right\}^2 = \sum_i^N \frac{E_\xi(\phi^2_i)}{\pi_i} $$ を最小化するという意味で最適な固定サイズ\(n\)の抽出デザインは、包含確率を以下とする抽出デザインである: $$ \pi_i \propto [ E_\xi \{ \phi^2_i(y_i, \theta(\xi)) \} ]^{1/2} $$

4. 例
例1
 超母集団モデルを\(C = \{\xi\}\)とし、\(\xi \in C\)において\(y_i\)は独立であり、\(E_\xi(y_i) = \theta(\xi)\)であり、\(y_i\)の分散は\(\sigma^2_i\)に比例し\(\sigma^2_i\)は既知だとします。[母分散が既知であるような状況で期待値を推定したいわけね]
 2節で述べたように、線形最適推定関数は$$ g^* = \sum_{i=1}^N \phi_i(y_i, \theta) $$ $$ \phi_i(y_i, \theta) = (y_i – \theta) / \sigma^2_i $$ です。調査母集団パラメータは $$ \theta_N = \frac{\sum_i^N (y_i / \sigma_i^2)}{\sum_i^N (1/\sigma^2_i)} $$ です。最適推定方程式を解いて得られる推定量は$$ \hat{\theta}_s = \frac{ \sum_{i \in s} (y_i / \pi_i \sigma^2)}{\sum_{i \in s} (1/\pi_i \sigma^2_i)} $$ です。最適デザインは \(\pi_i \propto 1/\sigma_i\)となります。

例2
[パス。まあとにかく、定理1, 定理2を使って最適推定関数と最適な抽出デザインが決まるという話だと思う]

5. パラメータが複数ある場合への拡張
[パス]

6. 考察
 […]
 伝統的な不偏最小期待分散推定と、本章で議論した推定を比べてみましょう。
 \(C\)における\(\xi\)がなんらか特徴づけられた分布に従っているとき[超母集団モデルが既知ならばっていうことかな]、調査母平均の不偏最小期待分散推定値は $$ e = \frac{1}{N} \sum_{i \in s} \frac{y_i – \theta(\xi)}{\pi_i} + \theta(\xi) $$ です。\(\theta(\xi\)\)はわからないので、\(e\)の最適性それ自体は役に立ちませんが、伝統的理論における最適性の結果の特殊ケースが次のケースから得られます。包含確率\(\pi_i \gt 0\)が指定されているとき、抽出デザインが $$ Probability( s: \sum_{i \in s} (1/\pi_i) = N ) = 1 $$ を満たすなら、\(e\)は\(\theta\)から独立であり、\(\hat{\theta}_s = e\)です。これを満たすデザイン(ないし補助変量\(x\)を考慮すればこれを満たすデザイン)としていろいろな種類の層別抽出デザインがあります。また、\(h^*\)の最適性は\(C\)を通じて成り立ちます。これらの事実は、本論文の理論が伝統的理論の一般化であることを示しています。[ここ、よくわかんなかった…]
[…]
—————
 いやあ… やはり抽象的で雲をつかむような話であった。正直なところ理解できたとはいいがたい。悲しいけど、この話題はまたの機会にしよう。
 推定関数・推定方程式という枠組みを使うと、従来の推定量の良し悪しとか抽出デザインの良し悪しとかについて統一的に説明できる、んだろうな… よくわからんけど。