読了: Arnab (2017) 推定関数とはなにか

Arnab, R. (2017) Estimating Function. in “Survey Sampling Theory and Applications“, Chapter 22. Academic Press.

 有限母集団推定の話を読んでいると、ときどきGodanbeの推定方程式アプローチというのが出てきて、話のポイントが全然つかめず困惑することがある。いらいらしてきたので教科書的な説明を探して読んでみた。著者とこの書籍についてはまったく初見だが、標本抽出についての難しめの教科書である模様。
 全部で23ページあるが、最初の4ページを読んだところで力尽きたぞ。

1. イントロダクション
 観察\(\mathbf{y} = (y_1, \ldots, y_n)\)に基づき母集団パラメータ\(\theta\)の推定量\(t(\mathbf{y})\)を構築する場面について考えよう。この推定量はなにかの最適性基準を満たしていることが期待される。不変性とか十分性とか効率性とか。推定量\(t(\mathbf{y}\)の作り方にはいくつかの標準的な方法がある。最尤法とか、最小二乗法とか、積率法とか、カイ二乗最小化とか。それぞれ良し悪しある。

 これらの方法にはある共通点がある。それは、結局のところ$$ g(\mathbf{y}, \theta) = 0 $$ という方程式の解を求めているということである。
 いろんな方法を一般化した方法として推定関数法がある。上の式を推定方程式、左辺を推定関数という。

2. 推定関数と推定方程式
 \(\mathbf{y}\)は無作為標本で、\(E(y_i) = \theta, \ Var(y_i) = \sigma^2\)だとしますね。\(\theta\)の最小二乗推定量は $$ S^2 = \sum_{i=1}^n (y_i – \theta)^2 $$ を\(\theta\)に関して最小化することで得られる。つまり $$ \frac{\partial S^2}{\partial \theta} = 0 $$ これを解いて \(\bar{y} – \theta = 0\)である。これは、推定関数を$$ g(\mathbf{y}, \theta) = (\bar{y} – \theta) $$ として、推定方程式\(g(\mathbf{y}, \theta) = 0\)の解を得ているわけだ。
 では、推定関数を $$ g(\mathbf{y}, \theta) = \sum_{i=1}^n (y_i – \theta) b_i $$ としたら何が起きる? ただし、\(b_i\)は既知の定数で合計はゼロでないとする。推定方程式の解はこうなります。$$ \hat{\theta}_g = \sum_{i=1}^n b_i y_i / \sum_{i=1}^n b_i$$ その分散は $$ V(\hat{\theta}) = \sigma^2 \frac{\sum b_i^2}{(\sum b_i)^2} $$ \(b_i\)の合計を\(c\)とすると、推定関数の分散は\(b_i = c/n\)のときに最小化される。この状況下では、推定関数アプローチでもガウス・マルコフアプローチでも[???]、\(\theta\)の解は\(\bar{y}\)になる。

 推定関数\(g\)は、\(E(g) = 0\)のときに不偏であるという。[うううう… 頭が混乱してきた… それが0であるという方程式を解いたら母集団特性の推定量が得られるような関数のことを推定関数っていうんだよね。で、推定関数の期待値が0だったら「不偏」っていうんだよね。それって、その推定方程式を解いて得られる推定量が不偏推定量であることと関係があるの?]

 \(g\)を\(k\)倍しても解はもちろん同じだが、推定関数の分散は\(k^2\)倍になる。比較のため、標準化推定関数を定義する。$$ g_s = \frac{g}{E \left( \frac{\partial g}{\partial \theta} \right)} $$

 話を戻して… 今度は、こんなクラスの推定関数について考えよう。$$ g_1(\mathbf{y}, \theta) = \sum b_i(\theta)(y_i – \theta) $$ ただし、\(b_i(\theta)\)は微分可能である。
 この推定関数は不偏である。しかし、推定式の解は\(\theta\)の不偏推定量にはならないかもしれない。[ああそうか。推定関数の不偏性と推定量の不偏性は別の話なのね]
 標準化推定関数を求めると、[勝手に補足すると $$ \frac{\partial g_1}{\partial \theta} = \sum_{i=1}^n [b’_i(\theta)(y_i – \theta) + b_i(\theta)(-1)$$ 期待値をとると、総和記号のなかの第一項は\(E(y_i) = \theta\)だから消えて $$ E \left( \frac{\partial g_1}{\partial \theta} \right) = \sum [ b’_i(\theta) E(y_i – \theta) – b_i(\theta)] = -\sum b_i(\theta) $$ というわけで] $$ g_{1s} = \frac{g_1}{- \sum b_i(\theta)} $$ その分散は $$ Var(g_{1s}) = \sigma^2 \frac{\sum b^2_i(\theta)}{(\sum b_i (\theta))^2} $$ となる。分散は\(b_i(\theta) = b(\theta) \neq 0\)とすると最小化される。分散を最小化する推定関数は $$ g_{10} = b(\theta) \sum(y_i – \theta) $$ となる。この推定方程式を解くと、\(\theta\)の最適推定量として\(\bar{y}\)が得られる。[ううう… 雲をつかむような話だが、これはこの次の小節の導入部分なのだと思う]

2.1 推定関数の最適特性
 推定関数の最適特性を導出しよう。
 \(\theta\)のパラメータ空間を\(\Omega_\theta\)とする。\(y\)は密度関数\(f(y, \theta)\)に従うものとする。以下の正則性条件を置く。

  • 条件A. \(f(y, \theta)\)の正則性条件:
    1. \(\Omega_\theta\)は実数上の開区間である。
    2. ほとんどすべての\(y\)について、すべての\(\theta \in \Omega_\theta\)について \( \frac{\partial \log f(y, \theta)}{\partial \theta}\)と\(\frac{\partial^2 \log f(y, \theta)}{\partial \theta^2}\)が存在する。[言い回しが数学っぽくてついていけないが、\(\theta\)の対数尤度が二回微分可能だというような意味だと思う]
    3. \(\int f(y,\theta) d\mu\)と\(\int \frac{\partial \log f(y, \theta)}{\partial \theta)} f(y, \theta) d \mu \)がdifferentiable under the sign of integration. [微分できるしそのときは積分記号の内側で微分してよい、という意味らしい。それはともかく、式の意味がわからない。\(\mu\)ってなんなの!? 思いあぐねてchatGPTくんに聞いてみたところ、これはなんかその測度論的な概念なんだそうな。ほんまかいな]
    4. すべての\(\theta \in \Omega_\theta\)について \( E \left( \left. \frac{\partial \log f(y, \theta)}{\partial \theta} \right| \theta \right)^2 \gt 0\) [\(\theta\)の対数尤度の導関数の二乗の期待値が0にならないということかな]
  • 条件B. \(g(y, \theta)\)の正則性条件:
    1. すべての\(\theta \in \Omega_\theta\)について \(E[g(\mathbf{y}, \theta)] = 0\) (これを推定関数の不偏性条件という)
    2. ほとんどすべての\(y\)について、すべての\(\theta \in \Omega_\theta\)について \( \frac{\partial g(\mathbf{y}, \theta)}{\partial \theta}\)が存在する。
    3. \(\int g(\mathbf{y},\theta) f(\mathbf{y}, \theta) d\mu\)がdifferentiable under the sign of integration. [また\(\mu\)が出てきた!なんなのこれ]
    4. すべての\(\theta \in \Omega_\theta\)について \( E \left[ \frac{\partial g(\mathbf{y}, \theta)}{\partial \theta} \right]^2 \geq 0\) [\(\theta\)の対数尤度の導関数の二乗の期待値が0以上、ってことだと思う。でも二乗の期待値が0以上なのは自明ではないですか? 数学の世界ってほんとによくわかんない]

条件Bを満たす推定関数を正則推定関数という。

 \(g(\mathbf{y}, \theta) = 0\)の解を\(\hat{\theta}_g\)としよう。テイラー展開により以下が得られる。[補足すると、\(g(\mathbf{y}, \theta)\)を\(\theta\)の関数とみて\(\theta = \hat{\theta}_g\)で1次のテイラー展開をしている。\(\theta^*\)というのがよくわかんないんだけど、剰余項を書かない代わりにこういう書き方もできるらしい] $$ g(\mathbf{y}, \theta) = g(\mathbf{y}, \hat{\theta}_g) + (\theta – \hat{\theta}_g) \frac{\partial g(\mathbf{y}, \theta^*)}{\partial \theta} $$ ただし \(\theta^* \in (\hat{\theta}_g, \theta)\)。第一項は消えるから、\(g'(\mathbf{y}, \theta^*) \neq 0\)であれば \(\theta – \hat{\theta}_g = -g(\mathbf{y}, \theta) / g'(\mathbf{y}, \theta^*)\)と書ける。これが小さくあってほしい。つまり、$$ E(\theta – \hat{\theta}_g)^2 = \frac{E(g^2)}{ \left[ E(\frac{\partial g}{\partial \theta}) \right]^2} $$ が小さくあってほしい。この式を\(g\)の効率性の指標とし、\(\lambda_g(\theta)\)と書く。

 条件Bを満たす推定方程式のクラス\(G\)があるとして、そのなかで、すべての\(\theta \in \Omega_\theta\)について $$ \frac{E(g_0^2)}{ \left[ E(\frac{\partial g_0}{\partial \theta}) \right]^2} \leq \frac{E(g^2)}{ \left[ E(\frac{\partial g}{\partial \theta}) \right]^2} $$ が成り立つ\(g_0(\mathbf{y}, \theta)\)を最適推定関数、推定方程式を最適推定方程式、その解を最適推定値という。[\(g \in \Omega_\theta\)って書いてないんだけど、たぶんそういう意味だと思う。要するに、推定量のMSEを最小にする推定方程式を最適と称するということね]
 これは、すべての\(g \in G\)について\( Var(g^s_0) \leq Var(g^s) \)と表現してもよい。

 ある正則性条件の下では、以下のクラメール・ラオ不等式みたいな不等式が成り立つ。$$ Var(g) \geq \frac{\left\{ E \left( \frac{\partial g }{\partial \theta} \right) \right\} ^2 }{I(\theta)} $$ ただし、\(I(\theta) = E \left[ \frac{\partial \log f(y, \theta)}{\partial \theta} \right]^2 \)はフィッシャー情報量。[あっ! 正則性条件A(iv)ってフィッシャー情報量だったのか!]
 この不等式の下限は \(g = \frac{\partial \log f}{\partial \theta}\)のとき、つまり\(g\)が最尤法でいうスコア関数であるときに達成される。

3. 超母集団モデルからの推定関数
 有限母集団 \(U = (U_1, \ldots, U_N)\)を考える。クラス\(C\)に属する分布\(\xi\)から\(\mathbf{y} = (y_1, \ldots, y_N)\)が得られるとする(つまり\(C\)は超母集団モデル)。超母集団パラメータを\(\theta\)とする。[しれっと定義が変わっている… 今度の\(\mathbf{y}\)は有限母集団全体だぜ]
 すべての\(\xi \in C\)について \( E_\xi[g(y, \theta(\xi)] = 0 \)であることを、推定関数が不偏であると呼ぶ。(期待値は\(\xi\)の下での期待値)

 推定方程式\(g(\mathbf{y}, \theta) = 0\)の解 \(\theta_{N}(\mathbf{y})\)は二通りに解釈できる。

  • \(\mathbf{y}\)が既知の場合、超母集団パラメータ\(\theta\)の推定値。
  • \(\mathbf{y}\)が部分的に既知の場合、調査母集団パラメータ。[??? 有限母集団の一部が既知、つまり調査の場合でしょう? 調査母集団パラメータってどういう意味? 調査母集団パラメータの推定値ということ?]

 条件Bが成り立ち、すべての\(g \in G\)、すべての\(\xi \in C\)について $$ \frac{E_\xi(g^{*2})}{\left\{ E_\xi \left. \left( \frac{\partial g^*}{\partial \theta} \right) \right|_{\theta = \theta(\xi)} \right\}^2} \leq \frac{E_\xi(g^{2})}{\left\{ E_\xi \left. \left( \frac{\partial g}{\partial \theta} \right) \right|_{\theta = \theta(\xi)} \right\}^2} $$ であるとき、\(g^*(y, \theta)\)は最適であるという。

3.1 最適推定関数と線形最適推定関数
 次の形の推定関数を線形という。$$ g_l(\mathbf{y}, \theta) = \sum_{i=1}^N \phi_i(y_i, \theta) a_i(\theta) $$ ただし、\(a_i(\theta)\)は\(y_i\)たちから自由な微分可能関数。関数\(\phi_i\)はすべての\(i\)で\(E_xi(\phi_i(y_i, \theta))\)を満たす。たとえば\(\phi_i = y_i – \theta\)がそうである。
 線形推定関数のクラスを\(G_L\)として、\(G_L\)のなかで最適な関数を線形最適という。

定理3.1 超母集団モデルを\(C = \{\xi\}\), \(y_i\)は互いに独立、すべての\(i\)について\(E_\xi[\phi_i(y_i, \theta)]\)とする。\(g_{l0}(\mathbf{y}, \theta)\)はすべての\(i\)について以下が成り立つときに線形最適である。$$ E_\xi \left( \left. \frac{\partial \phi_i(y_i, \theta)}{\partial \theta} \right|_{\theta = \theta(\xi)} \right) = k(\theta(\xi)) E_\xi(\phi^2_i) $$
 証明: [パス]
[…]

たとえば、\(y_i\)が互いに独立で、\(E_\xi(y_i) = \theta(\xi) x_i, V_\xi(y_i) = \sigma^2\)だとしよう。定理3.1の条件は\(\phi_i = \frac{x_i(y_i – \theta xi)}{\sigma^2} \)のときに成り立つので、\(g_{l0}(\mathbf{y}, \theta) = \sum_{i=1}^N \frac{x_i(y_i – \theta x_i)}{\sigma^2_i} \) が線形最適関数となり、\(\theta\)の最適推定値は $$ \theta_N = \frac{\sum y_i x_i / \sigma^2_i}{\sum x_i / \sigma^2_i} $$ となる。
[…]
———–
なるほど… 個々の推定量が解として得られる推定方程式を考えると、推定量の式じゃなくて推定関数の式だけ見て、あるクラスの中でこれが最適な推定関数だよ、みたいな議論を進めることができるのか。推定関数を持ち出す理由がなんとなくわかった。

力尽きたのでここまでにしておくけれど、以下の見出しをメモしておく。ほんとは4節が山場なんだろうな…
4. 調査母集団の推定関数
5. 間隔推定
5.1 \(\theta\)の信頼区間
6. 無回答
7. 結語