Seber, G.A.F., Salehi, M.M. (2013) “Adaptive Sampling Design: Inference for Sparse and Clustered Populations.” Springer. Chapter 3. Rao-Blackwell Modifications.
適応的抽出デザインについてのモノグラフの第3章。実をいうと5章の逆抽出についての章を読みたいだけなんだけど、いきなり読んでも訳が分からないので最初から目を通している次第である。
出たよ、Rao-Blackwellの定理… 恥ずかしながら、このあたりの話が理解できたためしがない。そもそも数学がからきしだめだから文系の学部に行ったのに、なんでこの年になってこんな目にあっているのだろうか。憂鬱だなあ。
1. 表記
- 関心ある母集団パラメータを\(\mathbf{\theta} = (y_1, y_2, \ldots, y_N)^\top \in \mathbf{\Theta}\)とする。
- サイズ\(n\)の標本のラベル系列を\(s_0 = (i_1, i_2, \ldots, i_n)\)とする。通常はとってきた順に並んでいる。重複がありうる点に注意。データを $$ d_0 = ((i_1, y_{i_1}), (i_2, y_{i_2}), \ldots, (i_n, y_{i_n})) = ((i, y_i): i \in s_0) $$ とする。\(d_0 = (s_0, \mathbf{y}_0)\)と略記することもある。
- \(s_0\)の重複を取り除いて小さい順に並べた集合を \(\nu\)とか\(\nu(s)\)と書く。それに対応する\(y\)の値の集合を\(\mathbf{y}_s\)とする。\(d = (s_0, \mathbf{y}_s)\)とする。
- \(\nu\)と違って、重複は取り除いたけど順番は変えてない奴を\(s_R = \{i_1, i_2, \ldots, i_\nu\} \)とし、\(d_R = \{(i, y_i): i \in s_R\}\) とする。\(d_R = (s_R, \mathbf{y}_R)\)と略記することもある。
以下では大文字で書いたら確率変数を指すことが多い。たとえば\(d_0\)を値にとる確率変数を\(D_0\)と書く。
[要するに、重複ありのデータを値に取る確率変数が\(D_0\), その実現値が\(d_0\)で、重複なしのデータを値にとる確率変数が\(D_R\), その実現値が\(d_R\)である。よし覚えたぞ]
2. 十分性と完全性
- 統計量の十分性: 統計量\(W = h(D_0)\)があるとする。\(P_\mathbf{\theta}(W = w) \gt 0\)であるようなすべての\(\mathbf{\theta}\)について\( P_\mathbf{\theta} (D_0 = d_0 | W =w)\)が\(\mathbf{\theta}\)と独立であるとき、\(W\)は\(\theta\)に対して十分であるという。
[難しいなあ。私はごく簡単に、\(P(D_0 = d_0 | W = w, \mathbf{\theta} = \mathbf{t}) = P(D_0 = d_0 | W = w)\)であることを指して\(W\)が\(\mathbf{\theta}\)の十分統計量だというのだと思っていたんだけど、そういう書き方ではいかんのだろうか。なんかいかんのだろうな。数学の得意な人の考えていることはよくわからない] - 統計量の最小十分性: すべての十分統計量\(W\)について\(W_1 = f(W)\)となるようなある関数\(f\)が存在することを指して、\(W_1\)は最小十分であるという。もし\(f\)が1対1の関数ならば\(W\)もまた最小十分である。[んんん? ちょっと待って? 書いてないけど、\(W_1\)も十分統計量だったら、だよね?]
- 統計量の完全性 [完備って訳すことのほうが多いのかな?]: なんらかの関数\(h(W)\)があって、「すべての\(\mathbf{\theta} \in \mathbf{\Theta}\)について\(E[h(W)] = 0\)」ならば「すべての\(\mathbf{\theta} \in \mathbf{\Theta}\)について確率1で\(h(W) = 0\)」であるとき、\(W\)は\(\mathbf{\theta}\)に対して完全であるという。
[あああ、こういう話苦手だ… まあいいや、先に進もう]
さて、以下が示せる。Thompson & Seber (1996)をみよ。
定理1 適応的デザインでも慣用的デザインでもいいけど、標本の選択確率が標本の外側のいかなる\(y\)値にも依存していないデザインを考えよう(標本のなかの\(y\)値や選択順序には依存しているかもしれない)。このとき、\(D_R\)は\(\mathbf{\theta}\)の最小十分統計量である。
[標本がその標本の\(y\)とか選択順序とかに依存して決まるような標本抽出デザインだったら、胸を張って最小十分ですといえるのはもはや、重複を取り除いたけど順番を変えてないデータそのものだ、ということだろう]
定理2 (Rao-Blackwellの定理) パラメータ\(\phi = \phi(\mathbf{\theta})\)の任意の推定量(不偏でなくてもよい)を\(T = T(D_0)\)とする。\(W\)は\(\mathbf{\theta}\)に対して十分だとする。$$ T_W = E[T | W] = \eta(W)$$ と定義する。このとき以下が成り立つ。
- \(T_W\)は推定量である。
- \(E[T_W] = E[T]\)
- \(MSE[T_W] \leq MSE[T]\)。\(P_\mathbf{\theta}(T \neq T_W) \gt 0\)が成り立つすべての\(\theta \in \Theta\)に関して強い不等性が成立する。
- もし\(T\)が不偏なら、MSEは分散となり、以下が成り立つ。$$ var[T_W] = var[T] – E_W\{ E(T-T_W)^2 | W\} = var[T] – E_W\{ var[T|W] \} $$ 新たな推定量\(T_W\)は不偏であり、もし\(T\)が最小十分統計量の関数でなかったら\(T\)より分散が小さい。
定理3 定理1と2より、$$ T_W = T_R = E[T | D_R] $$ は不偏推定量であり、その分散は少なくとも\(T\)の分散と同じように小さい。
以下の適応的デザインでは、実用的な不偏推定量を見つけるためにRao-Blackwellの方法をよく用いる。つまり、単純だが非効率な推定量から出発し、所与の十分統計量の下での条件付き期待値をとって、よりよい推定量を得るのである。
ここで疑問として浮かぶのが、たとえばパラメータ\(\mu\)について、不偏推定量のなかで\(\mu\)がなんであれ最も分散が小さい推定量(一様最小分散不偏推定量, UMVUE)は存在するのか、という点である。もし\(W\)が完全なら存在するかもしれないところだが、あいにく…
定理4 \(D_R\)は完全でない。
実務的にいえばこのことは以下を意味する。我々は最小十分統計量の関数として複数の不偏数定量を手に入れることができるかもしれない。でも、他の奴より一様に良い奴はない。
[定理2-4をまとめておくと… おまえは重複ありの元データ\(D_0\)に基づき、\(\mathbf{\theta}\)で決まるなにかを推定する推定量を持っている。ご苦労。ところで俺は\(\mathbf{\theta}\)の十分統計量\(W\)を持っている。この\(W\)の下での\(T\)の条件付き期待値を求めてみろよ。それはおまえが今持っている推定量よりも全然ましな推定量だぜ。一様最小分散不偏推定量じゃないけどな。あばよ。という話であろう]
3. Rao-Blackwellの方法の適用例
Rao-Blackwellの方法を適応的クラスタ抽出に適用してみよう。すでに我々は3つの不偏推定量\(\hat{\mu}_{HT}, \hat{\mu}_{HH}, \bar{y}_1\)を持っている。しかしそれは\(D_R\)の関数ではない(選択の順序に依存している)。また、HTとHHは境界ユニットを無視している。
3.1 適応的クラスタ抽出
上の3つの推定量のいずれかを\(T\)と呼ぶ。不偏推定量であり\(\hat{var}[T]\)も手に入っている。さて、$$ T_{RB} = E[T | D_R] $$ をつくろう。それは不偏で、分散はもっと小さく$$ var[T_{RB}] = var[T] – E\{var[T | D_R]\} $$ となる。
最終標本における重複のないユニット数を\(v\)とする。それらから\(n_1\)個を取り出す組み合わせの数を\(G = C(v, n_1)\)とし、すべての組み合わせにラベル\(g (=1,2,\ldots,G)\)を振る。
初期標本が組み合わせ\(g\)だったときの推定量\(T\)の値を\(T_g\)とし、そのときに求めた\(\hat{var}[T]\)の値を\(\hat{var}_g [T]\)とする。
各組み合わせについてインジケータ変数\(I_g\)を定義する。その組み合わせが\(d_R\)を産んだとき、そのときに限り\(I_g=1\)とする。\(d_R\)と互換性のある組み合わせの数を$$ \xi = \sum_{g=1}^G I_g $$ とする。
\(d_R\)を所与としよう。すべての互換性のある組み合わせの中から\(T = t_g\)である組み合わせを得る確率は\(1/\xi\)だから$$ T_{RB} = E[T | D_R] = \frac{1}{\xi} \sum_{g=1}^\xi t_g = \frac{1}{\xi} \sum_{g=1}^G t_g I_g $$
[なにをやっているのかというと、適応的クラスタ抽出でめくったすべてのノード(最終標本より大きい)を\(D_R\)とし、おまえが持っている\(T\)の、\(D_R\)のもとでの条件付き期待値をつくりたいのである。そのために、最終標本から重複なく\(n_1\)個を取り出すすべての組み合わせをつくり(仮想的な初期標本ってことですかね)、個々の組み合わせから出発してノードをめくっていったときにめくるノードが\(d_R\)になるような組み合わせをすべて選び、それぞれについておまえが持っている推定量のアウトプットの平均をとる。ああ、なるほどね、最終的にめくったノードの集合を固定して、そこに至るすべての筋道を通じた推定量の期待値を求めているわけだ。いやこれ、超めんどくさくないですか]
\(var[T]\)だって\(\theta\)の関数であり、\(\hat{var}[T]\)は不偏推定量なので、こちらでもRao-Blackwellの定理を適用することができる。$$ \hat{var}_{RB}[T] = E\{\hat{var}[T] | D_R\} = \frac{1}{\xi} \sum_{g=1}^\xi \hat{var}_g[T] $$ いっぽう $$ var[T | D_R] = E[(T – T_{RB})^2 | D_R] = \frac{1}{\xi} \sum_{g=1}^\xi (t_g – T_{RB})^2 $$ 合わせると $$ \hat{var}[T_{RB}] = \frac{1}{\xi} \sum_{g=1}^\xi \{ \hat{var}_g [T] – (t_g – T_{RB})^2 \} $$ $$ = \frac{1}{\xi} \sum_{g=1}^G \{ \hat{var}_g [T] – (t_g – T_{RB})^2 \} I_g$$
[ここからは、じゃあ3つの推定量のうちどれにRao-Blackwell の方法を適応すればいいのか… という話になる模様。適応的クラスタ抽出そのものにはあまり関心がないので(言い訳)、なんだか力尽きてしまった。
大幅中略]
Low et al.(2005)は適応的クラスタ抽出を複数のロボットが広い地域を見て回るという問題に適用している。[…中略…]
\(\xi\)と\(G\)は大きいかもしれないわけで、Rao-Blackwell化した推定量は推定が大変そうだが、幸い閉形式で書き切れる。[…]
適応的クラスタ抽出における比のHTないしHH推定量や、比推定量について、Rao-Blackwell化しようとするとすごく複雑になる […]
3.2 ネットワークの非復元抽出
[略]
4. ラベルの無視
[6章の適応的配分の話の準備らしい。略]
————–
途中で力尽きてしまったが、まあ、推定量のRao-Blackwell化という話の雰囲気をつかめたから、よしとしよう。(自分に甘い)