Zhang, L.C. (2019) On valid descriptive inference from non-probability sample. Statistical Theory and Related Fields, 3(2), 103-113.
都合により読んだ論文。なぜ読んだかというと、これの直前に読んだMeng(2022)がこれを読めと云っていたからである。嗚呼、素直な私。いずれ特殊詐欺とかに騙されるんじゃなかろうか。
1. イントロダクション
[…]
かつてSmith (1983) は非確率標本に基づく推論に対する超母集団(SP)アプローチというのを考えた。アウトカムについてのモデルを組むわけね。さてその際にSmithは分析的推論と記述的推論を区別した。後者は有限母集団の記述統計量についての推論で、もし完璧なセンサスがあったら解決しちゃうような問題のこと。
Smithが焦点を当てたのは観察メカニズムが無視できるような条件ってなに、という問いであった。大まかに言えば、(1)予測モデルが母集団の個体について正しく特徴づけており、(2)非確率標本選択メカニズムが非情報的だ、というのが条件である。非情報的だというのは、母集団モデルの下での分布が非確率標本でダイレクトに観察できるという意味である。
本論文ではSmithのいう妥当性条件に依存する記述的推論に焦点を当てる。
非確率標本に基づく推論には、こうした妥当性条件に依存しないのもある。
- 情報的観察メカニズムを直接にモデル化する路線。NMARモデルとか、Pfefferman, Krieger & Rinott(1998 Stat.Sinica), Prefferman(2017 CalcuttaStat.Assoc.Bull.) など。
- いわゆる準ランダム化(QR)アプローチ。包含確率をモデル化する。このアプローチの場合、(1)非確率抽出は確率抽出メカニズムと同じで包含確率がわからないだけだ、(2)抽出メカニズムを完全に支配している共変量集合がある、という仮定がある。[えええ、そうかなあ… ちょっと言い過ぎじゃないかなあ。準ランダム化アプローチが仮定しているのは、その共変量集合で条件づければ包含確率と目的変数が独立になるような共変量集合がある、ということでしょう?]
アウトカム・モデルと包含インジケータ・モデルを組み合わせた二重頑健アプローチもある。[…] 確率抽出ではモデルベース陣営とデザインベース陣営の対立があって、互いに頑健性を疑っている。
2. 既存アプローチのレビュー
母集団を\(U\), サイズを\(N\)とする。アウトカムを\(y_i\)とする。母合計を\(Y = \sum_{i \in U} y_i\)とする。なんらかの共変量\(x_i\)の母合計を\(X\), 母平均を\(\bar{X}\)とする。母合計・母平均は既知か、確率標本\(S \subset U\)で推測できるとする。
観察された重複のない非確率標本を\(B \subset U\)、サイズを\(n_B\)とする。\(i\in B\)であることのインジケータを\(\delta_i\)とする。
2.1 B-標本拡張推定量
\(y_B\)だけが観察され、共変量もないとしよう。\(\bar{y}_B = \sum_{i \in B} y_i / n_B\)をB-標本平均とする。母合計のB-標本拡張推定量は\(\hat{Y} = N \bar{y}_B\)である。
SPアプローチからみてみよう。 $$ \mu_i = E(y_i | \delta_i, i \in U) $$とする。ここでは\(\delta_i, y_i\)を確率変数として捉えている。もし条件付き期待値が無条件期待値と同じなら、つまり$$ \mu = E(y_i | i \in B) = \mu = E(y_i | i \in U) $$ ならば、$$ E\left(\bar{y}_B – \frac{Y}{N} | B\right) = 0$$ であり、B-標本拡張推定量は不偏である。この条件のことをSP仮定と呼ぼう。
QRアプローチからみてみよう。包含確率は $$ p_i = Pr(\delta_i = 1; y_i, i\in U) $$ 縦棒の代わりに「;」を使っているのはなぜかというと、QRアプローチでは\(y_i\)は確率変数の実現値ではないので、\(p_i\)は厳密にいえば条件付き確率ではないからである。で、もし\(i \in U\)について\(p_i = p\)ならば、\(\tilde{Y} = \sum_{i \in B} y_i / p\)は\(Y\)の不偏推定量である。実際には\(p\)は未知だから、\(\hat{p} = n_B / N\)として推定することになり、プラグイン推定量となる。\(p_i = p\)をQR仮定と呼ぼう。QR仮定の下でB-標本拡張推定量は一致推定量である。
まとめると、B-標本拡張推定量は、SPアプローチならSP仮定の下で、QRアプローチならQR仮定のもとで成り立つ。
[超あたりまえのことを小難しく述べているだけのくだりにみえるが、本題に入る前の準備なのだろう]
2.2 B-標本カリブレーション推定量
標本\(B\)で適切な共変量\(x_B = \{x_i; i \in B\}\)が手に入り、母合計\(X\)も既知ないし確率標本\(S\)で一致推定できるとしよう。B-標本カリブレーション推定量を以下とする。$$ \hat{Y} = \sum_{i \in B} w_i y_i $$ ただし、\(X\)が既知なら\(\sum_{i \in B} w_i x_i = X\)、未知ならばなんらかの一致推定量\(\hat{X}(S)\)を使って \(\sum_{i \in B} w_i x_i = \hat{X}(S)\)とする。
この推定量を実際に求めようとすると、まずは初期ウェイト集合\(a_B = \{a_i; i \in B\}\)が必要になり、また\(\sum_{i \in B} \frac{(w_i – a_i)^2}{a_i}\)のようななんらかの距離関数が必要になる。\(a_i = 1/p_i\)としておけば、この推定量はいくつかの正則条件のもとで一致性を持つことがわかっている。しかし適切な\(a_i\)がない場合には、QRアプローチの観点からはこの推定量は推奨されない。
以上をSPアプローチの立場からみてみよう。SPx仮定 $$ E(y_i | x_i, i\in U) = \mu(x_i) = x_i^\top \beta$$ を置く。さらに、\(x_i\)の下でのB-標本選択の無情報性 $$ E(y_i | x_i, i\in U) E(y_i | x_i, i\in B) $$を置く。すると、もし\(\sum_{i \in B} w_i x_i = X\)ならば $$ E \left( \sum_{i \in B} w_i y_i – Y | x_U \right) = E(\sum_{i \in B} w_i x_i^\top \beta) – X^\top \beta = 0$$ が成り立つ。これは初期ウェイト\(a_i\)とは無関係である。\(\hat{X}(S)\)が漸近不偏なら、いくつかの適切な漸近的セッティングの下で期待値はゼロに近づく。このように、SPアプローチの観点からは、SPx仮定とB-標本選択の無情報性の仮定が妥当性条件になる。
なお、ここで考えたB-標本拡張推定量のうち、\(x_i\)が事後層のダミー変数だった場合を、B-標本事後層別推定量と呼ぶ。QRアプローチの場合は、それぞれの事後層で\(p_i = p\)だという仮定が妥当性条件になる。SPアプローチの場合は変わらない。
[そんなカリブレーション推定の話なんてどうでもいいよ… 早く本題に入ってくださいよ…]
2.3 B-標本逆傾向ウェイティング
適切な共変量\(x_B\)が手に入っているとしよう。QRアプローチでははIPW推定量が構築される。まず、包含確率が\(x_i\)のパラメトリック形式で完全に決まる、つまり$$ p_i = p(x_i; \eta) \gt 0$$ と仮定する。これをQRx仮定と呼ぶ。
\(\eta\)をどうやって推定するか。母集団の全要素について\(x_i\)が既知ならば、パラメータ\(\eta\)は、\(E[H(\delta_i; \eta)] = 0\)となるような\(H\)について母集団推定方程式\(\sum_{i \in U} H(\delta_i; \eta) = 0\)を解けばよろしい。でなければ、確率標本\(S\)について\(\sum_{i \in S} d_i H(\delta_i; \eta) = 0\)を解けよ(\(d_i\)はデザイン・ウェイトね)、ってことになるんだけど、この場合は\(S\)について\(\delta_i\)がわからないといけない、つまり\(S\)と\(B\)のマッチングが必要になる。で、2つの推定方程式の間で\(H(\delta_i; \eta)\)が同じであることを保証するには、UからのS-抽出が\(\delta_i\)に関して無情報である、つまり$$ Pr(\delta_i = 1 | x_i, i \in S) = Pr(\delta_i = 1 | x_i, i \in U) $$ という仮定が必要にある。いったんこの仮定が得られたなら、もうデザインウェイトは忘れて\(\sum_{i \in S} H(\delta_i; \eta) = 0\)を解けばよい。[推定方程式を使って説明されると途端にわかりにくくなる… すべての統計学者に銃を突き付けて反省を促したいよ…]
まあそんなこんなで\(\eta\)が推定できたらば、\(\hat{p}_i = p(x_i; \hat{\eta})\)を使って、B-標本IPW推定量 $$ \hat{Y} = \sum_{i \in B} y_i / \hat{p} $$ が使える。\(\hat{\eta}\)がいくつかの適切な条件のもとで一致推定量なら、この推定量もある種の正則性条件のもとで一致推定量になる。
こうしてみると、本当に重要なのはQRx仮定である。\(\delta_i\)の無情報性仮定は\(x_i\)が\(S\)でしか手に入らないときにのみ必要である。
2.4 もう一つのB-標本IPW推定量
Elliott & Valliant(2017)は、\(\hat{Y} = \sum_{i \in B} y_i / \hat{p}_i \)という形のもうひとつのIPW推定量について議論している。[自分のためにメモしておくと、\(B\)と\(S\)の和集合を考えるアプローチだ]
\(p_i\)が次の形でわかったとしますね。確率標本\(S\)への包含インジケータを\(S_i\)とし、\(S \cap B = \emptyset\)として$$ p_i \propto Pr(S_i = 1 | x_i, i \in U) \frac{Pr(\delta_i = 1 | x_i, i \in B \cup S)}{Pr(S_i = 1 | x_i, i \in B \cup S)} $$ QRx仮定を保持すれば […数式が書いてあるけどよくわからんので中略…]、このときのIPW推定量の妥当性条件は、「QRx仮定が両方の標本で成り立つ」となる。
ここで2点注意。
- Rosenbaum & Rubin (1983)いうところの傾向スコアと、Elliott & Valliant いうところの傾向スコアは、似ているけれど別物である。R&Rは、処理と非処理を合わせた標本がSRSです、という場面について考えている。ここでいえば標本\(B \cup S\)がSRSだというようなものだ。
- \(S\)が確率標本ならば、デザイン包含確率を\(\pi_i = \pi(z_i)\)として、「もし\(\pi(z_i)\)が\(p(x_i, \hat{\eta})\)と全然違ってたらどうするの」という問いが生じる。[??? 確率標本の抽出デザインが非確率標本の抽出デザインと全然違ってたらどうすんのってことだよね? いやそれはどうでもいいんじゃないの? … いやまて、BとSを結合するアプローチだとそこが問題になるか…]
2.5 標本マッチング推定量
Rivers(2007 Conf.)はSが利用可能な状況でのSPアプローチについて検討している。なおRiversの方法はYang & Kim (2018 preprint)のマス代入法の特殊ケースとみることができる[Yang & Kimの論文はその後Survey Methodologyに載っているようだ]
\(i \in S\)について、B-標本に対して最近隣代入値を\(y_{k_i}\)を得る。なんらかのメトリック\(|| \cdot ||\)について\(k_i = argmin_{j \in B} || x_i – x_j || \)とする。で、\(\hat{y}_i = y_{k_i}\)として、$$ \hat{Y} = \sum_{i \in S} d_i \hat{y}_i$$ を得る。これを標本マッチング(SM)推定量という。
話を簡単にするために、すべての\(i \in S\)についてぴったりマッチングできる、つまり\(k_i \in B\)について\(x_{k_i} = x_i\)としよう[わかりにくい表記だけど、\(k_i \in B, i \in S\)のいずれも\(U\)上で振ったIDだと思えばよかろう]。2.2節に出てきたB抽出の無情報性仮定 $$ E(y_i | x_i, i \in U) = E(y_i | x_i, i \in B) $$ をここでも仮定すれば(Yang & Kimはこれを「無視可能性」と呼んでいる)、以下が得られる。$$ E \left[ \sum_{i \in S} d_i E(\hat{y}_i | x_i) \right] = E \left[ \sum_{i \in S} d_i E(y_i | x_i, i \in B) \right] $$ $$ = E \left[ \sum_{i \in S} d_i(y_i | x_i, i \in U) \right] = \sum_{i \in U} E(y_i | x_i, i \in U) = E(Y | X_U) $$ つまりSM推定量は\(Y\)の不偏予測である。
[…] Yang & Kim のシミュレーションによれば、こういう最近隣代入よりも、セミパラメトリック一般化加法モデルで代入したほうが効率がよい。
さて、SM推定量の一致性は、漸近的正確マッチング $$ || x_i – x_{k_i} || \rightarrow 0 \ \mathrm{in \ probability} $$ を仮定すれば簡単に示せる。Yan & Kimは「共通サポート」という仮定でもよいことを示していて… [ちょっとめんどくさくなってきたので中略]
ここで2点注意。
- 最近隣代入の魅力は代入値がより自然にみえるところにある。しかし、S-抽出が無情報でない限り、最近隣代入したS-標本は真のS-標本とは似つかないものになる。なぜなら \(E(\hat{y}_i | x_i, i \in S) = E(y_i | x_i, i \in U)\)と\(E(y_i | x_i, i \in S)\)が異なるからである。[んんん? 混乱してきてしまった。標本マッチ推定量が不偏であるためには、B-抽出の無情報性とS-抽出の無情報性の両方が必要になるってこと?]
- 任意の共変量 \(z_i \neq x_i\)について(S-標本デザイン変数を含む)、\(x_i\)のもとで\(y_i と z_i\)が条件付き独立でない限り、\(E(\hat{y}_i | z_i, x_i, i \in S) = E(y_i | x_i, i \in U)\)は \(E(y_i | z_i, x_i, i \in U)\)とは異なる。これは、BとSのマッチングにおける一般的な問題である。たとえば…[例が示されている。めんどくさいのでパス]
3. 妥当性条件についてのより一般的な議論
2節に出てきたすべての手法において、無情報選択の仮定、つまり $$ E(y_i | x_i, i \in U) = E(y_i | x_i, i \in B) $$ ないし $$ Pr(\delta_i = 1 | x_i, i \in S) = Pr(\delta_i = 1 | x_i, i \in U)$$ という仮定がクリティカルである。では、この仮定の違反とは何か。2つの違反がある。
まず、B-標本のアンダーカバレッジ。つまり、母集団の個体のなかに包含確率0の奴がいるということ。SPアプローチでいえば、B標本の条件付き確率を母集団に外挿するのが、主観的信念のみに基づく外挿だということになる。QRアプローチでは、たとえB標本の\(p_i\)が既知でもランダム化推論ができなくなる。
Kim & Rao (2018 Conf.)は2フェイズSM推定量というのを考えている。S標本を\(S_1 = \{i; p_i \gt 0\}\)と\(S_0 = \{i; p_i = 0\}\)にわける。まずB標本のサポートを通じて $$ \hat{S}_1 = \left\{ i; min_{j \in B} || x_i – x_j || \lt \epsilon \right\} $$ を推定する[S標本のうちB標本とマッチできる奴らを特定するわけね]。この分割推定量が一致推定量だと仮定する[どういう意味かを数式で書いているが略]。次に、ウェイト\(w_{2i}\)を\(\sum_{i \in \hat{S}_1} d_i w_{2i} x_i = \sum_{i \in S} d_i x_i\)になるようにカリブレートした\(w_{2i}\)を使って$$ \hat{Y} = \sum_{i \in \hat{S}_1} d_i w_{2i} \hat{y}_i $$ とする。この推定量は、アンダーカバレッジがSP線形モデルについて無情報、つまり\(E(y_i | x_i, p_i = 0)\)が\(x_i\)の線形関数で\(p_i \ge 0\)と同じだという仮定にもとづいている。
次に、平均の異質性。[ここ、途中で頭が混乱したのでほぼ逐語訳]
SPx仮定 $$ E(y_i | x_i, i \in U ) = E(y_i | x_i, i \in B) $$ ないし QRx仮定 $$ Pr(\delta_i = 1 | x_i, i \in S) = Pr(\delta_i = 1|x_i, i \in U)$$ が成り立っているとしよう。[ここでまずつまずいた。SPx仮定とQRx仮定というのはアウトカムないし包含確率が\(x\)のパラメトリック関数になっているという仮定でしょう? 正しくはB標本選択の無情報性というべきではなかろうか]
しかしそうだとしても、選択した\(x_i\)でコントロールされない、「平均の異質性」という可能性は常に残る。
いま、\(U_x = \{i ; x_i =x, i \in U\}\)がサイズ\(N_x\)だとしよう [集団において共変量が\(x\)である奴らを指す]。
SPアプローチでは、個体\(i\)の平均\(\mu_i\)を\(\mu(x_i)\)としてモデル化する。平均の異質性とは、\(\mu(x) = \sum_{i \in U_x} \mu_i / N_x\)であり\(\mu(x_i\)が統計的に正しい(つまり、\(U_x\)のすべての個体を通じた\(\mu_i\)の平均が\(\mu(x)\)である)にも関わらず、\(\mu_i \neq mu(x_i)\)であることを指す。
QRアプローチでは、平均の異質性とは、\(p(x) = \sum_{i \in U_x} p_i / N_x\)であるにも関わらず、\(p_i \neq p(x_i)\)であることを指す。
[ううう。わかんない。\(\mu(x_i) = E(y_i | x_i, i \in U)\)ではない\(\mu_i\)ってなんのこと? \(p(x_i)\)ではない\(p_i\)ってなんのこと?もしかして、2.1での定義のとおり、\(x_i\)で条件づけず標本包含有無で条件づけた\(\mu_i = E(y_i | \delta_i, i \in U), \)のこと? ないし\(y_i\)で条件づけた\(p_i = Pr(\delta_i = 1; y_i; i \in U)\)のこと?]
平均の異質性が及ぼす影響は、SPアプローチとQRアプローチで異なる。
\(\mu(x) = \sum_{i \in U_x} \mu_i / N_x\)のもとで、\(i \in U_x\)について\(\mu_i = \mu(x)\)と仮定することは、平均の異質性にもかかわらず予測不変である。なぜなら$$ \sum_{i \in U_x}[ E(y_i | \delta_i) – \mu(x)] = \sum_{i \in U_x} [\mu_i -\mu(x)] = 0 $$ だからである。[やはり\(\mu_i \equiv E(y_i | \delta_i)\)らしい。うーん、わかんないないなあ。ひょっとして、\(\mu_i\)は未知の定数として捉えられているのだろうか。そうだとすれば、「仮に\(\mu_i = \mu(x)\)と仮定すれば、実は\(\mu_i \neq \mu(x_i)\)でなくてもIPW推定量は不偏 (つまり、個体の期待値が所属層を定義している\(x\)の関数であると仮定すれば、実は個体の期待値がその人の\(x_i\)の関数でなかったとしてもIPW推定量は不偏)」という意味になる]
いっぽう、\(p(x) = \sum_{i \in U_x} p_i / N_x\)の下で、\(i in U_x\)について\(p_i = p(x)\)と仮定しても、$$ E \left( \sum_{i \in U_x} \frac{\delta_i y_i}{p(x)} \right) – \sum_{i \in U_x} y_i = \frac{1}{p(x)} \sum_{i \in U_x} (p_i – p(x)) y_i \neq 0$$ である。つまり、\(p_i\)のモデルが正しくてもQRアプローチのIPW推定量は不偏でない。[わからん。任意の\(i \in U_x\)について\(p_i = p(x)\)ならばこの式は0じゃないですか。HT推定量のなかの包含確率\(p_i\)を\(p(x)\)で代用するとその推定量は不偏でなくなる、たとえ\(x\)のもとでの\(p_i\)の母平均が\(p(x)\)であるとしても、ということだろうか。うーん、そういう主旨かもしれない。そしてそうなる理由もわかる。結局、QRアプローチに必要なのは共変量のもとでの包含確率の期待値を正しく当てることじゃなくて、共変量のもとで包含確率と目的変数が独立になることだもんね]
以上の議論から、2章で形成した妥当性条件はアンダーカバレッジと平均の異質性があるときには不適切であることがわかる。
3.1 ノンパラメトリック漸近的(NPA)無情報性
[この節は難しいけれど関心がある話なので、ほぼ逐語訳に近い形でメモをとっている]
まず、以下の条件の下でB-標本平均\(\bar{y}_B\)が母平均\(\bar{Y}\)と等しいことを確認しよう。$$ Cov_N(\delta_i, y_i) = \frac{1}{N} \sum_{i \in U} \delta_i y_i – \left( \frac{1}{N} \sum_{i \in U} \delta_i \right) \left( \frac{1}{N} \sum_{i \in U} y_i \right) = 0$$ $$ E_N(\delta_i) = \sum_{i \in U} \delta_i / N \gt 0$$ この条件は、アウトカムに関するB-標本観察メカニズムの無情報性の経験的な形成である。
ここから、共変量がないときの「ノンパラメトリック漸近的(NPA)」無情報仮定が得られる。$$ \lim_{N \rightarrow \infty} Cov_N(\delta_i, y_i) = 0 $$ $$ \lim_{N \rightarrow \infty} E_N(\delta_i) = p \gt 0$$ 1本目はB選択の無情報性、2本目はB選択がnon-negligibleであることを表している。
このNPA仮定はSPアプローチとQRアプローチの両方をカバーしている。
SPアプローチでは、\(\delta_i\)のもとでの期待値をとって$$ E(Cov_N(\delta_i, y_i) | \delta_U) = \frac{1}{N} \sum_{i \in U} \delta_i y_i – \left( \frac{1}{N} \sum_{i \in U} \delta_i \right) \left( \frac{1}{N} \sum_{i \in U} y_i \right) \rightarrow 0 $$ $$ \sum_{i \in U} \delta_i / N \gt 0$$ が得られる。この条件の下で、B-標本拡張推定量は漸近的に予測不偏である。
QRアプローチでは、\(y_i\)を定数として\(\delta_i\)の期待値をとって $$ E(Cov_N(\delta_i, y_i); y_U) = \frac{1}{N} \sum_{i \in U} p_i y_i – \left( \frac{1}{N} \sum_{i \in U} p_i \right) \left( \frac{1}{N} \sum_{i \in U} y_i \right) \rightarrow 0 $$ $$ E(E_N(\delta_i)) = \sum_{i \in U} p_i / N \rightarrow p \gt 0$$ が得られる。[2本目の式がよくわからない。\(E_N(\delta_i)\)は標本包含インジケータの、(所与の抽出デザインの下でありうるすべての)標本抽出を通じた期待値だと思う。その外側の期待値はなにを通じた期待値なわけ? 漸近性を示すための、ありうる\(N\)を通じた期待値、ってことであってますか?]
NPA仮定の下では\(0 \geq p_i \geq 1\)が許される点に注意。つまり、たとえばアンダーカバレッジ(\(p_i = 0\))や非代表的個体(\(p_i = 1\))があってもなお、QRの観点からはB拡張推定量は一致推定量である。
3.2 事後層別推定量
\(x_i\)による事後層別を考えよう。各事後層におけるNPA仮定の下で、B-標本事後層別推定量は、SPからみてもQPからみても漸近不偏である。以下ではQRについて述べる。SPについては3.3節の特殊ケースになる。
まず、\(p_x = \sum_{i \in U_x} p_i / N_x\)が既知であるときの架空の推定量 $$ \tilde{Y} = \sum_x \sum_{i \in U_x} \delta_i y_i / p_x $$ について考えよう。分散推定を可能にするために、\(\delta_i\)は確率\(p_i\)の独立ベルヌーイ分布に従うとする。分散は$$ V(\tilde{Y}) = \sum_x \sum_{i \in U_x} p_i y_i^2 / p^2_x – \sum_x \sum_{i \in U_x} p^2_i y^2_i / p^2_x $$ となる。
第1項の不偏推定量は $$ \hat{\tau}_i = \sum_x \sum_{i \in U_x} \delta_i y^2_i / p^2_x = \sum_x p^{-2}_x \sum_{i \in B_x} y^2_i$$ となる。第二項の不偏推定量は$$ \hat{\tau}_2 = \sum_x p^{-2}_x \sum_{i \in U_x} \delta_i p_i y^2_i $$ QRx仮定、すなわち \(i \in U_x\)について\(p_i = p_x\)より、$$ = \sum_x p^{-1}_x \sum_{i \in U_x} \delta_i y^2_i = \sum_x p^{-1}_x \sum_{i \in B_x} y^2 $$ となる。結局、\(\hat{V}(\tilde{Y}) = \sum_x (p^{-1}_x -1) p^{-1}_x \sum_{i \in B_x} y^2_i \)となる。
ではいよいよ事後層別推定量。上の式の\(p_x\)を\(\hat{p}_x = n_{xB} / N_x \)で置き換えて\(\hat{Y}\)とする。その無条件分散の漸近的に妥当な推定値も線形化によって手に入るだろう[説明の気力をなくしたらしい…]
3.3 カリブレーション推定量
[あああ、めんどくさい。そろそろ私も読み解く気力を失いつつある…]
B標本が空のセルを含んでいたり、\(N_x\)がわからない場合には、事後層別推定量は実現できない。
\(x_i\)に多対一にマッピングするベクトル $$ t_i = (t_{1i}, t_{2i}, \ldots, t{Ki})^\top = (t_1(x_i), t_2(x_i), \cdots, t_K(x_i))^\top = t(x_i)$$ があって、その母合計\(T\)が既知で、標本合計にゼロが含まれていないとする。
仮に初期ウェイト \(a_i = N/n_B\)から始めるとする。線形カリブレーション推定量は下式で与えられる: $$ \hat{Y} = \sum_{i \in B} w_i y_i $$ ただし\(w_i\)は\(a_i\)への距離を最小化するウェイトである。\(B_t = \{i; t_i = t, i \in B\}\)として、\(\sum_{i \in B} w_i t_i = T\)と制約して、最小化すべき距離を$$ \sum_{i \in B} (w_i – \frac{N}{n_B})^2 = \sum_t \left( \sum_{i \in B_t} w^2_i – 2(\frac{N}{n_B}) \sum_{i \in B_t} w_i + n_{tB} (N/n_{TB})^2 \right) $$ とすると、[…中略…] 結局\(w_i = w_t\)となる。
\(\hat{Y}\)の最初の妥当性条件として次を仮定する。ベクトル\(\beta\)があって、\(\epsilon_i = y_i – t_i^\top \beta\)について、\(N\rightarrow \infty\)のとき、それぞれの\(t\)の値について$$\sum_{i \in U_t} \epsilon_i / N_t \rightarrow 0$$ が成り立つとする(\(N_t\)は\(t_i = t\)の人の母集団サイズ)。この条件はSPx条件に近い(共変量\(x_i\)が\(t_i\)に差し変わっただけ)。平均の異質性も許容している。
すると、$$ \hat{Y} – Y = \sum_{i \in B} w_i(t_i^\top \beta + \epsilon_i) – \sum_{i \in U} t^\top_i (\beta + \epsilon_i) = \sum_{i \in B} w_i \epsilon_i – \sum_{i \in U} \epsilon_i$$ 第2項は仮定より、\(N \rightarrow \infty\)のときに\(\sum_{i \in U} \epsilon_i / N \rightarrow 0\)である。第1項をみると、\(N \rightarrow \infty\)のときに$$ Cov_{N_t} (\delta_i, \epsilon_i ) \rightarrow 0 $$ $$ E_{N_t} (\delta_i) = \sum_{i \in U_t} \delta_i / N_t \rightarrow p_t \gt 0 $$ のもとで、$$ \frac{1}{N} \sum_{i \in B} w_i \epsilon \rightarrow 0$$ が示せる[実際に示しているがメモ省略]。
このように、\(Y\)のカリブレーション推定量の妥当性条件は次の2つである。$$\sum_{i \in U_t} \epsilon_i / N_t \rightarrow 0$$$$ E_{N_t} (\delta_i) = \sum_{i \in U_t} \delta_i / N_t \rightarrow p_t \gt 0 $$
なお分散推定は… [略]
[いやー、この節は正直よくわからんかった。いちいち漸近的挙動の話をしているから、私にはとてもじゃないけどついていけない…]
3.4 無情報B-標本選択の妥当化
[この節にも関心がある。でも精魂尽きつつある。仕方がないのでほぼ逐語訳に近い形でメモする]
ここまでに述べた妥当性条件のうちクリティカルなのは無情報B標本選択であった。その形式はいろいろであった。たとえば、3節冒頭のNPA仮定 $$ \lim_{N \rightarrow \infty} Cov_N(\delta_i, y_i) = 0 $$ $$ \lim_{N \rightarrow \infty} E_N(\delta_i) = p \gt 0$$が所与ならば、3.4節での妥当性条件 \(\sum_{i \in U_t} \epsilon_i/N_t \rightarrow 0\)のような追加の仮定は原則として経験的に検証できる[ええええ? どうやって?]。しかし、無情報仮定は正確には維持されていないかもしれない。無情報仮定を推定に用いるデータだけで検証するのは一般に不可能である。以下で詳述する。
まずQRアプローチのもとでの傾向モデル\(p_i = p(x_i; \eta)\)について考えよう。話を簡単にするために\(x_U\)を既知とする。
センサスのスコア方程式$$ \sum_x \frac{\partial p(x; \eta)}{\partial \eta} \left[ \frac{n_{xB}}{p(x; \eta)} – \frac{N_x – n_{xB}}{1-p(x; \eta)} \right] = 0 $$ である。それは\(p(x; \hat{\eta}) = n_{xB}/N_x \)によって常に満たされる(すなわち、飽和モデルである)。
[この人、あえてわかりにくく書いているんじゃないかしらん… デモでも起こそうかな… まあいいや、ざっくりいえば、共変量の下での包含確率についてパラメトリックなモデルを組まず単にその層の標本抽出率にしてしまえば、もはやモデルのあてはまりもくそもないという話だろう]
\(p(x_i; \eta)\)について非飽和モデルを組み、それはデータが完全にはヒットしないとき、人は常に、\(x_i\)が「抽出メカニズムを完全に支配している」という仮定を否定するのではなく、\(p(x_i; \eta)\)の関数形式が非飽和であることのせいにできる。その意味で、\(x_i\)が「抽出メカニズムを完全に支配している」という仮定は反証できない。
SPアプローチの場合はどうだろうか。B標本包含確率\(p_i\)が\(x_i\)に依存していると仮定しよう。話を簡単にするために、母集団について\(x_i\)が既知だとする。それとは別に、既知の共変量\(z_i\)があるとする。$$ E(z_B) = \sum_{i \in U} p_i z_i = \sum_x p(x; \eta) \sum_{i \in U_x} z_i = \sum_x p(x; \eta) N_z \bar{Z}_x $$ と書ける(\(\bar{Z}_x = \sum_{i \in U_x} z_i/N_x\))。共変量\(z_i\)の母合計は $$ X = E \left( \sum{i \in U} \frac{\delta_i z_i}{p_i} \right) = E \left[ \sum_x \frac{n_{xB} \bar{z}_{xB}}{p(x; \eta)} \right]$$ と書ける (\(\bar{z}_{xB} = \sum_{i \in B_x} z_i / n_{xB}\))。
[ここからがわからん! 写経するぞ!]
以下の2点を確認できる。$$ \left\{ \begin{align*} z_B & \equiv \sum_x n_{xB} \bar{z}_{xB} = \sum_x \hat{p}_x N_x \bar{Z}_x \\ Z & = \sum_x \frac{n_{xB} \bar{z}_xB}{\hat{p}_x} \end{align*} \right. $$ $$ \Rightarrow_{\mathrm{if} z_i \equiv 1} \left\{ \begin{align*} \sum_{i \in U} \hat{p}_i = n_B \\ \sum_{i \in B} \frac{1}{\hat{p}_i} = N \end{align*} \right. $$
[1本目は、\(z\)の標本合計、つまり層ごとの{標本サイズ, \(z\)の標本平均}の積和、すなわち層ごとの{包含確率推定値、母集団サイズ、zの母平均} の積和。2本目は、\(z\)の母合計、すなわち層ごとの{標本サイズ、\(z\)の標本平均}の積を包含確率推定値で割りながら合計した値。もしすべての個体について\(z_i = 1\)ならば、1本目は標本サイズ、2本目は母集団サイズとなる]
もし\(\hat{p}_x = n_{xB}/N_x\)としたら、2つのチェックは\(\bar{Z}_x = \bar{z}_{xB}\)の下で満たされる。すなわち、\(Z_x\)のB-標本拡張推定値はすべての\(x\)において完全である。このことは、\(x_i\)のもとでの\(z_i\)に関するNPA仮定が保持されていること、よって、もし\(z_i\)が\(y_i\)と相関しているならば、\(x_i\)に下での\(y_i\)のNPA仮定も保持されているらしいということを意味する。しかし、もしそんな\(z_i\)があるならば、最初から\(Y\)の推定に使っていたはずである。いっぽう\(z_i \equiv 1\)ならば、\(\hat{p}_x = n_{xB}/N_x\)としただけで2つのチェックはトリビアルに満たされてしまう。ここには、推定のために最良のモデルを作ってしまうとその検証可能性が下がるというジレンマがある。[なるほど。細かいことはわからんが言いたいことはわかるよ。無情報仮定を確かめるために、\(y_i\)と相関し母合計が既知な別の変数\(z_i\)について母合計をうまく推定できるだろうかというチェックがありうるが、そんな\(z_i\)が手つかずで残っているわけないじゃん、ってことね]
4. アウトカムについての追加の確率標本の使用
[確率標本の側でアウトカムがわかっていたらどうかという話らしい。力尽きたのでパス]
5. サマリー
2節では非確率標本に基づく推定量について検討した。それらはすべてモデル・ベースであり、SPかQRのどちらかのアプローチでモデリングされるものであった。
- \(x_U\)が既知の場合に比べると、参照標本\(x_S\)を使うのは効率が低い。
- 追加の確率標本があってもアウトカムがなかったら、\(x_U\)が既知の状況と比べて妥当性条件がシンプルになるわけではないので、それほどのアドバンテージはない。でも、\(x_U\)がない場合、記述的推論のためにはそれでも\(x_U\)のなんらかの関数が必要になる。追加の確率標本はこの実践的な難題を解決してくれる。
なお、もしアウトカムの確率標本があったら状況はがらっとかわる。
云々。
——————————
いやーーーーー、難しかった。わからなかった。推定量の一般的な妥当性条件のくだり(3節)がもっとも知りたい箇所だったのに、そこが一番わからなかった。
結局さあ、超母集団アプローチであれ準ランダム化アプローチであれ、「共変量のもとで目的変数と包含確率が条件付き独立」という条件さえ満たせば、母平均の推定量は不偏になるんじゃない? それとも、そんな単純な話じゃないってことなの? どうなんだい!?