読了: Wu (2022) 非確率標本による統計的推論 (質疑応答編 パートII)

Meng, X.L. (2022). Comments on “Statistical inference with non-probability survey samples” – Miniaturizing data defect correlation: A versatile strategy for handling non-probability samples. Survey Methodology, 48(2), 339-360.

非確率標本の分析についてのレビュー論文 Wu(2002) に寄せられた5人の識者によるコメントと著者の返答のうち、4人までは読んだんだけど、残る一人分はコメントとは思えない大論文になっている。こうなったら意地で読むしかない。

1. デザイン確率、神聖確率、デバイス確率の区別
1.1 統計学/統計家は非確率標本についてなにがいえるのか?
 標本が非確率であるというとき、我々が言うところの確率とはなんなのか。確率標本の理論と手法が奪われたとき、統計家に残されるものは何なのか。
 現実世界には確率標本なんてないんだ、というのもひとつの答えである。Wuさんの答えはもっとプラクティカルで、統計学者たちが観察研究(特に因果推論)において非確率標本をどう扱ってきたかを示している。

1.2 確率という概念のトリオ
 非確率標本に対する確率理論の有用性を理解するためには、統計的推論には確率概念が少なくとも3タイプあるということを押さえる必要がある。非確率標本はそのうちひとつがない標本であって、だから残りのふたつにより強く依存する。

  • デザイン確率。
    • 確率標本抽出、臨床試験におけるランダム化、変動を評価するためのブートストラップ、仮説検定のための数えあげ、モンテカルロシミュレーションといったものはすべて、デザイン確率に基づく統計的手法である。非確率標本とはデザイン確率概念が同定されていない標本のことである。
    • 巨大な非確率データセットにおいてもデザイン確率が用いられることはありうる。differentialプライバシー法といって、プライバシー保護のためにデータにランダムノイズを加えることがある。
  • 神聖確率divine probability。
    • デザイン確率がない状況下で統計的推論を行うとき、私たちは手元のデータが大自然なり神様なりによって与えられた生成的確率メカニズムの実現値だと考えるのがふつうである。そういうのを「神様モデル」というんだと院生の頃に教わったので、神聖確率と呼ぶことにする(宗教的な意味合いはありませんし、世界が本質的に確率論的だという主張でもありません)。
    • 確率論的フレームワークというのは本質的に限定的なので、それに適応するためには神聖確率を呼び出すしかない。欠損値分析におけるMAR概念がそうですね。Wuさんのいうqpフレームワークもそうだ。非確率標本はほんとは確率的に決まってないのかもしれないけれど確率的な抽出だと考えるわけである。
    • 神聖確率という仮定は無垢ではないし常に必要でもない。もしあなたの関心の対象が有限母集団そのものにあるのだったら、いかなる有限母集団も自然なヒストグラムをやクロス表を持っているわけで、ランダムネスという概念に頼らなくても神聖確率を生み出せる[???]。経験尤度アプローチはこの自然確率フレームワークを活用している。
  • デバイス確率。
    • 統計モデリングにおいて用いられる確率のほとんどは表現のデバイスだ。それらのなかには実現可能だという要請を伴わないものも多いし、数学的に一貫していないことさえある。検証も容易でなく不可能なこともある。超母集団アプローチがそうだし、Wuさんのいう\(\xi p\)アプローチもそうだ。

1.3 「ガベージ・イン、パッケージ・アウト」を減らそう
 非確率標本が広く用いられる今こそ、データの品質が重要である。[…] 読者はまずはElliott & Valliant(2017)を読み、Wuさんのレビューを読み、Zhang(2019 Stat.Theory.RelatedFields)の考察を読むのがよかろう。MRPなど追加の話題についてはGelman(2007), Wang, Rothschild, Goel & Gelman(2015 Int.J.Forecasting), Liu, Gelman & Chen (2021 J.Surv.Stat.Methodol.)がおすすめ。

2. 有限母集団における実際の誤差の決定論的同一性
 有限母集団のインデクスを\(\mathcal{N} = \{1, \ldots, N\}\)とし、母集団\(\{G_i = G(X_i): i \in \mathcal{N}\}\)の平均を\(\bar{G}\)とする。\(i\)が標本に入っているかどうかを\(R_i\)とする。\(S = \{i;R_i = 1\}\)とする。そのサイズを\(n_R\)とする。ウェイトを\(\{W_i, i \in S\}\)とする。
 重み付き標本平均\(\bar{G}_W\)は下式のように書き換えられる。$$ \bar{G}_W = \frac{\sum_{i \in S} W_i G_i}{\sum_{i \in S} W_i} = \frac{\sum_{i=1}^{N} R_i W_i G_i}{\sum_{i=1}^N R_i W_i} = \frac{E_I(\tilde{R}_I G_I)}{E_I(\tilde{R}_I)} $$ ただし\(\tilde{R}_I = R_I W_I\)。\(E_I\)は\(\mathcal{N}\)上の一様分布に関する期待値である。この式は、重み付き標本平均が有限母集団における平均であり、有限母集団インデクス(FPI)変数\(I\)の一様分布を通じた期待値であるということを示している(ここで神聖確率が登場している)。
 [2節以降の内容が私にはほんとに難しく、混乱してしまった。混乱の原因について考えるに、まず2節冒頭の式で、ウェイト\(W_i\)は標本に属する個体にしか定義されていないはずなのに、しれっと母集団の全個体に付与されていることになっているところがわからない]

 \(\bar{G}_W\)の実際の誤差はこう書ける。$$ \bar{G}_W – \bar{G} = \frac{Cov_i(\tilde{R}_I, G_I)}{E_I[\tilde{R}_I]} = \rho_{\tilde{R}, G} \times \sqrt{\frac{N-n_W}{n_W}} \times \sigma_G $$ ただし、\(n_W\)は有効標本サイズで、\(W_i\)の標本を通じた変動係数を使ってこう書ける。$$ n_W = \frac{n_R}{1+\mathrm{CV}^2_W} $$ \(\rho_{\bar{R}, G}\)はデータ・ディフェクト、\(\sqrt{\frac{N-n_W}{n_W}}\)はデータのスパース性、\(\sigma_G\)は問題の難しさである。
 この式は数式的な等式である。なんらモデルを前提としてないし、母集団において\(G_i, R_i, W_i\)がどうなっていようが成り立つ。\(R_i\)が確率変数である必要さえない。ただし、記録された\(G_i\)が目標母集団における\(G_i\)と違っていてはいけないけれど(つまり、台帳のovercovarageがあったり、測定誤差があってはいけないけれど)。
 [自分のためにメモしておくとこういうことだと思う。デザインベースの観点から、目的変数\(y_i\)は定数、標本包含インジケータ\(R_i\)は確率変数だと考える。標本単純平均\(\bar{y}_S\)のバイアスの期待値(ありうる標本抽出を通じた期待値)は、標本サイズ\(n\)が定数なら$$ E[\bar{y}_S] – \bar{y}_U = Cov \left( \frac{N}{n} \pi_i, y_i \right) $$ と書ける。つまり、単純平均のバイアスの期待値はスケーリングした包含確率と目的変数の母相関である。いっぽう上で述べているのは、標本の単純平均ではなくてなんらかの重み付き平均\(\bar{y}_{S,weighted}\)、バイアスの期待値ではなくてバイアスそのものについて考えると、$$ \bar{y}_{S,weighted} – \bar{y}_U = Cov \left( \frac{r_i w_i}{E(r_i w_i)}, y_i \right) $$ となる、ということなのだろう。式の導出を自分で確認したわけではないけれど、ここは信じよう。Meng(2018, Annals.App.Stat.)をみるとよいらしい]

 すべてのウェイトが等しいならば、\(\rho_{\tilde{R}, G}\)はMeng(2018)いうところのデータ・ディフェクト相関(ddc)である。それは包含インジケータの属性への依存性を通じて、標本の代表性の欠如を示している。確率標本やIPWの基本戦略はddcをゼロにすること、非確率標本のための我々のゴールはddcの小型化である。[ウェイトかける包含インジケータと、目的変数との母相関を下げましょう、といっているわけだ]
 Zhang(2019)が定義した統一的なノンパラメトリック漸近(NPA)無情報性仮定とは、\(E_I[\tilde{R}_I]\)が正なまま\(Cov_i(\tilde{R}_I, G_I)\)が漸近的に0になるという仮定である。これは準ランダム化アプローチと回帰モデリングアプローチで共通である。[…]

3. データ・ディフェクト相関に基づく統一的戦略
 [この節、そんなに難解な話はしてないはずなのに、私にとっては難しい。途中で途方にくれたので、ここからは不必要なまでに細かーくメモする]

 Wuさんのセットアップでは、個体\(i\)は\(A_i = \{y_i, \mathbf{x}_i\}\)を持つ。これは2つの意味で有用である。

  1. 非確率メカニズムが\(\mathbf{x}\)で説明されているならば、非確率抽出に伴い抽出バイアスを低減できる。[傾向スコア調整のようなデザインベース・アプローチのことを指している]
  2. \(y_i\)と\(\mathbf{x}_i\)の関係を利用して推定の効率を改善できる。[アウトカム・モデル構築のようなモデルベース・アプローチのことを指している]

 Wuさんはまず2つのデータセットを想定する(ここではそれぞれの記録インジケータを\(R, R^*\)とする)。ひとつめのデータセットは非確率標本で、\(y_i, \mathbf{x}_i\) を \(i \in S \equiv \{i: R_i = 1\}\)で観察できるのだが、\(R_i\)を決定しているメカニズムが既知のデザイン確率でコントロールされていない。ふたつめは\(y\)の母集団特性の推定に有用であるような母集団の補足情報を推定するための情報を提供する標本である[くどい… 参照標本のことね]。

 いま、なんらかの関数\(m(\mathbf{x})\)があって\(z_i = y_i – m(\mathbf{x_i}), \ i \in \mathcal{N}\)だとしよう。\(\bar{z} = E_I(z_I), \bar{m} = E_I(m(\mathbf{x}_i))\)を推定できれば母平均\(\bar{y}_N = E_I(y_I)\)を推定できる。Wuさんのセットアップだと\(\bar{m}\)は参照確率標本で推定できるから、\(\bar{z}\)に集中できる。恒等式(2.2) [2節の\(\bar{G}_W – \bar{G}\)のこと] を\(G = z\)として適用すれば、我々の中心的課題は、ddc \(\rho_{\tilde{R}, z}\) を最小化するように、ウェイト\(\{W_i, i \in S\}\)、ないし関数\(m\)、ないしその両方を選ぶことだとわかる。なお、本節の議論では、相関\(\rho_{\tilde{R}, z}\)ではなく、共分散$$ c_{\tilde{R}, z} \equiv Cov_I (\tilde{R}_I, z_I) = Cov_I (W_I R_I, y_I – m(\mathbf{x}_I)) = \frac{1}{N} \sum_{i=1}^N W_i R_i (z_i – \bar{z}) $$ によってすべてを説明したほうがわかりやすい。いっぽう理論的目的ないしモデリング上の目的には標準化した\(\rho_{\tilde{R}, z}\)のほうが魅力的である。6節, 7節を参照。

 表現(3.1) [上の式] から、その期待値を操作的ないし概念的にゼロにする方法がわかる。
 我々が\(R_i\)にどんな確率を割り当てているかはともかく、それらが\(A_i\)のみに依存すると仮定して、\(\pi_i = Pr(R_i = 1 | \mathbf{A})\)としよう。共分散オペレータの線形性より、\(R_i\)のランダムネスに関して平均した共分散は下式となる。\(\mathbf{A} = \{A_i, i\in \mathcal{N}\}\)として$$ E \left[ c_{\tilde{R}, z} | \mathbf{A} \right] = Cov_I (W_I \pi_I, y_I – m(\mathbf{x}_I)) $$
 同様に、\(\prod_{i=1}^N P(R_i, y_i | \mathbf{x}_i)\)という独立形式において\(\mathbf{X}\)に条件づけた同時モデル\(\{(R_i, y_i), y \in \mathcal{N}\}\)を設定しようとしているならば、$$ E[Cov_I(\tilde{R}, z)] = Cov_I(W_I \pi_I, E(y_I|\mathbf{x}_I) – m(\mathbf{x}_I))$$ である。
 [ここもわかんない。1本目を日本語でいうと、ddcの共分散バージョンの(母集団の全変数を所与とした)期待値は、包含確率かけるウェイト\(W_i \pi_i\)と、アウトカムモデルの誤差との共分散である。2本目は、ddcの共分散バージョンの(母集団の補助変数の部分だけを所与とした)期待値は、包含確率かけるウェイト\(W_i \pi_i\)と、アウトカムモデルの誤差の期待値との共分散である。ってことであってるだろうか。
 1本目と2本目はどう違うのだろうか。1本目の\(y_i\)は定数もいいけれど(つまりデザインベースだけど)、2本目は\(y_i\)を確率変数としてみている(つまりモデルベース)ということ? でも、モデルベースアプローチだって、ふつうは\(y_i\)のモデリングですよね。\(R_i, y_i\)の同時モデルってHeckmanモデルみたいなののこと? いやそれはきっと考えすぎで、あとで「この同時モデルについてMARが想定できるなら\(y_i\)のモデルを作ればよい」という話になるのだろうと思う]

 非常に直観的な議論だが、2つの変数の共分散や相関をゼロにしたければ、どちらかを定数にすればよい。準ランダム化アプローチ[デザインベースのこと] は\(W_i \pi_i \propto 1\)を目指し、超母集団アプローチ[モデルベースのこと] は\(E(y_I|\mathbf{x}_I) – m(\mathbf{x}_I)\)を定数(たとえばゼロ)にすることを目指す。同時モデルの下で共分散をゼロにするにはどちらかだけで十分である。ここから二重頑健性が得られる。
 しかし、相関・共分散ゼロないし二重頑健性に到達する方法はひとつではない。[…中略。具体的方法についての議論は Kang & Schafer (2007 Stat.Sci.), Tan(2007 Stat.Sci., 2010 Biometrika)をみよとのこと]

 実際、式(2.2) [2節の\(\bar{G}_W – \bar{G}\)の式] は実際の誤差の恒等式だから、母平均の任意の漸近不偏(線形)推定量は、それに対応するddcを(\(R\)ないし\(\{R, y\}\)のランダムネスに関して)0に対して漸近不偏にしなければならないし、その逆も言える。
 いっぽう、モデルの指定が正しいという想定抜きでddcを0に漸近不偏にすることができる。5節をみよ。
 以上の2点から、つぎのことがいえる。母平均の(線形)推定量が漸近一致/不偏であることを保証するのに必要十分なあらゆる戦略は、ddcの最小化に等しい。

 次にあげる統一的洞察の例は、あまり直観的ではないかもしれない。
 表現(3.2) [ \(E \left[ c_{\tilde{R}, z} | \mathbf{A} \right]\)の式 ] から、回帰モデル \(m(\mathbf{x}_i)\)の予測子のひとつとして\(\pi_i\)を含めればよい。なぜなら、そうすれば\(W_I \pi_I\)と\(z_I = y_I – m(\mathbf{x}_I)\)の間の相関が減るからだ(\(W_I\)が一定なら特にそうなる)。
 \(y\)の予測子として\(\hat{\pi}_i\)を含めるというのは純粋な回帰の観点から納得しにくいかもしれない。我々が\(R\)と\(y\)の\(x\)の下での条件付き独立性を仮定しているときにはとりわけ納得いかない。しかし、\(y\)の平均の推定のためには、回帰モデル\m(\mathbf{x}\)が正しいこと自体が絶対に必要だとはいえない。むしろ、「残差」\(z_I\)が\(I\)を通じて\(W_I \pi_I\)と無相関であれば十分である。
 しかし、観察データを通じて相関がゼロないし小さくなるだけでは十分ではない、という点が重要である。なぜなら、\(Cov_I(W_I \pi_I, z_I | R_I = 1)\)だからといって\(Cov_I(W_I W_I, z_I | R_I = 0)\)についてはわからないからである。Wuさんのセッティングでは、我々が\(R_I = 1\)から\(R_I = 0\)に外挿する能力は、\(R^*_I = 1\)である補助データの利用可能性に依存する。
 傾向スコア推定値を予測子として含めるという戦略の有用性は関連分野の研究において示されてきている。[… 適用例の紹介。略]
[これって二重頑健なのだろうか?]

4. 準ランダム化か超母集団実装か
 要するに、準ランダム化アプローチは\(W_I \pi_I\)を1にすることに焦点を当てる。[…]デザイン確率が利用できない場合、まずは神聖確率を発動する必要がある。有限母集団の下では自然な確率であろう。有限母集団をあらかじめ想定して\(\pi_i = Pr_I(R_I = 1 | A_I = A_i)\)だと考えてもよいし(positivity仮定\(\pi \gt 0\)が必要)、超母集団を想定して\(R\)が\(\pi_i = Pr(R_i=1 | A_i) \gt 0\)の\(Ber(\pi_i)\)から独立にドローされるのだと考えてもよい。[…] こうした神聖確率は未知であり我々からみてエスティマンドになるので、なんらかのデバイス確率が必要になる。たとえば、一般化線形モデルで \(\pi_i = g(y_i, \mathbf{x}_i)\)とするとか。たとえ、\(g\)の選択について本当は信じていないとしても。
 議論のために、神聖確率が超母集団ベルヌーイモデルで与えられるとしよう。\(n_R = \sum_{i=1}^N R_i, \ \tilde{p}(\mathbf{A}) = Pr(n_R \gt 0 | \mathbf{A}) = 1 – \prod_{i \in N} (1-\pi_i)\)とする。\(R_i\)は神聖確率にコントロールされているから\(n_R\)はいまやデザイン変数ではない。しかし、\(n_R \gt 0\)と制約しないわけにもいかない。数学的にややこしくなりそうだが、幸い、\(pi_i\)が\(A_i\)の下で独立だと仮定するだけでよい。\(\tilde{\pi}_i \equiv Pr(R_i = 1 | \mathbf{A}, n_R \gt 0) = \pi_i / \tilde{p}(\mathbf{A}) \)となり、この論文にとっては\(\frac{1}{\tilde{\pi}_i(\mathbf{A})}\)に比例したウェイトを作ればいいのであって分母はどうでもよいからだ。
 その結果、この神聖確率(Wuさんのいうqモデル)の下で、我々は任意の\(W_I\)について $$ E(c_{\tilde{R}, z} | \mathbf{A}, n_R \gt 0) = Cov_I(W_i \ E[R_I | \mathbf{A}, n_R \gt 0], y_I – m(\mathbf{x}_I)) $$ $$ = \tilde{p}^{-1}(\mathbf{A}) Cov_I (W_I \pi_I, y_I -m(\mathbf{x}_I)) $$ となる。ただし、ここでの期待値は固定した\(I\)について\(R_I\)を通じた未知の神聖確率に関する期待値である[??? デザインベース期待値ではないということ?]。そこで我々は\(W_I \propto \pi^{-1}_I\)とする。これが良く知られているIPWである。
 以上は、\(\mathbf{A}\)を固定し\(R_I\)の実現値のみについて架空の反復生成を考えているという点でランダム化志向のアプローチである。もちろん、\(\pi_i\)は未知だから、MAR仮定 \(P(R_i = 1 | A_i ) = P(R_I = 1 | \mathbf{x}_i)\)を置き、母集団の\(\mathbf{x}_i\)を用意しなければならない。また、\(\pi_i = Pr(R_i = 1 | \mathbf{x}_i)\)を推定する方法も選ばなければならない。[…] ともあれ、準ランダム化の手法に共通するアイデアは、\(W_I\)をうまく選ぶことで、\(\tilde{R}_I = W_I R_I\)を仮説的反復を通じた期待値における\(I\)から解き放ち、確率標本で保障されたあの自由を取り戻すことにある。

 これに対し、超母集団アプローチは\(z_I\)を期待値の\(I\)から自由にしようとするが、しかし仮定される反復スキームは異なる。\(m(\mathbf{x}_i)\)を\(y_i\)の良い近似にすることで、残差\(z_i\)の\(\mathbf{x}\)のもとでの期待値をゼロにしようとするのである。
 典型的には、\(\mathbf{x}_i\)の下での\(\{R_i, y_i\}\)の同時モデルについて考え、回帰モデル\(\xi(y | \mathbf{x})\)を用いる。我々が指定するのはこの回帰モデルだが、反復のなかには\(R_i\)を含めなければならない。なぜなら、\(A_i = \{y_i, \mathbf{x}_i\}\)全体における\(R_i\)のありうる依存性をとらえなければならないからだ。\( R(y_i | \mathbf{x}_i, R_i) = P(y_i | \mathbf{x})\)という縮小を行うためにはMARの仮定が必要であり、それを可能にするのがこの同時的な特定である。この縮小の下で私たちは単一の回帰モデル\(\xi(y | \mathbf{x})\)の特定に集中できる。従って、\(E_\xi\)は\(P(R_i, y_i | \mathbf{x}_i)\)に関する期待値である。準ランダム化アプローチと異なり、\(\pi_i = Pr(R_i = 1 | \mathbf{x}_i)\)は特定されない。
 こうして、\(\mathbf{X} = \{\mathbf{x}, i \in \mathcal{N}\}, n_R \gt 0\)に条件づけることで、$$ E(c_{\tilde{R}, z} | \mathbf{X}, n_R \gt 0) = [\tilde{p}(\mathbf{x})]^{-1} Cov_I (W_I \pi_I, E[y_I | \mathbf{x}_I] – m(\mathbf{x}_I)) $$ を得る。\(\xi\)モデルが(1次で)正しく、\(E_\xi[y_I | \mathbf{X}_I] = E[y_I | \mathbf{X}_I]\)ならば、\(m(\mathbf{x}_I) = E_\xi[y_I | \mathbf{X}_I] \)とすることでこの式はゼロになる。

5. 準ランダム化も超母集団実装も
 \(\{R_i, y_i\}\)の同時モデルがセットアップされたら、それを使って、我々は\(\pi_i\)と\(m(\mathbf{x}_i)\)を推定できる。推定のためには、補足情報の確率標本のMAR仮定が必要である。しかし、\(c_{\tilde{R}, z}\)の最小化のためにはどちらかを正しく特定し推定できればそれでよい。van der Laan & Gruber (2010 Int.J.Biostat.) のcollaborative TMLEというフレームワークは数学的に難しく見えて読者がやる気を失ってしまうのだが、本質的にはこの洞察に基づいている。
 単純な例を挙げよう。有限母集団が、超母集団モデル$$ E[y|x] = \sum_{k=0}^3 \beta_k x^k, \ \ x \sim N(0,1)$$からのiid標本だとする。その非確率標本が、実は抽出メカニズム\(Pr(R=1 | y, x) = \pi(|x|) \)によって生成されているとする。我々は\(\pi\)のモデルの指定を間違え(ロジスティック・リンクか何かにしてしまい)、かつ、回帰モデルの指定も間違えてしまった(\(m(x) = b_0 + b_1 x + b_2 x^2\)にしてしまった)。
 \(x \sim N(0,1)\)だから、\(x^2\)は\(x, x^3\)と無相関なので、\(b_2\)のOLS推定量は依然として\(\beta_2\)に対して妥当であろう。この場合、母平均\(\mu = \bar{y}_N\)の二重頑健推定量$$ \hat{\mu}_+ = \frac{ \sum_{i=1}^N R_i w(|x_i|) (y_i – \hat{m}(x_i))}{\sum_{i=1}^N R_i w(|x_i|)} + \frac{ \sum_{i=1}^N R^*_i \hat{m}(x_i)}{\sum_{i=1}^N R^*_i } $$は依然として漸近不偏である。
 [以下2パラグラフをスキップ。正直、疲れ切ってしまいました…]

6. 下位サンプリングのカウンターバランシング
6.1 有効標本サイズにおけるデータ・ディフェクトの破壊的インパクト
[「ビッグ・データ」の有効標本サイズは、データ・ディフェクトを考慮すればきわめて小さいかもしれないという話。パス]

6.2 よりバイアスが小さい下位標本をつくる
[ビッグ・データから再サンプリングしてバイアスが小さい標本をつくるという話。パス]

7. 確率標本はaspirationだ、prescriptionではない
 ddcは標本だけからは直接に推定できない。だから、ddcはいったい何の役に立つのか、と問いたくなるのも自然である。その答えはどんどん長くなる。ddcはモデル・フリーであり、確率標本と非確率標本の両方のデータ品質指標として広い用途を持つ。ddcは理論的洞察を生み出す。6節では、有効標本サイズを通じたデータの量と質のトレードオフをddcによって定量化した。[…]
 [以下、ddcがいかに重要かという話。パス]

(Wuの返答)
 [Mengさんのコメントをほめたたえて…]
 ddcと、確率標本の3つの基礎概念(抽出方略、アンダーカバレッジ、モデル・アシステッド推定)との関係についてコメントしたい。

 抽出方略とは、抽出デザインと推定方法のことである。ddcは調査変数を\(G\)、ウェイト変数を\(W\)、標本包含インジケータを\(R\)として\(RW\)と\(G\)の有限母集団相関係数なのだけれど、\(R\)が抽出デザイン、\(W\)が推定方法にあたり、つまり暗黙のうちに\(R\)と\(W\)を分離不能な推論方略と捉えている。非確率標本においてはデザインを特徴づける「神聖確率」\(\pi_I\)が未知、従ってデザインも未知であり、アウトカム回帰モデルについてなにかを想定しない限り、\(\bar{G}\)の不偏推定には\(W_I \propto \pi^{-1}_I\)が必要となる。この結果は、調査変数についての超母集団モデルがない非確率標本に対する唯一の選択肢はIPW推定量だという主張を正当化している。

 アンダーカバレッジは、確率標本の研究ではさかんに議論されてきた問題である。私の論文でいうA2違反にあたる。\(U_0\)をカバーされている下位母集団、\(U_1\)をカバーされていない下位母集団(つまり、\(\pi^A_i = P(R_i =1 |\mathbf{x}_i, y_i) = 0\)である下位母集団)とし、それぞれのサイズを\(N_0, N_1\)し、割合を\(\omega_0 = N_0/N, \omega_1 = N_1/N\)としよう。すると$$ Cov_I (\tilde{R}_I, G_I) = \omega_0 \{ Cov^{(0)}_I (\tilde{R}_I, G_I) – \omega_1 (\bar{G}_1 – \bar{G}_0) \hat{N}_0 / N_0 \}$$ となる。ただし\(\hat{N}_0 = \sum_{i \in S} W_i\)。
 ここから次の2点がわかる。

  • 推定方法が妥当なら、つまり\( Cov^{(0)}_I (\tilde{R}_I, G_I) \) が小さいなら、\(\bar{G}_W\) のアンダーカバレッジによるバイアスは、\(\omega_1\)と\(\bar{G}_1 – \bar{G}_0\)で決まる。これは確率標本についていわれていたことである。
  • 「抽出される母集団平均」\(\bar{G}_0\)の推定量\(\bar{G}_W\)がバイアスを持っていても、\( Cov^{(0)}_I (\tilde{R}_I, G_I) \)と\(\bar{G}_1 – \bar{G}_0\)の符号が同じなら、\(\bar{G}\)の推定量としてみればバイアスは小さい。[うわあ… 楽観的な話だなあ…]

最後に、モデル・アシステッド推定との関連について。Mengさんのddcの議論は二重頑健推定についてより深い理解を与えてくれている。70年代初頭に登場したモデル・アシステッド推定は二重頑健性と同じ精神を持っていた。Gassel, Sarndal & Wretman (1976)が提案した母平均\(\mu_y\)の一般化差分推定量はこうだった: $$ \hat{\mu}_{y,GD} = \frac{1}{N} \left( \sum_{i \in S} \frac{y_i -c}{\pi_i} + \sum_{i=1}^N c_i \right) $$ ただし\(\{c_1, \ldots, c_n\}\)は任意の既知の数値列。この推定量は任意の系列\(c_i\)に関して、確率抽出デザイン\(p\)の下で正確に不偏であり、\(c_i = m_i = E_\xi(y_i | \mathbf{x}_i)\)とすればモデル不偏でもあった。[…] これは90年代の欠損データ分析と因果推論の研究でさかんに議論された二重頑健推定量と同じ構造を持っている。
 [あー!そういう話Sarndalの本で読んだわ! \(\pi ps\)抽出だっけか。あの謎の話と通じるところがあるのか… 確かにそういわれてみれば…]
 […]
———————-
 いやあ、難しかった!!!
 いっちゃなんだけど、Mengさんの説明はかなりわかりにくいと思うよ! 含蓄に富み過ぎていて! Wuさんの返答を読まなかったら、たぶんぽかーんとしたままだったと思う。世界の統計学者たちよ、低学力の馬鹿に対してもうすこし優しく接しなさい。
 いっぽう、ddc (標本包含インジケータかける我々がでっち上げたデザインベースウェイトと、目的変数なり我々がでっちあげたモデルベースの目的変数予測の残差なりとの母相関)という概念が有用であるということについては、納得いたしました。勉強になりましたですー。