読了:Datta & Polson (2022) 標本調査におけるIPW推定量からモンテカルロ法におけるIPW推定量へ

Datta, J., Polson, N. (2022) Inverse Probability Weighting: from Survey Sampling to Evidence Estimation. arXiv:2204.14121v2.

 IPW推定量についての解説だというので、勢い込んでめくってみたんだけど、調査データ分析とか因果推論とかじゃなくて、シミュレーションの話で出てくる、重点サンプリングっていうの? ああいう角度からの話であった。わたくし、そういう難しい話ってよくわかんないので、なけなしの関心がかろうじて維持できた部分についてのみメモする。

1. イントロダクション
 逆確率重みづけ(IPW)推定量は、標本調査やモンテカルロ法(重点サンプリング)や因果推論における平均処置効果(ATE)推定の文脈で使われている。
 標本調査では、有限標本\((y_1, \ldots, y_n)\)から母平均\(\psi\)を推定する際、包含確率の逆数と関連したウェイト\(w_i\)で\(y_i\)を重みづけたりする。
 モンテカルロ法では、\(\psi = E_F[l(X)] = \int l(x)dF(x)\) を推定したいんだけど\(F\)からのサンプリングが難しいとき、候補分布\(G\)(密度\(g\))からドローして$$ \hat\psi = \frac{1}{n} \sum_{i=1}^n l(x_) \frac{f(x_i)}{g(x_i)} \approx \frac{1}{n} \sum_{i=1}^n l(x_i) w(x_i)$$ を求めたりする。
 […中略…]

2. IPW推定量
 標本\(Y_1, \ldots, Y_n\)から母平均\(\psi\)を推定したいのだけれど、標本には欠損があるとしよう。\(Y_k\)が観察されたときに1になるインジケータを\(R_k \sim^{ind} \mathrm{Bernoulli}(p_k)\)とする。$$ \hat{S} = \sum_{k=1}^{n} \frac{Y_k R_k}{p_k}, \ \hat{n} = \sum_{k=1}^n \frac{R_k}{p_k} $$ とする。
 [標本抽出とは用語が違うので混乱しますね。ここでいっている標本とは、標本抽出でいうところの標本ではなく、むしろ枠母集団のことだ。サイズ\(n\)の枠母集団の各要素に標本包含確率\(R_k\)が振られていて、\(\hat{S}\)は調査変数\(Y_k\)の枠母集団における合計の、標本に基づくHorvitz-Thompson推定量であり、\(\hat{n}\)は枠母集団のサイズのHT推定量なわけよ]
 ふたつの有名なIPW推定量を定義ししておこう。

  • Horvitz-Thompson推定量 \(\hat{\psi}_{HT} = \hat{S} / n\)
  • Hajek推定量 \(\hat{\psi}_{Hajek} = \hat{S} / \hat{n}\)

 HT推定量は不偏推定量で、許容推定量で[「\(\psi\)の値がなんであれ誤差の二乗の期待値がこれより小さい推定量」が存在しない、という意味だと思う]、一致推定量である。Little(2008, Calcutta Stat.Assoc.Bull.)がいうように、HT推定量はデザインベースの重みづけ推定量である。[改めてそう云われると、そりゃそうだよと面食らうけど、この論文の文脈からいえばデザインベースの発想ってのがエキゾチックなのかもしれない。\(Y_k\)は確率変数だと信じて生きている人たちだからね]

 で、これを一般化したTrotter-Tukey推定量というのがある。$$ \hat{\psi}_{TT} = \frac{\hat{S}}{(1-\lambda) n + \lambda \hat{n}}, \ \ \lambda \in \mathbb{R} $$ [えっ、\(\lambda \in [0,1]\)じゃないの? まじで?]
 Khan & Ugander (2021)がこのアイデアを掘り返し、適応的正規化(AN)というのを提案した。$$ \hat{\psi}_{AN} = \frac{\hat{S}}{(1-\hat{\lambda}) n + \hat{\lambda} \hat{n}}, \ \ \lambda \in \mathbb{R} $$ Khanらのいうことには、AN推定量の漸近分散はHT推定量やHajek推定量より低い[あっそうなの? MSEが低いって話かと思ってた]。また彼らは、ATE推定や政策学習の文脈で、AN推定量のMSEが低くなることを示している。

 Sarndal et al.(2003)いわく、ふつうHT推定量よりHajek推定量のほうが良い。なぜなら、次のような場合にHT推定量より分散が小さくなるからだ。(1)\(y_k\)がだいたい等しいとき。(2)包含確率が均一で[標本抽出法でいう意味での]標本サイズが変動するとき。(3)\(\pi_k\)と\(y_k\)が負の相関を持っているとき。\(y_k/\pi_k\)の変動が大きくなるので、HT推定量だと困る。

 HT推定量は最近の議論の的になっている。たとえば、パラメータ空間がすごく高次元で、かつ観察にランダム欠損があるとき、ベイジアンの方法だとうまくいかないという議論があって、そこでHT推定量が引きあいに出されている。ベイジアンの側からは、わずかなバイアスを許容すればHT推定量より低い分散を達成できるぜという話もある。これもまたバイアス-分散トレードオフのひとつである。
 […中略…]

2.1 HT推定量 vs. Hajek推定量
 [Bassの挙げたサーカスの象の例を紹介して…]
Hajekいわく、HT推定量は比推定と関連しているときに便利になる。というわけでHajekはこういう推定量を提案した。\(Y_k\)と比例していて合計がわかっている補足情報\(A_k\)があるとき、$$ \hat{Y}_{Hajek} = \sum_{k=1}^n A_k \times \frac{ \sum_{k=1}^n \frac{Y_k}{p_k} }{ \sum_{k=1}^n \frac{A_k}{p_k} } $$ さきほどのHajek推定量はすべての\(A_k\)が1である場合である。
 Bassの象が教えてくれることはふたつある。その1、重みづけ推定量は、大標本特性は素敵だけど、時として意味不明な結果をもたらす。その2、よく似た問題は、重点サンプリングでも周辺尤度のMC推定でも起こりうる。[…中略…]

 次に、Wasserman(2004)の挙げた例を紹介しよう。
 IID標本\((Y_i, X_i, R_i), i = 1, \ldots, B\)がある。\(Y_i\)はパラメータ\(X_i\)のベルヌーイ変数で、\(R_i\)は\(Y_i\)の観察有無を表すインジケータである。\(R_i\)の成功確率は既知の定数\(p_{X_i}\)で、\(j = 1, \ldots, B\)について制約$$ 0 \lt \delta \leq p_j \leq 1-\delta \lt 1$$ を満たすとしよう。[えーと、標本抽出でいえば、調査変数は共変量を成功率としたベルヌーイ変数で、包含確率\(p_i\)もその共変量で一意に決まり、しかも\([\delta, 1-\delta]\)のどこかにあります、ってことね。Basuの象の話は包含確率が調査変数と全然関係なく激しく変動しているという病理的な事例だったが、今回はそうでない]
 これは階層モデルとして書ける。$$ X_i \sim \mathcal{U}(1, \ldots, B)$$ $$ [R_i | X_i = x_i] \sim Bernoulli(p_{x_i}) $$ $$ [Y_i | R_i, X_i = x_i] \sim \begin{cases} 0 & \mathrm{if} \ R_i = 0 \\ Bernoulli(\theta_{x_i}) & \mathrm{if} \ R_i = 1 \end{cases} $$ 関心の対象は\( \psi = \frac{1}{B} \sum_{b=1}^B \theta_b\)である。
 Wassermanいわく、尤度はたいした情報を持っていないし、\(B, p_j\)は尤度に入ってこない。\(\psi\)のベイズ推定量はプアだろう。しかし、$$ \hat{\psi}_{HT} = \frac{1}{n} \sum_{i=1}^n \frac{R_i Y_i}{p_{x_i}} $$ は不偏だ。
 これは議論を呼び、ベイジアン・コミュニティから反論が寄せられた。以下で紹介するけれど、その前に一言付け加えておくと、\(\delta\)が0に近づくにつれてHT推定量の分散は無限大に近づく[つまり包含確率が全然わからん場合は手の打ちようがないってことね]。HT推定量は古典的には漸近最適だといわれているけれど、それはこの\(\delta\)の仮定に対してはロバストではないわけだ。

2.2 Wasserman問題へのベイジアンの返答
 Li(2010)いわく、\(\theta_1, \ldots, \theta_B\)に交換可能性はあるけど独立性はないと仮定すれば単純な推定量が手に入る。\(\theta\)に事前分布を与えて…
 [ここから急速に関心が薄れ、読むのを中断した。節見出しのみメモする]

2.3 Liのベイジアン推定量の諸特性

3. シミュレーション例
3.1 Wasserman問題についてIPW推定量を比較する

4. モンテカルロ
4.1 重点サンプリングと垂直尤度
4.2 モンテカルロ積分のためのセミパラメトリックモデル
4.3 分位点法
4.4 ベイジアン・パースペクティブ

5. 考察
 本論文では調査における標本抽出とモンテカルロ積分のつながりを紹介した。標本抽出にはGhosh(2015)いうところの「弱いパラドクス」があるが(Wasserman問題やBasuの象の話)、Liのような階層ベイズ推定量によって病理的状況への頑健性が得られる(ただし交絡によるバイアスは生じる)。この論文では、Liの事後平均が一致性を持つ十分条件をあきらかにした。また、HT推定量とナイーブな重点サンプリングとの関係を示し、調査の場合と同様に、自己正規化ウェイト[Hajek推定量のことかね]や制御変量の使用によってより良い推定量が得られることを示した。

 最後に、因果推論の文脈でへの適用について簡単に論じよう… [関心はあるんだけど、めんどくさくなったので飛ばした]
——————-
 前振りに相当する標本抽出法の話しか読んでおらず、本題については全く理解してない。まあ、いっか。
 HT推定量とHajek推定量の中間をとるというアイデアはずいぶん昔からあったんですね。Trotter & Tukey (1956)というのはモンテカルロ法のシンポジウムのプロシーディングのようだ。
 引用文献のなかから、ちょっと読んでみたいなと思ったのをメモしておくと、

  • Khan & Ugander (2021, arXiv). “Adaptive normalization for IPW estimation”という題名。たぶんモンテカルロ法の文脈の話だろうけど、もし標本抽出とか因果推論とかの文脈の話なら読んでみたいなあ。→ アブストラクトによればどうやら因果推論の文脈の話らしいぞ。イイネ。
  • Little (2008, Calcutta Stat.Assoc.Bull.) “Weighting and prediction in sample surveys”. 題名と著者名でいえばぜひ読みたいのだが、掲載誌がマイナー過ぎて引いちゃう…