Elliot, M.R. (2009) Combining Data from Probability and Non- Probability Samples Using Pseudo-Weights. Survey Practice, 2(6).
たった7pの短い論文。この掲載誌っていったいなんだろう? オンラインジャーナルらしいけれど。まあとにかく、ときどき引用されているので読んでみた。
傾向スコアという言葉は使っていないが傾向スコア調整の話である。google様曰く被引用回数93。
1. イントロダクション
[…]
というわけで、本論文は確率標本と非確率標本の両方で利用できるデータを使って非確率標本の「疑似ウェイト」を構築し、非確率標本の選択確率(もしそれがランダム化されたメカニズムを経由して抽出されていればの話だが)を推定する方法を提案する。
確率標本と非確率標本の結合方法というのは環境サンプリングの分野で提案されてきた。[…] 多くの場合、確率標本は単純無作為標本として扱われてきた。
USには自動車交通事故(MVC)によるけがに起因するLevel III外傷センターが8つある。それらの外来患者のデータから構築したCrash Injury Research Engineering Network(CIREN)データベースというのがある。MVCによるけがのリスク要因の分析に使われることが多いが、非確率標本で、軽いけがやすごく重い損傷は含まれない傾向がある(前者はもっと低レベルなセンターに行くし後者は霊安室直行になる)。いっぽうNational Automotive Sampling SystemのCrashworthiness Data Syteim(NASS-CDS)というのもあり、こちらはレッカー移動が起きた自動車事故の確率標本なんだけど、医療情報は少ない。よし、結合してみよう。
2. 方法
母集団の要素が確率標本に含まれるかどうかのインジケータを\(S\)、非確率標本に含まれるかどうかのインジケータを\(R\)とする[原文では\(S^*\)だがキーを打つのが面倒なので変更した]。両方の標本で利用できる共変量の集合を\(W\)とする。$$ P(R = 1 | W) = \frac{P(W|R=1)P(R=1)}{P(W)}$$ $$ = \frac{P(W|R=1)P(R=1)P(S=1|W)}{P(S=1)P(W|S=1)} $$ $$ \propto \frac{P(S=1|W)P(W|R=1)}{P(W|S=1)} $$ となる。[1行目はベイズルールね。2行目、分母と分子に\(P(S=1|W)\)を掛け、分母\(P(S=1|W)P(W)\)をベイズルールで書き換えている。3行目、\(W\)で条件づけていない部分を取っ払っている]
これを推定して、非確率標本の疑似ウェイト\(1 / \hat{P}(R=1|W)\)を求めればよい。
\(P(S=1|W)\)はもし確率標本の選択確率が\(W\)の関数として既知ならばそれを使えばいいし[当然既知でしょ?と思ったけど、そうか、確率標本の選択メカニズムを規定している共変量が\(W\)に含まれてないかもしれないもんね]、そうでなかったらたとえば確率変数についている標本ウェイトの逆数をアウトカムとしたロジットリンクのベータ回帰で推定すればよい[うわあ。めんどくさいなあ]。
[ここからよくわかんなくなってくるのでほぼ逐語訳]
さらに、対象者が非確率標本に属するかそうでないかのインジケータ\(Z\)を定義すると、$$ P(Z = 1|W) = \frac{P(Z=1)P(W|Z=1)}{P(Z=1)P(W|Z=1)+P(Z=0)P(W|Z=0)} $$ $$ \Rightarrow \frac{P(W|Z=1)}{P(W|Z=0)} = \frac{P(Z=1|W)P(Z=0)}{P(Z=0|W)P(Z=1)} \propto \frac{P(Z=1|W)}{P(Z=0|W)} $$ [理解できずしばし考え込んだのだが、この\(Z\)とは、母集団成員に付与される非確率標本包含インジケータではなくて、非確率標本と確率標本を結合したデータの成員に付与される非確率標本包含インジケータなのだと思う。つまりここからは、母集団じゃなくて結合標本の話になっているわけ。上の式の展開は、なぜ1行目が書いてあるのか理解できないんだけど、ベイズルールより $$ P(Z=1|W) = P(W|Z=1)P(Z=1)/P(W) $$ $$ P(Z=0|W) = P(W|Z=0)P(Z=0)/P(W) $$ 比をとって $$ \frac{P(Z=1|W)}{P(Z=0|W)} = \frac{P(W|Z=1)}{P(W|Z=0)} \times \frac{P(Z=1)}{P(Z=0)} $$ だから確かにそのとおりである]
大標本においては\( P(W|Z=1) \approx P(W|R=1)\)かつ\( P(W|Z=0) \approx P(W|S=1)\)だから、以下が得られる: $$ \frac{P(W|R=1)}{P(W|S=1)} \propto \frac{P(Z=1|W)}{P(Z=0|W)} $$ \(P(Z=1|W), P(Z=0|W)\)はロジスティック回帰などで推定できる。
[ここまで整理すると、$$ P(R=1|W) \propto P(S=1|W) \frac{P(W|R=1)}{P(W|S=1)} $$ さらに大標本なら近似的に $$ \frac{P(W|R=1)}{P(W|S=1)} \propto \frac{P(Z=1|W)}{P(Z=0|W)} $$ ってことね]
最後に、得られた疑似ウェイト\(\tilde{w}_i\)を、非確率標本と確率標本それぞれについてスケーリングする。標本サイズを\(n_R, n_S\)として、非確率標本では$$ \hat{w}_i = \tilde{w}_i \times \frac{n_R}{n_R+n_S} \frac{\sum_{i \in S} w_i}{\sum_{i \in R} \tilde{w}_i} $$ 確率標本では $$ \hat{w}_i = \tilde{w}_i \times \frac{n_R}{n_R+n_S} $$ とすればよい。
[明確な説明がないんだけど、\(\tilde{w}_i\)とは\(P(R=1|W)\)の推定値の逆数のことだと思う。
ここもよくわからない。これ、どこかに誤植があるんじゃなかかろうか。
おそらく、\(w_i\)とは確率標本にあらかじめ振られたウェイトのことで、確率標本のウェイトは$$ \hat{w}_i = w_i \times \frac{n_R}{n_R+n_S} $$ が正しいのではないかと思う。つまり、非確率標本にはロジスティック回帰で推定した「結合データにおいて非確率標本に属する条件付き確率」の逆数をスケーリングした値をウェイトとして付与し、確率標本ではもともと付与されていた標本ウェイトをスケーリングして付与しなおす、のだと思う。
うーん、それで正しいのか? というかElliott先生、もうちょっときちんと書いて下さいよ…]
分散推定はテイラー展開かジャックナイフで得られるが、非確率標本における\(\tilde{w}_i\)の推定の分散を無視しているぶん分散は過小推定される。ほんとは毎回疑似ウェイトを推定するような反復が必要になる。
3. シミュレーション
[パス]
4. サマリー
[略]
——————-
知りたかったことをメモしておくと、この論文では、非確率標本を傾向スコア調整する際、非確率標本と参照確率標本を結合したデータのロジスティック回帰で得られた確率推定値を\(\hat{p}_i\)として、傾向スコアを\(\hat{p}_i / (1-\hat{p}_i)\)にしている。その導出の際には、母集団における非確率標本への包含インジケータを\(R\), 結合標本における非確率標本への包含インジケータを\(Z\)として、\( P(W|Z=1) \approx P(W|R=1)\)かつ\( P(W|Z=0) \approx P(W|S=1)\) という近似を利用している。
これってそうせざるを得ないの? 別のやり方で厳密に示せたりしないの? うーん、なんだかもやもやするなあ。