elsur.jpn.org >

« 読了:Thoemmes & Kim (2011) 心理・教育系研究における傾向スコアの使われ方レビュー | メイン | 読了:「逃げるは恥だが役に立つ」「うつヌケ うつトンネルを抜けた人たち」「田中圭一の「ペンと箸」漫画家の好物」「ダーリンは71歳」「大阪ハムレット」 »

2017年8月21日 (月)

Ridgeway, G., Kovalshik, S.A., Griffin, B.A., Kabeto, M.U. (2015) Propensity score analysis with survey weighted data. Journal of Causal Inference, 3(2), 237-249.
 仕事の都合で慌てて読んだ。調査設計のせいで標本ウェイトがついているデータについて傾向スコアを使った分析をするときどうすればいいか、という論文。楽しかないけど切実な話です。
 この雑誌、最近創刊された奴だが、たしかPearlさんが編集長かなにかなので、きっとパス図の話とか有向分離の話とかしか出てこないんだろうと思っておりました。傾向スコアの話も載るんすね。すいませんでした。
 
 適当に流し読みしただけなので、メモもいいかげんだけど...

 なにが問題になっておるのかというと、こういう話だ。
 2水準の処理で、ケース$i$の処理インジケータを$t_i$とし(処理群だったら$t_i = 1$)、potential outcomeを$y_{0i}, y_{1i}$とする。話を簡単にするために、PATT (処理群の平均処理効果の期待値)をestimandとする。で、残念ながら標本抽出の確率$p_i$が不均一であるとする。
 処理群の処理下アウトカムの期待値は単純に
 $\displaystyle E(y_1| t=1) \approx \frac{\sum_i t_i (1/p_i) y_{1i}}{\sum_i t_i (1/p_i)}$
でよい(いや抽出確率の不均一性はいわゆるモデルベースで解決しようという意見もあるだろうけど、それは脇に置いておき、デザインベースでなんとかする路線で考える)。
 問題は反事実下の期待値$E(y_0 | t=1)$の推定である。仮に統制群の傾向スコアを標本ウェイトなしで推定すると、統制群の共変量の分布を処理群の標本における分布とバランスさせることになってしまう。でもほんとにバランスさせないといけない相手は処理群の母集団における分布じゃないですか。というのが問題。

 フォーマルに書くと以下の通り。
 傾向スコアでウェイティングするとしよう。標本抽出インジケータを$s$ (抽出されたら1)、共変量ベクトルを$\mathbf{x}$として
 $f(\mathbf{x} | t=1) = w(\mathbf{x}) f(\mathbf{x} | t=0, s=0)$
となるウェイト$w(\mathbf{x})$が欲しい。
 これを書き換えると下式となる由:
 $\displaystyle w(\mathbf{x}) = \frac{f(s=1, t=0)}{f(t=1)} \frac{1}{f(s=1|t=0,\mathbf{x})}\frac{f(t=1|\mathbf{x})}{1-f(t=1|\mathbf{x})} $
 第1項は定数、第2項は標本ウェイト。問題は第3項で、これはよくみると母集団における処理割付オッズを表しており、標本における処理割付確率$f(t=1|\mathbf{x}, s=1)$から求めたオッズとは異なる、というのがポイント。

 というわけで、著者らいわく、「傾向スコアを求めるときには標本ウェイトは気にしなくてよい」という人も多いけど間違っとる。傾向スコアのモデルも標本ウェイトの下で組むべし。

 特にそれが必要な場面として、著者らは3つの場面を挙げている。(1)標本ウェイトを作った際の共変量$z$が傾向スコアを作る際には手に入らない場合。(2)傾向スコアモデルの自由度が小さいとき。(3)標本ウェイトを別のデータソースを使って出しているとき。
 シミュレーションと実例...[読んでない]。

 というわけで、諸君、傾向スコアのモデルを組む際にも標本抽出ウェイトを使いなさい。そして最終的なウェイトは傾向スコアのウェイトと標本抽出ウェイトの積にしなさい。云々。

 きちんと読んでないのでわかんないんだけど、うーん、逆にいうと、標本ウェイトが比較的に単純で(層別一段抽出とかで)、その算出にあたって使った層別変数が傾向スコアを求める際の共変量群にはいってて、標本サイズが十分であれば、傾向スコアモデルの構築の際には標本ウェイトは気にしなくてよい。という理解であっておりますでしょうか???

論文:データ解析(2015-) - 読了:Ridgeway, Kovalshik, Griffin, Kabeto (2015) それが標本ウェイトつきのデータなら、傾向スコアを求める際にも標本ウェイトを使え

rebuilt: 2020年11月16日 22:54
validate this page