読書日記: 読了：Imai & Ratkovic (2014) 共変量バランシング傾向スコア

« 読了：Schmittlein, Cooper, & Morrison (1993) 「80：20の法則」の神話 | メイン | 読了：Tu, Shalay, Pater (2000) 臨床試験における共変量調整 »

2016年9月 8日 (木)

Imai, K., Ratkovic, M. (2014) Covariate balancing propensity score. Journal of the Royal Statistical Society, B., 76(1), 243-263.
　なにかの気の迷いで手に取った論文。新しい傾向スコアをご提案しますというもの。

　観察単位を$i$, 二値の処理変数を$T_i$、事前に既知な共変量の長さ$K$の列ベクトルを$X_i$とする。
　傾向スコアとは、$X_i$の下で処理を受ける条件付き確率$P(T_i = 1 | X_i = x)$である。
　処理状態$t \in \{0,1\}$の下での潜在的アウトカムを$Y_i(t)$としよう。処理変数に無視可能性があったら、すなわち
　$\{Y_i(0), Y_i(1) \} \mathop{\perp\!\!\perp} T_i | X_i$
であるならば、処理変数は真の傾向スコア$\pi(X_i)$の下でもやはり無視可能である。すなわち
　$\{Y_i(0), Y_i(1) \}\mathop{\perp\!\!\perp} T_i | \pi(X_i)$
というわけで、共変量$X_i$を全部条件づけなくても、傾向スコアを条件づけるだけで、処理効果を不偏推定できるわけである。ステキ。

　さて、傾向スコアをどうやって求めるか。ふつうはパラメトリックなモデルを考えるわね。たとえばロジスティック回帰で
　$\displaystyle \pi_\beta (X_i) = \frac{\exp(X_i^t \beta)}{1+\exp(X_i^t \beta)}$
とかね。$\beta$は最尤法で推定したりなんかしてね。
　問題は、傾向スコアのモデルを誤指定してたらどうなるんだ、という点である。ノンパラなモデルを組むという方向性もあるが、共変量の次元数が大きいときは大変である。
　
　そこで共変量バランシング傾向スコア (CBPS)をご提案します。
　上の傾向スコアのモデルは、傾向スコアで処理変数を予測するというモデルである。そうじゃなくて、傾向スコアで共変量をバランシングすることを考える。つまり、傾向スコアの逆数でウェイティングして、
　$\displaystyle E \left( \frac{T_i \tilde{X}_i}{\pi_\beta (X_i)} - \frac{(1-T_i) \tilde{X}_i}{1-\pi_\beta (X_i)} \right) = 0$
となるような傾向スコアを目指すわけである。ここで$\tilde{X}_i$とは$X_i$の関数で、リサーチャーが好きに決めるんだけど、たとえば$\tilde{X}_i = X_i$とすれば各共変量の一次積率がバランスされる。
　ところで、従来の傾向スコアの最尤推定量をごにょごにょするとわかるのだが、従来の傾向スコアは、この定式化で$\tilde{X}_i = \pi'_\beta(X_i)$とした場合に相当する。処理変数を強く予測する共変量を重視しているわけである。
　オリジナルの傾向スコアと同様、アウトカムは全然みてないという点にご注目。[←傾向スコアの改善案のなかにはアウトカムデータを使う奴があるのだそうだ。へー]
　また、とにかく共変量をバランシングさせることを考えているわけで、無視可能性の想定は要らないという点にご注目。仮に未知の交絡因子があっても、とにかく既知の共変量だけはバランスできる(処理効果の推定値は歪むけど)。
　
　傾向スコアの推定について。もし共変量バランシングだけだと丁度識別、従来のモデルからでてくる条件と併用すると過識別になる。さてどうやって推定するかといいますと...
　[...難しくて理解できないが、まあ要するに、どっちにしても推定量が作れるんだってさ。へー]
　なお、過識別モデルの場合にはモデルの指定が正しいかどうか検定できるので嬉しい。

　関連手法との関係。[いろいろ書いてあるけど、難しいのでパス]

　シミュレーション。
　共変量は4つ、MVNに従う。真のアウトカムモデルは線形回帰で、処理群のアウトカム平均は定数だけ高い。真の傾向スコアモデルはロジスティック回帰で、0.5の確率で処理群に落ちる。で、共変量がそれぞれ非線形に変換してある。うーん、このイケズ。
　従来手法(共変量でロジスティック回帰する傾向スコアモデル。実は誤指定である)、提案手法(従来手法と併用しないタイプ、するタイプ)、真の傾向スコアモデル、の4つで傾向スコアを出す。で、HT, IPW, WLS, DRという4種類のウェイティング推定量を試す。[←えええ。そんなに種類があるんだ... 知らなかったよ...]
　結果。提案手法がよかった由。[なんかいろいろ議論しているけど、難しそうなのでパス]

　今後の拡張。処理が3水準以上のときどうするか。標本に代表性がないときどうするか。
　云々。

　。。。えーっと...告白しますとですね...観察じゃなくて実験で、対象者を条件に割り付けるときに、単純無作為化に頼らずもっと積極的に、たくさんの共変量をうまいことバランシングさせましょう、って話なのかなと思って読んだのである。タイトルだけ見て、えっ、割付の最適化に傾向スコアを使うの?! それってわけわかんないけどすごそう！とぬか喜びしたのである。ごめんなさい、ごめんなさい。
　ま、自分なりに勉強になったので、よしとしよう。えーと、提案手法はRのCBPSというパッケージになっているそうだ。

論文：データ解析(2015-) - 読了：Imai & Ratkovic (2014) 共変量バランシング傾向スコア

読書日記

読んだ本を淡々と記録します

2016年9月 8日 (木)