読書日記: 読了：Wyss et al.(2014) 共変量バランシング傾向スコアを使ってみた

« 読了：Tu, Shalay, Pater (2000) 臨床試験における共変量調整 | メイン | 読了: de Jong, Steenkamp, Fox, Baumgartner (2008) 世界各国の人々の「調査でX件法の両端にマルをつけたがる傾向」 »

2016年9月12日 (月)

Wyss, R., Ellis, A.R., Brookhart, M.A., Girman, C.J., Func, M.J., LoCasale, R., Sturmer, T. (2014) The role of prediction modeling in propensity score estimation: A evaluation of logistic regression, bCART, and the Covariate-Balancing Propensity Score. American Journal of Epidemiology, 180(6), 645-655.

　難しい話にはあまり関わらないように努力しているのだが、先日うっかり間違えて、Imai & Ratkovic(2014)の共変量バランシング傾向スコア(CBPS)というのを読んじゃったので、これ試した人いるのかな... と思って手に取った論文。ちょっとした現実逃避であります。

　いわく。
　最近では、傾向スコアの推定に際して、処理割付の予測ではなく、共変量のインバランスを最小化することに焦点を当てるアプローチが提案されている。そのひとつがCBPS。ほかにGraham et al.(2012 Rev.Econ.Stud), Hainmueller (2012 Polit.Anal.)というのがある。
　CPBSは、処理割付を予測するロジスティック回帰モデルのMLEのかわりに、処理割付予測と共変量バランシングの両方を同時に最適化する。すでにRで実装されている。薬剤疫学の文脈に適応した研究はみあたらない。
　本論文ではCBPS、ロジスティック回帰、bCART(ブーステッドCART)を比較する。

　処理変数(二値)を$T_i$、共変量のセットを$X_i$、傾向スコアの関数形式を$(1+\exp(-X_i \beta))^{-1}$とする。[以下、入力が面倒なので、$PS(X_i, \beta)=(1+\exp(-X_i \beta))^{-1}$と略記する]
　CPBSの共変量バランシングとは次の通り。リサーチャーが$X_i$の関数$\tilde{X}_i$を決めたとして(典型的には$\tilde{X}_i=X_i$)、
　$\frac{1}{N} \sum_i^N \left(\frac{T_i}{PS(X_i,\beta)} - \frac{1-T_i}{1-PS(X_i,\beta)} \right) \tilde{X}_i = 0$

　シミュレーション。
　共変量$X_1, \ldots, X_{10}$を考える。うち1,3,5,6,8,9が二値、残り4つが標準正規。
　$X_1, \ldots, X_7$から二値の処理変数を生成する。次の7種類。

線形・非加法。7変数の線形和。

弱い非線形。$X_2$を$X_2+X_2^2$にすり替える。

非線形。$X_2, X_4, X_7$をそれぞれ$X_2+X_2^2, \ldots$にすり替える。

弱い非加法。$X_1$を$0.5 X_1 X_3$にすり替える。同様のすり替えを計4項で行う。

弱い非線形＆弱い非加法。

非加法。弱い非線形と同様のすり替えをあちこちで行って、交互作用項が10個あるモデルをつくる。

非線形＆非加法。

アウトカムの生成モデルは固定。10個の共変量の線形和から、$0.4T$を引いた値とする。
　以上の生成モデルの係数は、先行研究のをそのまま使った。
　シミュレーション。全10変数をロジスティック回帰、bCART、CBPSに投入し、傾向スコアを推定。bCARTはRのtwangパッケージを使った。[←twangって、恥ずかしながら初耳...。パッケージ名は中国人の姓とかじゃなくて、Toolkit for Weighting and Analysis of Nonequivalent Groupsだそうだ。ふつうのブーステッドCARTじゃなくて、傾向スコアに特化した奴なのかな]
　傾向スコアをウェイトにした$Y$の$T$へのWLS回帰を行い、平均処理効果を求めた。ウェイティングはSMRというのとIPWの二種類。とかなんとか...

　結果。CBPSは良いっぽい。[すんません、読んでないっす]

　考察。
　先行研究では、傾向スコアモデルの予測性能を変数選択で改善しても、交絡のコントロールが改善するとは限らない、ということが示されてきた。本研究では、同じ共変量セットでコントロールした傾向スコアモデルでも、処理割付の予測の改善と交絡コントロールのあいだに強い対応がないということが示された。[あ、なるほど...これ、そういう視点の研究ともいえるのか...]
　CBPSは良さそうです。ま、いつもCBPSが勝つとは限らないでしょうけどね。複数のやりかたでやってチェックするのがいいんじゃないすか。
　云々。

論文：データ解析(2015-) - 読了：Wyss et al.(2014) 共変量バランシング傾向スコアを使ってみた

読書日記

読んだ本を淡々と記録します

2016年9月12日 (月)