« 読了:Tu, Shalay, Pater (2000) 臨床試験における共変量調整 | メイン | 読了: de Jong, Steenkamp, Fox, Baumgartner (2008) 世界各国の人々の「調査でX件法の両端にマルをつけたがる傾向」 »
2016年9月12日 (月)
Wyss, R., Ellis, A.R., Brookhart, M.A., Girman, C.J., Func, M.J., LoCasale, R., Sturmer, T. (2014) The role of prediction modeling in propensity score estimation: A evaluation of logistic regression, bCART, and the Covariate-Balancing Propensity Score. American Journal of Epidemiology, 180(6), 645-655.
難しい話にはあまり関わらないように努力しているのだが、先日うっかり間違えて、Imai & Ratkovic(2014)の共変量バランシング傾向スコア(CBPS)というのを読んじゃったので、これ試した人いるのかな... と思って手に取った論文。ちょっとした現実逃避であります。
いわく。
最近では、傾向スコアの推定に際して、処理割付の予測ではなく、共変量のインバランスを最小化することに焦点を当てるアプローチが提案されている。そのひとつがCBPS。ほかにGraham et al.(2012 Rev.Econ.Stud), Hainmueller (2012 Polit.Anal.)というのがある。
CPBSは、処理割付を予測するロジスティック回帰モデルのMLEのかわりに、処理割付予測と共変量バランシングの両方を同時に最適化する。すでにRで実装されている。薬剤疫学の文脈に適応した研究はみあたらない。
本論文ではCBPS、ロジスティック回帰、bCART(ブーステッドCART)を比較する。
処理変数(二値)を$T_i$、共変量のセットを$X_i$、傾向スコアの関数形式を$(1+\exp(-X_i \beta))^{-1}$とする。[以下、入力が面倒なので、$PS(X_i, \beta)=(1+\exp(-X_i \beta))^{-1}$と略記する]
CPBSの共変量バランシングとは次の通り。リサーチャーが$X_i$の関数$\tilde{X}_i$を決めたとして(典型的には$\tilde{X}_i=X_i$)、
$\frac{1}{N} \sum_i^N \left(\frac{T_i}{PS(X_i,\beta)} - \frac{1-T_i}{1-PS(X_i,\beta)} \right) \tilde{X}_i = 0$
シミュレーション。
共変量$X_1, \ldots, X_{10}$を考える。うち1,3,5,6,8,9が二値、残り4つが標準正規。
$X_1, \ldots, X_7$から二値の処理変数を生成する。次の7種類。
アウトカムの生成モデルは固定。10個の共変量の線形和から、$0.4T$を引いた値とする。
以上の生成モデルの係数は、先行研究のをそのまま使った。
シミュレーション。全10変数をロジスティック回帰、bCART、CBPSに投入し、傾向スコアを推定。bCARTはRのtwangパッケージを使った。[←twangって、恥ずかしながら初耳...。パッケージ名は中国人の姓とかじゃなくて、Toolkit for Weighting and Analysis of Nonequivalent Groupsだそうだ。ふつうのブーステッドCARTじゃなくて、傾向スコアに特化した奴なのかな]
傾向スコアをウェイトにした$Y$の$T$へのWLS回帰を行い、平均処理効果を求めた。ウェイティングはSMRというのとIPWの二種類。とかなんとか...
結果。CBPSは良いっぽい。[すんません、読んでないっす]
考察。
先行研究では、傾向スコアモデルの予測性能を変数選択で改善しても、交絡のコントロールが改善するとは限らない、ということが示されてきた。本研究では、同じ共変量セットでコントロールした傾向スコアモデルでも、処理割付の予測の改善と交絡コントロールのあいだに強い対応がないということが示された。[あ、なるほど...これ、そういう視点の研究ともいえるのか...]
CBPSは良さそうです。ま、いつもCBPSが勝つとは限らないでしょうけどね。複数のやりかたでやってチェックするのがいいんじゃないすか。
云々。
論文:データ解析(2015-) - 読了:Wyss et al.(2014) 共変量バランシング傾向スコアを使ってみた