elsur.jpn.org >

« 読了:McCaffrey, et al. (2013) 処理の水準数が多いときの傾向スコア推定 by 一般化ブースト回帰 | メイン | 読了:Cattelan (2012) 一対比較データのための統計モデル・レビュー »

2017年8月23日 (水)

Austin, P.C., Jembere, N., Chiu, M. (2016) Propensity score matching and complex survey. Statistical Methods in Medical Research.
 先日目を通したRidgeway et al.(2015)に引き続き、「標本ウェイトつきのデータで傾向スコア調整するときどうするか」論文。シミュレーションしましたという話である。

 この論文は前置きをすっ飛ばしてシミュレーションの設定をみたほうがいいと思うので(というか誠実に読むにはいささか疲れてるので)、いきなりシミュレーションについてメモする。

 層別クラスタ抽出の場面を考える。母集団は、層10, 各層に20クラスタ、各クラスタに5000人、計100万人。
 データを生成する。共変量は6個。共変量$l$について、層$j$はランダム効果
 $u^s_{l,j} \sim N(0, \tau^s_l)$
を持ち、クラスタ$k$はランダム効果
 $u^c_{l,k} \sim N(0, \tau^c_l)$
を持ち、各ケースは値
 $x_{l,ijk} \sim N(u^s_{l,j}+u^c_{l,k}, 1)$
を持つ。
 処理を割り当てる。処理は2値とし、処理群における確率$p_i$を
 $logit(p_i) = a_0 + a_1 x_1 + a_2 x_2 + \cdots + a_6 x_6$
として、処理変数を
 $Z_i \sim Be(p_i)$
とする($Be$はベルヌーイ分布ね)。回帰係数は, $a_1 = \log(1.1), \ldots$という風に固定。
 2つのアウトカムを生成する。ひとつは量的変数で、めんどくさいから式は省略するけど、要するに6個の共変量と正規誤差と定数の線形和で、処理群に限り、さらに定数と共変量のうち3つの線形和が乗る。係数はみな固定である。もうひとつは二値変数で、これも$logit(p_i)$を同じようにつくっておいてベルヌーイ分布で生成。
 こうして、母集団ができました。以下、estimandはPATT (母集団のATT) とする。

 さあ抽出しましょう。
 標本サイズは全部で5000。この層への配分がちょっとわからなくて...

We allocate samle sizes to the 10 strata as follows: 750, 700, 650, 600, 550, 450, 350, 300, 250, where the sample size allocated to each stratum was inversely proportinal to the cluster-specific random effect used in generating the baseline covariates. Thus, disproportionately more subjects were allocated to those strata within which subjects had systematically lower values of the baseline covariates, while disproportionately fewer subjects were allocated to those strata within which subjects had systematically higher values of baseline covariates. This was done so that structure of the observed sample would be systematically different from the population from which it was drawn.

 要するにアウトカムと抽出確率を相関させたということなんだろうけど(無相関ならウェイティングする意味が薄れるから)、そのやり方がわからない。cluster-specific random effectは全層を通して平均ゼロの正規分布に従うんでしょうに。ひょっとして、200個のランダム効果$u^c_{l,k}$を生成したあとで層別に平均し、値が小さい層から順に標本サイズを750, 700, ... と割り当てていったということだろうか。だとしたら、6個の共変量をどうやってまとめたんだろうか。ひょっとして、アウトカムを生成する式でつかった係数で線形和をとったという話だろうか。よくわからん。まあいいけどさ。
 各層あたり5クラスタを単純無作為抽出し、標本サイズを各クラスタに均等に割り当てて無作為抽出する。

 傾向スコアを求めましょう。
 3つのモデルを試す。どのモデルも、6個の共変量を使ったロジスティック回帰で推定する。
 モデル1, 標本ウェイトを使わない。
 モデル2, 標本ウェイトを使った重みつきロジスティック回帰。
 モデル3, 6個の共変量に加えて標本ウェイトを投入したロジスティック回帰。

 マッチングしましょう。(そうそう、そうなのだ、書き忘れていたがこの論文は傾向スコアでマッチングするときにどうするかという論文なのだ。あれ、なんでいまこんなの読んでいるんだっけ? 当面マッチングする用事はないんだけどなあ...)
 層やクラスタは忘れて傾向スコアのロジットだけを使い、greedy NNMを使って(えーと、最近傍マッチングのことね)、2群の対象者をマッチングする。キャリパーは0.2SDとする。greedy NNMはただのNNMや最適マッチングよりも優れていることが知られている(Austin, 2014 Stat Med.というのが挙げられている。どう違うのか知りませんけど、信じますよ先生)
 
 PATTを推定しましょう。2つの方法を試す。
 方法1, natural weight。マッチした標本について、群ごとに標本ウェイトで重みづけた平均を求め、その差を求める。
 方法2, inherited weight。マッチした標本のうち統制群側の対象者のウェイトを、その相方である処理群の対象者のウェイトにすり替えたうえで、推定1の方法を用いる。
 どちらについてもブートストラップ法でSEを推定する (詳細はパス)。

 ... 問題設定はよくわかったので(そして疲れてきたので)、シミュレーションの詳細はパス(2つの$\tau$を動かしていくつかシナリオをつくったらしい)。手法評価の詳細もパス(PATT推定の分散とバイアスを評価するんだと思う)。感度分析もパス。結果についてのみメモする。
 
 共変量のバランスはどのくらい実現されたか。natural weightだときれいにバランシングされ、inherited weightでは少しインバランスが残る(その差は層による分散が大きいときに大きくなる)。傾向スコアモデルを問わずそうなる。
 PATT推定のバイアスはどうなったか。natural weightでバイアスはほぼゼロ、inherited weightで大きいほうに偏る(その差は層による分散が大きいときに大きくなる)。傾向スコアモデルを問わずそうなる。
 PATT推定のMSEはどうなったか... 信頼区間はどうなったか... (面倒になってきたのでパス)

 後半はケーススタディ。疲れたのでまるごとパス。

 考察。
 3つの傾向スコアモデルのうちどれがいいとはいえない。
 マッチング後の集計の際、標本ウェイトはnatural weightにしたほうがよい。

 ... 肝心の「傾向スコアモデルに標本ウェイトを使うか」問題は、どれがいいのかわからんという結論になってしまった模様。おいおい、せっかく読んだのにそりゃないよ、と思ったんだけど、まあ実際そうなんでしょうね。だいたいさ、まともな標本抽出デザインならウェイティングしようがしまいが回帰モデルなんてそうそう変わらないし、変わるようなデザインだったらウェイティングするの怖いですよね。結局ウェイティングなんて気分の問題なんですよね。僕らの仕事なんて所詮そんなものなんですよね。いいんだどうせ僕なんか。いっそ死ぬまで寝ていたい。(すいません疲れているんです)
 マッチング後は各群を素直にウェイティングしたほうが良いという話、そりゃそうだろう、むしろinherited weightなんていう発想がわからないよ、と思ったんだけど、きっとそれにはそれで筋道があるんでしょうね。でもこの話、マッチング後の集計の話であって、もはや傾向スコアと関係なくないっすかね。

論文:データ解析(2015-) - 読了:Austin, Jembere, Chiu (2016) 層別クラスタ抽出標本の2群を傾向スコアでマッチングするとき傾向スコアの算出に標本ウェイトを使うべきかどうか調べてみたけどよくわかんなかった

rebuilt: 2020年4月20日 18:54
validate this page