« 読了: 紀要論文に垣間見るさまざまな人生 | メイン | 読了: Jain (2010) クラスタリング50年史 »
2015年2月 5日 (木)
Li, X., Song, Z., & Gray, R.H. (2004) Comparison of the missing-indicator method and conditional logistic regression in 1:m matched case-control studies with missing exposure values. Americal Journal of Epidemiology, 159(6), 603-610.
一対多マッチングしたケース・コントロール・デザインで、曝露変数に欠損があるとき、どうやって分析すればいいかシミュレーションで調べましたという、なんというか、風雅な論文。
仕事とちょっと関係あるかなと勘違いして印刷したのだが、よく考えてみたらまったく、全然、露ほども関係ないことに気が付いた。でも面白そうなので、眠気覚ましのコーヒーをすすりつつ、ついつい全部読んでしまい、さらにメモまでとってしまった。一体なにをやっとるのか。
データの作成。
曝露変数がひとつで二値の場面を考える。もしケースとコントロールが1:1マッチングになっていたら、これはもう、対応のある2水準の割合の比較、つまりMcNemar検定の世界だ。というわけで、ケースの曝露有無とコントロールの曝露有無の2x2クロス表を考える。
以下の3つのシナリオを用意する。
- シナリオ1. ケースの曝露確率(行和の割合)を0.3, 0.5, 0.7と動かす。コントロールの曝露確率(列和の割合)は、オッズ比が2,4,6となるように動かす。たとえばケースの曝露確率を0.5、オッズ比を4とする場合でいえば、コントロールの曝露確率をpとすると (0.5/0.5)/(p/(1-p)) = 4, これを解いてp=1/5である。こうして9通りのデータができる。なお、シナリオ1には交絡がない。
- シナリオ2。シナリオ1のコントロールの曝露確率(行和の割合)を固定し、「マッチングを考慮したオッズ比」も固定したまま、曝露コントロールとマッチしているケースの曝露率(上の行の中の左セルの割合)を、非曝露コントロールとマッチしているケースの曝露率(下の行の中の左セルの割合)の1.5倍にする。上の例だと、コントロール曝露下のケース曝露率を3/11, コントロール非曝露下のケース曝露率を2/11とする。このとき、「マッチングを考慮しないオッズ比」は1に接近するので(上の例では3.4)、これを負の交絡と呼ぶ。
- シナリオ3、正の交絡。シナリオ2の逆向き。「マッチングを考慮しないオッズ比」が1から離れる。
私の知識不足のせいだろうけど、ここで大いに混乱しました。
- ここでいう交絡とは、ケースの曝露とコントロールの曝露との間に連関があることなのである。しばし悩んだんだけど、マッチング変数が交絡変数になっているということ(つまり曝露有無とも罹患有無とも相関しているということ)と、ケースの曝露とコントロールの曝露との間に連関があるということは、等価なのかなあ。等価なんだろうなあ。
- 「マッチングを考慮したオッズ比」を固定する、というくだり。「マッチングを考慮しないオッズ比」とは2x2クロス表の周辺度数から求めたオッズ比であるのに対し、「マッチングを考慮したオッズ比」とは非対角2セルの比である。この点に納得するまでに時間がかかった。
すべてのシナリオで、1ケースに対して1コントロールがマッチしている場合と、1ケースに対して4コントロールがマッチしている場合を用意する。
ええと、データ生成の操作は、ケース曝露確率3 x オッズ比3 x シナリオ3 x マッチング2 = 54セルあるわけね。
で、つくったデータの曝露変数にぽこぽこと欠損を入れていく。つまり、曝露があったかなかったかわかんなくしてしまう。
欠損のタイプは以下の4種類。
- MCAR。全体を「参照群」とみなす。
- ケース依存欠損。ケースはコントロール(=参照群)より欠損率が50%{多い, 少ない}。
- 曝露依存欠損。曝露は非曝露(=参照群)よりも欠損率が50%{多い, 少ない}。
- ケース曝露依存欠損。曝露ケースの欠損率が他のすべて(=参照群)の欠損率より50%{多い, 少ない}。
上で定義した「参照群」の欠損率を、0.1, 0.2, 0.3と動かす。ええと、欠損タイプ2,3,4はそれぞれ「多い」と「少ない」があるから、欠損タイプは全部で7個、つまり欠損の操作は7x3=21セルあるわけね。
こうして用意したデータを条件つきロジスティック回帰で分析し、オッズ比を推定する。他に実データも分析するんだけど、そっちは省略。
従属変数を{ケース, コントロール}を表す2値変数, 独立変数を曝露有無, マッチングしたセットを層とする。欠損の処理の仕方は次の2通り。
- ケースの曝露変数が欠損している場合、ないしコントロールの曝露変数が全滅している場合に、マッチングしたセットごと抜く。これがStataとかSASのphregとかのデフォルトなのだそうだ。
- 欠損指標法。欠損を0で埋め、かわりに「曝露変数が欠損してましたぜ」フラグ Z をモデルに投入する。
全8頁の論文の、ここまでで2.5頁。疲れたのでここからは簡単に。(本文中でオッズ比4は対数オッズ比で1.89だと書いてるけど、1.39でしょう... おかげでしばし悩みましたよ先生)
まず、欠損がMCAR、ケース依存、曝露依存の場合。交絡がなければどっちでもあまり歪まない。負の交絡があると推定値は低めに、正の交絡があると推定値は高めに歪む。このとき欠損指標法のほうがちょっと歪みが大きいが[←へぇー]、検定力はちょっと上がる。著者曰く、欠損指標法を使うときは気をつけろ、とのこと。
なお、コントロールが多いほうが歪みが大きい[←これもちょっと意外。そういうもんなんですか?]。
ケース曝露依存欠損の場合、推定値は欠損率増大につれて歪みまくり、使い物にならない。[←それはそうでしょうね。ケーキを始終食っているデブに限り調査に協力してくれなかったら、調査非協力をモデル化しないかぎり、ケーキと肥満の関連はわからなくなるだろう]
とかなんとか...
論文:データ解析(2015-) - 読了: Li, Song, & Gray (2004) マッチングのあるケース・コントロール・デザインの条件付きロジスティック回帰で曝露変数に欠損があったら除去すべきか0埋めしてフラグを立てるべきか