elsur.jpn.org >

« 読了: 紀要論文に垣間見るさまざまな人生 | メイン | 読了: Jain (2010) クラスタリング50年史 »

2015年2月 5日 (木)

Li, X., Song, Z., & Gray, R.H. (2004) Comparison of the missing-indicator method and conditional logistic regression in 1:m matched case-control studies with missing exposure values. Americal Journal of Epidemiology, 159(6), 603-610.
 一対多マッチングしたケース・コントロール・デザインで、曝露変数に欠損があるとき、どうやって分析すればいいかシミュレーションで調べましたという、なんというか、風雅な論文。
 仕事とちょっと関係あるかなと勘違いして印刷したのだが、よく考えてみたらまったく、全然、露ほども関係ないことに気が付いた。でも面白そうなので、眠気覚ましのコーヒーをすすりつつ、ついつい全部読んでしまい、さらにメモまでとってしまった。一体なにをやっとるのか。

 データの作成。
 曝露変数がひとつで二値の場面を考える。もしケースとコントロールが1:1マッチングになっていたら、これはもう、対応のある2水準の割合の比較、つまりMcNemar検定の世界だ。というわけで、ケースの曝露有無とコントロールの曝露有無の2x2クロス表を考える。
 以下の3つのシナリオを用意する。

 私の知識不足のせいだろうけど、ここで大いに混乱しました。

 すべてのシナリオで、1ケースに対して1コントロールがマッチしている場合と、1ケースに対して4コントロールがマッチしている場合を用意する。
 ええと、データ生成の操作は、ケース曝露確率3 x オッズ比3 x シナリオ3 x マッチング2 = 54セルあるわけね。

 で、つくったデータの曝露変数にぽこぽこと欠損を入れていく。つまり、曝露があったかなかったかわかんなくしてしまう。
 欠損のタイプは以下の4種類。

  1. MCAR。全体を「参照群」とみなす。
  2. ケース依存欠損。ケースはコントロール(=参照群)より欠損率が50%{多い, 少ない}。
  3. 曝露依存欠損。曝露は非曝露(=参照群)よりも欠損率が50%{多い, 少ない}。
  4. ケース曝露依存欠損。曝露ケースの欠損率が他のすべて(=参照群)の欠損率より50%{多い, 少ない}。

 上で定義した「参照群」の欠損率を、0.1, 0.2, 0.3と動かす。ええと、欠損タイプ2,3,4はそれぞれ「多い」と「少ない」があるから、欠損タイプは全部で7個、つまり欠損の操作は7x3=21セルあるわけね。
 
 こうして用意したデータを条件つきロジスティック回帰で分析し、オッズ比を推定する。他に実データも分析するんだけど、そっちは省略。
 従属変数を{ケース, コントロール}を表す2値変数, 独立変数を曝露有無, マッチングしたセットを層とする。欠損の処理の仕方は次の2通り。

 全8頁の論文の、ここまでで2.5頁。疲れたのでここからは簡単に。(本文中でオッズ比4は対数オッズ比で1.89だと書いてるけど、1.39でしょう... おかげでしばし悩みましたよ先生)
 まず、欠損がMCAR、ケース依存、曝露依存の場合。交絡がなければどっちでもあまり歪まない。負の交絡があると推定値は低めに、正の交絡があると推定値は高めに歪む。このとき欠損指標法のほうがちょっと歪みが大きいが[←へぇー]、検定力はちょっと上がる。著者曰く、欠損指標法を使うときは気をつけろ、とのこと。
 なお、コントロールが多いほうが歪みが大きい[←これもちょっと意外。そういうもんなんですか?]。
 ケース曝露依存欠損の場合、推定値は欠損率増大につれて歪みまくり、使い物にならない。[←それはそうでしょうね。ケーキを始終食っているデブに限り調査に協力してくれなかったら、調査非協力をモデル化しないかぎり、ケーキと肥満の関連はわからなくなるだろう]
 とかなんとか...

論文:データ解析(2015-) - 読了: Li, Song, & Gray (2004) マッチングのあるケース・コントロール・デザインの条件付きロジスティック回帰で曝露変数に欠損があったら除去すべきか0埋めしてフラグを立てるべきか

rebuilt: 2020年4月20日 18:56
validate this page