« 読了:Guyon & Elisseeff (2003) 変数選択入門 | メイン | 読了: Verworn, Herstatt, Nagahira (2008) 新製品開発の初期段階とその後の成功との関係 »
2014年8月 8日 (金)
先日、勤務先の若い人に、重回帰や分散分析でいうところの交互作用(interaction)についてちょっと話す機会があったのだけれど、説明する順序をぼんやり考えていて、ふと疑問に思ったことがあった。
交互作用というのは統計的現象の名前で、それを引き起こすメカニズムは多様である。たとえば、 $X_2$ が$X_1$にとってのモデレータになっていたら交互作用が生じる (誤差項を省いて $Y = a + bX_1, b = c + dX_2$とか)。$X_2$が$X_1$にとってのメディエータになっていても交互作用が生じることはある ($Y = a + b_1 X_1 + b_2 X_2, X_2 = c + dX_1$とか)。$X_1$と$X_2$の線形和がある閾値を超えると発火する二値潜在変数があって、それが$Y$にボーナスを与えるので結果的に交互作用が生じる、なんていう状況も容易に想像できる($Y = a + b_1 X_2 + b_2 X_2 + b_3C$, $logit(Prob(C=1))=c + d_1X_1 + d_2X_2$とか)。他にもいっぱいありそうだ。いったい何種類あるんだろう? 類型化できないものかしらん。
VanderWeele, T.J., & Knol, M.J. (2014) A tutorial on interaction. Epidemiological Methods.
... というようなことを考えながらwebを眺めていて拾った、近刊の論文。掲載誌はまだ3号しか出ていないオープン誌で、性質がよくわからないのだが、ハーバード大の疫学部門の紀要みたいなものなのかなあ?
タイトル通り、疫学における交互作用についての啓蒙論文。えらく長いのだが(著者も前半と後半にわけて読んだほうがいいよといっている)、現実逃避の一環として持ち歩いてだらだらめくり、なんとなく読み終えてしまった。
まず前半。わりかし易しい内容である。
交互作用について調べる動機はたくさんある。まず、介入のためのリソースが限られているので、介入の効果が大きい下位集団を特定したいから(←マーケティングでいうところのセグメンテーションとターゲティングですね)。アウトカムを引き起こすメカニズムについて洞察を得たいから。主効果を調べる際の検定力を上げたいから。あるリスク要因に対する介入が不可能なので、せめて交互作用のある共変量に介入してどうにかしたいから。そして、単にモデルの適合度をあげたいから。
交互作用をどうやって測るか。二値アウトカム$D$について考える。原因変数として$G, E$があって(とりあえず2値だとして)、$Prob(D=1 | G=g, E=e)$ を$p_{ge}$と略記する。交絡とか共変量調整とかは当面忘れよう。大きく分けてふたつの測り方がある。
- 加法的に測る。効果を確率の差で測るなら、交互作用とは$p_{11}-p_{00}$ と $(p_{10}-p_{00})+(p_{01}-p_{00})$ との差である。つまりは$p_{11}-p_{10}-p_{01}+p_{00}$である。
- 乗法的に測る。効果を確率の比で測るなら、交互作用とは$(p_{11} p_{00})/(p_{10} p_{01}$)である。$p_{00}$をベースにとったリスク比を$RR_{ge}$と書けば、交互作用とは$RR_{11}/(RR_{10} RR_{01})$である。
加法的交互作用と乗法的交互作用が逆になったり、一方ではあるのに他方ではなかったり、ということはごくあたりまえに起きる。たとえば、非喫煙者の肺がんリスクがアスベスト非曝露で0.1%, 曝露で0.7%, 喫煙者では非曝露で1.0%, 曝露で4.5%だとしよう。加法的にみれば交互作用は4.5-1.0-0.7+0.1=2.9で、2要因が揃うとリスクが上積みされることになるし、乗法的にみれば(4.5x0.1)/(0.7x1.0)=0.45/0.7=0.64で、2要因が揃うとリスクが割り引かれることになる。
どっちを使うべきかは後述するが、公衆衛生上の観点からは、ふつうは加法的に測ったほうがよい。なお、
- ケース・コントロール研究だとオッズ比を使うので、交互作用を$OR_{11}/(OR_{10} OR_{01})$として乗法的に測ることがある。
- リスク比しかわからないけど交互作用は加法的に測りたい、という場合もある。上の加法的交互作用を$p_{00}$で割ると$RR_{11}-RR_{10}-RR_{01}-1$。これはrelative excess risk due to interaction (RERI), ないしinteraction constract ratio (ICR)と呼ばれている(←へー)。$p_{00}$が既知でない限りRERIのサイズの評価は困難だが、すくなくとも加法的交互作用の向きはわかる。なお、RRのかわりにORをつかうこともある。
現実の場面では、なにかのモデルを通じて交互作用を測ることも多い。信頼区間がわかるので気分がいい。たとえば
$p_{ge} = \alpha_0 + \alpha_1 g + \alpha_2 e + \alpha_3 eg$
$log(p_{ge}) = \beta_0 + \beta_1 g + \beta_2 e + \beta_3 eg$
$logit(p_{ge}) = \gamma_0 + \gamma_1 g + \gamma_2 e + \gamma_3 eg$
いうまでもなく線形モデルの $\alpha_3$ は $p_{11}-p_{10}-p_{01}+p_{00}$である。対数線形モデルの主効果 $\beta_1$ と $\beta_2$ は対数リスク比で、$\beta_3$は$RR_{11}/(RR_{10} RR_{01})$の対数である。ロジスティックモデルの主効果$\gamma_1, \gamma_2$は対数オッズ比で、$\gamma_3$は$OR_{11}/(OR_{10} OR_{01})$の対数である。
上の3本のモデルのうち最初の2本は、共変量をいれたとき(とくに連続的共変量をいれたとき)ML推定が収束しないことがある。だから3本目のロジスティックモデルが良く使われている。だけど加法的交互作用をみることも大事だ。そこで! ロジスティックモデルで推定した交互作用パラメータと信頼区間をRERIに変換する方法を伝授するぜ!
共変量入りのロジスティックモデル
$logit(P(D=1|G=g,E=e,C=c) = \gamma_0 + \gamma_1 g + \gamma_2 e + \gamma_3 eg + \gamma'_4 c$
を考えると、ORベースのRERIは
$RERI = OR_{11} - OR_{10} - OR_{01} + 1 = exp(\gamma_1+\gamma_2+\gamma_3) - exp(\gamma_1) - exp(\gamma_2) + 1$
だ。標準誤差を求めるSASとStataのコードを付録に載せたから使ってくれ! Excelシートも別途配ってるから持ってってくれ!
なになに、コホート研究でアウトカムがレアじゃないから、ORベースじゃなくてRRベースのRERIを使いたいって? オーケー、そんなら対数線形モデルを使いたまえ。収束しないって? ポワソンモデルという手もあるから使ってみてくれ。weightingアプローチというのもあるから俺の論文を読んでくれ。
なになに、曝露が二値じゃないって? 気にすんな、考え方は同じだ。ただし、RERIの算出はややこしくなるから注意な。それからEとGがどこからどこに動くと考えるかでRERIが変わってくるから注意な。グッドラック! (柳澤慎吾風に)
(前半戦がまだまだ続くので、テンションを元に戻して)
交互作用を加法的に測るか乗法的に測るかという話に戻ろう。ベストアンサーは「両方のやり方で測る」である。しかし実際にはロジスティックモデルで乗法的に測っていることが多い。これは由々しき事態だと思っておる。
加法的交互作用を支持する理由は:
- 公衆衛生上の観点からは、どっちのサブグループに介入したら何人助かるかに関心がもたれるから。
- 単に統計的な交互作用を調べるのではなく、mechanisticな交互作用について調べる場合。つまり、「2つの曝露が揃わないと発症しない」人がいるかどうかを調べる場合。
- 加法的交互作用の検出よりもパワフルだから。
乗法的交互作用を支持する理由は:
- 簡単だから。ロジスティック回帰のソフトは入手しやすいし。
- リスク差よりもリスク比・オッズ比のほうがheterogeneity が小さい、という説がある。そんなことが一般的にいえるかどうかはわからないのだけれど、もしそれが本当で、かつそれがなんらかの生物学的な仕組みの反映だとするならば、そのときはそりゃあ乗法的に測りたいとおもうわね。
- 疫学の教科書によっては、「因果性の評価」には比がふさわしい、と書いてあるのもある。この発想はCornfield et al.(1959)による喫煙と肺がんの研究にまでさかのぼることができるのだそうだ。もっとも、落ち着いて考えてみると、一概には言いがたい。
というわけで、ベスト・アンサーは「両方測れ」だ。原則的には、一方の方法でふたつの曝露の効果が見つかったら、他方の方法では交互作用も必ず見つかるわけで(←絵を描いてみて納得。そりゃそうだ)、交互作用の有無を単純に問うてはならない。最初に分析の目的をきちんと定めることが重要なのだ (←なるほど...)。
そのほかの話題。
- 交絡の話。たとえば薬の効き目が患者の髪の色によって違うとしよう。投薬有無がなにかと交絡しているかもしれない。そこで、共変量を入れて交絡を統制した(ないし投薬有無を無作為化した)。さて、ここで得られた交互作用は、髪の色で定義された層の間で投薬の効果が異なるという意味では正しい。しかし、ホントに髪の色が投薬の効果に影響しているのかどうかはわからないし、髪の色に介入して投薬の効果を最大化できるかどうかもわからない。こういう交互作用を「効果の異質性」とか「効果の修飾」という。
さて、実は投薬の効果に影響しているのはなにかの遺伝子で、髪の色はその代理変数だ、ということがわかったとする。ここまで来たのを「因果的交互作用」と呼ぶ。
実際にはこれらの用語はあいまいに使われているので、目くじら立ててもしかたないんだけど、とにかく、ある統計的な交互作用があるとき、どちらの変数も交絡の可能性があるか、片方だけ交絡が統制されているか、両方とも統制されているか、という点を区別することが大事である。 - 報告のしかた。上の喫煙とアスベストの話で言うと、アスベストのリスク比を喫煙者と非喫煙者のそれぞれについて報告する、というのはよくない。ベースラインが比較できないから。非喫煙非曝露を参照水準にして3つのリスク比を報告すること。云々。
- サブグループ間で効果の向きがちがうことを、特に「質的交互作用」とか「クロスオーバー交互作用」ということがある(←医学統計に特有な言い回しじゃないかしらん...)。この場合、仮にリソースが無限大でも全体に介入してはいけないわけで、その発見はより重要である。質的交互作用の存在について検定する方法もある。云々。
- mechanisticな交互作用について。これは「2つの曝露が揃わないと発症しない」交互作用のことで、sufficient cause 交互作用、相乗作用 (synergism) ともいう。$p_{11}-p_{10}-p_{01} \gt 0$ということだから、これはただの正の加法的交互作用よりも狭い概念である。以下、あんまり関心ないのでパス。
ふぅー。以上が前半戦。
後半戦はマニアックな話が多いし、やたらに眠いので流し読みになってしまった。
- mechanisticな交互作用がある場合でさえ、うかつにそれを「生物学的交互作用」とか「機能的交互作用」なんていわないように。遺伝要因G1とG2があり、G1=1のときにプロテイン1が作られず、G2=1のときにプロテイン2が作られないとしよう。で、どちらのプロテインも存在しないときにアウトカムDが発生しうる、としよう。これはmechanisticな交互作用だが、プロテインが生理学的に交互作用してアウトカムが発生してるわけじゃない(そもそもプロテインは存在してないんだから)。云々、云々。(←なんだか言葉遊びのようで実感が持てないが、生物系の人にとっては切実な話なのかな)
- 二つの曝露が揃うことによるリスク差なりリスク比なりオッズ比なりを、2つの曝露変数とその交互作用の計3つに分解する、という話。
- ケース・オンリー・デザイン。仮にケースだけが手に入っていたとしても、2つの曝露変数の独立性が仮定できるなら、交互作用は曝露変数のクロス表のみから推定できる。つまり、喫煙有無となにかの遺伝子型が独立だとして、肺がん患者だけを調べれば、肺がんに対する喫煙と遺伝子型の交互作用がわかるわけだ。(←意外に簡単で拍子抜けした。なにか仕事にいかせないかなあ...)
- アウトカムが連続変数だったらどうなるか。もはや加法的か乗法的かという問題はがらっと様相を変えてしまい、アウトカムの分布に依存して決めたほうが良い話になる。
- 層別する共変量の候補が複数あるとき、介入すべきサブグループを同定する、という問題。これは面白いのでちゃんとメモしておこう。
まず考えられるのは、実質的知識でもって共変量を選ぶ方法。それから、ひとつづつ共変量を選んで層別し交互作用を調べていく方法(なんならボンフェローニ法で調整する)。共変量が連続変数だと厄介である。
そこで登場するのが「効果スコア」という考え方。対象者を曝露群と非曝露群にわけ、それぞれについて、共変量でアウトカムを説明する回帰モデルをつくる(全然ちがうモデルでかまわない)。で、各対象者について、この2つのモデルでアウトカムを予測し、予測値の差を「効果スコア」と呼ぶ。で、効果スコアがある閾値を越えている人をターゲットにする。Zao et al.(2013, JASA)というのを読めとのこと。
このアプローチの難点は、オーバーフィッティングとモデルの誤指定。いずれも対策が提案されている由。Cai et al.(2011, Biostatistics)というのを読めとのこと。
ううむ、そんな発想があるのか。。。たしかに、モデリング上は曝露変数と共変量との交互作用を無視しているけど、結果的に交互作用を見つけていることになるわけだ。。。 - 交絡に対する敏感性の分析の話。パス。
- 交互作用の検定力と標本サイズ算出の話。パス。
やれやれ、長かった。
一番面白く勉強になったのはやはり、著者が力を入れて書いている加法的交互作用と乗法的交互作用の話であった。私の勤め先の仕事でいうと、2時点間の確率変化を条件間で比較するときにこの話が火を噴く。リスク差を比べるのとリスク比を比べるのでは別の結果になってしまうという問題は、多くの人を混乱の淵に叩き込む。差をみるか比をみるかってのはすごく慎重に決めないといけないのだ。
論文:データ解析(-2014) - 読了:VanderWeele & Knol (2014) ハーバード「交互作用」灼熱教室