elsur.jpn.org >

« 読了:Guyon & Elisseeff (2003) 変数選択入門 | メイン | 読了: Verworn, Herstatt, Nagahira (2008) 新製品開発の初期段階とその後の成功との関係 »

2014年8月 8日 (金)

 先日、勤務先の若い人に、重回帰や分散分析でいうところの交互作用(interaction)についてちょっと話す機会があったのだけれど、説明する順序をぼんやり考えていて、ふと疑問に思ったことがあった。
 交互作用というのは統計的現象の名前で、それを引き起こすメカニズムは多様である。たとえば、 $X_2$ が$X_1$にとってのモデレータになっていたら交互作用が生じる (誤差項を省いて $Y = a + bX_1, b = c + dX_2$とか)。$X_2$が$X_1$にとってのメディエータになっていても交互作用が生じることはある ($Y = a + b_1 X_1 + b_2 X_2, X_2 = c + dX_1$とか)。$X_1$と$X_2$の線形和がある閾値を超えると発火する二値潜在変数があって、それが$Y$にボーナスを与えるので結果的に交互作用が生じる、なんていう状況も容易に想像できる($Y = a + b_1 X_2 + b_2 X_2 + b_3C$, $logit(Prob(C=1))=c + d_1X_1 + d_2X_2$とか)。他にもいっぱいありそうだ。いったい何種類あるんだろう? 類型化できないものかしらん。

VanderWeele, T.J., & Knol, M.J. (2014) A tutorial on interaction. Epidemiological Methods.
... というようなことを考えながらwebを眺めていて拾った、近刊の論文。掲載誌はまだ3号しか出ていないオープン誌で、性質がよくわからないのだが、ハーバード大の疫学部門の紀要みたいなものなのかなあ?
 タイトル通り、疫学における交互作用についての啓蒙論文。えらく長いのだが(著者も前半と後半にわけて読んだほうがいいよといっている)、現実逃避の一環として持ち歩いてだらだらめくり、なんとなく読み終えてしまった。

 まず前半。わりかし易しい内容である。
 交互作用について調べる動機はたくさんある。まず、介入のためのリソースが限られているので、介入の効果が大きい下位集団を特定したいから(←マーケティングでいうところのセグメンテーションとターゲティングですね)。アウトカムを引き起こすメカニズムについて洞察を得たいから。主効果を調べる際の検定力を上げたいから。あるリスク要因に対する介入が不可能なので、せめて交互作用のある共変量に介入してどうにかしたいから。そして、単にモデルの適合度をあげたいから。
 交互作用をどうやって測るか。二値アウトカム$D$について考える。原因変数として$G, E$があって(とりあえず2値だとして)、$Prob(D=1 | G=g, E=e)$ を$p_{ge}$と略記する。交絡とか共変量調整とかは当面忘れよう。大きく分けてふたつの測り方がある。

 加法的交互作用と乗法的交互作用が逆になったり、一方ではあるのに他方ではなかったり、ということはごくあたりまえに起きる。たとえば、非喫煙者の肺がんリスクがアスベスト非曝露で0.1%, 曝露で0.7%, 喫煙者では非曝露で1.0%, 曝露で4.5%だとしよう。加法的にみれば交互作用は4.5-1.0-0.7+0.1=2.9で、2要因が揃うとリスクが上積みされることになるし、乗法的にみれば(4.5x0.1)/(0.7x1.0)=0.45/0.7=0.64で、2要因が揃うとリスクが割り引かれることになる。
 どっちを使うべきかは後述するが、公衆衛生上の観点からは、ふつうは加法的に測ったほうがよい。なお、

 現実の場面では、なにかのモデルを通じて交互作用を測ることも多い。信頼区間がわかるので気分がいい。たとえば
 $p_{ge} = \alpha_0 + \alpha_1 g + \alpha_2 e + \alpha_3 eg$
 $log(p_{ge}) = \beta_0 + \beta_1 g + \beta_2 e + \beta_3 eg$
 $logit(p_{ge}) = \gamma_0 + \gamma_1 g + \gamma_2 e + \gamma_3 eg$
いうまでもなく線形モデルの $\alpha_3$ は $p_{11}-p_{10}-p_{01}+p_{00}$である。対数線形モデルの主効果 $\beta_1$ と $\beta_2$ は対数リスク比で、$\beta_3$は$RR_{11}/(RR_{10} RR_{01})$の対数である。ロジスティックモデルの主効果$\gamma_1, \gamma_2$は対数オッズ比で、$\gamma_3$は$OR_{11}/(OR_{10} OR_{01})$の対数である。
 上の3本のモデルのうち最初の2本は、共変量をいれたとき(とくに連続的共変量をいれたとき)ML推定が収束しないことがある。だから3本目のロジスティックモデルが良く使われている。だけど加法的交互作用をみることも大事だ。そこで! ロジスティックモデルで推定した交互作用パラメータと信頼区間をRERIに変換する方法を伝授するぜ!
 共変量入りのロジスティックモデル
 $logit(P(D=1|G=g,E=e,C=c) = \gamma_0 + \gamma_1 g + \gamma_2 e + \gamma_3 eg + \gamma'_4 c$
を考えると、ORベースのRERIは
 $RERI = OR_{11} - OR_{10} - OR_{01} + 1 = exp(\gamma_1+\gamma_2+\gamma_3) - exp(\gamma_1) - exp(\gamma_2) + 1$
だ。標準誤差を求めるSASとStataのコードを付録に載せたから使ってくれ! Excelシートも別途配ってるから持ってってくれ!
 なになに、コホート研究でアウトカムがレアじゃないから、ORベースじゃなくてRRベースのRERIを使いたいって? オーケー、そんなら対数線形モデルを使いたまえ。収束しないって? ポワソンモデルという手もあるから使ってみてくれ。weightingアプローチというのもあるから俺の論文を読んでくれ。
 なになに、曝露が二値じゃないって? 気にすんな、考え方は同じだ。ただし、RERIの算出はややこしくなるから注意な。それからEとGがどこからどこに動くと考えるかでRERIが変わってくるから注意な。グッドラック! (柳澤慎吾風に)

 (前半戦がまだまだ続くので、テンションを元に戻して)
 交互作用を加法的に測るか乗法的に測るかという話に戻ろう。ベストアンサーは「両方のやり方で測る」である。しかし実際にはロジスティックモデルで乗法的に測っていることが多い。これは由々しき事態だと思っておる。
 加法的交互作用を支持する理由は:

 乗法的交互作用を支持する理由は:

 というわけで、ベスト・アンサーは「両方測れ」だ。原則的には、一方の方法でふたつの曝露の効果が見つかったら、他方の方法では交互作用も必ず見つかるわけで(←絵を描いてみて納得。そりゃそうだ)、交互作用の有無を単純に問うてはならない。最初に分析の目的をきちんと定めることが重要なのだ (←なるほど...)。

 そのほかの話題。

 ふぅー。以上が前半戦。

 後半戦はマニアックな話が多いし、やたらに眠いので流し読みになってしまった。

 やれやれ、長かった。

 一番面白く勉強になったのはやはり、著者が力を入れて書いている加法的交互作用と乗法的交互作用の話であった。私の勤め先の仕事でいうと、2時点間の確率変化を条件間で比較するときにこの話が火を噴く。リスク差を比べるのとリスク比を比べるのでは別の結果になってしまうという問題は、多くの人を混乱の淵に叩き込む。差をみるか比をみるかってのはすごく慎重に決めないといけないのだ。

論文:データ解析(-2014) - 読了:VanderWeele & Knol (2014) ハーバード「交互作用」灼熱教室