« 読了:Rowe & Wright (2001) デルファイ法概説 | メイン | 読了:杉田(2003) 新製品開発初期段階研究レビュー »
2014年6月17日 (火)
Muthen, B., & Asparouhov, T. (Forthcoming) Causal effects in mediation modeling: An introduction with applications to latent variables. Structural Equation Modeling.
Muthen先生、哀れなSEMユーザたち向けに、近年の因果推論研究に基づく、媒介変数があるときの因果効果の推定について解説するの巻。と同時に、先日リリースされたMplus 7.2の新機能、MODEL INDIRECTセクションにおける MOD 文右辺のカッコ指定についての紹介でもある。
近年の因果推論研究ってのは、counterfactualな概念が出てくるというような意味合いではないかと思うのだけれど...。Robins, Greenland, Pearl, VanderWeele, Vansteelandt, Imai ほかの研究、とある。(←これ、どういう順序かしらん。年齢の高い順だったりして、ははは)
さあ、導師が誇る素人向け説明パワーが火を噴くぞ、と期待したのだが、目を通した限りでは、ちょっとわかりにくい。草稿だからかもしれない(誤字もあるし)。途中でちょっと混乱してしまったので、Appendixを参照して話を先取りしておくと、要するにこういう話である。
処理条件と統制条件を比較する実験を考える。 アウトカム Y は処理の有無 x の関数と考えられるので、Y(x) と書く。処理の総合効果とは、共変量を固定した下での(←以下省略)、Y(処理) の期待値と Y(統制) の期待値との差である。
さて、媒介変数 M があるとしよう。Yは処理の有無とMの関数で、Mもまた処理の有無の関数である。総合効果は Y(処理, M(処理)) の期待値と Y(統制、M(統制))の期待値との差である。ではここで間接効果とはなにか。
ふたつの考え方がある。ひとつは Y(処理, M(処理)) の期待値と Y(処理, M(統制)) の期待値との差だという見方で、Muthen先生はこれを total の間接効果と呼ぶ。もうひとつは、Y(統制, M(処理)) の期待値と Y(統制, M(統制))の期待値の差だという見方で、先生はこれを pure の間接効果と呼ぶ。
些細な違いというなかれ、場合によっては、これは実質的な違いを生むのだ。
本文に戻ると ... まずは、問題を直観的にわかりやすい形でご説明します、とのこと。
例1, 処理変数-連続媒介変数の交互作用。
次のようなモデルを考える。外生二値変数 $x$ から 連続変数 $m$ にパスが刺さっており (係数 $\gamma_1$), $m$ から 連続変数 $y$ にパスが刺さっている($\beta_1$)。また、$x$ から直接 $y$ に刺さるパスもある ($\beta_2$)。ランダム化統制試験で処理の効果を媒介する変数があるというような場合だ。さらに、$y$ に対して $m$ と $x$ の交互作用効果がある($\beta_3$)。嫌なモデルだが、まあ現実的ではある。
$x$ で条件づけた $y$ の期待値は、$m, y$ の切片をそれぞれ $\gamma_0, \beta_0$ として
$E(y | x) $
$= \beta_0 $
$+ \beta_1 \gamma_0$
$+ \beta_1 \gamma_1 x $ (←A)
$+ \beta_3 \gamma_0 x$ (←B)
$+ \beta_3 \gamma_1 x^2$ (←C)
$+ \beta_2 x$ (←B)
上式の C の項は、$\beta_3 m x$ の $m$ に $\gamma_1 x$ を代入したものである。
さあ、$x$ の $y$ に対する間接効果と直接効果はどうなるでしょうか。
上式の項のうち A は、$m$ を経由しているパスに対応しているから、これは間接効果である。またBは、$m$ を通っていないから、これは直接効果である。問題はCだ。ふつうに考えれば間接効果だが ($m$ を通っている面があるから)、$m$ によって引き起こされている効果だけを間接効果というのだ、という観点からは直接効果である ($m$ を通っていない面もあるから)。
項Cを含めた間接効果を Total Natural Indirect Effect (TNIE), 含めない間接効果を Pure Natural Indirect Effect (PNIE)という。また項Cを含めた直接効果をPure Natural Direct Effect (PNDE), 含めない直接効果を Total Natural Direct Effect (TNDE)という。もちろん
Total Effect = PNDE + TNIE = TNDE + PNIE
である。
例2, 上のモデルで、$y$ が二値だったとき。
例によって、二値変数 $y$ の裏には連続潜在変数 $y*$がいて、$y*$がある閾値を超えたら $y=1$になるのだと考える。これは $y$ のプロビット回帰モデルだと考えてもロジスティック回帰モデルだと考えてもいい (誤差分布についての仮定のちがいにすぎない)。
話を簡単にするために、交互作用項を取り払って
$E(y* | x) = \beta_0 + \beta_1 \gamma_0 + \beta_1 \gamma_1 x + \beta_2 x$
$V(y* | x) = \beta^2_1 \sigma^2_2 + c$
ここで $\sigma^2$ は $m$ の残差分散。$c$ は $y$ の残差分散で、プロビット回帰では1, ロジスティック回帰では $\pi^2/3$ と仮定される。面倒なので、以下プロビット回帰についてのみ考える。
さて、効果の定義は結構ややこしい。従属変数は $y*$ だ、と割り切っちゃえば話は簡単である。SEMユーザはふつうそう考えますね、ロジスティック回帰モデルの偏回帰係数に注目するわけだから。でも、因果効果の研究者は、従属変数が $y$ だというところにこだわる。すると、標準正規分布関数を $\Phi$ として
$P (y = 1 | x) = P(y*>0 | x) = \Phi[ E(y*|x) / \sqrt( V(y* | x) ) ] $
と、やたらにややこしくなる。
$E(y* | x)$ のみに注目して、
$x = 1$ のとき、$\beta_0 + \beta_1 \gamma_0 + \beta_1 \gamma_1 + \beta_2 $
$x = 0$ のとき、$\beta_0 + \beta_1 \gamma_0 $
この差が総合効果である。問題は間接効果だ。
$x = 1$ のとき、$\beta_0 + \beta_1 \gamma_0 + \beta_1 \gamma_1 $
$x = 0$ のとき、$\beta_0 + \beta_1 \gamma_0 $
この差が間接効果だという見方と、
$x = 1$ のとき、$\beta_0 + \beta_1 \gamma_0 + \beta_2 + \beta_1 \gamma_1 $
$x = 0$ のとき、$\beta_0 + \beta_1 \gamma_0 + \beta_2 $
この差が間接効果だという見方ができる。どちらも差は $\beta_1 \gamma_1$ でしょう? と思うところだが (ここですごく混乱した)、今問題にしているのは期待値そのものの差ではなく、それらを標準正規分布関数に放り込んで得た確率の差なので、どちらの見方をとるかによって話が変わってくるのである。前者の定式化がPNIE, 後者の定式化がTNIEである。
例3はYがカウントだったらという話(省略)。いったいなにを説明しようとしているのか、ここまで読んでようやくわかってきた...。いわゆる間接効果と直接効果というのが意外にあいまいな概念なので、反事実的な概念を用いて、PNIEとTNDEとして再定義しているのだ。
フォーマルな議論に突入。
対象者 $i$について、処理変数 $X$ と 媒介変数 $M$がそれぞれ $x, m$ にセットされたときの潜在的アウトカムを $Y_i (x, m)$ とする。実際には、$i$ についていろんな $x, m$ の下でのアウトカムを観察できるわけではないので、これは反事実的な概念である。
直接効果の定義について考える。簡略のため $x$ は0 ないし 1とする。
- controlled direct effect: $CDE (m) = E[ Y(1,m) - Y(0,m) ]$. 媒介変数がなんらかの値に固定された状態での処理の効果だ。行動科学ではあまり役に立たないが、政策評価においては意味を持つことがある由(うーん、どういう場面だろう)。
- pure natutal direct effect: $PNDE = E [ Y(1, M(0)) - Y(0, M(0)) ]$. 処理がなされたけど、(なんらかの理由で)媒介変数は変わらなかった、という場合の処理の効果。なるほど。
- total natual direct effect : $TNDE = E [ Y(1, M(1)) - Y(0, M(1)) ]$.
対応する間接効果の定義を考える。
- total natural indirect effect: $TNIE = E[ Y(1, M(1)) - Y(1, M(0)) ]$. 「処理はなされたけどなんらかの理由で媒介変数が変わらなかったとき」をベースラインにとった処理の効果である。PNDEと足すと総合効果になる。
- pure natual indirect effect: $PNIE = E[ Y(0, M(1)) - Y(0, M(0)) ]$. TNDEと足すと総合効果になる。
以上を上記の例1, 例2に当てはめて説明している。メモは省略。
後半は、$X, M, Y$ が潜在変数である場合の話。
媒介変数が潜在変数だと何が起きるか。媒介変数が単一の観察変数(測定誤差を含む) である場合、複数の観察変数の合計である場合、複数の観察変数で測定される潜在変数である場合、を比較するモンテカルロ・シミュレーションを紹介。項目の信頼性と項目数を動かし、TNIE, PNDEの推定バイアスを調べている。信頼性が低いとTNIEは小さめ、PNDEは大きめに歪む。複数の項目を足しあげても少ししか改善しない。しかし潜在変数にするとこのバイアスを取り除くことができる。
ほかに実際のランダム化フィールド実験データの再解析例が載っているけど、パス。
というわけで、SEMユーザの諸君、因果推論研究を学びなさい、勉強になりますよ。それから測定誤差には気をつけなさい。という論文であった。ハハァー、勉強になりましたですー(平伏)。
論文:データ解析(-2014) - 読了: Muthen & Asparouhov (Forthcoming) SEMユーザの諸君に贈る、直接効果・間接効果への反事実的アプローチ