読書日記: 読了：Antonakis, Bendahan, Jacquart, & Lalive (2010) 無作為化実験できないあなたのための因果推論ガイド

« 読了：Kreuzbauer & Malter (2005) 身体化された認知と新製品開発 | メイン | 読了：川口 (2011) mixed research in 日本の教育学 »

2014年11月22日 (土)

Antonakis, J., Bendahan, S., Jacquart, P., Lalive, R. (2010) On making causal claims: A review and recommendations. The Leadership Quarterly. 21, 1086-1120.
　社会科学の実証研究における因果推論についての長大なレビュー。数年前に途中で挫折した奴である。プリントアウトの束をめくると、前半には熱心な書き込みが多いのに、中盤ではなにやら変な生き物とかの落書きが増え、突如として誰かの電話番号がメモしてあって、そこから先には書き込みがない。そうそう、大手町の商業施設のカフェで読んでいて(なぜか思い出せないが)、お取引様から携帯に電話がかかってきて、受け答えしていたら「お客様、店内でお電話はおやめください」と叱られたのだ。云いたいことはわかるが、あのときは困った。
　このたび最初からメモを取って読み直した。いやー、大変だった。これなら本一冊読んだ方がまだ楽だ。

イントロ
　本論文の目的：

推定量についての因果的解釈は、どんなデザインのとき、またどんな推定方法の下で可能なのかを示す。
因果的主張をフィールドで検証するための方法をレビューする。
リーダーシップ研究における因果的主張の方法論的厳密性について棚おろし[take stock]する。

1. 因果性とはなにか
　いまここで関心があるのは、因果性についての哲学的基礎づけとかじゃなくて、how to measure the effect of a cause である。
　Kenny["Correlation and Causality", 1979. Baron&KennyのKennyであろう]によれば、因果的効果の測定のためには、(a)xはyに時間的に先行し、(b)xはyと相関し、(c)xとyの関連性が他の原因で説明できない、ことが必要である。
　(a)については、yからxへのフィードバックがあるかもしれないこと、あくまで必要条件であって十分条件でないことに注意。(b)は統計的な信頼性の問題。(c)はどっちかというとデザインや分析上の問題で、xの内生性という問題が関連してくる。
　この論文で主に扱うのは(a)と(c)。

1.1 反事実的な議論
　実験によって操作 x が結果 y と相関したとしよう。処置群のひとがもし統制群だったら、その人の y は統制群の y になっていたはずか？[if the individuals who recieved the treatment had in fact not received it, what would we observe on y for those individuals? Or, if the individuals who did not receive the treatment had in fact received it, what would we have observed on y?] この反事実的な問いにイエスと答えられない場合(理論的な交換可能性がないとき)、因果効果の一致推定量を得るためにはセレクションのモデル化が必要になる。

2. ランダム化フィールド実験
　因果推論のゴールド・スタンダードはランダム化デザインだ。なぜか？
　二値の独立変数 x, 連続変数の共変量 z, 結果 y について、
　$y_i = \beta_0 + \beta_1 x_i + \beta_2 z_i + e_i$
というANCOVAモデルを考えよう。係数のOLS推定における重要な想定は、潜在変数 e が x と無相関であるということ、つまり x の外生性である。もし外生性がなかったら x と y のあいだの関連性を調べるのは完全に無意味である。外生性を保証してくれるのがランダム化だ。言い換えると、OLSはセレクションがランダム割り付けによってなされていると想定している。

3. なぜ推定値の一致性が失われるのか
　x に内生性が生じ、推定値が一致性を失う事情は多々ある。Shadish-Cook-Campbell本はこれを「内的妥当性」への脅威と呼んだ。
　主要な５つの脅威は: 変数の無視、セレクションの無視、同時性、測定誤差、共通手法分散。さらに、統計的推論への脅威(標準誤差の妥当性の問題)と、同時方程式におけるモデルの誤指定をあわせて、計7個。順に説明していこう。

3.1 変数の無視
1) 説明変数の無視
　リーダーシップ(y)をEQ(x)が予測するかという問題を調べたい。EQはIQ(z)と相関しているし、IQはリーダーシップを予測する。正しいモデルは
　$y_i = \beta_0 + \beta_1 x_i + \beta_2 z_i + e_i$
ところがうっかりこういうモデルを推定しちゃったとしよう。
　$y_i = \phi_0 + \phi_1 x_i + v_i$
いま
　$z_i = \gamma_1 x_1 + u_1$
としよう。代入して
　$y_i = \beta_0 + (\beta_1 + \beta_2 \gamma_1) x_i + (\beta_2 u_i + e_i)$
つまり、傾き$\phi_1$は zとx の相関($\gamma_1$) 次第でどうにでもなってしまう。
　というわけで、予測子は足りないよりも入れすぎるほうがましである。要らない予測子を入れると効率性は下がるけど(標準誤差が上がる)、一致性のためなら安いものだ。
　なお、残差にモデル化されていない線形性があるかどうかを調べるためのRESETテスト(regression-error-specification test)というのがあるから使うように。

2) 固定効果の無視
　階層パネルデータについて考えよう。50個の企業がある。各企業に10人のリーダーがいる。リーダーのパフォーマンスをy, IQをxとする。正しいモデルが次のモデルだとしよう:
　$y_{ij} = \beta_0 + \beta_1 x_{ij} + \sum_{k=2}^{50} \beta_k D_{kj} + e_{ij}$
ここで$D$は企業を表すダミー変数。企業によってIQはちがうだろうし、企業によってリーダーシップは違うだろうから、こうやって企業の固定効果をモデルにいれないと、$\beta_1$の推定値は一致性を失う。$x_{ij}$が$e_{ij}$に関して外生的であってもだめ。

3) 推定量についての仮定と合わないランダム効果を使う
　[ちょっと意味がわからない箇所があり、ほとんど全訳してしまった]

　モデル構築者が、レベル2(=企業レベル)の変数が y を予測するかどうかを決定したい場合、そのモデルはランダム効果推定量によって推定できる。ランダム効果推定量を用いれば、企業の間の切片のランダムな変動が許容される。マルチレベルモデリングの用語では、このモデルは「結果としての切片」と呼ばれている。
　ランダム効果推定量は、企業の間の切片の異質性を固定効果によって明示的に推定するのではなく、リーダーのレベルでの y の差異(切片)を、企業の母集団から抽出された企業の間のランダムな効果として捉える。ここでランダム効果は、予測子とも撹乱項とも無相関であると仮定され、また各企業において一定であり、互いに独立に分布すると仮定される。これらの仮定に合致していないとき、推定値は一致性を失い、変数を無視したときと同じようにバイアスが生じる。
　ランダム効果推定量を使う前に、ランダム効果が存在するかどうかをテストしなければならない。モデルをGLS推定した場合にはBreusch & Paganのラグランジュ乗数検定を、最尤推定したときはランダム効果の尤度比検定を用いる。後者は自由度1のカイ二乗検定で、有意な時にはランダム効果モデルが支持される。ここでは詳しくは触れないが、ランダム効果モデルの直接的な拡張として、群間での傾きの変動を許容するランダム係数モデルがある。ここで重要なのは、そういうモデルを使う前に、ランダム係数モデルとランダム効果モデルを比べる尤度比検定を行うことである。有意な時のみ、すなわち傾きが一定だという仮定が棄却されたときのみ、ランダム係数推定量を使うべきだ。
　さて、ランダム効果推定量の利点(であると同時にアキレス腱)は、以下の定式化により、レベル2の変数(たとえば企業サイズ)を予測子に含めることができるという点である。
　$y_{ij} = \beta_0 + \beta_1 x_{ij} + \sum_k^q \gamma_k z_{kj} + e_{ij} + u_j$
この式では、q個の予測子を含め、固定効果を取り除き、企業によって決まる誤差成分 u_j を含めている。
　ランダム効果推定量は固定効果推定量より効率的である。なぜなら前者は推定されたパラメータの分散を最小化するようにデザインされているからだ(おおざっぱにいえば、企業のダミー変数を入れたときより独立変数の数が減っている)。しかし、想像に難くないことだが、固定効果推定量のような一致性がないかもしれないという深刻な代償を伴っている。すなわち、u がレベル1の予測子と相関しているかもしれない。
　推定量が一致性を持つかどうかを調べるために、いわゆる"Hausman検定"を用いることができる。この検定は、ランダム効果モデルが維持できるかどうかを確かめるためには死活的に重要なのだが、計量経済学以外の分野ではあまり用いられていない。
　Hausman検定が行っているのは、基本的には、固定効果推定量によるレベル1の推定値を、ランダム効果推定量による推定値と比較することである。もし推定値が有意に異なっていたら、ランダム効果推定量には一致性がなく、固定効果推定量を用いなければならない。u_jが予測子と相関しているせいで一致性が失われているにちがいないからである。ランダム効果推定量による推定値を信じてはならない。我々のライト・モチーフは「効率性より一致性が強い」である。
　[...] なお、パラメータが複数あるときはSargen-Hansen検定というのもある。どちらもStataに入っている(我々のお勧めソフトである)。[...]
　固定効果の無視という問題を回避し、かつレベル2の変数を含める方法として、すべてのレベル1共変量のクラスタ平均を含めるという手がある。クラスタ平均を予測子に含めてもいいし、レベル1共変量からひいてしまってもいい。固定効果を含めたのと同じく、レベル1パラメータの一致推定が可能になる。つまり、Hausman検定が有意である場合、クラスタ平均が u_j と相関しないとすれば、レベル1パラメータの一致推定値を得る方法として次の2つの式が使えるわけだ。
　$y_{ij} = \beta_0 + \beta_1 x_{ij} + \beta_2 \bar{x}_j + \sum_k \gamma_k z_{kj} + e_{ij} + u_j$
　$y_{ij} = \delta_0 + \delta_1 (x_{ij} - \bar{x}_j) + \sum_k \phi_k z_{kj} + w_{ij} + g_j$
　2つの式で、クラスタ平均の係数の解釈は異なる。上の式では係数はbetween効果とwithin効果の差を示し、下の式では係数はbetween効果を示している[←ここの意味がよくわからない...]。しかしどちらにしても、$\beta_1$と$\delta_1$には一致性がある。
　レベル2の変数が内生的だったら、このクラスタ平均のトリックは役に立たない。しかし、レベル2の共変量の外生的分散を調べることで、一致推定値を手に入れる方法がいくつか存在する。

4) セレクションの無視
　$y_i = \beta_0 + \beta_1 x_i + \beta_2 z_i + e_i$
というモデルで、$x_i$ がランダム割り付けになっておらず、
　$x^*_i = \gamma_0 + \sum_k^q \gamma_k z_{kj} + u_i$
が正の時に$x = 1$になるという場合を考えよう。$u$ と $e$ の相関$\rho_{e,u}$が0でないとき、$x$と$e$が相関してしまう。
　大丈夫、解決策はある。セレクションを明示的にモデル化すればいいのだ。yが処置群でしか観察できなくても大丈夫。Heckmanはこれでノーベル経済学賞をもらったんだよ！ [←ほんとにこう書いてある、感嘆符つきで]
　よく似た問題としてセンサード標本がある。センサードとは、研究への参加においてセレクションがかかっていること。この場合もセレクションをモデル化すること。センサード回帰とか、トランケーテッド回帰とか、いろいろある。

3.2 同時性(Simultaneity)
上司が部下に対して罰を与えるかどうかを $x$, 部下のパフォーマンスを$y$とする。
　$y_i = \beta_0 + \beta_1 x_i + e_i$
とモデルを組んだ。しかし実は上司のスタイルは部下のパフォーマンスの関数で
　$x_i = \gamma_1 y_i + u_j$
だとしよう。$y$が$e$と相関してしまう。

3.3 測定誤差
正しいモデルが
　$y_i = \beta_0 + \beta_1 x^*_i + e_i$
なのだけど、$x^*$が観察できず、かわりに
　$x_i = x^*_i + u_i$
だけが観察できるとしよう。代入すると
　$y_i = \beta_0 + \beta_1 x_i + (e_i - \beta_1 u_i)$
というわけで、$\beta_1$には一致性がない。このように、測定誤差も変数の無視(ここでは$u$の無視)という問題として捉えられる。[←なるほど、そりゃそうだ]
　解決策はすごく簡単で、xの残差分散を (1-信頼性)x分散に固定してやればよい。信頼性の推定値が必要になるが、検査再検査信頼性とか、クロンバックのアルファとかを使う手もあるし、理論的に推測してもいい。推定はStataなりMplusなりを使えば簡単だ。

3.4 共通ソース分散、共通手法分散
ソース(たとえば評定者)やデータ収集手法が共通であるせいで、$y$と$x$の両方が$q$に依存していること。これはすごく深刻な話だ。Spector(2006, Org.Res.Method)は共通手法分散の問題を都市伝説と呼んでいるが、全く同意できない。[←うわー、面白い。そんな意見があるのか。これは読みたいなあ]
　共通手法分散のせいで係数はバイアスを受けるが、そのバイアスはプラスかもしれないし、意外なことにマイナスかもしれない。これはPodsakoffらのレビュー(2003, J.App.Psy.)でも指摘されていた点なのだが、その理由をきちんと説明しているものが見当たらない。以下で説明しよう。
　なお、xとyを別ソース・別時点で測定するという手もあって、それはまあ間違ってはいないけど、サンプルサイズが小さくなる。
　潜在共通因子をモデルにいれて説明するというやり方があって、Podsakoffらはこれを回避策のひとつとして示唆しているのだが[←そうなの？確認しなきゃ]、われわれはこの手法を使うべきでないと考える。以下の架空例を読め。

　いま、リーダーのスタイルを表す因子として「課題志向的リーダーシップの高さ」$\Xi_1$と「対人志向的リーダーシップの高さ」$\Xi_2$があるとしよう。で、実は「組織のリスクの程度」という測定されていない共通原因があって、これが$\Xi_1$に係数0.57で効き、$\Xi_2$に係数-0.57で効いている、としよう。リスクが高い場面では課題志向的リーダーシップが高まり対人志向的リーダーシップが低くなるわけだ。共通原因を制御したら因子間相関は0だということにしておく。
　各因子をそれぞれを4つの指標で測っている。真の負荷はすべて0.96だとしよう。さらに、指標がタウ等価であること(=負荷が全部同じであること)をモデラーが知っているとしよう。サンプルサイズ10000。仮に共通原因変数が観測されていたら、モデルの適合度は文句なしに高い。因子間相関は 0 と推定される。
　さて、共通原因変数の存在に気づいていないとしよう。このときもモデルの適合度は文句なしに高い。負荷はすべて0.96。しかし因子間相関は -0.32となる。このように、負のバイアスがかかることだってあるわけだ。
　今度は、共通原因変数の存在にうすうす気づき、潜在変数を投入したとしよう。8指標がこの潜在変数に直接の負荷を持ち、係数は各4指標内で等値だと制約する。結果: やはり適合度は完璧なまま。$\Xi_1$への負荷は0.38, $\Xi_2$への負荷は0.87に下がり、因子間相関は0.19になってしまう。[←ちょ、ちょっと待って... ここで共通原因からの真のパスは$\Xi_1$, $\Xi_2$に刺さってんでしょう？なのになぜx1-x8にパスを刺すの？これは「共通原因をあらわす潜在変数を投入してもバイアスが消えない」という話じゃなくて、「共通原因をあらわす潜在変数を投入してもモデルを誤指定してたらアウト」というあたりまえの話になってないですか？]

　整理しよう。評定者$i$がリーダー$j$(50名)について、そのなんらかのスタイル$x$とリーダーシップ$y$を評価している。あいにく両方の評定値に共通バイアス q が効いているとしよう。
　$y^*_{ij} = \beta_0 + \beta_1 x^*_{ij} + \sum_{k=2}^{50} \beta_k D_{jk} + e_{ij}$
　$y_{ij} = y^*_{ij} + \gamma_y q_{ij}$
　$x_{ij} = x^*_{ij} + \gamma_x q_{ij}$
代入して整理すると
　$y_{ij} = \beta_0 + \beta_1 x_{ij} + \sum_{k=2}^{50} \beta_k D_{jk} + (e_{ij} - \beta_1 \gamma_x q_{ij} + \gamma_y q_{ij})$
というわけで、$\beta_1$は一致性を失う。
　解決策は？ $q$を測定できれば話は簡単だが、まず無理だろう。我々はこう提案したい。我々の知る限りこれは世界初の提案だ。2SLSを使え！ ...あとで説明しよう。

3.5 推論の一致性
　ここまでの話とはちょっとちがって、標準誤差に一致性がない、という話。テクニカルな話題なので手短に述べよう。
　回帰残差はiidでない場合について考える(Stataなら簡単にチェックできる)。まず、残差に等分散性がないとき、係数は一致推定量だけど標準誤差が一致性を失う。この場合は、Huber-White標準誤差(サンドイッチ標準誤差、ロバスト標準誤差ともいう)をつかわねばならない。クラスタを持つデータの場合も、標準誤差の推定に特別な方法を使わなければならない。

(本文29頁のうち、ここまでで13頁。死ぬー)

4. 因果性を推論するための諸手法
大きく分けて、統計的調整と準実験がある。

4.1 統計的調整
わかってる共変量は全部入れろ。傾向スコアを使うのもいいぞ。

4.2 準実験
1)同時方程式モデル
　まずは二段階最小二乗法 (2SLS)について説明しよう。経済学者以外はほとんど使っていない。まことに由々しきことだ。
　話を簡単にするために、$x$が連続変数の場合について考えよう。ボス$i$が、部下のリーダー一名について、その行動$x$とリーダーシップ$y$を評定する。統制変数は$c$個ある(リーダーの年齢とか)。あいにく$x$と$y$には共通ソース分散$q$が存在する。
　$y_i = \beta_0 + \beta_1 x_i + \sum_{k=1}^{c} \gamma_k f_{ik} + (e_{ij} - \beta_1 \gamma_x q_{ij} + \gamma_y q_{ij})$
　さてここで、$x$を強く予測し、$x$を通じてのみ$y$と関連し、そして$(e_{ij} - \beta_1 \gamma_x q_{ij} + \gamma_y q_{ij})$と関連していない$z$がみつかったとしよう。こういうのを道具変数という。たとえば、リーダーのIQがそれだとする。さらにもうひとつ、評定者とリーダーの距離$d$があって、これもリーダーシップに効いているとしよう。[←あれれ？よくわかんなくなってきたけど... まあいいや、とにかく道具変数が２つ手に入っているという話であろう]
　これらを用いて$x$を予測する。これを第一段階の方程式という。ここでのポイントは、$c$個の統制変数を全部使うこと。
　$x_i = \gamma_0 + \gamma_1 z_i + gamma_2 d_i + \sum_{k=1}^{c} \gamma_k f_{ik} + u_i$
　この式で推定した $\hat{x}$を用いて、$y$を予測する。これが第二段階の方程式。
　$y_i = \lambda_0 + \lambda_1 \hat{x}_i + \sum_{k=1}^{c} \theta_k f_{ik} + e_i$
　こうして$\beta_1$の一致推定が手に入る。実際にはStataのようなソフトを使うように。
　この手法のポイントは、$u$と$e$の相関を推定しているという点である。相関の有無はHausman内生性検定(Durbin-Wu-Hausman内生性検定)で検討できる。内生変数がひとつだったら、これは$u$と$e$の相関を推定するモデルとしないモデルを比べる自由度1のカイ二乗検定であり、SEMのソフトでも可能である。
　心理学者がよくやる間違いは、$u$と$e$の相関を推定せずに同時方程式を推定しちゃうことだ。たとえばBaron&Kenny(1986)がそうだ [←おっとぉ... 喧嘩売り始めたね]。ああいうやりかたでメディエータをテストしている論文はたいてい間違っている。
　2SLS推定は、いきなりSEMのソフトで最尤推定したり、3段階最小二乗法のような完全情報推定量を使うよりも安全だ。

1-1)同時方程式モデルにおける適合度の検討
[ここ、理解できずほぼ全訳してしまった]

上の例ではモデルの真実性[veracity]と道具変数の適切性をテストすることができる。たとえば、Stataのivreg2モジュールをつかって、道具変数が「強力」かどうかを検討することができる。同時に、メディエータの数よりも多くの道具変数があるとき、方程式のシステムを過剰同定する[overidentifying. なんかネガティブな語感があるので困るけど、識別性があるってことね]制約がありうるかについてテストすることも重要である。これは、示唆されているモデルと実際のモデルとの間に乖離が存在するかどうかを決めるテストである。本質的には、これらのテストが検討しているのは道具変数が$y$方程式の残差と相関しているかどうかである。読者にはすでに明白であろうが、この望ましくない状況を引き起こすのはモデルの誤指定である。それは推定値がバイアスを受けていること、よって解釈不能であることを意味する。従って、推定値について解釈する前にモデルを適合させなければならない。
　上の例で方程式は過剰同定されていた(すなわち、内生的な予測子の数よりもひとつ多くの道具変数を得ていた)。従って自由度1のカイ二乗適合度検定が可能であった。もし道具変数がひとつだけだったら、モデルは丁度識別となってしまい、適合度検定はできないところだった(ただしHausman内生性検定はできる)。回帰モデルの文脈は、これらの適合度検定は、カイ二乗検定、Sargan検定, Hansen-Sargan検定、J検定と呼ばれている。これらはSEMソフトで普通使われているML推定の文脈における、カイ二乗適合度検定との直接的な類比物である。この検定でp値が有意になるということは、モデルが適合していないこと(つまりデータがモデルを棄却していること)を意味する。心理学・管理科学でこの検定は良く知られているが、しかししばしば無視されている。興味深いことに経済学者は適合度検定に注意を払う。もし有意だったら、モデルはよくないですね、で話が終わりになる(モデルの修正ないしよりよい道具変数の発見が必須になる)。経済学者はRMSEAやTLIのような近似的な適合度指標を使わない。これらの指標は、既知の分布による統計的検定ではなかったり、(RMSEAのように)カットオフ値が恣意的だったりする。
　ある種の社会科学の領域では、大きな標本ではわずかな乖離でも検出されてしまい検定のp値は常に有意になってしまうだろうという理由によって、カイ二乗適合度検定にパスしていないモデルを受け入れてしまうのがあたりまえになっている。しかし経済学以外の研究者の中にも、このやりかたに深刻な疑問を投げかける人々が現れている。もしモデルの指定が正しければ、たとえ標本サイズが非常に大きくてもカイ二乗検定は棄却されないはずだ。カイ二乗検定は、ランダムな変動を踏まえ、偶然に起因するある程度の乖離を「許容する」検定である。また、カイ二乗検定は他のさまざまな近似的適合度指標と比べ、誤指定されたモデルの検出力が最も高い検定である。研究者はカイ二乗適合度検定に注意を払い、棄却されたモデルがさも受容可能であるかのように報告するのをやめるべきだ。
　最後に、研究対象とする標本は因果的に等質でなければならない。因果的に等質な標本は無限ではない(従って、標本の大きさには限界が存在する)。多群モデル(モデレータ・モデル)であれ、MIMICモデルであれ、母集団における異質性の源を突き止めそれを制御することで、適合度を改善できるだろう。

1-2) PLS問題
PLSは使うな。あれは飽和モデルならOLSと同じだし、そうでない場合、適合性が検定できないから推定値がバイアスを受けていてもわからない。OLS, 2SLSや共分散ベースのSEMよりも良い、なんていうのは嘘で、収束しないことだってあるのだ。PLSユーザは「SEMは理論検証に優れ、いっぽうPLSはモデル構築初期の予測に優れている」というマントラを唱えるが、おまえらはSEMや2SLSじゃ予測ができないとぬかすのか。モデルを検証したいとは思いませんだなんて、自分ら頭おかしいんちゃうか。Hwang et al.(2010, JMR)のシミュレーション研究によれば、PLSのパフォーマンスはSEMより悪いんじゃコラ。分布の仮定がいらんとか小サンプルでもいけるとか抜かしよるが、そんなん2SLSかてそうなんじゃボケ[←とは書いてないけど、まあ大体そういう内容]

1-3) 道具変数の発見
　リーダーシップ研究における道具変数の例: クロスセクショナル研究や縦断研究なら、年齢とか性別とかホルモンとか外見とかリーダーからの地理的距離とか。時間とか、特定のイベントによるショックとか。法とか文化要因とか。パネルデータなら、リーダーの固定効果とか、クラスタ平均とか。
　とにかく大事なのは、e と相関しない変数であることだ。頑張って探して、過剰識別の検定にかけろ。

1-4) 共通手法分散の問題を2SLSで解く

例1. 2SLSを使った例。
前述の議論は理論的なものだったので、読者は2SLS推定量で因果的推定値を復元できるということを内心疑っているかもしれない[←よくおわかりで]。そこで、強い共通手法分散効果がある既知の構造からデータを生成してみよう。いま、内生的独立変数$x$, 従属変数$y$, ふたつの完全に測定された外生変数$m$と$n$、共通ソース効果$q$がある。データを生成する真のモデルは以下の通り。$e$と$u$は正規分布に従い互いに独立だとする。
　$x = \alpha_0 + q + 0.8m + 0.8n + e$
　$y = \beta_0 + q - 0.2x + u$
サイズ10000のデータを生成した。相関行列と単純統計量を示す[略]。これらの要約データをSEMのソフトに入れればML推定で以下と同じ推定値が出せる。
　$y$が$x$に単純に回帰しているOLSモデルを推定してみよう。回帰係数の推定値は+0.11, あきらかに誤っている。真の値(-0.2)はこれより212.82%も低い！これこそが、$x$ に内生性を与えている式を無視したときの共通手法変数の悪影響である。すでに述べたように、バイアスを受けているOLS係数は、高すぎるかもしれないし、低すぎるかもしれないし、符号が異なるかもしれないし、有意でないかもしれない。共通手法分散は都市伝説どころではない。そんな意見そのものが声高な伝説なのだ。
　このモデルの推定値、ならびに2本のOLS方程式に基づく既知モデルの推定値を示す[略]。後者では、内生変数の分散のソースが説明されているので、撹乱項の相関はなくて良い[←???]。正しい推定値(-0.2)が得られている。しかし共通原因 $q$はふつう直接に測定できないから、このモデルは実世界では推定できないだろう。
　この問題の解決のためにかんたんに利用できる唯一の方法は、道具変数を用いたモデル化である。2SLS推定量によって、$m$と$n$に由来する分散の外生的ソースについて比べ、真の推定値を復元する。これらの外生変数は$q$とは相関しないし(従って$q$のないモデルにおいて$e$と相関しない)、ランダムに変動する$u$とも相関しない。それらは$x$と強く関連し、$x$を通じてのみ$y$に影響する。結果を示す[略]。$q$をモデルに入れていなくても2SLS推定量は関心ある推定値を正確に復元している(-0.20)。ただし、信頼区間は若干広い。すでに述べたように、効率性が減るという代償を支払わなければならない。2方程式モデルの場合、強力な道具変数があれば、2SLS推定量は3SLS、反復3SLS、ML, LIML推定量と類似した推定値を与える。
　2SLS推定量の安定性を示すために、このデータ構造についてのモンテカルロ・シミュレーションを行った。1000回のシミュレーションで、平均は-0.20、95%信頼区間は-0.200から-0.199であった。Sarganの過剰識別カイ二乗検定では、道具変数は妥当であった(p=0.30。シミュレーションもこの知見を支持した。pの平均は0.32)。
　さて、このモデルを管理科学・応用心理学における標準的アプローチで推定していたらどうなっていたか。つまり、推定量がなんｔであれ、撹乱項間を無相関にしていたらどうなっていたか。このとき推定値は誤ったものになる(すなわち0.11、実際これはOLS推定量による推定値と同じである)。撹乱項間の相関を推定しないと、$x$と$y$の両方を予測する「共通ショック」は、モデルにおいて測定されておらず説明もされず、存在しないことになる。これはあまりに強すぎる仮定であり、こうした媒介モデルの文脈では誤っている。
例2. MLを使った例。
さきほどの例から、さらに次のことがわかる。共通ソース/手法の効果を明示的にモデル化しないと、真のパラメータ推定値は復元できない(たとえば手法因子をモデル化しようとしてもだめである。なぜなら手法因子が変数にどのように影響しているのかがわからないからである)[←ここの文意がわからない。原文: The previous demonstraion should now explain further that if the effect of a common source/method is not explicitly modeld, true parameter estimates cannot be recovered (e.g., by attempting to model a mehod factor, because how the method factor affects the variable is unknown to the researcher.)] 従って、この問題を制御する統計的方法として擁護できるのは、すでに示したように、道具変数を使う方法である。同じ手続きを、完全なSEMモデルへと拡張できる。3.4節と似た特徴づけに従い、簡単な例を示そう。社長のリーダーシップの実効性を従属変数$y$とし、それが2つの独立変数を持つとする。すべての指標は社長の行動について限定的な知識しか持たない投票者から得たものである。共通原因(たとえば社長への感情、ないし他のなんらかの共通原因メカニズム)があり、かつ共通原因と無相関な道具変数$z1, z2$がある(道具変数によるセレクションはないものとする)。$z1$は社長のIQ, $z2$は社長の神経症傾向で、相関はないものとする。$\Xi_1$は変革型リーダーシップ、$\Xi_2$は交流型リーダーシップであるとしよう。部下の中に社長が好きな人が多いほど、社長をカリスマ的だとみなす人が増え、社長を交流型だとみなす人が減る、しかしこれらのリーダーシップ・スタイルは社長のIQやパーソナリティの影響も受ける、というわけである。リーダーの個人差は外生的であり(遺伝子で決まっており)、他の因子とは独立に変動するものとする。
　正しいモデル[共通原因も道具変数も測定変数として入っているモデル]を示す。完璧に適合している[...]。共通原因を外したモデルでも、撹乱項に相関を入れている限り、正しいパラメータ推定値が得られる[...]。道具変数を外して共通原因をいれたモデルでも正しい推定値が得られる。しかし両方外したモデルは、適合しているのに推定値が誤っている。この例が示しているのは、道具変数によって内生変数からバイアスを取り除くことができるということであり、同時に、モデルを正しく指定しているということが絶対的に重要だということである。なお、潜在共通因子をモデル化することによって正しい因果効果を復元しようとしてみたが、ヘイウッド解が得られてしまい、推定のためにyの分散を制約せざるを得なくなった。モデルの適合度は高かったが推定値は誤っていた。
　以上の例示は、共通手法問題の解決、そして媒介モデルの正しい推定に新しい方向を提供していると考える。また、モデルを指定する際には統計的検定だけでなく理論に依拠しなければならないということ、一致推定値を得るために分散の外生的なソースをモデル化しなければならないこと、を示すことができたと思う。

4.3 回帰不連続モデル(RDD)
　[共通手法分散の話で力尽きたので、ここからは簡単に...]
　ランダム化実験では処置のセレクションがランダムなのに対し、RDDではセレクションが特定のカットオフで決まる。カットオフの閾値は明示的に観察されておりモデル化されている。カットオフ変数はプリテストないしなんらかの連続変数で、yとは相関していてもいなくてもよい。
　RDDが一致推定値を与えることができるのは、群のセレクションが回帰方程式のなかに含まれている明示的に測定された基準に基づいており、撹乱項が群と相関する情報を持っていないからである。RDDの利点は数多い。政策の効率性を検証するためのフィールド状況で比較的に容易に実現できる。
　[RDDのデモ。略]

4.4 差の差モデル
　心理学でいうところのuntreated control group design with pre- and post-test。[モデルの説明。略] このモデルのポイントは、条件(処置群, 統制群)と時間(プリ, ポスト)の交互作用が外生的だという点である。つまり、群間差は安定的でなければならず、処理のタイミングは外生的でなければならない。[架空例。略]

4.5 セレクション・モデル(ヘックマン・モデル)
　ヘックマン型の２ステップ・セレクションモデル。treatment effects modelともいう。まず群への参加をプロビット回帰し、次に処置の効果を推定する奴。その変種に、ヘックマンの２ステップモデルがある(一方の群だけ従属変数が観察されている奴)。[架空例。略]

4.6 その他の準実験デザイン
Cook-Campbell本(1979)とShadish-Cook-Campbell本(2002)を読むように。[←あれってCook-Campbell本の改訂新版だと思ってた...]

5&6. 管理科学・応用心理学における因果的推論の頑健性レビュー
リーダーシップの非実験研究の論文110本を集め、14個の基準についてコーディング[よくやるよ...]。少なく見ても66%の論文が、妥当性への脅威に正しく対処していない。特に、測定誤差、誤差の不等分散性、共通手法分散が深刻。

7. 考察
　博士課程の教育に問題があるんじゃなかろうか。また、統計ソフト任せな分析やカンタンすぎる参考書のせいで「プッシュボタン統計学」症候群が蔓延しているのではなかろうか。[ここでひとしきりSPSSとAmosの悪口。StataとかSASとかRとかMplusとかLISRELとかEQSを使えよ、とのこと]

　因果分析の十戒：

変数の無視によるバイアスを避けるために、適切なコントロール変数を含めること。もし適切なコントロール変数が同定できない、ないし測定できない場合は、パネルデータを手に入れ、分散の外生的ソース(道具変数)を用いて効果の一致推定値を求めよ。
パネルデータを使うときは必ず固定効果を含めよ。ダミー変数を使ってもいいし、レベル1変数のクラスタ平均を使ってもいい。ランダム効果モデルを推定する際には、かならずその推定量が固定効果に関して一致性を持つことをHausman検定で確認すること。
独立変数の外生性を確認すること。それがなんらかの理由で内生的である場合は、道具変数を手に入れろ。
処置が無作為割付されていないとき、処置群のメンバーかどうかが内生的な時、標本に代表性がないときは、適切なセレクションモデル、ないし他の手法(差の差, 傾向スコア)を用いて群間の推定値を修正すること。
同時方程式モデルの場合は、過剰識別性検定(カイ二乗適合度検定)を用いてモデルが維持できるかどうかを決めること。過剰識別性検定に失敗したモデルの推定値は信用できないので解釈してはいけない。
独立変数が測定誤差を伴っている場合は、errors-in-variableを使って推定するか、道具変数を使って(もちろん2SLSモデルの文脈で適切に測定された変数でなければならない)測定バイアスを修正せよ。
共通手法バイアスを避けること。もし避けようがない場合には(2SLSモデルの文脈でいう)道具変数を使って一致推定値を得ること。
推論の一致性を確保するため[←パラメータ推定じゃなくてその標準誤差の一致性のことね]、残差がiidであるかどうかを調べることお。iidであることがわからない限り、ロバスト分散推定量をデフォルトにすること。パネルデータの場合はクラスタに対してロバストな分散推定量を使うか、group-specificな予測子を使うこと。
媒介モデルにおいては、内生的かもしれない予測子の撹乱項は相関させること。そしてHausman検定でメディエータが内生的かどうか調べること。
完全情報推定量(ML)を使うのは、推定値が2SLS推定量と変わらないときだけにせよ。PLSは使うな。

ついでにいうと、もっとモンテカルロ分析を使うべきだ[推定量の安定性が得られるサンプルサイズをモンテカルロシミュレーションで確認しろ、っていう意味かな]。

8. 結論
理論、分析、測定は正しく整合していなければならぬ、でないと実証的ゼリーの上に理論的摩天楼を立てる羽目になる。

感想:

いやー、強烈に2SLS推し！であることに驚いた。なんだかよく知らないけど、計量経済学の教科書だけに出てくる、古い手法だという印象があったのだ(それゆえにこれまでノーマークであった)。この2SLSラヴっぷり、他の専門家からみてどうなんだろうなあ。よくわからないけど、ま、勉強する良い機会をもらったと考えよう。
共通手法分散の問題で、潜在変数として手法因子を入れる方法はなぜダメなのか、いまいち理解できなかった... 直感的にダメだろうという気もするし、ダメならダメで納得するのだけれど、ダメである理由が知りたい。
回帰不連続デザインでプリテストのスコアが測定誤差を持っている場合のくだり、どうも腑に落ちない。プリテストの真値が従属変数と正の相関を持っているとして、プリテストのスコアが閾値より下だった人を処置群、上だった人を統制群に割り付けたとき、もしプリテストのスコアに測定誤差があったら、平均への回帰が生じ、処置効果の推定量は正方向のバイアスを受けそうなものだ。著者によれば、それはプリテストスコアの偏回帰係数で吸収され、処置効果の推定値には影響しないとのことなのだが... うむむむ。やはりこういうレビューだけではなくて、きちんと勉強しないといけないな。

論文：データ解析(-2014) - 読了：Antonakis, Bendahan, Jacquart, & Lalive (2010) 無作為化実験できないあなたのための因果推論ガイド

読書日記

読んだ本を淡々と記録します

2014年11月22日 (土)