覚え書き: Pearl先生、「強い無視可能性」概念を全力でディスるの巻

 いま流行りの因果推論の分野における一方の巨匠Pearl先生は、同時にかなり攻撃的な物言いでも知られている方である。もしかすると同業の先生方は困っちゃっているのかもしれないし、パレスチナ問題に関するツィートは私もちょっと引いちゃいましたが(私はもうXにアクセスしてないので最近の動向はわからない)、専門家がご専門の話題について旗幟を鮮明にし論点を明示してくださるのは、初学者としては助かる面もありますね。それに、ほら、人の悪口ってちょっと楽しかったりしませんか。しますよね。

 Pearl先生の主著”Causality”は第1版が邦訳されているが、難解さで知られており、私は何度もトライしては挫折している。いっぽう、第2版(2009)には第1版から追加された章があり、その一部はwebで公開されており、それらはなかなか楽しい内容が多い。11.5.3節の架空対話は以前ほとんど全訳してしまった。
 このたび調べ物をしていて、因果推論の重要概念として人口に膾炙している「強い無視可能性」概念を批判しその提唱者らをディスっている文章を見つけてしまい、お茶を啜りつつフガフガと楽しく読んだ(すいません)。勢いあまってメモを取ったので載せておく。

 以下の内容はPearlの理論の基礎概念(バックドア基準とかd分離とか)についての知識を前提としている。ま、そりゃしょうがないっすね。
 Pearl先生はこのあとも精力的に著作を続けているし(邦訳も2冊出ている)、なにより最近は因果推論についての解説書が書店の棚に溢れている状態なので、以下の内容についてももっと良い参考文献があるかもしれない。
 また、訳語の選択や文意の取り方から、私の不勉強がにじみ出ているような気もする。お気づきの場合はみなかったことにしてほしい。

Pearl, J. (2009) Demystifying “Strong Igorability”. in “Causality”, 11.3.2.

 潜在的アウトカムの言葉遣いに閉じ込められてしまっている研究者たちは[みてください、隙あらば悪態をつくこのロックな魂を]、「ゼロ・バイアス」ないし「交絡なし」条件のことを、「強い無視可能性」という独立性関係を使って表現する。
 形式的にいうとこういうことである。\(X\)が二値の処置だとする。行為\(do(X=0), do(X=1)\)の下での(観察されない)潜在アウトカムを\(Y(0), Y(1)\)とする。\(Z\)を測定された共変量の集合とする。強い無視可能性とは$$ \{Y(0), Y(1)\} \ (独立) \ X \ | \ Z $$ [latexでどう書けばいいのかわかんないので(独立)と書いたけど、えーっと、ラグビーのゴールポストの横棒がないような奴ね]
 「強い無視可能性」が成立しているとき、\(Z\)はadmissibleであるとかdeconfoundingであるという。つまり、調整エスティマンド(3章をみよ)を使って処置の効果をバイアスなく推定できるということである。

 強い無視可能性は半事実的公式を操作する際の便利なシンタクス的ツールであり、かつ、\(Z\)のadmissibilityを正当化することなくフォーマルに仮定する便利な方法である。しかし、現実場面においてそれをどう適用したらよいのかはほぼわからない。なぜなら、反事実変数\(Y(0), Y(1)\)は観察されておらず、科学的知識が反事実における条件付き独立性について信頼できる判断を下せるような形式で蓄積されているわけでもないからである。従って、「強い無視可能性」という概念は、ほぼ100%、「\(Z\)がadmissibleだ」という仮定、つまり$$ P(y|do(x)) = \sum_z P(y |z, x) P(z) $$ という仮定の言い換えとして使われているに過ぎない。それは\(Z\)を正しく選択するための規準になっていない。
 共変量の選択のガイドとして「強い無視可能性」が用いられているレアな事例においても、実のところ、そのガイドは間違っているか不正確である。それらは以下のような神話の延命に力を貸している。いわく、「処置の前に被験者について記述する変数について調整しない理由なんてない」「処置と疾患の両方に関連する変数はみな交絡要因だ」「強い無視可能性は処置とアウトカムの両方に関連するすべての共変量の測定を必要とする」(他人にきまり悪い思いをさせるのを避けるため出典は明示しない)。

 グラフィカル・モデルを学んだ読者のみなさんはすぐに気が付くだろうが、「強い無視可能性」の定義はバックドア基準と対応しているはずである(バックドア基準もまたadmissibilityを含意する)。この定義は単なる主張や過程として捉えるべきものではなく、それが妥当になるような原因-結果関係とは何なのかを考えるべきものである。
 しかしここで次の疑問が浮かぶ。変数\(Y(0), Y(1)\)を因果グラフ上で表現し、d分離を使って上の式を検証できるだろうか。いいかえれば、\(Z\)がこの式を満たすときに限り\(Z\)が\(W\)から\(X\)をd-分離するようなノード集合\(W\)をみつけることができるだろうか。
 この疑問に対する答えは、グラフと潜在アウトカムの翻訳ルール(3章)から直接に得られる。この翻訳によれば、\(\{Y(0), Y(1)\}\)は、\(X\)を通らないパスを通じて\(Y\)に影響しうる、すべての外生変数・潜在変数・観察変数の合計を表現している。その理由は以下のとおりである。\(\{Y(0), Y(1)\}\)の構造的定義によれば、たとえば\(Y(0)\)とは、\(X\)に入るすべての矢印を切断し\(X = 0\)に固定したという条件の下での\(Y\)の値である。ということは、\(Y(0)\)の統計的変動は、\(X\)に入る矢印を切断したグラフにおける\(Y\)のすべての外生的祖先に支配されている。
 [いくつかの図で説明。メモ省略]

 SEMを熟知している読者のみなさんはお気づきであろう。\(\{Y(0), Y(1)\}\)のグラフィカル表現は、古典的な計量経済学における(\(Y\)の式の)「攪乱項」ないし「誤差項」という概念を洗練したものであり、「強い無視可能性」とは、\(X\)が「外生的」であるためには「攪乱項」から独立でなければならないという要請に他ならない。1970年代、計量経済学的方程式の因果的解釈に伴って、この概念はすっかり評判が悪くなったのだが、構造方程式のフォーマリズムにおいてグラフィカル・モデルが照らし出した明確性の観点からみて、この概念は再受容されるだろうと私は予見していた。

 「強い無視可能性」を、プロセスについての実質的知識を符号化したモデルにおける単純な分離条件へと翻訳することで、この「強い無視可能性」なる不明瞭な概念を解体せねばならない。そうすることによって、「無視可能性」について語る研究者たちを、そのグラフィカル解釈から得られる利益へと招きいれるのだ。研究者たちは次のことを理解できるようになる。バイアスを取り除くために共変量はどんな条件を満たしていなければならないか。共変量を選ぶ際、なにに注目しなにを考えなければならないか。共変量選択に必要な知識を我々が(少なくとも部分的に)持っているかどうかを検証するためにはどんな実験ができるか。

 グラフィカル・フレームワークと反事実フレームワークの共生が有益であった応用領域のひとつは、処置群における処置効果 \(ETT = P(Y_{x’} = y | x)\)の推定である。この反事実的な量はdo-演算の表記による分析が難しいが、そのいっぽうで、反事実的な表記によって有益な結論が引き出される。バックドア基準を満たす共変量集合\(Z\)が存在するとき、ETTは観察研究で推定できる。このことは $$ (Y (独立) X \ | \ Z )_{G_\underline{X}} \Longrightarrow Y_{x’} (独立) X \ | Z $$ から直接に得られる。ここから$$ ETT = P(Y_{x’} = y | x) = \sum_z P(Y_{x’} = y | x, z) P(z | x) $$ $$ = \sum_z P(Y_{x’} =y | x’, z) P(z | x) = \sum_z P(y | x’, z) P(z | x) $$ が得られる。
 ところで、因果性の確率\(P(Y_{x’} = y’ | x, y)\)は(さらにいえば\(y\)の反事実的表現は)、なぜこのような導出が不能であり、一般に識別不能なのか。この点についても、「強い無視可能性」という神話のグラフィカルな解体によって説明できるようになる。9章をみよ。