« 読了:Spencer(2000) 抽出確率が測定値と相関している標本におけるデザイン効果の推測 | メイン | 読了:「繕い裁つ人」「めめんと森」「シュトヘル」「蜜の島」「アイアムアヒーロー」「34歳無職さん」 »
2014年3月18日 (火)
Pearl (2014) Understanding Simpson's Paradox. The American Statistician, 68(1), 8-13.
因果推論の巨匠Pearl先生、シンプソン・パラドクスについて語るの巻。
シンプソン・パラドクスとはすなわち、二元クロス表における連関が、第三の変数で層別すると消えたり方向が逆になったりする... という話。統計や調査法の本によく登場する有名な現象である。こう表現してしまうとつまらなく聞こえるけど、はじめて実物をみたら、それはもうビビりますよ。講義やセミナーなどでみせると、何人かは身を乗り出して食いついて下さる、良い題材である。
Pearl先生いわく:
あるパラドクスが解けていると主張するためには、以下の基準をクリアしなければならない。(1)その現象が驚きをもたらす理由を説明できること。(2)パラドクスが現れるシナリオと現れないシナリオを区別できること。(3)それが現れるシナリオにおける意思決定の正解を示し、数学的に証明すること。
この基準に照らせば、シンプソン・パラドクスはもう「解けている」。順に示しましょう。
(1)について。シンプソンのパラドクスがパラドクスとみなされるのは、その現象が私たちが抱いている次の因果的信念と衝突するからだ: 「それぞれの下位母集団において事象Bの確率を増大させる行為Aは、それが下位母集団の分布を変えない限り、母集団全体においてもBの確率を増大させるはずだ」。著書"Causality"ではこれを"sure-thing"の定理と呼んでいる。つまり、シンプソンのパラドクスの驚きは、統計的連関に因果的解釈を与えてしまうという私たちの傾向性と、私たちの因果的直観に起因している。
(2)について。シナリオは有向非循環グラフ(DAG)によって表現できる。シンプソン・パラドクスが起きるシナリオとそうでないシナリオもDAGで区別できる。
(3)について。伝家の宝刀do-calculusで説明できる。しかしdo-calculusをご存じない読者の皆様のために(←今日はやけに親切ですね先生)、ここではシミュレーションによって説明しよう... というわけで、バックドア基準のかんたんなご紹介。
Pearl先生のこういう非専門家向けの文章は、読みやすくて面白い。この論文も、出先での時間待ちのあいだに楽しく読んだ。なのに、主著"Causality"ときたら、なぜあんなにわかりにくいんですかね...
この論文、いちおうはArmistedという人の批判論文への返答という形をとっているのだけれど、本文中では全く言及がなく、最後に短くコメントしているのみ。いわく:はいはい、あなたの云っていることは正しいでしょうよ。XとYのクロス表をZで層別しようがしまいがお好きなように。どんな集計表だってなにかの役には立つでしょう。でも、Yに対するXの総合効果に関心があるならば、みるべき表は、Zで層別した表かしない表のどちらか一方に決まります。という、言い回しは優しいけど、ほとんど相手にしていない感じの返答であった。そりゃそうですよね先生! Armistedの批判が批判になっているのかどうか理解できず不安だったのだけど、ひと安心。虎の威を借る狐とはこのことである。
論文:データ解析(-2014) - 読了:Pearl (2014) シンプソン・パラドクスよ、お前はもう解けている