« 読了: Heylen et al. (1995) 消費者モチベーションの空間モデル | メイン | 読了: Park & Lee (2001) デザイン効果、その知られざる真実 »
2014年3月 7日 (金)
因果推論の巨匠 J. Pearl 先生が「こんどこんな論文書いたから読んでね」と下書きを公開する→たまたま気づいて、いつか読もうと印刷して机に積む→しばらく放置→整理の都合でぱらぱらとめくったら、これが面白そう→いや待て、修正が済んだやつがもう雑誌に載っているんじゃないかと探す→American Statisticianの最新号に載っていて、前後の論文含めPDFが無料公開されていることに気づく→あろうことか下書きとは主旨が変わって、誰かのPearl批判論文への返答という位置づけになっている→仕方がないのでその批判論文を読み始める→さっぱり理解できず困惑する(イマココ)
Armisted, T.W. (2014) Resurrecting the Third Variable: A critiquie of Pearl's causal analysis of Simpson's paradox. American Statistician, 68(1), 1-7.
というわけで、この雑誌の最新号に載っているシンプソン・パラドクスについてのやりとりの、最初の論文。
ええと... 因果推論の巨匠 Pearl 先生に言わせれば(著書"Causality")、シンプソン・パラドクスはパラドクスではない。因果性の問題として考えるべき問題を、そう考えそこねていることに由来する混乱に過ぎない。いっぽう著者はこの考え方を批判する。どう批判するかというと、ええと、ええと...
まずはこんな例から。Lindley&Novick(1981) というのが挙げた例だそうだ。
全体:
治療あり... 治癒20名, 非治癒20名, 治癒率50%
治療なし... 治癒16名, 非治癒24名, 治癒率40%
男性:
治療あり... 治癒18名, 非治癒12名, 治癒率60%
治療なし... 治癒7名, 非治癒3名, 治癒率70%
女性:
治療あり... 治癒2名, 非治癒8名, 治癒率20%
治療なし... 治癒9名, 非治癒21名, 治癒率30%
全体をみると治療ありのほうが治癒率が高い。しかし性で層別すると、どちらの層でも治療なしのほうが治癒率が高い。シンプソン・パラドクスである。
Pearlの説明はこうだ。この例で、全体の表は性別情報がないときの治療の「証拠の重み」を示しているに過ぎない。治療の効果を示しているのは層別した表である。いっぽう、「男性」「女性」を「低血圧も治った」「低血圧は治ってない」に書き換えた場合はどうか。その場合は全体の表のほうをみないといけない。なぜなら低血圧が治ったかどうかは治療の結果だからだ。つまり、性というcausalな変数では層別すべきだが、低血圧が治ったかというnoncausalな変数では層別してはいけない。
いっぽうLindleyらの説明は少しちがう。この例では全体ではなく男女で層別した表のほうをみないといけないんだけど、それは性別と治療有無が交絡しているからである。性別を低血圧に書き換えた例ならば、全体の表も層別した表も、それぞれに価値がある(ここがPearlとちがう)。
著者らもこの立場を支持する。つまり、第三の変数で層別すべきかどうかは、それがcausalな変数かどうかでは決まらない。
なぜか?
なぜならば... という説明がなされているのだけれど、これがさっぱり理解できない。難しいことが書かれているわけでないのだが、読み返しても話のポイントが掴めないのである。著者のかたは、変数間の因果関係が分かっているとき (DAGが描けるとき) に因果関係の方向と強さを調べるという状況と、それ以外の多種多様な状況とをごっちゃにしているのではないかと思うのだけれど... きっと私がなにか理解し損ねているのだと思う。
論文:データ解析(-2014) - 読了: Armisted (2014) 第三変数の復活