読書日記: 読了：黒木(2014) 「原因の確率」とその評価

« 読了：Chen & Pennock (2010) 予測メカニズム・レビュー | メイン | 読了：「中国嫁日記」｢プリニウス」「ダンジョン飯」｢少女漫画」「めしばな刑事タチバナ」「説経小栗判官」 »

2015年2月21日 (土)

黒木学 (2014) 統計的因果推論による原因の確率とその評価. 統計数理, 62(1), 45-58.
　疫学系データ解析特集号のなかの一本。Pearlが定義した「原因の確率」の3つの概念を、疫学の文脈で紹介する論文。おお、なんだか寄与危険度と関係ありそうだ、と思って手に取った。あまり知られていないけど、寄与危険度というのはマーケティング・リサーチの文脈でも重要な概念であります。
　せっかくなので、勉強のために、原文の「曝露」を「ミニスカートのお姉さんに新製品のサンプルをもらった」、発症を「その後の一定期間内にその製品を購入した」に読み替えてメモを取ってみた。さらに、添字のネストが深くなるのが辛いので、勉強を兼ねて、原文の数式の表記をちょっと簡略化してみた。

　サンプル受領を表す変数を$X$とし、もらった場合を$X=1$, もらってない場合を$X=0$とする。製品購入を表す変数を$Y$とし、購入した場合を$Y=1$, しなかった場合を$Y=0$とする。$X=1$となる確率を$pr(x_1)$というふうに略記する。
　対象者$i$が「もしサンプルを受けとっていたら購入していたか」を表す変数を$Y_1(i)$, 「もしサンプルを受け取っていなかったら購入していたか」を表す変数を$Y_0(i)$とする。これらを確率変数$Y_1, Y_0$とみなし、$Y_j=k$である確率を「因果リスク」causal risk と呼ぶことにし、$pr(y_{jk})$と書く(添字が購入有無$j$, 受領有無$k$の順になっている点に注意！)。

　$pr(y_{11}) - pr(y_{10})$を「因果リスク差」と呼ぶことにする。無作為割付していれば、$X$と$(Y_1, Y_2)$が独立だから、因果リスク差はリスク差$pr(y_1|x_1) - pr(y_1|x_0)$で推定できる。ただの観察でも、たとえば変数集合$S$の下で強い無視可能性であれば(=「$S$がSITA条件(strongly ignorable treatment assignment条件)を満たせば」=「バックドア基準を満たせば」)、$pr(y_1|x_1, S) - pr(y1|x_0, S)$の$S$の下での期待値でもって推定できる。

　さて。Pearlは３つの「原因の確率」を提案している。

必要性の確率(Probability of necessity): $PN=pr(y_{00}| x_1, y_1)$。すなわち、「受領かつ購入」者が、仮に受領していなかったとして、購入していなかった確率。いいかえれば、受領が購入の必要条件になっている程度。
十分性の確率(Probability of sufficiency): $PS = pr(y_{11} | x_0, y_0)$。すなわち、「非受領かつ非購入」者が、仮に受領していたとして、購入していた確率。いいかえれば、受領が購入の十分条件になっている程度。
必要十分性の確率(Probability of necessity and sufficency): $PNS = pr(y_{11}, y_{00})$。すなわち、「仮に受領していなかったら購入していなかった」と「仮に受領していたら購入していた」の同時確率。これは、受領が購入に対する「実際の原因」actual causeとなっている程度を表している。

さらに、たとえば無能化の確率(Probability of Disablement): $PD = pr(y_{00}|y_1)$といった確率も定義できる由。

　PNSの性質について考えてみよう。Xで場合分けしてみる。
　$PNS=pr(y_{11}, y_{00}) = pr(y_{11}, y_{00}, x_1) + pr(y_{11}, y_{00}, x_0)$
第一項に注目すると、「$Y_1=1$である確率」とは「$X=1$であるときに$Y=1$である確率」だから、それと「$X=1$である確率」との同時確率はすなわち「$Y=1$である確率」だ(禅問答みたいですね)。よって$pr(y_{11}, y_{00}, x_1) = pr(y_1, y_{00}, x_1) = pr(y_{00} | x_1, y_1) pr(x_1, y_1) = PN \times pr(x_1, y_1)$。第二項も同様で、結局
　$PNS=PN \times pr(x_1, y_1) + PS \times pr(x_0, y_0)$
つまり必要十分性の確率とは、必要性の確率に「受領かつ購入」確率を掛け、十分性の確率に「非受領かつ非購入」確率を掛け、足したものである。

　このPN, PS, PNSは、(...途中に一か所、理解できない箇所があるんだけど...まぁとにかく)、因果リスク差が推定できれば、その存在範囲を求めることができる。
　ランダム化試験の状況であれば、PNSの下限は$pr(y_1|x_1) - pr(y_1|x_0)$(それが負だったら0), 上限は$pr(y_1|x_1)$と$pr(y_0|x_0)$のうち小さい方、となるのだそうだ。えーと、PNSはリスク差よりも小さいことはないし、「受領者の購入確率」や「非受領者の非購入確率」よりも大きいことはない、ってわけね。

　ではPNはどうなるかというと、その下限は$\{ pr(y_1|x_1) - pr(y_1|x_0) \} / pr(y_1 | x_1)$(もしそれが負だったら0)となるのだそうだ。この式をよく見ると... リスク差を「受領者における購入確率」で割ったもの。疫学でいうところの曝露群寄与危険度割合ではありませんか。
　曝露群寄与危険度割合はふつう、「サンプル受領者における購入のうち、サンプル配布に起因する部分の割合」を意味する指標として解釈されている。でもその解釈はむしろ$PN=pr(y_{00}| x_1, y_1)$に対する解釈だ。ってことは、曝露群寄与危険度割合ってのは「受領者における購入のうち、受領に起因する部分の割合」を過小評価しているわけだ。どれだけ過小評価しているのか。図を延々と眺めてようやく得心したのだけど、$pr(y_{10}, y_{01})$だけ、つまり、「仮に受領していなかったら購入していた」と「仮に受領していたら購入していなかった」との同時確率のぶんだけ過小評価されている。これが0であることを単調性というそうだ。なるほどね、「ほっとけば買うがサンプルを渡すと買わない」奴はいないということか...

　同じことが人口寄与危険度割合$\{ pr(y_1) - pr(y_1|x_0) \} / pr(y_1)$にもいえて、それが$PD=pr(y_{00}|y_1)$と一致するのは単調性の仮定が成り立っているときなのだそうである。えーと、ふつう人口寄与危険度割合は「購入者のうち、サンプル配布に起因する部分の割合」だと思われているけど、それは「ほっとけば買うがサンプルを渡すと買わない」奴がいなければの話だ、ということかな。なるほどー。

　勉強になった、ような気がするが、すぐにわかんなくなっちゃいそうでもある...

論文：データ解析(2015-) - 読了：黒木(2014) 「原因の確率」とその評価

読書日記

読んだ本を淡々と記録します

2015年2月21日 (土)