読書日記: Pearl(2009) 敵対的な審査者との対話、あるいは SEM サバイバル・キット

« 読了：「ロミオとジュリエット」「黒い裾」「ぼくを忘れたスパイ」「二十一の短編」「スミヤキストQの冒険」 | メイン | 読了: Hampton, et al. (2014) ソーシャルメディアと「沈黙の螺旋」 »

2014年8月24日 (日)

　金曜の夜にwebをぼんやり眺めていて、因果推論の巨匠 Pearl 先生が公開しておられるすごく面白い文章を見つけた。難解をもって知られる主著"Causality"の第二版に収録されている文章で、第一版の訳書にはみあたらない。

　あまりに面白い文章なので、ずるずるとメモをとっていたら、結局だいたい訳出してしまった。貴重な休日の午後を費やし、俺はいったいなにをしておったのか、と窓の外が暗くなってから我に返ったが、あとの祭りとはこのことである。実際、今日は近所で夏祭りがあったらしい。

　せっかくなのでメモを以下に載せておきます。ご関心あるかたはぜひ原文にあたってくださいませ。

　この文章、博士論文の審査という架空の場面で書かれてはいるが、データから因果的主張を引き出そうとするすべての人に関係する内容だと思う。
　アンケート調査を一発やって、SEMのモデルを組んで、ここをどうにかすればここがきっとこうなるでしょう、云々... とやたらに強気な主張をするタイプの分析者に対して「なんだかなあ」というモヤモヤ感を抱いたことのある、全国1000万人(推定)のリサーチ関係者のみなさん、これはホントに勉強になります。
　意地悪であったはずのEX博士が、紙面の都合からか途中から急に物わかり良くなっちゃうところも見所であります。

敵対的な審査者との対話、あるいは SEM サバイバル・キット

話を簡単にするために、次のように想定しよう。あなたの論文の中に出てくるモデルは、次の 2 本の式からなっている。
y = bx + e1 (1)
z = cy + e2 (2)
e2 と x は無相関である。あなたの論文はパラメータ c の推定を主題にしており、あなたは最善の SEM 手法によって満足のいく推定値を得た。c=0.78 という推定値である。さらに、あなたはこの知見について因果的な解釈をおこなった。

さて、意地悪な審査者、EX博士があなたの解釈について質問を始める。

EX博士: あなたがいう「 c について因果的に解釈できる」というのは、どういう意味ですか？

あなた: y の 1 単位の変化が、Z の期待値 E(Z) における c 単位の変化をもたらす、という意味です。

EX博士: その「変化」とか「もたらす」というのはいやな感じですね。科学的にいきましょう。あなたが言っているのは E(Z|y) = cy + a っていうこと？それならわかります。Z の y の下での条件つき期待値 E(Z|y) は数学的にきちんと定義できるし、それをデータから推定する方法もわかる。でも「変化」とか「もたらす」というのはわけがわからない。

あなた: 私は実際に「変化」という意味で言っております。「条件つき期待値における増大」という意味ではありません。私が言っているのはこういうことです。いま、y をなんらかの定数 y1 に固定する物理的な手段があったとします。そしてその定数を y1 から y2 に変化させることができるとします。そのとき、E(Z)において観察される変化は c(y2-y1) でしょう、ということです。

EX博士: いやいや、それはちょっと形而上学的な話になってませんか？私は統計学の講義で「固定する」なんて言葉を聞いたことがないよ。

あなた: あ、すみません、先生は統計学がご専門ですね。でしたら先程の解釈を次のように言い換えさせてください。いま y を無作為に割り付けた統制実験を行うことが可能だとして、統制群の y を y1 に、実験群の y を y2 にセットしたとします。このとき、E(Z)において観察される差は、y1 と y2 がなんであれ、(統制群と実験群におけるzの測定値をZ1とZ2として) E(Z2) - E(Z1) = c(y2 - y1) であろう、ということです。[脚注: EX博士が「あなたの主張はそれだけ？」と尋ねたら、こう付け加えること。付け加えますと、確率変数 Z1 - cy1 の分布が確率変数 Z2 - cy2 の分布と同じであろう、ということです。]

EX博士: だいぶわかりやすくなってはきたけれど、でもひっかかりますね。あなたの話は途中ですごくジャンプしているように思える。あなたのデータは実験によるものではないし、あなたの研究のどこにも実験なんて出てこない。あなたは、観察研究から得たデータをSEMのソフトでどうにかすれば、無作為化統制実験から得られるであろう結果を予測できる、といいたいの？冗談でしょう！実験研究をそんなSEMの魔法に置き換えることができたら、国中でどれだけの予算が削減できると思う？

あなた: 魔法じゃありません、先生、易しい論理です。SEMのソフトを使った私の分析のインプットにあたるものは、非実験データだけではありません。インプットは２つの要素からなっています。すなわち、データと因果的想定です。私の結論はこの２つの要素からの論理的帰結です。標準的な実験研究には２つめの要素が欠けていて、だから実験研究にはお金がかかるのです。

EX博士: なに的想定だって？「因果的」？そんな変な言葉は聞いたこともない。私たちはふつう、想定を数学的に表現します、同時密度の条件とか、共分散行列の特性といった形で。あなたの想定を数学的に表現してもらえますか。

あなた: 因果的想定というのはそういうものではないのです。密度関数や共分散行列と言った語彙では表現できません。ですから、そのかわりにモデルで表現しているのです

EX博士: 式(1)(2)のことですね。新しい語彙なんて見当たらないけど。ただの数式じゃないですか。

あなた: 先生、これは通常の算術的な数式ではありません。これは「構造方程式」です。正しく読めば、ここから一連の想定を読み取れます。それらは先生もよくご存じの、母集団に対して仮説的な無作為実験を行った結果についての諸想定です。私たちはそれらを「因果的」想定、ないし「モデリング上の」想定と呼んでいます、そちらのほうが良い言い方なので。ですが、それらはさまざまな無作為化実験のもとで母集団がどのように振る舞うかということについての諸想定として理解できます。

EX博士: ちょっと待って！あなたがいう因果的想定というのがなんなのか、だんだんわかりかけてきたけど、そのせいで余計に混乱してきた。いいですか、無作為化実験の下での母集団の振る舞いについて、あなたがなんらか想定することができるなら、なぜわざわざ研究しなきゃならないの？「yを無作為に割り付けた無作為化実験で、E(Z)において観察される差は c'(y2-y1) だ」(c'は適当な数字) と直接想定しちゃえば、なにも何ヶ月も苦労してデータを集めたり分析したりしなくて済むじゃないですか。もしあなたが検証されていない想定から話を始めるのであれば、いっそE(Z2) - E(Z1) = c'(y2-y1)という想定から話を始めてしまえばいい。前者を信じてくれる人なら後者も信じてくれるでしょう。

EX博士: そうではありません、先生。私のモデリング上の想定は、研究の結論である E(Z2) - E(Z1) = 0.78(y2 - y1) という言明よりもはるかに弱い想定です。

第一に、私の結論は量的なもので、c=0.78 という特定の値にコミットしていますが、いっぽう私のモデリング上の想定は質的なものです。
第二に、先生を含め多くの研究者にとって、私の想定は受け入れやすいものだと思います。なぜなら、それらは世界がどのようになっているかという常識的理解と一般的な理論的知識に合致しているからです。
第三に、私の想定のうち大部分は、y の無作為割り付けを含まない実験によって検証可能なものです。つまり、yの無作為割り付けが高価ないし不可能であるとしても、もう少し手を付けやすい他の変数を統制することで想定を検証できるわけです。
最後に、これは私の研究にはあてはまらない点なのですが、モデリング上の想定は非実験研究で検証可能ななんらかの統計的含意を持っていることが多く、もしその検証が成功すれば(これを「適合」といいます)、そのことによってそれらの想定の妥当性がさらに確認できたことになるからです。

EX博士: 面白くなってきましたね。ではその「因果的」想定、モデリング上の想定とやらをみせてもらいましょうか。それが弱い想定かどうか判断しましょう。

あなた: 承知しました、ではモデルをご覧ください。ここで、

z は、最終試験における学生の得点
y は、学生が宿題に費やした時間
x は、(教師がアナウンスした)最終評価における宿題のウェイト

です。このモデルを論文に書いたとき、私は心のなかに２つの無作為化実験を思い描いていました。一つ目は x が無作為割り付けされる実験で(つまり、教師が宿題のウェイトを無作為に割り付ける実験)、二つ目は宿題に費やした時間 (y) が無作為に割り付けられる実験です。これらの実験について考える際に私が設定していた想定とは:

1. yに関する線形性と除外: E(Y2) - E(Y1) = b(x2 - x1)、ただしbは未知 (Y2とY1は、アナウンスされた宿題のウェイトがそれぞれx2, x1であるときの宿題所要時間)。また、この式からzを除外することで、私は得点 z が yに影響しないと想定していることになります。そう想定する理由は、y が決定される時点で z は未知だからです。
2. zに関する線形性と除外: すべての x について E(Z2) - E(Z1) = c(y2 - y1)、ただし c は未知。言い換えれば、xは yを経由して z に影響するかもしれないが、それを別にすれば z には影響しない、という想定です。

付け加えますと、非実験研究という条件の下で x を支配する、測定されていない諸要因についても私は質的な想定を行っています。すなわち、x と z の両方に影響する共通の原因はないという想定です。
　EX先生、ここまでの想定になにか反論をお持ちですか？

EX博士: いいでしょう、それらの想定が弱いものだということには同意します。あなたの論文の結論である言明 E(Z2) - E(Z1) = 0.78(y2 - y1) に比べればね。こういう弱い想定によって、(実験場面における) 宿題の得点への実際の影響についての大胆な予測を支持することができるというのは面白いと思います。しかし、あなたがいうところの原因についての常識的な想定には、まだ納得できません。宿題の重要性を強調する教師は、同時に情熱的で効果的な教師でもあり、そのためあなたの想定に反し、e2 (ここには教授の質といった要因が含まれています) は x と相関しているのではないでしょうか。

あなた: EX先生、先生もSEMのリサーチャーのような話し方をなさるようになりましたね。手法と哲学を攻撃する代わりに、私たちはいまや実質的な諸問題について議論し始めています... たとえば、教師が効果的である程度と、その教師が宿題に付与するウェイトとのあいだに相関がないと想定するのは合理的か、といった問題についての議論です。私は個人的には、宿題を気に掛けずにはいられない立派な教師に出会いましたし、またその逆の教師にも出会いました。
　しかし、私の論文はそのことについての論文ではないです。私は、教師が効果的である程度が、教師が宿題を重視するかどうかと相関していない、とは主張していません。その問題については、他の研究者が今後検証してくれればと思っています(あるいは、すでに検証されているかもしれませんね？)。私が主張しているのは次の点に過ぎません。教師が効果的である程度と教師が宿題を重視する程度とが無相関であるという想定を受け入れる研究者であれば、その想定とデータから論理的に次の結論が導かれるということに関心を持つでしょう。すなわち、宿題にかける時間が一日あたり1時間増えれば、得点が(平均して)0.78点増大する、という結論です。そして私のこの主張は、もし宿題の量(y)を無作為に割り付けた統制実験が可能ならば、実証的に検証できる主張です。

EX博士: あなたは自分のモデリング上の想定が真だと主張しているわけではなくて、単にそのもっともらしさについて述べ、その副産物について説明しているだけだ、というわけですね。それはよかった。そう言われると反論できません。しかし、今度は別の質問があります。あなたはさっき、あなたのモデルは統計的な含意を持たない、だからデータとの適合性という観点から検証することはできない、といいましたね。なぜそうだとわかったのですか？それは問題にはならないのですか？

あなた: そうだとわかったのは、私がグラフをみて欠けているリンクについて検討したからです。d-分離と呼ばれる基準を用いれば (11.1.2節「涙なしのd-分離」を参照)、SEMを用いる研究者は、グラフを一目見ただけで、グラフに対応するモデルが変数間の偏相関を消失させる形式でのなんらかの制約を含意しているかどうかを決定することができます。統計的含意は(すべてではありませんが)たいていの場合この性質を持っています。私たちの例では、モデルは共分散行列についてのいかなる制約も含意していません。ですから、それはどんなデータに対しても完全に適合し得ます。私たちはこういうモデルを「飽和している」と呼んでいます。
　SEMの研究者のなかには、統計的検定の伝統を振り払えず、モデルが飽和していることをモデルの欠陥であるとみなす人もいます。でもそれは正しくありません。飽和したモデルを手にしているということは、ただ単に、その研究者がありそうもない因果的想定を行うのを避けたいと思っているということ、彼ないし彼女が持ちたいと思っている弱い想定があまりに弱すぎて統計的含意を生み出せないということ、を意味しているのです。こういう保守的な態度を非難してはいけません、むしろ褒めるべきです。
　もちろん、自分のモデルが飽和していなかったら... たとえば e1 と e2 が無相関だったら、それは私は喜ぶだろうと思いますよ。でもここではそれは事実ではありません。常識的に考えて e1 と e2 は相関しています。データからもそれは伺えます。試しに cov(e1, e2)=0 という想定を置いてみたのですが、適合度はひどかったです。「飽和していない」モデルだという称号を手に入れるためだけに、保証のない想定を行ってもよいものでしょうか？いいえ！むしろ私は、合理的な想定を行い有益な結論を得て、私の結果と私の想定を並べて報告することを選びます。

EX博士: でも、同じくらいのもっともらしさを持った想定に基づく飽和したモデルが他にも存在し、そのモデルからは c の異なる値が導かれるとしたらどうですか？あなたの当初の想定のうちいくつかが間違っていて、そのため c=0.78 というあなたの結論も間違っている、という可能性については気になりませんか？あなたがあるモデルではなく別のモデルを選び取るとき、それを助けてくれるものはデータにはないわけだから。

あなた: その問題についてはとても気にしています。実のところ、こうした競合モデルのすべてについて、その構造をすぐに列挙することができます。たとえば、図11.15の2つのモデルがそれですし[xからzへの片矢印パスがあるモデルと、xとzのあいだに両矢印パスがあるモデル]、他にも挙げることができます(ここでもd-分離基準を用いることができます)。しかし、ご注意いただきたいのですが、競合モデルが存在するからといって、「モデルMの質的想定を受け入れる研究者ならば c=0.78 という結論を受け入れざるをえない」という先程の私の主張がいささかも弱まるわけではありません。この主張は論理的にみて無敵のままです。それだけではありません。この主張は、それぞれの競合するモデルからの結論を、そのモデルの背後にある想定と一緒に報告することで、さらに精緻化することができます。結論はこんな形になります:
もし想定集合 A1を受け入れるならば、c=c1 が含意される。
もし想定集合 A2を受け入れるならば、c=c2 が含意される。
...

EX博士: わかりました。でも、そうした条件付きの言明を超えて先に進み、さまざまな想定集合のなかからどれを選ぶかを決めるということに踏み込みたい場合、その試みを支援してくれるSEMの手法はないのですか？統計学において通常直面する問題では、競合する2つの仮説は、いかに弱いものであろうが、なんらかの検証にはかけられるものですが。

あなた: これが統計的データ分析とSEMの根本的なちがいです。統計的仮説とは、定義上、統計的手法によって検証可能なものです。いっぽうSEMのモデルは因果的な想定に依存しており、それらの想定は定義上、統計的検証ができません。もし2つの競合モデルが飽和していたら、私たちにできることは結論を上で述べたような条件付きの形で報告することだけですし、そのことがあらかじめわかるわけです。しかし、もしその競合が、同じぐらいのもっともらしさを持ちつつも統計的には異なるモデル間の競合であるならば、私たちはモデル選択という一世紀にも及ぶ古い問題に直面することになります。モデル選択に関しては、これまでにAICのようなさまざまな選択基準が提案されてきました。しかしここでは、モデル選択という問題に新しい因果的な変化が生じています... ここでの私たちのミッションは、適合度を最大化することでも予測力を最大化することでもなく、cといった因果的パラメータの推定をより信頼できるものにすることだからです。全く新しい問題領域が登場したわけです(Pearl, 2004を参照)。

EX博士: 興味深いですね。私の同僚の統計学者たちがSEMの方法論に出会ったとき、混乱し疑い深くなり、敵意さえ持った理由がわかりました (たとえば Freedman 1987; Holland 1988; Wermuth 1992)。最後の質問です。あなたはさっき、私が統計学者だといことを知ってから無作為化試験の話を始めましたね。統計学者ではない人に対しては、あなたはSEMの戦略をどう説明するのですか？

あなた: 平易なことばでこういいます。「もし私たちが、yをなんらかの定数y1に固定する物理的手段を持っており、その定数を y1 から y2に変えることができるとしたら、そのとき E(Z)において観察される変化は c(y2 - y1)でしょう」と。たいていの人は「固定する」ということがどういうことかを知っています。なぜなら、それは政策決定者の心についての概念だからです。たとえば、宿題が成績に与える効果について関心を持っている教師は、宿題の無作為割り付けという観点から考えたりはしません。無作為割り付けとは、固定することの効果を予測するための間接的手段に過ぎません。
　実際には、私が話す相手が本当に賢明な人であるならば (多くの統計学者がそうです)、反事実的な語彙に訴えて次のように言うことさえあります。たとえば、宿題に y 時間を費やした後で試験で z 点を取った生徒は、もし宿題に y+1 時間かけていたら z+c 点とっていたはずだ、と。正直にいえば、式 z = cy + e2 を書いたとき(ここで e2 は生徒のそのほか全ての特性を表し、モデルにおいては変数名を与えられず、y の影響は受けません)、私が心に抱いていたのは、本当はこの考え方なのです。私はE(Z)については考えもしません。単にある典型的な生徒の z について考えます。
　反事実的条件は、科学的関係の意味を表現するために我々が持っている最も正確な言語的道具です。しかし、統計学者と話すときには、私は反事実的条件には触れないようにしています。残念ながら統計学者は決定論的な概念や即座に検証できないような概念に疑いを持つ傾向があり、そして反事実的条件はそういう概念だからです (Dawid 2000; Pearl 2000)。

EX博士: SEMについていろいろ教えてくれてありがとう。質問は以上です。

あなた: 恐縮です。

論文：データ解析(-2014) - Pearl(2009) 敵対的な審査者との対話、あるいは SEM サバイバル・キット

読書日記

読んだ本を淡々と記録します

2014年8月24日 (日)