elsur.jpn.org >

« 読了:Fowler & Christakis (2008) 幸福の感染 in フラミンガム・コホート | メイン | 読了: 伊庭(2006) ベイズ統計の流行の背後にあるもの »

2014年7月 9日 (水)

Cohen-Cole, E., Fletcher, J. (2008) Detecting implausible social network effects in acne, height, and headaches: Longitudinal analysis. BMJ, 337.
 昨日、ふとしたきっかけで「社会的ネットワーク上で幸福が感染する」と主張する論文に目を通し(Fowler & Christakis, 2008)、そ、そうなの?... と思いながら試しにwebを検索してみたら、結構な話題になった研究らしく、日本語での紹介記事がいっぱいあった。その多くは自己啓発系の超くだらないブログ記事であった。幸せになるためには幸せのオーラを出しましょう、とか。ああいう文章を書いている人の頭の中って、どうなってんでしょうね。
 しかし、なかにはまともな紹介もあって、そのひとつであるwiredの翻訳記事によれば、研究の方法論に対しては批判もある由。なんと、同年のBMJに真正面からの批判が載っていた。いやー探してみるものねー。

 いきさつとしては、誰かが「××は社会的に感染する」という研究を世に出すと、他の人が追いかけてって「いや普通に分析すりゃ感染してないよ」と批判する、というのが繰り返されているらしい。「肥満が感染する」(Christakis & Fowler, 2007, NEJM) に対して「いやそれピア効果だから」(Cohen-Cole & Fletcher, 2008, J. Health Econ.)。「薬の処方は感染する」(Coleman, et al., 1966, "Medical Innovation")に対して「いやそれマーケティングの効果だから」(Van den Blute & Lilien, 2001, Am.J.Soc.)。

 著者らいわく。
 健康の研究においてネットワーク効果(ある人の状態が、その人とつながっている他の人の状態に影響すること)を取り出すのは難しい。理由1: homophily (健康な人同士、不健康な人同士はリンクを持ちやすい)。理由2: confounding (同一の準拠集団に属している人はある環境を共有している)。
 これに対する対処法がいくつかある。homophilyに対しては、ランダム割付(大学の新入生の寮の部屋割りをランダム割付した研究があるらしい。頭いいなあ。Sacerdote(2001, Q.J.Econ.))。そしてラグつき変数をいれた統計モデル。confoundingに対しては、共通の環境を表すいろんな変数の統計的統制。
 ところが、統計的な対処ってのはなかなか難しい。ここ、さらっと書いてあるけど大事だと思うのでメモを取っておくと、

実証研究におけるシンプルなやりかたは、データセットにおいて利用可能な情報がなんであれ、それこそが人々が生きている社会環境を記述する情報なのだ、と仮定してしまうことである。特に、それらの変数こそが環境内の交絡因子(confounders)を真のネットワーク効果から区別するために適切な変数なのだ、と仮定するのはよくある話である。問題は、そこで使われているデータセットがこの種の分析のために構築されたものであることはまずないという点である。[データセットに含まれている] 個人特性・集団特性は、ふつうは個人レベルの健康上のアウトカムを評価するために適切なものであって、集団レベルの相互作用を評価するためのものではない。たとえば、肥満に対するネットワーク効果と交絡因子を区別するためには、その社会的ネットワークにとって利用可能なファスト・フード店のパターンとか、学校のカフェテリアのメニューのカロリーといったことを知る必要があるだろう。個人の人種や年収などの変数は、ある種の研究にとっては合理的な代理変数になるかもしれないが、環境は異なるが他の点では似ている2つの集団を区別する助けにはならない。ある学校の隣にファスト・フード店があり他の学校の隣にはないとき、この顕著な情報を含まない回帰の推定は、どんなタイプのものであれ [偽りの]「ネットワーク効果」を示してしまうだろう。

ははは。前半のご批判、ネットワーク効果に限らない話で、耳が痛いですね。

 Christakis&Fowlerの肥満の研究では、人の体重の回帰式にその友人の体重を入れるだけではなく、友人の過去の体重を投入することでhomophilyを分離したと主張しているが、これは怪しい。たとえば、友人関係が自尊心のような諸特性に基づいて形成されているとしよう。で、自尊心が現在の体重と将来の体重に異なる形で影響しているとしよう。この場合、友人の現在の体重を統計的に調整しても、自尊心に基づくhomophilyが将来の体重に及ぼす影響を分離したことにはならない。また、禁煙しようかなと思っている喫煙者は、この人は将来禁煙できそうだなと彼らが思っている人を友達にするのかもしれない。ここで個人の喫煙状態を統計的に統制しても、homophilyを分離したことにはならない。
 confoundingのほうも怪しい。学校の隣にファスト・フード店があるのにそのことを統制していないと、同じ学校に通っている二人は友達であることが多いから、偽りのネットワーク効果が生じてしまう。リンクの向きを調べても解決にはならない。いまAくんがBくんを友達だと考え、しかしBくんがAくんを友達だと思っていなかったら、Aくんには偽りのネットワーク効果が生じBくんには生じないが、どのみち偽りであることにはかわりない。

 実例をお見せしましょう。Add Health (青少年の健康についての全米規模の縦断研究)のデータを使う。どうみても社会的に感染しない変数である、肌のトラブル、頭痛、身長に注目する。3時点分のデータをつくって分析。自分の状態を説明する回帰モデルで、自分と友達の前時点での状態を投入しても、友達の現時点での状態が有意になってしまう。つまり、偽りのネットワーク効果である。性別・年齢・人種などなどを投入してはじめて効果が消える。

 ううむ、なるほどね。
 この批判はネットワーク効果の推定に向けられたものだが、より広く捉えれば、観察研究においてある変数の効果を示すために、「それと交絡している変数をすべて統計的に統制しました」と誰かが主張したとき、その「すべて」ってのはなにを根拠にしているの?... というタイプの批判である。面白味がないので見過ごされがちだが、忘れてはならない視点だと思う。
 正直、耳やら胸やらがかなり痛む。観察集団におけるYの分散が、ほかのいかなる変数のせいでもなくX1のせいだと示すために、X2, X3, ... を片っ端から投入した傾向スコア調整を行った、というような経験は私にもある。受け手の人は「ああそれならX1のせいだ」とわりかし簡単に信じてくださるんですが、この話、ホントはX2, X3, ... の豊かさ次第、選び方次第なのです。

 というわけで、著者らの批判には仰せの通りと同意するしかないし、Christakis&Fowlerの示したネットワーク効果が真水の値かどうかは怪しいところだと思うんだけど、ではこれがChristakis&Fowlerの「幸福の感染」という主張を完全に打ち崩しているかというと、そうとも言いがたい。統制できていない交絡変数があるかもしれないよね、という批判と、いや統制できていると思いますよ、という反論は水掛け論に終わるからだ。そうこうしているうちに、「ハーバード大学の研究によれば、幸せな人に出会うとあなたは以前よりxx% も幸福になる」なあんて、Christakis&Fowlerの示した数値が一人歩きしていくわけで、ポピュラー・サイエンスというのは大変に難しいものだと思う。言うても詮無いことではありますが、いま私が生計を立てているビジネス・データ解析にもそういう面はあって、胸が痛む次第である。

 思うに、勝手に形成され変容するネットワークのノード状態の変化を、その原因を押さえないままにひたすら観察している限り、いくらリッチな縦断データであっても、ネットワーク効果をhomophilyやconfoundingから区別するのは困難なのではないだろうか。
 逆にいえば、ネットワーク自体が変容しないくらいの短期間の勝負で、変化の原因があるノードにしか影響しないと言い切れるような局面なら、縦断データからネットワーク効果を取り出せるのではないかと思う。住民同士の交流がさかんな団地やマンションに研究者が入っていって住民の幸福感を追跡し、誰かが内緒で飼っている室内犬が死ぬのを待つのはどうだろうか。

論文:心理 - 読了:Cohen-Cole & Fletcher (2008) 幸福が感染するって? その理屈だとニキビも感染することになるけど?