« 読了: Rizzi, Gampe, & Eilers (2015) ヒストグラムから確率分布をノンパラメトリック推定する罰則つき合成リンクモデル | メイン | 読了:Markos, et al.(2018) 次元縮約とクラスタリングを同時にやりたいあなたのためのclustrdパッケージ »
2018年10月16日 (火)
Camerer, C.F., et al. (2018) Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour, 2, 637–644.
ちょっと前に読んだ奴。社会科学の実験研究の大規模な追試プロジェクトの報告で、話の主旨自体には正直あまり関心がなかったんだけど(すいません)、予測市場を使っているので手に取った。
著者は24名の連名。ファーストはコリン・キャメラ―, 他に社会心理学のノセックとか、ベイズ認知モデルのワゲンメーカーズとか、若い経済学者のTaisuke Imaiとか、わたしゃ良く知らないが錚々たるメンバーなのではないかと思う。
2010-2015年にNatureとScienceに載った社会科学の実験論文21本について、再現性を調べた。細かく言うと、各論文で報告されている研究のうち、処理効果が有意な最初の研究に注目し、そのなかで有意かつ重要な比較1つについて調べた。
追試は二段階で行った。
- ステージ1: 元の効果量の75%が、有意水準5%の両側検定で検定力90%で検出できる実験。そこで再現できたらストップ。
- ステージ2: データを追加して、元の効果量の50%が検定力90%で検出できる実験にする。
ステージ1の標本サイズは平均すると元論文の約3倍、ステージ2は約6倍になった。以上、もちろん事前登録しました。[...中略...]
これだけじゃ再現性の有無が二値になっちゃうので、さらに以下も行った。(1)オリジナルと追試を併せたメタ分析。(2)95%信頼区間の算出。(3)small telescopesアプローチ[不勉強にしてなんだかわからん。Simonsohn(2015 Psych.Sci)をみよとのこと]。(4)ベイズファクターの算出、(5)ベイジアン混合モデル, (6)再現性についてのピアの信念[←これが読みたくて手に取った次第である]。
... ここで本文メモを中断して、対象となった21本の論文とはいったいなんなのかをメモしておく。Nature, ScienceをN, Sと略記する。
- Ackerman, J. M., Nocera, C. C. & Bargh, J. A. (2010S) Incidental haptic sensations influence social judgments and decisions. おっと、いきなり身体化認知が来たぞ.. 椅子が固いと意思決定がどうこうってやつだ。
- Aviezer, H., Trope, Y. & Todorov, A. (2012S) Body cues, not facial expressions, discriminate between intense positive and negative emotions.
- Balafoutas, L. & Sutter, M. (2012S) Affirmative action policies promote women and do not harm efficiency in the laboratory.
- Derex, M., Beugin, M.-P., Godelle, B. & Raymond, M. (2013N) Experimental evidence for the influence of group size on cultural complexity.
- Duncan, K., Sadanand, A. & Davachi, L. (2012S) Memory's penumbra: episodic memory decisions induce lingering mnemonic biases.
- Gervais, W. M. & Norenzayan, A. (2012S) Analytic thinking promotes religious disbelief.
- Gneezy, U., Keenan, E. A. & Gneezy, A. (2014S) Avoiding overhead aversion incharity.
- Hauser, O. P., Rand, D. G., Peysakhovich, A. & Nowak, M. A. (2014N) Cooperating with the future.
- Janssen, M. A., Holahan, R., Lee, A. & Ostrom, E. (2010S) Lab experiments for the study of social-ecological systems.
- Karpicke, J. D. & Blunt, J. R. (2011S) Retrieval practice produces more learning than elaborative studying with concept mapping.
- Kidd, D. C. & Castano, E. (2013S) Reading literary fiction improves theory of mind.
- Kovacs, Á. M. & Teglas, E. & Endress, A. D. (2010S) The social sense: susceptibility to others' beliefs in human infants and adults.
- Lee, S. W. S. & Schwarz, N. (2010S) Washing away postdecisional dissonance. これも身体化認知じゃん! 手を洗うとどうこうってやつね!
- Morewedge, C. K., Huh, Y. E. & Vosgerau, J. (2010S) Thought for food: imagined consumption reduces actual consumption.
- Nishi, A., Shirado, H., Rand, D. G. & Christakis, N. A. (2015N) Inequality and visibility of wealth in experimental social networks.
- Pyc, M. A. & Rawson, K. A. (2010S) Why testing improves memory: mediator effectiveness hypothesis.
- Ramirez, G. & Beilock, S. L. (2011S) Writing about testing worries boosts exam performance in the classroom.
- Rand, D. G., Greene, J. D. & Nowak, M. A. (2012N) Spontaneous giving and calculated greed.
- Shah, A. K., Mullainathan, S. & Shafir, E. (2012S) Some consequences of having too little.
- Sparrow, B., Liu, J. & Wegner, D. M. (2011S) Google effects on memory: cognitive consequences of having information at our fingertips.
- Wilson, T. D. et al. (2014S) Just think: the challenges of the disengaged mind.
というわけで、私は身体化認知の2本しか読んでないけど、さぞやメディアに取り上げられたであろうというキャッチーなタイトルの論文が目白押しである。
結果。
有意性という観点からいうと、再現されたのはステージ2までで21個中13個。[←うわーぉ]
標準化した効果量の平均でいうと、元研究では0.46だったのが追試では0.25になった。
メタ分析では...[以下、いろんな角度からの分析。丸ごと中略]
再現性についてのピアの信念を推定するため、調査と予測市場を開催した。予測市場でによる再現性の予測は63%, 調査による回答は61%で、正解(62%)に近かった。研究別にみると正解との相関は高かった。つまり、ピアによる再現性の予測はかなり当たる。
[元論文のFig.4。ほんとだ、追試での再現性をかなり正確に予測している。どの研究に再現性がなさそうか、研究者にはなんとなく見当がつくってことなんだろうな。なお、予測市場と調査の相関は高そうだ。]
考察。
科学研究においては検定力の低いたくさんの研究と出版バイアスのせいで、効果量が誇張されているものと思われる。
効果量がほぼ0となった研究が8つ出てきた。これはオリジナルの研究が偽陽性だったせいかもしれないし、プロトコルを揃えるように努力はしたものの(21本中20本までは原著者の協力を得ている)、やっぱりどっかが違ってたのかもしれない。詳しくは付録を見てくれ...。
云々、云々... [すいません、予測市場の話が終わったあたりから読み飛ばしてます]
これからは、分析計画の事前登録、そして全研究の出版が大事でありましょう。
... いやー、予測市場の使い方が知りたくて手に取ったんだけど、途中でなんだか個人的に盛り上がってしまった。
予測市場でも調査でも、もっとも再現性が怪しいと評価されたツートップは...(ドラムロール)... Ackerman et al.(2010)とLee & Shewarz(2010)、どちらも身体化認知でありました!
もちろんこの2件、再現に失敗した8本に含まれている。はっはっは... いやあ、身体化認知に関しては、みんなちょっと頭冷やしたほうがいいよね、ほんとに。
論文:予測市場 - 読了: Camerer, et al. (2018) 社会科学の有名な実験研究21本を追試してみたら、ああなんてこったい、結果は...