読書日記: 読了：Frank, et al. (2017) ベイジアン自白剤 in クラウド・ソーシング

« 読了：Ghosh & Rao (1994) 小地域推定レビュー | メイン | 読了：Naik & Raman (2003) 広告媒体間のシナジー効果をカルマン・フィルタで華麗に推定するぜ »

2017年11月26日 (日)

Frank, M.R., Cebrian, M., Pickard, G., Rahwan, I. (2017) Validating Bayesian truth serum in large-scale online human experiments. PRoS ONE. 12(5).
　原稿の準備で読んだ奴。読んだ際のメモが出てきたので記録しておく。久々のベイジアン自白剤論文で、面白く読んだという記憶がある。

　第1著者はMITメディアラボの人で、Prelecとどういうつながりがあるのかわからない(謝辞にPrelecの名前はない)。第3著者はGoogle所属。

　いわく。
　調査回答者に主観的判断を求めるということが、各分野においていかに不可欠か、という前置きがあって...
　不誠実な回答を引き起こす原因のひとつは強欲である。特にAmazon Mechanical Turk(MTurk)なんかだと回答者は利益の最大化を目指すわけで、これは深刻な問題になる。
　対処策としてベイジアン自白剤(BTS)が提案されているけれど、実証実験は小規模なのしかない。そこで大規模にやりました。

　BTSの説明。
　BTSとは、正直さ、ないし得られた情報に応じて報酬を与える方法で...[←という風に、BTSを明確にrewardingの手法として紹介している。この辺は書き手によってニュアンスが違うところだ]
　その仕組みは...[中略]...まあそういうわけで、α > 0で正直さがベイジアン・ナッシュ均衡になり、α=1でゼロサムゲームになる。本研究ではα=1とする。
　
　実験。MTurkでやる。
　以下、実験群には「情報スコアが上位1/3にはいったら追加ボーナスを金で払う」と教示。しかし情報スコアの中味は教えず、かわりに「MITの研究者が開発した真実申告検出メカニズムだ」と教示する。
　実験群は2種類。(1)透過BTS群。回答から情報スコアを動的に算出して提示。(2)BTS intimidation群。情報スコアは見せないが報酬は渡す。[恫喝群とでも訳すところか]

実験1、コイン投げ。
　統制群と恫喝群にランダム割付(N=2032, 1822)。参加報酬は0.05ドル、情報スコア上位者への追加報酬は0.5ドル。
　課題は「コインを五回投げ、毎回の結果を報告せよ。オモテの数x0.01ドルをやる」。で、最後に他の回答者の回答を予測させる。
実験2、サイコロ投げ。
　統制群、恫喝群、透過群にランダム割付(N=1050, 1010, 947)。参加報酬は0.2ドル、情報スコア上位者への追加報酬は0.5ドル。
　課題は「サイコロを五回投げ、毎回の結果を報告せよ。出目の和x0.01ドルをやる」。最後に他の回答者の回答を6カテゴリそれぞれについて予測させる。
実験3、値付け。
　統制群、恫喝群、透過群にランダム割付(N=648, 613, 643)。参稼報酬は0.2ドル。情報スコア上位者への追加報酬は1.5ドル。
　米国の州の名前を提示し、5つの選択肢から州都を選ぶ、という設問を提示。課題は「この設問が20問ある調査があったら適切な報酬はいくらか」。0.1ドルから1ドルまでの10選択肢から選ばせる。次に他の回答者の回答を予測。最後に、その調査票に実際に回答させ、言い値を払う。

　結果。

BTSの前提として、被験者はdispropotionately predict endorsements of their own beliefsだという想定があるわけだが、これは支持された。たとえば実験1ではオモテ報告数が多い人が他人のオモテ報告数を多く予測した。これは実験条件を問わなかった。[ちょ、ちょっと待って...これをここで確かめることにどういう意味があるんだろう...]
実験１では、ウラ報告率は統制群で43%, 恫喝群で47%。改善している。
実験２では、出目の和を理論分布と比べると、まあどの群でも大きめに歪むんだけど、歪みは透過群、恫喝群、統制群の順に小さいし、「はーい出目の和は30でしたー」と報告する不届き者の数が減っている。[←全体の3～5%もいる。ウケる...]
実験３でも透過群ではgreedyな回答が減っている...[略]。

　考察。
　BTSによる改善は、統制群よりも報酬の期待値が大きいせいか。先行研究によれば、金銭的インセンティブの増大は作業量の増大を招くが作業の質は増大させない(Mason & Watts, 2020 ACM SigKDD Newsletter)。本研究でもそうで、統制群の報酬を増やしたけど結果はかわんなかった(補足資料をみよ)。
　調査における回答の正直さ促進の手法として、honesty pledgeとか、宗教的正直さの喚起とかを行う手法があるけど、きっとこの実験の恫喝群でも同じ事が起きたのだろう。つまり同じ効果が、怒れる神とか個人的誠実性の喪失とかへの恐怖から得られたかもしれない[おおっと... BTSが一種のbogus pipelineである可能性を認めちゃうのね...]。いっぽう透過群では回答分布がさらに正直な方向に変わった。
　云々。

　...小声で超偉そうな言い方をしちゃうと、わかりやすくよく書けている論文である(うわあ、何様だろうか)。PLoS ONEだからといってなめてはいけない。ちょっと図表が冗長な感じだがな(すいませんすいません)。
　この実験、統制群と実験群の比較じゃなくて、恫喝群と透過群の比較が一番面白いところだと思うんだけど、見た感じではそんなに明確な差じゃない気がする。

　イントロのところからメモ:

出口調査が人々の真の信念を表現しないという研究：Wang, et al.(2015 Int.J.Forecasting); Morton, et al.(2015 Euro.Econ.Rev)
世論調査が社会的影響で歪む: Evrenk & Sher (2015, Public Choice)。[←戦略投票 vs バンドワゴン効果、というタイトル。面白そう]
調査回答への社会的影響についての研究例; Gino, Nrton, Ariely (2010, Psych.Sci.)。[読む前から面白いとわかる感じで、少々うんざりするぜ...]
報酬最大化のためにcheatingさせる実験研究: Fischbacher & Follmi-Heusi (2013 J.Euro.Econ.Assoc.)
銀行における不誠実性の研究: Cohn, Fehr, & Marechal(2014 Nature)[←面白そう]

よくみると、やたらにWattsの論文を引用している。

論文：予測市場 - 読了：Frank, et al. (2017) ベイジアン自白剤 in クラウド・ソーシング

読書日記

読んだ本を淡々と記録します

2017年11月26日 (日)