« 読了: Roese & Jamieson (1993) ボーガス・パイプライン・レビュー | メイン | 読了:「たそがれたかこ」「僕らはみんな河合荘」「リューシカ・リューシカ」「イムリ」「日の鳥」「受付の白雪さん」 »
2014年5月10日 (土)
Show, A.D, Horton, J.J., Chen, D.L. (2011) Designing incentives for inexpert human raters. Proceedings of the 2011 ACM Conference on Computer Supported Cooperative Work (CSCW 2011).
クラウド・ソーシングでたくさんの素人になにかを評定してもらうとき、どういうインセンティブ設計にすると良いか、という実験研究。ベイジアン自白剤(BTS)を使っているようなので手に取った。
バリバリに工学系の研究かと思ったら、行動実験であった。いま調べてみたら、第一著者は社会学の出身。
Amazon Mechanical Turk で実験、被験者2055人。あるwebサイトをみてもらい、5項目を聴取(例, 「サイトにはユーザを表すアバターがありましたか」)。答えを実験者が想定する正解と比較し採点する(0~5点)。要因は被験者間一要因で... えーと、14水準!
- (コントロール系)
- Control: 教示なし。
- Demographic: 質問なし。全員共通の別の質問(デモグラフィクスとか)だけでおしまい。
- (ソーシャル系)
- Tournament scoring: 他の回答者と得点を競争してもらいます。結果をあとで表示します。
- Cheap talk - Surveillance : あとであなたの回答の正確さを確認します。
- Cheap talk - Normative : あなたの仕事は正確に答えることです。
- Solidality: あなたは赤組です。チーム全体の成績によってはチームの全員がボーナスをもらえます。
- Humanization: 回答が終わる前に、あなたにもう一度お礼を申し上げたいと思います。私の名前はアーロンです。(著者の顔写真を提示。なお、第一著者はほんとにアーロンさん)
- Trust: ここまでご回答くださいましてありがとうございます。ここで確認コードをお渡しします。このコードを入力すればあなたはいつでも謝礼をもらえます。引き続きご回答いただけるものと信じております。
- Normative priming questions : あなた自身について、またあなたの仕事に対する態度について伺います。
- (フィナンシャル系)
- Reward accuracy: あとで少なくとも1問についてはあなたの回答を確認します。正しかったら報酬1割増。
- Reward agreement: あとで少なくとも1問についてはあなたの回答を確認します。多数派の回答だったら報酬1割増。
- Punishment accuracy: あとで少なくとも1問についてはあなたの回答を確認します。間違ってたら報酬1割減。
- Punishment disagreement: あとで少なくとも1問についてはあなたの回答を確認します。多数派の回答でなかったら報酬1割減。
- Promise of future work: あとであなたの回答を調べます、平均以上だったらまた仕事をお願いするかも。
- BTS: あとで他の人の回答を予測してもらいます。みんなが思うより一般的な回答をした人は、ボーナスがもらえる確率が高くなります。
- Betting on results: あとで報酬の一部を賭けてボーナスにチャレンジしていただけます。勝率は回答の正確さに応じて決まります。
なお、操作するのは教示だけで、実際には報酬は一律だそうだ。事情はわかるが、ひどいなあ。
結果。おおお、intention-to-treat推定量を使っている... 医療系の無作為化比較試験ではみたことあるけど、こういう行動実験では恥ずかしながらはじめて見た...
平均処理効果をみると、成績を向上させたベスト3は、BTS, Punishment disagreement, Betting on resultsであった。
デモグラ等をいれた回帰でも確認している(インド在住の被験者は成績が有意に低い。はっはっは)。
考察。BTSが効いたのは、あとで自分の回答がどのくらい調べられるかについて被験者を混乱させるから、そして他の回答者の回答について真剣に考えさせるからだろう。Punishmentが効いたのは、そもそもAmazon Mechanical Turkでは仕事発注者による以後の参加禁止という処置があるからではないか(←punishment accuracyがあまり効かなかった理由にはならないと思うけど...)。云々。
というわけで、この研究では実際にベイジアン自白剤のスコアリングをやっているわけでなく、その意味ではベイジアン自白剤の研究とは言い難い。でもここでは「みんなが思うより普通な回答をする」ことを報酬に結びつけるというメカニズムについて調べているわけで、その意味ではオリジナルの提案の精神に近い。
ええと、ここまで読んだ論文をあらためて整理すると、
- ベイジアン自白剤は回答の質を向上させるか
- 「あなたの回答の正直さがわかります」教示の効果 ... Weaver&Prelec (2013)の実験1, 5; John, Lowenstein, & Prelec(2012)
- 「あなたの回答の正直さがわかります」教示の効果+スコアのフィードバック ...Weaver&Prelec(2013)の実験2, 3, 4, 5; Barrage & Lee(2013)
- 「みんなが思うより普通な回答をしたら報酬増」教示の効果 ... Show, Horton, & Chen (2011)
- ベイジアン自白剤のスコアは回答の質を表すか ... Weaver&Prelec(2013)の実験2; Howie, Wang, & Tsai (2011); Miller, Brailey, & Kirlik (in press)
ベイジアン自白剤の"suprisingly common"ルールは、被験者にとってはどのような意味を持って捉えられるのだろうか。それは正直かつ真剣に答えようという意識につながり、それによって行動が変わるのだろうか。それとも(この論文の著者らが考えているように)なにか別のルートを通じて行動を変えるのだろうか。もし後者が正しいならば、スコアの最大化がベイジアン・ナッシュ均衡であろうがなかろうが、別に構わないことにならないだろうか。工学系の方や経済学系の方は鼻で笑うかもしれないけど、やはり被験者の心的プロセスが知りたいと思うなあ。
論文:予測市場 - 読了:Show, Horton, & Chen (2011) ベイジアン自白剤 in クラウド・ソーシング