読書日記: 読了：Jurca & Falting (2008) オンライン自白剤

« 読了：Faltings, Li, & Jurca (2012) センサーのためのピア自白剤 | メイン | 読了：「BLUE GIANT」「好きなだけじゃ続かない」「あさひなぐ」「ZUCCAxZUCA」「ままごとはほんのむし」「とも路」「めしばな刑事タチバナ」「不器用な匠ちゃん」「リメイク」 »

2014年8月 5日 (火)

Jurca, R., Falting, B. (2008) Incentives for expressing opinions in online polls. EC '08: Proceedings of the 9th ACM conference on Electronic commerce.
いま一番気になる男(私の中で)、GoogleスイスのR. Jurcaさんの研究。小さいフォントで10pある論文だが、要するに、Prelecのベイジアン自白剤(BTS)をオンライン化しました、というものである。オンライン化というのはつまり、調査終了まで待たずとも報酬が決まるという意味。

　面倒なので一部端折って読んでいるのだけれど... 理解した限りで、提案手法を平たく言い換えると、こんな感じである。
　例として、２択の設問に対するオンライン投票を考える。「世界経済は不況に突入するでしょうか？」というような、正解のない設問でかまわない。
　「世界経済は不況に突入すると思いますか？賛成か反対かでお答えください。なお、この調査に対してあなたよりも前に答えた人たちの賛成率はX%です。
　さて、これから回答していただくわけですが、回答とあわせて、あなたの『参照回答者』を決めてください。決め方は次のどちらかです。(1)『次の回答者』と指定する。このとき、あなたの次に回答した人があなたの参照回答者になります。(2)『閾値θ』を指定する。θは、もしあなたの回答が『反対』ならば0%とX%の間の値、あなたの回答が『賛成』ならばX%と100%の間の値でなければなりません。この指定を選んだ場合、あなた、あなたの次の回答者、あなたの次の次の回答者...が回答するたびに、その時点での賛成率を再計算し、その値がX%とθの間に入るまで待機します。賛成率がこの範囲に入り次第、その次の回答者があなたの『参照回答者』になります。
　さて、この調査に回答してくださった報酬は次のルールで決まります。もしあなたの『参照回答者』の回答とあなたの回答が一致していたら、報酬が支払われます。報酬額は、もしあなたの回答が賛成ならあなたが回答した直後の反対率、あなたの回答が反対ならあなたの回答の直後の賛成率に、ある定数を掛けた値になります。いっぽう、もしあなたの『参照回答者』の回答とあなたの回答が異なっていたら、報酬はゼロです。
　それでは回答してください。賛成ですか、反対ですか？」
　著者らいわく、この報酬メカニズムは"very simple"とのこと。嘘をつけっ！

　えーと、この仕組みによって、調査対象者の真の賛成率が明らかになるのである。以下、その説明。
　次のように想定する。すべての対象者は、全対象者の意見の分布についての事前分布を共有している。さらに、対象者 i は自分の意見 s_i ={0,1} を持ち、これをシグナルとして全対象者の意見の分布をベイズ更新する。意見 w={0,1}についての s_i の下での事後分布を Pr[w | s_i] とする。BTSと同じセッティングですね。
　t 番目の回答者の意見を s_t, この回答者の回答を r_t, そこまでの賛成率を R_t, 報酬を \tau_t(s_t)とする。対象者 t には R_{t-1}が提示されるわけである。
　さて、共通の事前分布を自分の意見でベイズ更新しているのだから、Pr[1|0] < Pr[1|1] である。ということは、提示されるR_{t-1}は次の3通りあって...

(1) R_{t-1}がPr[1|0] より小さい場合。このとき、t 番目の回答者は自分の意見とは無関係に賛成と答えるのが合理的である。なぜなら、現状の賛成率 R_{t-1}は不当に低い。もし自分が反対と答えたら賛成率R_t はさらに低くなる。すると、t+1 番目の回答者はきっと賛成と答え、反対率 1-R_t に応じた報酬を狙うだろう。従って、次の人が参照回答者なら自分の報酬はゼロになる。もっと先の人が参照回答者になったとしても、やはり賛成率が低いぶんだけその人は賛成と答えやすく、自分の報酬はゼロになりやすい。ここは賛成と答えるのが合理的だ。
(2) R_{t-1} がPr[1|1] より大きい場合。このとき、上と同じ理屈で、t番目の回答者は自分の意見とは無関係に反対と答えるのが合理的である。
(3) R_{t-1} がPr[1|0] とPr[1|1]の間にある場合。仮にこの回答者の意見 s_t が反対だとしよう。いま、この状況で私が誠実に答え、ほかの人も誠実に答えるとすると、参照回答者が j 番目の人だとして、その人にとっても、やはりR_{j-1}はPr[1|0]とPr[1|1]の間にあるはずだから、やはり誠実に答えるはずだ。従って j 番目の回答者と回答が一致する確率は確率はPr[0|0] = 1-Pr[1|0]だ (※ここがよくわからない。なぜs_j = 0 と言い切れるのか？)。このとき利得は(1-Pr[1|0]) \tau_{t-1} (0) である(※おかしい。\tau_t (0)の間違いではないか)。いっぽう、この状況で私が嘘をつき賛成と答える、しかし j 番目の人は嘘をつかないとすると、利得はPr[1|1] \tau_{t-1} (1) である。これを解くと、誠実な回答のほうが利得が大きい。s_t が賛成だったとしてもそうである。従って回答者は誠実に答えるのが合理的である。

...という戦略がナッシュ均衡になる。なお、わざわざ参照回答者として次の回答者ではなく未来の回答者を指定できるようにしているのは、人数が少ないとき、(1)の状態が(2)の状態にオーバーシュートしちゃったりするかもしれないからである由。
　さて、このとき投票の最終結果は真の意見分布に収束する。なぜなら、中間集計された賛成率 R_t がPr[1|0]とPr[1|1]の間にある限り対象者は誠実に回答するし、外側にあったらそれを内側に動かすように回答するからである。

　なお、全員が反対と答え続ける、賛成と答え続ける、ランダムに答え続ける、といった戦略もナッシュ均衡ではあるがそういうことは起きないだろう、共謀にも抵抗できるだろう、云々という説明がある。パス。
　
　ちゃんと読んでないのに申し訳ないのですが... 通常のオンライン投票にこういう報酬スキーマを追加するのは、さすがに現実的でないような気がする。参加者にとっては複雑すぎて理解できないのではないか。いっぽう、たとえばデルファイ法のような専門家の知識集約の仕掛けとして使う、予測市場に類した意見集約ゲームとして使う、といった場面ならば想像しやすいと思う。

論文：予測市場 - 読了：Jurca & Falting (2008) オンライン自白剤

読書日記

読んだ本を淡々と記録します

2014年8月 5日 (火)