elsur.jpn.org >

« 読了:「予測市場と集合知」特集号 (2010) | メイン | 読了:Brynjolfsson, Geva, & Reichman (2013) クラウドソーシングによって将来予測を改善する超画期的な方法 »

2014年9月11日 (木)

Forlines, C., Miller, S., Guelcher, L., & Bruzzi, R. (2014) Crowdsourcing the future: Predictions make with a social network. Proceeding of CHI '14 Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. pp.3655-3664.
 今年の ACM CHI Conference on Human Factors in Computing Systems (CHI2014) という学会で発表された研究。要旨があまりに魅力的なので、ぐだぐだ迷った末、ぽちっとクリックして買ってしまった...10pで$15。うぐぐぐ。
 つまらないと困るので、固唾を飲むような感じで目を通した。どう位置づけたらいいのか、自分のなかでまだちょっと整理できていないのだけれど...

 要するに、個人の予測を集約して集合知を得る際にどうやって集計するか、というスコアリング・ルールの話である。いちばん単純なのは平均しちゃうことで、たいていの場合うまくいく。これに反旗を翻しているのが、PrelecのBTSによるスコアリングである。BTSでは、まずある事柄について回答させる(この研究の文脈でいえば、将来の出来事について予測させる)。さらに、その設問について他の人々が全体としてどう答えるかを予測させる(著者らにならってこれをメタ予測と呼ぶ)。この2問から各個人のBTSスコアが得られる。これをウェイトにして重み付け集計する。
 さて、著者らはOne-on-one スコアリングというのを提案する。この手法では、BTSでのメタ予測設問とちがって、自分以外の回答者ひとりひとりについてその人がどう答えるかを予測させる。つまり、N人の集団であれば、各人にN-1回のメタ予測を求めるわけである。
 最初に全回答者にある一定のスコアを持たせておく。で、回答者のすべてのペアについて以下の計算を行う。いま、Aさん自身の予測値が72%, Bさん自身の予測値が24%だったとする。さらに、AさんはBさんが70%と答えるだろうとメタ予測し、BさんはAさんが70%と答えるだろうとメタ予測したとする。メタ予測に関して言えば、Bさんの勝ちである。このとき、AさんはBさんに自分のスコアを、abs ( ln (Bさんについてのメタ予測 / Bさんの実際の予測) ) だけ献上する。こうして決まった個人のスコアをウェイトにして重み付け集計する。

 実験。対象者は学生30人。さすがに自分以外の29人について全部答えるのは無理なので、10人ずつ3群に分ける。将来の出来事についての10個の予測を行い(例, 2013年4月1日までにユーロ圏から離脱する意思を表明する国は現れるか?)、BTS式の全体的メタ予測、9人に対する個別的メタ予測、その他いろいろを聴取。予測課題はすべて2013年4月に正解が確定するものばかりなので、予測誤差を測れる。結果、単なる平均よりBTSでウェイティングした集計が優れていたが、One-on-oneスコアで重みづけた集計はもっと優れていた。

 ううううむ。。。
 問題意識はわかる、ような気がする。BTSでは集団の意見分布について予測させ(メタ予測)、その正確さを予測スコアと呼び、BTSスコアに加味する。でも、集団を構成するネットワークには疎密があって、ある人は集団の多くのメンバーについてよく知っているし、ある人はあまり知らない。だから、単に集団全体の意見分布についての予測が当たったかどうかをみるのではなく、「たくさんの人についてよく知っている人」を重視しよう。ということだと思う。
 一番わからないのは、スコアをゼロサム的にやり取りさせている点だ。つまり、多くの他人の態度を正しく推測した人が重視されるだけでなく、自分の態度を多くの他人に正しく推測された人は軽視されることになる。サトラレさんは損をするのである。なぜそんな仕組みにする必要があるのだろうか?
 実験手続きにもよくわからない点がある。この課題では、たぶん事象の生起確率をパーセンテージで答えさせているのだと思う。もしそうなら、対象者のBTSスコアはいったいどうやって求めたのだろう。連続量の回答についてBTSスコアを算出するには、訊き方に工夫が必要なはずだ。あるいは、事象の生起有無を二値で答えさせたのだろうか。だとしたら、今度はOne-to-oneスコアの算出方法がわからない。
 BTSと単純に比較している点もちょっと不思議である。BTSスコアは情報スコアと予測スコアの重み付け和で、肝になっているアイデアは情報スコアのほうだ。One-to-oneスコアは予測スコアの代替に相当している。だったら、BTSスコアをOne-to-oneスコアと比べるだけではなく、情報スコアとOne-to-oneスコアの重みづけ和のパフォーマンスを調べるのが筋ではないか。
 研究のなかでの提案手法の位置付けもよくわからない。One-to-oneスコアは、2者間のスコアの移動にあたってその親密さは問うていない(親密さを考慮した改訂版スコアも一緒に実験しているが、パフォーマンスはOne-to-oneスコアより劣る)。つまり、良く考えてみると題名とは異なり、著者らの本命であるところのOne-to-oneスコアは、ソーシャル・ネットワークについての理解とは無関係に得られるスコアだ。ちょっと看板に偽りがあるような気がする。
 最後に、提案手法の適用分野がわからない。この手法はメンバーがある程度顔見知りであるような集団における意見の集約に焦点を当てている。それってどんな場面だ。そのような状況があるとして、そこでの対抗馬はBTSなのか? もともとBTSは小集団には向いていない。もっと現実的な対抗馬を立てないと、この手法の優越性が示せないのではないか。

 などなど、疑問は山ほどあるのだが、でも大変に刺激的な研究であった。個人の予測を集計する際にソーシャル・ネットワークに注目する、という発想がとても面白い。視野が広がったような気分だ。

論文:予測市場 - 読了:Forlines, Miller, Guelcher, & Bruzzi (2014) 予測の集約を社会的ネットワークを使って改善する

rebuilt: 2020年11月16日 22:57
validate this page