« 読了:櫻井 et al. (2012) クラウドソーシングで品質の主観的自信を正直に報告させるメカニズム・デザイン | メイン | 読了: John, Lowenstein, & Prelec (2012) 心理学者にベイジアン自白剤を飲ませたら »
2014年5月 1日 (木)
Witkowski, J. & Parkes, D.C. (2012) A robust bayesian truth serum for small populations. Proceedings of the 26th AAAI Conference on Artificial Intelligence. 1492-1498.
Prelec のベイジアン自白剤は、サンプルサイズが大きいときにはうまくいくが、小さいとうまくいかない。そこで、二値回答に限定し、3人以上ならうまくいく改訂版をご提案します。という論文。
導出過程はぜんぶすっとばして結論をいえば、こういう手法である。
対象者 $i$ の回答を $x_i$, 回答率予測の回答を $y_i$ とする。対象者 $i$ について、隣の人 $j$ を「リファレンス」、そのまた隣の人 $k$ を「ピア」と呼ぶ。リファレンスに注目し、$\delta = \min (y_j, 1 - y_j)$ を求める (たとえば $y_j = 0.8$ なら $\delta = 0.2$だ)。で、もし $x_i = 1$だったら$y_j$ に$\delta$を足し(1になる)、でなかったら引く(0.6になる)。これを $y'$とする。で、ピアに注目し、もし $x_k = 1$だったら $2y' - y'^2$ を情報スコア、$2y_i - y_i^2$ を予測スコアにする。でなかったら、$1 - y'^2$ を情報スコア、$1 - y_i^2$ を予測スコアにする。
。。。頭おかしいんじゃないかというような話だが、こうして得た情報スコアと予測スコアの和は、それを最大化するには正直に答えるしかないスコアになるのだそうだ。知らんがな!!!
途中までは数式を丁寧に追いかけたんだけど、途中で混乱して挫折した。
混乱した理由はふたつあって、まず、BTSの定式化のしかたがPrelecの論文とはちょっとちがう(Prelecは n→∞ について定式化している)。
さらに、えーと、この論文の著者らは、真の状態の事前分布と各状態の下でのシグナルの条件つき確率が共有されているとき、自分の観察したシグナルで状態の事後分布をベイズ更新する、と説明しているんだけど、事前分布が共有されているのはともかくとして、シグナルの条件付き確率までも共有されているというのは、具体例に当てはめるといったいどういうことなのだろう? と考え始めたら、だんだん混乱してきてしまい。。。 一晩寝てゆっくり考えよう。
論文:予測市場 - 読了:Witkowski & Parkes (2012) ベイジアン自白剤 for 少人数