elsur.jpn.org >

« 「みんなが思うよりも意外に多い」回答はなぜ正しいか:その2 | メイン | 「みんなが思うよりも意外に多い」回答はなぜ正しいか:その4 »

2017年8月17日 (木)

Prelec, et al.(2017, Nature) の自分向け徹底解説、第三回。前回は、世界が2つ、知識の状態が2つ以上の場合に「みんなが思うよりも意外に多い回答は正しい」ことが示された。今回は、これを世界が3つ以上の場合へと一般化する部分である。

前回までのあらすじ
 いまここに$m$個の可能世界がある。私たちはどの世界が現実なのかを知らない。そこで、$m$個の選択肢を提示し、いずれが正しいと思うかを人々に投票させる。その結果に基づき、どの可能世界が現実かを同定したい。

補題

補題. $m$個の答え、$n$個のシグナル、同時分布$p(S=s_j, A=a_i)$からなる、ある可能世界モデルについて考える。正解を$a_{i*}$とすると、
 $\displaystyle Pr(A=a_{i*}|S=s_k) \propto Pr(S=s_k|A=a_{i*}) \sum_i \frac{Pr(S^q=S_i|S^r=s_k)}{Pr(S^q=S_k|S^r=s_i)}$
 ただし$0 / 0 \equiv 0$。

証明。任意の2名$r, q$のシグナルの同時分布について考える。
 $Pr(S^q=s_k, S^r=s_i) = Pr(S^q=s_k|S^r=s_i)P(S^r=s_i)$
 $Pr(S^q=s_i, S^r=s_k) = Pr(S^q=s_i|S^r=s_k)P(S^r=s_k)$
$r$と$q$のシグナルを入れ替えても確率は同じ、すなわち$Pr(S^q=s_k, S^r=s_i)=Pr(S^q=s_i, S^r=s_k)$だから、上の2本の式の右辺は等しく
 $Pr(S^q=s_k|S^r=s_i)P(S^r=s_i) = Pr(S^q=s_i|S^r=s_k)P(S^r=s_k)$
移項する。$P(S^r=s_i)$は$r$を$q$に書き換えても同じことだから$P(S=s_i)$ と略記して、
 $\displaystyle P(S=s_i) = P(S=s_k)\frac{Pr(S^q=s_i|S^r=s_k)}{Pr(S^q=s_k|S^r=s_i)}$
両辺を$i$を通じて合計すると、左辺の合計は1になるから、
 $P(S=s_k) = \left( \sum_i \frac{Pr(S^q=s_i|S^r=s_k)}{Pr(S^q=s_k|S^r=s_i)} \right)^{-1}$
これを(1)とする。

 さて、ベイズの定理から
 $Pr(A=a_{i*}|S=s_k)$
 $\displaystyle = \frac{p(S=s_k | A=a_{i*}) Pr(A=a_{i*})}{Pr(S=s_k)}$
(1)を分母に代入して
 $\displaystyle = Pr(S=s_k|A=a_{i*}) \sum_i \frac{Pr(S^q=S_i|S^r=s_k)}{Pr(S^q=S_k|S^r=s_i)} Pr(A=a_{i})$
ここで$Pr(A=a_{i})$は$k$を通じて定数だから、補題が成り立つ。証明終。

 この補題が示しているのはこういうことだ。シグナルの分布$Pr(S=s_k|A=a_{i*})$と、シグナルのペアワイズ予測$Pr(S^q=S_i|S^r=s_k), Pr(S^q=S_k|S^r=s_i)$から、もっともinformedな回答者たちが支持する答えを特定できる。ここでinformedというのは、正解に最大の確率を付与しているという意味である。それらの対象者は、仮に正解が明らかになったとしてもっとも驚かない人々である。
 [いやー、ここ、難しい。証明自体は納得できるけど、式がなにを意味しているのかがつかみにくい。我慢して先に進もう]

定理3

$m=n, V(S=s_i) = v_i, Pr(A=a_i | S=s_i) > Pr(A=a_i | S=s_j)$とする。正解を$a_{i*}$とする。答え$a_k$への予測規準化投票$\bar{V}(k)$を以下のように定義する。
 $\displaystyle \bar{V}(k) = Pr(V = v_k | A = a_{i*}) \sum_i \frac{Pr(V^q = v_i|S^r=s_k)}{Pr(V^q=v_k|S^r=s_i)}$
ただし。$0 / 0 \equiv 0$。このとき、正解は、もっとも高い予測規準化投票を持つ答えである。

証明。$V(S=s_i)=v_i$だから、補題
 $\displaystyle Pr(A=a_{i*}|S=s_k) \propto Pr(S=s_k|A=a_{i*}) \sum_i \frac{Pr(S^q=S_i|S^r=s_k)}{Pr(S^q=S_k|S^r=s_i)}$
は以下のように書き換えることができる。
 $\displaystyle Pr(A=a_{i*}|S=s_k) \propto Pr(V^r=v_k|A=a_{i*}) \sum_i \frac{Pr(V^q=v_i|S^r=s_k)}{Pr(V^q=v_k|S^r=s_i)} = \bar{V}(k)$
 さて左辺について、
 $Pr(A=a_i | S=s_i) > Pr(A=a_i | S=s_j)$
より
 $Pr(A=a_{i*} | S=s_{i*}) > Pr(A=a_{i*} | S=s_k)$
である。よって$\bar{V}(i*) > \bar{V}(k)$である。証明終。

 対象者数が無限大の時、$Pr(V=v_k | A=a_{i*})$は$a_k$への投票の割合である。また、$Pr(V^q=v_k | S^r=s_i)$は、$a_i$に投票した人々による「何割の人が$a_k$に投票するか」予測の平均である。

 [こうしてゆっくり読んでみると、定理3の証明に、定理2は使われてないんですね。
 定理3が定理2の一般化なのだとしたら、$m=n=2$の場合には、定理2と定理3は同じことを意味しているのだろうか。つまり、
 $Pr(V = v_1 | A = a_{i*}) \left(1+ \frac{Pr(V^q = v_2|S^r=s_1)}{Pr(V^q=v_1|S^r=s_2)} \right) > Pr(V = v_2 | A = a_{i*}) \left(1+ \frac{Pr(V^q = v_1|S^r=s_2)}{Pr(V^q=v_2|S^r=s_1)} \right) $
 は
 $Pr(V^q= v_1 | S^r = s_j) \leq Pr(V=v_1 | A=a_{i*})$ for any $j$
と同値なのか。式をあれこれ変形してみたのだが、どうも同値ではないような気がしてならない... 数学ができないとは悲しいもので、残念ながらどこかでなにかを間違えているような気もする。なんだか疲れちゃったので、また日を改めてチャレンジしたい]

雑記:データ解析 - 「みんなが思うよりも意外に多い」回答はなぜ正しいか:その3

rebuilt: 2020年4月20日 18:54
validate this page