読書日記: 「みんなが思うよりも意外に多い」回答はなぜ正しいか：その3

« 「みんなが思うよりも意外に多い」回答はなぜ正しいか：その2 | メイン | 「みんなが思うよりも意外に多い」回答はなぜ正しいか：その4 »

2017年8月17日 (木)

Prelec, et al.(2017, Nature) の自分向け徹底解説、第三回。前回は、世界が2つ、知識の状態が2つ以上の場合に「みんなが思うよりも意外に多い回答は正しい」ことが示された。今回は、これを世界が3つ以上の場合へと一般化する部分である。

前回までのあらすじ
　いまここに$m$個の可能世界がある。私たちはどの世界が現実なのかを知らない。そこで、$m$個の選択肢を提示し、いずれが正しいと思うかを人々に投票させる。その結果に基づき、どの可能世界が現実かを同定したい。

世界を確率変数$A$で表す。$A$は$m$個の可能世界$\{a_1, \ldots, a_m\}$を値としてとる。そのうち現実世界を$a_{i*}$とする。
個々の対象者の知識を、プライベートな「シグナル」$S$とみなす(特に明示したい場合は、対象者$r$が持っているシグナルを$S^r$と表記する)。対象者間の知識の差異はすべてシグナルで表現されていると考える。$S$はカテゴリカル確率変数で、値として$\{s_1, \ldots, s_n\}$をとる。任意の$k=\{1,\ldots,n\}$について$Pr(S = s_k) > 0$とする。
世界$a_i$の下で、異なる対象者のシグナルは独立に確率分布$Pr(S = s_k | A = a_i)$に従うと考える。
世界についての事前分布を$Pr(A=a_i)$とする。この事前分布は、すべての回答者の共通知識である証拠と整合的な確率を与えていると考える。任意の$i=\{1,\ldots,m\}$について$Pr(A=a_i) > 0$とする。
対象者は同時確率$Pr(S = s_k, A=a_i)$を知っていると想定する。この同時確率が可能世界モデルを定義している。しかし人々は、どの$a_i$が正解$a_{i*}$なのかを知らないし、シグナルの実際の分布も知らない。
対象者$r$の、「いずれが正しいと思うか」投票を$V^r$とする。$V^r$は$S^r$の関数であり、値として$\{v_1, \ldots, v_m \}$をとる。
[定理1] 実際のシグナルの分布についての知識$Pr(S = s_k | A=a_i*)$と、それらのシグナルによって示唆される事後確率 $Pr(A=a_i | S = s_k)$に依存するアルゴリズムからは、正解は演繹できない。
[定理2] $m=2, n \geq 2$のとき、任意の$s_j$について$Pr(V=v_{i*} | S=s_j) \leq Pr(V=v_{i*}| A=a_{i*})$であり、$Pr(A=a_{i*}| S=s_j)$のときに限り等号が成り立つ。つまり、個々の選択肢への投票の推定値の平均は、正解について過小評価となる。

補題

補題. $m$個の答え、$n$個のシグナル、同時分布$p(S=s_j, A=a_i)$からなる、ある可能世界モデルについて考える。正解を$a_{i*}$とすると、
　$\displaystyle Pr(A=a_{i*}|S=s_k) \propto Pr(S=s_k|A=a_{i*}) \sum_i \frac{Pr(S^q=S_i|S^r=s_k)}{Pr(S^q=S_k|S^r=s_i)}$
　ただし$0 / 0 \equiv 0$。

証明。任意の2名$r, q$のシグナルの同時分布について考える。
　$Pr(S^q=s_k, S^r=s_i) = Pr(S^q=s_k|S^r=s_i)P(S^r=s_i)$
　$Pr(S^q=s_i, S^r=s_k) = Pr(S^q=s_i|S^r=s_k)P(S^r=s_k)$
$r$と$q$のシグナルを入れ替えても確率は同じ、すなわち$Pr(S^q=s_k, S^r=s_i)=Pr(S^q=s_i, S^r=s_k)$だから、上の2本の式の右辺は等しく
　$Pr(S^q=s_k|S^r=s_i)P(S^r=s_i) = Pr(S^q=s_i|S^r=s_k)P(S^r=s_k)$
移項する。$P(S^r=s_i)$は$r$を$q$に書き換えても同じことだから$P(S=s_i)$ と略記して、
　$\displaystyle P(S=s_i) = P(S=s_k)\frac{Pr(S^q=s_i|S^r=s_k)}{Pr(S^q=s_k|S^r=s_i)}$
両辺を$i$を通じて合計すると、左辺の合計は1になるから、
　$P(S=s_k) = \left( \sum_i \frac{Pr(S^q=s_i|S^r=s_k)}{Pr(S^q=s_k|S^r=s_i)} \right)^{-1}$
これを(1)とする。

　さて、ベイズの定理から
　$Pr(A=a_{i*}|S=s_k)$
　$\displaystyle = \frac{p(S=s_k | A=a_{i*}) Pr(A=a_{i*})}{Pr(S=s_k)}$
(1)を分母に代入して
　$\displaystyle = Pr(S=s_k|A=a_{i*}) \sum_i \frac{Pr(S^q=S_i|S^r=s_k)}{Pr(S^q=S_k|S^r=s_i)} Pr(A=a_{i})$
ここで$Pr(A=a_{i})$は$k$を通じて定数だから、補題が成り立つ。証明終。

　この補題が示しているのはこういうことだ。シグナルの分布$Pr(S=s_k|A=a_{i*})$と、シグナルのペアワイズ予測$Pr(S^q=S_i|S^r=s_k), Pr(S^q=S_k|S^r=s_i)$から、もっともinformedな回答者たちが支持する答えを特定できる。ここでinformedというのは、正解に最大の確率を付与しているという意味である。それらの対象者は、仮に正解が明らかになったとしてもっとも驚かない人々である。
　[いやー、ここ、難しい。証明自体は納得できるけど、式がなにを意味しているのかがつかみにくい。我慢して先に進もう]

定理3

$m=n, V(S=s_i) = v_i, Pr(A=a_i | S=s_i) > Pr(A=a_i | S=s_j)$とする。正解を$a_{i*}$とする。答え$a_k$への予測規準化投票$\bar{V}(k)$を以下のように定義する。
　$\displaystyle \bar{V}(k) = Pr(V = v_k | A = a_{i*}) \sum_i \frac{Pr(V^q = v_i|S^r=s_k)}{Pr(V^q=v_k|S^r=s_i)}$
ただし。$0 / 0 \equiv 0$。このとき、正解は、もっとも高い予測規準化投票を持つ答えである。

証明。$V(S=s_i)=v_i$だから、補題
　$\displaystyle Pr(A=a_{i*}|S=s_k) \propto Pr(S=s_k|A=a_{i*}) \sum_i \frac{Pr(S^q=S_i|S^r=s_k)}{Pr(S^q=S_k|S^r=s_i)}$
は以下のように書き換えることができる。
　$\displaystyle Pr(A=a_{i*}|S=s_k) \propto Pr(V^r=v_k|A=a_{i*}) \sum_i \frac{Pr(V^q=v_i|S^r=s_k)}{Pr(V^q=v_k|S^r=s_i)} = \bar{V}(k)$
　さて左辺について、
　$Pr(A=a_i | S=s_i) > Pr(A=a_i | S=s_j)$
より
　$Pr(A=a_{i*} | S=s_{i*}) > Pr(A=a_{i*} | S=s_k)$
である。よって$\bar{V}(i*) > \bar{V}(k)$である。証明終。

　対象者数が無限大の時、$Pr(V=v_k | A=a_{i*})$は$a_k$への投票の割合である。また、$Pr(V^q=v_k | S^r=s_i)$は、$a_i$に投票した人々による「何割の人が$a_k$に投票するか」予測の平均である。

　[こうしてゆっくり読んでみると、定理3の証明に、定理2は使われてないんですね。
　定理3が定理2の一般化なのだとしたら、$m=n=2$の場合には、定理2と定理3は同じことを意味しているのだろうか。つまり、
　$Pr(V = v_1 | A = a_{i*}) \left(1+ \frac{Pr(V^q = v_2|S^r=s_1)}{Pr(V^q=v_1|S^r=s_2)} \right) > Pr(V = v_2 | A = a_{i*}) \left(1+ \frac{Pr(V^q = v_1|S^r=s_2)}{Pr(V^q=v_2|S^r=s_1)} \right) $
　は
　$Pr(V^q= v_1 | S^r = s_j) \leq Pr(V=v_1 | A=a_{i*})$ for any $j$
と同値なのか。式をあれこれ変形してみたのだが、どうも同値ではないような気がしてならない... 数学ができないとは悲しいもので、残念ながらどこかでなにかを間違えているような気もする。なんだか疲れちゃったので、また日を改めてチャレンジしたい]

雑記：データ解析 - 「みんなが思うよりも意外に多い」回答はなぜ正しいか：その3

読書日記

読んだ本を淡々と記録します

2017年8月17日 (木)