読書日記: 「みんなが思うよりも意外に多い」回答はなぜ正しいか：その2

« 「みんなが思うよりも意外に多い」回答はなぜ正しいか：その1 | メイン | 「みんなが思うよりも意外に多い」回答はなぜ正しいか：その3 »

2017年8月17日 (木)

Prelec, et al.(2017, Nature) の自分向け徹底解説、第二回。「意外に一般的」原理、すなわち「みんなが思うよりも意外に多い」回答は正しいということを最初に示す、この論文のキモになる部分である。

前回までのあらすじ
　いまここに$m$個の可能世界がある。私たちはどの世界が現実なのかを知らない。そこで、$m$個の選択肢を提示し、いずれが正しいと思うかを人々に聴取し、その回答から、どの可能世界が現実かを同定したい。

世界を確率変数$A$で表す。$A$は$m$個の可能世界$\{a_1, \ldots, a_m\}$を値としてとる。そのうち現実世界を$a_{i*}$とする。
個々の対象者の知識を、プライベートな「シグナル」$S$とみなす(特に明示したい場合は、対象者$r$が持っているシグナルを$S^r$と表記する)。対象者間の知識の差異はすべてシグナルで表現されていると考える。$S$はカテゴリカル確率変数で、値として$\{s_1, \ldots, s_n\}$をとる。任意の$k=\{1,\ldots,n\}$について$Pr(S = s_k) > 0$とする。
世界$a_i$の下で、異なる対象者のシグナルは独立に確率分布$Pr(S = s_k | A = a_i)$に従うと考える。
世界についての事前分布を$Pr(A=a_i)$とする。この事前分布は、すべての回答者の共通知識である証拠と整合的な確率を与えていると考える。任意の$i=\{1,\ldots,m\}$について$Pr(A=a_i) > 0$とする。
対象者は同時確率$Pr(S = s_k, A=a_i)$を知っていると想定する。この同時確率が可能世界モデルを定義している。しかし人々は、どの$a_i$が正解$a_{i*}$なのかを知らないし、シグナルの実際の分布も知らない。
[定理1] 実際のシグナルの分布についての知識$Pr(S = s_k | A=a_i*)$と、それらのシグナルによって示唆される事後確率 $Pr(A=a_i | S = s_k)$に依存するアルゴリズムからは、正解は演繹できない。

　さあ、今回はどんなややこしい話が待ち受けているでしょうか。元気を出して行ってみよう！！！

新たなるセッティング

　対象者$r$の、「いずれが正しいと思うか」投票を$V^r = V(S=S^r)$とする。$V^r$は値として$\{v_1, \ldots, v_m \}$をとる。

　対象者の投票はシグナルの関数だから、シグナル$s_k$を受け取った理想的対象者$r$は、他の対象者$q$が$a_i$に投票する条件つき確率$Pr(V^q=v_i | S^r=s_k)$を算出できる。

　その算出方法の例を挙げよう。いま、シグナル$s_j$を受け取った人は、可能世界のなかから条件つき確率$p(a_i | s_j)$が最大である可能世界を選びその可能世界に投票するのだとしよう。すなわち
　$V(S=s_j) = argmax_i Pr(A=a_i | S=s_j)$
　この場合、他の対象者$q$が$a_i$に投票する条件つき確率$Pr(V^q=v_i | S^r=s_k)$は、$a_i$への投票につながるような証拠を$q$が受け取る確率の合計である。すなわち
　$Pr (V^q = v_i | S^r = s_k)$
　$\displaystyle = \sum_{j: V(s_j) = v_i} Pr(S^q=s_j | S^r=s_k)$
　$\displaystyle = \sum_{i = argmax_k Pr(A=a_k | S=s_j)} Pr(S^q=s_j | S^r=s_k) $

[落ち着け、ここはそんなにヤヤコシイことは言っていない。要するに、もし「人々はどういうシグナルを受け取るとどういう投票をするのか」がわかっているなら、自分が受け取ったシグナルから世界についての事後分布を求め、他人が受け取ったシグナルについての事後分布を求め、他人の投票についての事後分布を求めることが出来るはずだよね、という話だ。2行目のサメーションのインデクスに出てくる$k$は、項のなかに出てくる$k$とは別の記号だと思う]

　同様に、ある人の投票と可能世界との同時確率も定義できる。
　$Pr(V=v_i, A=a_k) = \sum_{j: V(s_j) = v_i} Pr(S=s_j, A=a_k)$
[原文では右辺は$\sum p(s_j, a_j)$だが、$a_j$は$a_k$の誤植だと考え書き換えた]

「意外に一般的」原理：世界が2つ、シグナルが2つ以上の場合

　以下では、世界は2つ、シグナルは2つ以上の場合について、「みんなが思うよりも意外に多い回答は正しい」ことを証明する。

　上では簡単な投票ルール
　$\displaystyle V(s_j) = argmax_i p(A=a_i | S=s_j)$
を考えたが、もうちょっと一般化しよう。

　世界を2つとし、各世界に対するカットオフ $c_1, c_2$(合計1)を考えて
　$\displaystyle V(s_j) = argmax_i c^{-1}_i Pr(A=a_i | S=s_j)$
とする。$c_1=c_2=0.5$だったらさっきの投票ルールと同じである。

定理2. 全員が正解に投票するわけではないとしよう。このとき、正解に対する投票の平均推定値は過小評価される。

　[つまり、島根が西にある世界においては、「島根が西」への他人の投票の推測は過小評価される]

　証明：(まずは原文を逐語的にメモする)

We first show that actual votes for the correct answer exceed conterfactual votes for the correct answer, $p(v_{i*}|a_{i*}) > p(v_{i*}|a_k) , k \neq i*$, as:

　$\displaystyle \frac{p(v_{i*}|a_{i*})}{ p(v_{i*}|a_k)}= \frac{p(a_{i*}|v_{i*}) p(a_k)} {p(a_k|v_{i*}) p(a_{i*})}= \frac{p(a_{i*}|v_{i*})} {1- p(a_{i*}|v_{i*}) } \frac{1-p(a_{i*})}{ p(a_{i*}) }$

The fraction on the right is well defined as $0 < p(a_{i*}|v_{i*}) < 1$; it is greater than one if and only if $p(a_{i*}|v_k) > p(a_{i*}|v_{i*}) p( v_{i*} ) + p(a_{i*}|v_k) p( v_k ) = p(a_{i*})$, as $p(a_{i*}|v_{i*}) > c_{i*}, p(a_{i*}|v_k) < c_{i*}$ by definition of the criterion based voting function.

　[深呼吸してゆっくり考えましょう。
　表記を簡単にするために、仮に$a_1$が現実(原文の$a_{i*}$), $a_2$が反事実(原文の$a_k$)だということにする。
　著者らが上記部分でいわんとしているのは、「現実のもとで現実に投票する確率は、反事実のもとで現実に投票する確率よりも大きい」、すなわち
　$Pr(V=v_1 | A=a_1) > Pr(V=v_1|A=a_2)$
ということだ。なぜか。

　条件付き確率の定義から、
　$\displaystyle Pr(V=v_1 | A=a_1) = \frac{Pr(V=v_1 , A=a_1)}{Pr(A=a_1)} = \frac{Pr(A=a_1 | V=v_1) Pr(V=v_1)}{Pr(A=a_1)}$
　$\displaystyle Pr(V=v_1 | A=a_2) = \frac{Pr(V=v_1 , A=a_2)}{Pr(A=a_2)} = \frac{Pr(A=a_2 | V=v_1) Pr(V=v_1)}{Pr(A=a_2)} $
であるから、
　$\displaystyle \frac{Pr(V=v_1 | A=a_1)}{ Pr(V=v_1 | A=a_2) } = \frac{Pr(A=a_1 | V=v_1) Pr(A=a_2)}{Pr(A=a_2 | V=v_1) Pr(A=a_1)} $
である。$P= Pr(A=a_1 | V=v_1), Q= Pr(A=a_1) $と置けば
　$\displaystyle = \frac{P(1-Q)}{(1-P)Q}$
である。
　いま
　$\displaystyle \frac{P(1-Q)}{(1-P)Q} > 1$
を解くと$P > Q$である。従って、
　$Pr(V=v_1 | A=a_1) > Pr(V=v_1|A=a_2) \Leftrightarrow Pr(A=a_1 | V=v_1) > Pr(A=a_1)$
である。これを(1)としよう。

　$Pr(A=a_1)$を投票で場合分けすると
　 $Pr(A=a_1) = Pr(A=a_1 | V=v_1) Pr(V=v_1) + Pr(A=a_1 | V=v_2) Pr(V=v_2)$
であるから、
　$ Pr(A=a_1 | V=v_1) - Pr(A=a_1) $
　$ = Pr(A=a_1 | V=v_1) (1- Pr(V=v_1)) - Pr(A=a_1 | V=v_2) Pr(V=v_2)$
　$ = (1- Pr(V=v_1)) \{ Pr(A=a_1 | V=v_1) - Pr(A=a_1 | V=v_2) \}$
と書ける。$Pr(V=v_1) < 1$なので(全員が正解に投票するわけではないから)、結局
　$Pr(A=a_1 | V=v_1) - Pr(A=a_1) > 0 \Leftrightarrow Pr(A=a_1 | V=v_1) - Pr(A=a_1 | V=v_2) > 0$
(1)とあわせると
　$Pr(V=v_1 | A=a_1) > Pr(V=v_1|A=a_2) \Leftrightarrow Pr(A=a_1 | V=v_1) > Pr(A=a_1 | V=v_2)$
ということになる。ぜぇぜぇ。これを(2)としよう。

A respondent with signal $s_j$ computes excected votes by marginalizing across the two possible worlds, $p(v_{i*}|s_j) = p(v_{i*}|a_{i*}) p(a_{i*}|s_j) + p(v_{i*}|a_k) p(a_k|s_j)$. The actual vote for the correct answer is no less than the counterfactual vote, $p(v_{i*}|a_{i*}) \geq p(v_{i*}|a_k)$.
Therefore, $p(v_{i*}|s_j) \leq p(v_{i*}|a_{i*})$, with strict inequality unless $p(a_{i*}|s_j) = 1$. Because weak inequality holds for all signals, and is strict for some, the average predicted vote will be strictly underestimated. (QED)

　以上、p.5までの内容でありました。先は長い... くじけそう...

雑記：データ解析 - 「みんなが思うよりも意外に多い」回答はなぜ正しいか：その2

読書日記

読んだ本を淡々と記録します

2017年8月17日 (木)