読書日記: 読了：Rothschild & Wolfers (2012) 「誰に投票しますか」と訊くより「誰が勝つと思いますか」と訊いたほうが良いのはなぜか、モデルで説明しよう

« 読了：Lewis-Beck & Tien (1999) 選挙予測のcitizen forecasting (改訂版) | メイン | 覚え書き：南風原「心理統計学の基礎」8章 »

2018年10月23日 (火)

Rothschild, D., Wolfers, J. (2012) Forecasting Elections: Voter Intentions versus Expectations. SSRN.

　未公刊のWorking Paperなんだけど、頻繁に引用されているので目を通したら... いやー、これは凄いわ。なぜ論文にしないんだろう。

　第一著者のRothschildさんはMicrosoftにお勤め。第二著者は予測市場のレビューWolfers & Zitzewitz(2004)を書いたWolfersさんである。世間は狭い。

1. イントロダクション
　この論文はvote intention(VI)とvote expectation(VE)のどっちが予測力を持つかを調べる。[以下、この論文のあらすじ...]
　[なお、この論文は一貫して２政党の選挙だけを考えている]

2. 当選者の予測
　American National Election Studies の1948-2008のデータを使う。この調査では、大統領選(15回)の1か月前に、VI設問(誰に投票するか)とVE設問(だれが当選すると思うか)を訊いていた。集計すると、VEのほうが当たっている。
　ここからは州レベルの分析。「この州ではどっちが勝つと思うか」というVEを訊いていた。延べで345件のレースを分析できる。集計すると、やはりVEのほうが当たっている。

3. 得票率の単純予測
　レースを単位として、得票率、VI率、VE率の関係を調べる。ここではウェイティングなし。
　得票率とVI率との相関は0.57, 線形な関係があるようにみえる。
　得票率とVE率との関係も強いんだけど、線形ではない(これは当然で、オバマが勝つだろうという人が2/3いるからといってオバマの得票率が2/3だということにはならない)。

　VE率と得票率の関係を、以下のようにモデル化しよう。
　レース$r$における個人$i$の民主党得票率シグナル(潜在変数)を$x_{r}^{*i}$, 民主党得票率を$v_r$として
　$x_{r}^{*i} = v_r + e_r^{i}, \ \ e_r^i \sim N(0, \sigma_e^2)$ [1]
で、VE回答$x_r^i$は$x_{r}^{*i} > 0.5$のときに1, そうでないときに0とする。
　ここからプロビット回帰モデル
　$E[x_r^i | v_r] = \Phi \left( \frac{1}{\sigma_e} (v_r -0.5) \right)$ [3]
が得られる。推定すると$\hat{\sigma}_e = 0.15$となった。
　これに基づき、母集団モデル
　$E[x_r | v_r] = Prob(v_r + e^i_r > 0.5) = \Phi(\frac{v_r-0.5}{\sigma_e})$ [4]
を想定する。$x_r$は母集団パラメータであることに注意。
　左辺$E[x_r | v_r]$は期待値であって、$x_r | v_r$には実際には$e_r^i$に起因するノイズが乗るんだけど、母集団が十分に大きければ無視できるから、結局
　$x_r \approx \Phi(\frac{v_r-0.5}{\sigma_e})$ [5]
と考えられる。これをひっくり返して
　$E[v_r | x_r] \approx 0.5 + \sigma_e \Phi^{-1}(x_r)$ [6]

　さて、さきほど得票率$v_r$とVE率$\hat{x}_r$の散布図が非線形であることを確認した。これは曲線 $0.5 + 0.15 \Phi^{-1}(\hat{x}_r)$として理解できるわけだ。実際には、$\hat{x}_r$には標本抽出誤差が載っているから、この曲線はデータにフィットさせて得た曲線ではない(得票率とVI率の関係を表す45度線がデータにフィットさせて得た直線でないのと同じ)。
　[↑うわあ... これ滅茶苦茶面白い... 整理すると、人々の行動生起率(ここでは民主党の得票率)について閾値を切って二値で予測させたとき、その回答の割合を、実際の行動生起率と対応付けるべく変換する方法を考えたわけだ。なるほどねええ]

　こうして得た変換後VE率$0.5 + 0.15 \Phi^{-1}(\hat{x}_r)$と、得票率との相関は0.78。生のVI率と得票率との相関よりも高い。RMSE, MAEも有意に小さい。重回帰でも重みづけ和でも圧勝である。

4. 得票率の効率的予測
　上の散布図を観察すると、生のVI率にせよ変換後VE率にせよ、実際の得票率より極端に振れる(実際の得票率はもっと接戦である)。これは標本抽出誤差のせいだ。
　ここでは予測のMSEを最小化するような縮小推定量をつくってみる。
　
　まずはVIのほうで考えよう。
　$\hat{v}_r = v_r + \alpha^v + (\eta_r + \tau_r), \ \ \eta_r \sim N(0, \sigma^2_{\eta_r}), \ \ \tau_r \sim N(0, \sigma^2_\tau), \ \ E[\eta_r \tau_r] = 0$ [7]
　$\alpha_v$はANESにおける民主党バイアス。$\eta_r$は標本抽出による変動で、そのサイズは標本サイズに依存する。$v_r$は調査時点から投票日までに生じる変動。
　ここから次式を得る。
　$E[v_r | \hat{v}_r] = \mu^v + \frac{\sigma_v^2}{\sigma_v^2 + \sigma^2_{v_r - \hat{v}_r}} (\hat{v}_r -\alpha^v - \mu^v)$ [8]
　$\mu^v, \sigma_v^2$は実際の民主党得票率の平均と分散。実際に計算してみると、$\hat{\mu}^v = 0.468, \hat{\sigma}_v^2 = 0.0089$。$\alpha^v$もANESデータベースから簡単に計算できて、$\hat{\alpha}^v = 0.031$。さて、
　$\sigma^2_{v_r - \hat{v}_r} = \sigma^2_\tau + \sigma^2_{\eta_r}$ [9]
である。実は標本の一部について、VI回答と実際の投票先をつきあわせることができる。そこから$\hat{\sigma}^2_\tau = 0.00035$と推定できた。$\sigma^2_{\eta_r}$は、[...ANESの標本設計とデザイン効果の話に突入するので大幅中略...]、まあとにかく推定できた。
　こうして、$E[v_r | \hat{v}_r]$が推定できた。実際の得票率との相関は0.59、RMSEもMAEも下がった。

　今度はVEのほうで考えると...
　[本項、読みたいんだけどいまちょっと時間がないのでスキップ]
　こうして$E[v_r | \hat{x}_r]$が推定できた。実際の得票率との相関は0.77, RMSEもMAEも下がった。

　ふたたびVIとVEを比べると、やっぱしVEの圧勝である。
　
5. out-of-sampleテスト
　上では2008年のデータを使ってなかった。当てはめてみると、やはりVEの勝ち。

6. 二次データによる結果
他のデータソースをいろいろ集めてみると... 投票日の180日前までなら、やはりVEの勝ち。

7. 構造的解釈
　思うに、対象者は選挙結果の予測に役立つさまざまな情報を持っていて、VEはそれらを反映するんだけど、VIはその一部しか反映してないのではないか。
　モデル化してみよう。

　まずは単純なモデルから。
　対象者$i$は、自分を含めた身近な$m$人に対してひそかに調査を行い、その結果に基づいてVE回答しているとしよう。で、個々の対象者が持っているこの「内輪調査」における民主党投票意向の割合を$\hat{v}_r^l$とする。
　$x_r^{*i} = E^i[v_r | \hat{v}^l_r] = \hat{v}^l_r$ [18]
仮に「内輪調査」の標本が不偏なら、これは二項分布$B(v_r, \frac{v_r(1-v_r)}{m})$に従う。接戦だったらこれは$N(v_r, 1/(4m))$で近似できる。
　ということは、
　$E[x_r^i | v_r] = Prob(E[v_r|\hat{v}_r^l] > 0.5) \approx \Phi (2\sqrt{m}(v_r - 0.5))$ [19]
である。このプロビット回帰モデル、2節で推定した
　$E[x_r^i | v_r] = \Phi \left( \frac{1}{\sigma_e} (v_r -0.5) \right)$ [3]
と同じですわね。$\hat{\sigma}_e = 0.150$だった。ここから$\hat{m}$はだいたい$11$だ。いいかえると、VE設問において、ひとりの人は自分だけでなく、10人分の身近な人々からの情報に基づいて回答しているのである。

　もちろん、身近な人々が無作為標本ってことはない。もうちょっと精緻化しよう。
　「内輪調査」における民主党投票意向の割合$\hat{v}_r^l$の平均は、$v_r$ではなくて$v_r+\theta_r^{s_i}$であるとする。添え字$s_i$は、$i$さんのソーシャルネットワークという意味。
　仮に対象者が、自分のソーシャルネットワークのバイアスに自覚的でそれをきれいに取り除くことができるならば、
　$x_r^{*i} = E^i[v_r | \hat{v}^l_r; \theta_r^{s_i}] = \hat{v}^l_r - \theta_r^{s_i}$ [20]
である。これは二項分布$B \left(v_r, \frac{(v_r + \theta_r^{s_i})(1 - v_r - \theta_r^{s_i})}{m} \right)$に従う。分散がちょっぴり変わったけど、正規近似しちゃうなら $N(v_r, 1/(4m))$のままでよい。つまり、実質的には変わらない。

　さらに精緻化する。対象者が身近な人々のバイアスを知らない、ないし、長い目で見れば知っているけど今回のレースにおけるバイアスは知らない、としよう。
　身近な人々における未知のショックを$\eta_r^{s_i} \sim N(0, \sigma^2_\eta)$とする。このとき、$\hat{v}^l_r$は平均$v_r + \eta_r^{s_i}$の二項分布に従う。これを正規近似すると、平均は$v_r$だが、分散は$1/(4m) + \sigma^2_\eta$に増える。この分散を級内分散 $\lambda = \frac{\sigma^2_\eta}{\sigma^2_\eta + 1/(4m)}$ を使って書き換えると、$1/(4m-(1-\lambda))$となる。よって
　$x_r^{*i} = E^i[v_r | \hat{v}^l_r] = \hat{v}^l_r \sim N\left(v_r, \frac{1}{4m(1-\lambda)} \right)$ [21]
　$E[x_r^i | v_r] = Prob(E[v_r|\hat{v}_r^l] > 0.5) \approx \Phi ([2\sqrt{m(1-\lambda}](v_r - 0.5))$ [22]
　よぉし、じゃあ$\lambda$を他のデータソースから推測したろうじゃないの。[...おおお。すごく面白い、面白いんだけど、正直疲れちゃったので本項はメモ省略]
　...というわけで、$\lambda=0.45$と推測しました。$\hat{m}$はだいたい20となる。

8. どんな情報がアグリゲートされているのか？
　VEが反映している情報とは何か。言い換えると、$m$ってのはほんとに友達の人数なのか、それとも、マスメディアとか過去の選挙結果とかから得た情報なのか。
　ここでは、VEが反映しているのがidiosyncraticな情報か、それともcommonな情報かという点について検討する。[←うぉぉぉぉぉぉ]

　極端にいえば、VEが反映しているのが完全にcommonな情報であれば、みんなが同じVEを返すはずである。また完全にidiosyncraticな情報であれば、VEは人によって一致しないし、(それがinformativeなのであれば)VEは接戦のときにより不一致になるだろう。

　シミュレーションしてみよう。以下、$\sigma_e=0.15$とする。
　それぞれの対象者が、独立で不偏なidiosyncraticシグナルと、(選挙間で独立で不偏な)commonシグナルを受け取る。対象者は前者に$(1-\phi)$, 後者に$\phi$の重みをつけてこれを足し、VEを返す。
　$\phi=1$ならVEは必ず0か1になる。いっぽう$\phi=0$なら、横軸に実際の民主党得票率、縦軸にVE率をとったとき、なだらかなロジスティック曲線状になる。
　$\phi$を徐々に変えていくと、$\phi=0.14$のときに実データと近くなる。つまり、VEが反映しているのはかなりidiosyncraticな情報である。

　よーし。[21]式に戻るぞ。
　idiosyncratic シグナルを$\hat{v}^l_r \sim N \left(v_r, \frac{1}{4m(1-\lambda)} \right)$、それと直交するcommonシグナルを$c_r \sim N(v_r, \sigma_c^2)$とする。[21]式は
　$x_r^{*i} = E^i[v_r | \hat{v}^l_r; c_r]$
　$= \frac{\sigma_c^{-2} c_r + 4m(1-\lambda) \hat{v}_r^l}{\sigma_c^{-2} + 4m(1-\lambda)}$
　$= v_r + \frac{\sigma_c^{-2}}{\sigma_c^{-2} + 4m(1-\lambda)}(c_r-v_r) + \frac{4m(1-\lambda)}{\sigma_c^{-2} + 4m(1-\lambda)}(\hat{v}_r^l-v_r)$ [24]
という風に化ける。最後の行の第二項がcommon シグナル, 第三項がidiosyncraticシグナルである。
　[...ちょっと時間切れなので以下メモは省略するけど、面白いなあ]

9. VEとVIの相関
　vote expectationにおけるwishful thinkingの存在は昔から知られている。また、他者に依存して選好を形成する現象も広く知られている(バンドワゴン効果とか)。
　実際、VIとVEの個人レベルでの相関は0.42。

　これは本論文のモデルで容易に説明できる。「内輪調査」の対象者のなかに自分が入っているからである。
　まずは「内輪調査」対象者が無作為だった場合。自分抜きの「内輪調査」結果を$\hat{v}_r^{-l} \sim N(v_r, \frac{v_r(1-v_r)}{m-1})$としよう。$\hat{m}=11.1$として、
　$Prob(x_r^i = 1|v_r^i = 1; \hat{v}_r^{-l}) \approx \Phi(6.4(v_r-0.45))$
　$Prob(x_r^i = 1|v_r^i = 0; \hat{v}_r^{-l}) \approx \Phi(6.4(v_r-0.55))$
となる。$v_r^i$と$x_r^i$の相関は、$v_r=0.5$のとき0.25となる。
　ソーシャルネットワークとcommon/idiosyncratic情報を付け加えると...[死ぬ―。以下省略するけど、レースごとにVIが民主党の人と共和党の人に分けて、実際の民主党得票率とVEの散布図を描き、モデルから予測される曲線を当てはめる。VIによる差をかなり説明できる]
　このように、VIとVEの相関は合理的推論モデルの範囲内で説明できる。

10. 非無作為標本からの効率的な予測
[どっちかの政党に投票した人だけに絞って分析し直す。頭が混乱してきたのでパスするけど、モデルを使うとそれでも得票率が結構予測できるという話]

11. 考察
　選挙分析者のみなさん、VIよりVEがあたります。
　構造的解釈の節ではVEが当たる理由の説明を試みた。またこのモデルを使えばVEとVIの相関が説明できるし、すごく偏った標本からでも予測できる。
　思えば、科学的な世論調査が勃興する前、選挙予測の方法は「誰が勝つと思いますか」と訊ねることだった。本研究はいわば歴史的実践へと立ち戻るものであった。
　今後はこういう手法の研究が進んで、製品の需要予測とか消費者測定とかに使えるようになるといいですね。

　... 正直、参りました。脱帽。
　いやあ、これを最初に読んでなくてよかった。もし読んでたら、このテーマには絶対手出ししようと思わなかったわ...
　
　感動してばかりでも癪に障るので、自分なりに別の角度から考えてみると、この論文のモデルと、Hong&Pageいうところの「集合知が生じるのはエージェントが多様だからかもしれない」とはどういう関係にあるのだろうか。この論文の言葉で言うと、VEにおけるシグナルが不偏で分散が一定であれば、idiosyncraticシグナルの比率が高いほうがVEベースの予測の精度が上がる、ということになるのだと思うけれど、これは8節のモデルからいえることだろうか。

論文：予測市場 - 読了：Rothschild & Wolfers (2012) 「誰に投票しますか」と訊くより「誰が勝つと思いますか」と訊いたほうが良いのはなぜか、モデルで説明しよう

読書日記

読んだ本を淡々と記録します

2018年10月23日 (火)