elsur.jpn.org >

2018年10月30日 (火)

 仕事の都合で、統計学の一般的な知識についてのご相談を頂くことがある。そうしたご相談の、そうだなあ...4割か5割くらいは、南風原「心理統計学の基礎」を熟読すれば答えられる内容である。いうなれば、私の日々の仕事の一部は、南風原本を適宜わかりやすく言い換えることに過ぎない。嗚呼、哀れな人生。
 しかし、ここにふたつの問題がある。(1)ご相談を受けてから熟読している時間はない。(2)前もって熟読していたとしても、覚えていられるとは限らない。
 幸か不幸か、私は人生においてヒマな時期が結構長かったので、(1)の問題は一応クリアしているんだけど(つまり、2002年の刊行時にかなり真剣に読んだんだけど)、(2)の問題が壁となって立ちはだかる。特に最近は、この壁がすごく、すごーく、ものすごーく高い。

 このたび都合であれこれ説明を書いていて、ああこの話って、あの本の8章、部分相関係数とか偏相関係数とかからはじめてTypeIII平方和に至るくだりの、下手な書き換えに過ぎないなあ... と気が付いた。
 というわけで、せめてもの忘備録として、8章の内容をメモしておきます。
 事例を剥ぎ取って要点のみメモする。なので、メモだけをみると、いっけんすごく難しい話のようにみえるだろうと思う。
 南風原先生の略記法とはちがい、変数$X$の標準偏差を$s[X]$, $X,Y$の相関係数を$r[X,Y]$と略記する。

8.1 部分相関係数と偏相関係数
 ここに変数$y, x_1, x_2$がある。$x_2$と$y$の間には、その両変数と$x_1$との相関関係だけでは説明できないような独自の関係があるか。

 $x_2$を、$x_1$によって完全に予測可能な成分と、$x_1$と完全に無相関な成分$x_2|x_1$とにわけ、$x_2|x_1$と$y$との相関
 $\displaystyle r[y, (x_2|x_1)] = \frac{r[y, x_2] - r[y, x_1] r[x_1,x_2] }{ \sqrt{1-r^2[x_1, x_2]} }$ [8.1]
を調べよう。これを部分相関係数part correlation coefficient, ないし片偏相関係数(半偏相関係数) semipartial correlation coefficentという。

 部分相関係数においては、$x_2$からは$x_1$の影響を除いてあるが、$y$に関してはもとのままである。そこで、$y$から$x_1$の影響を除いた$y|x_1$と、$x_2|x_1$との相関
 $\displaystyle r [(y|x_1), (x_2|x_1)] = \frac{r[y, x_2] - r[y, x_1] r[x_1,x_2]}{\sqrt{1-r^2[y, x_1]} \sqrt{1-r^2[x_1, x_2]}}$ [8.2]
も調べよう。これを偏相関係数partial correlation coefficientという。

 $x_1$から$x_2$と$y$にパスが刺さるパス図で考えると、部分相関係数$r[y, (x_2|x_1)]$は「$y$と、$x_2$の残差との相関」であり、偏相関係数$r [(y|x_1), (x_2|x_1)]$とは「$y$の残差と、$x_2$の残差との相関」である。

 部分相関係数と偏相関係数の間には次の関係がある。
 $\displaystyle r [(y|x_1), (x_2|x_1)] = \frac{ r [(y|x_1), (x_2|x_1)] }{ \sqrt{1-r^2[y, x_1]} }$ [8.3]

8.2 偏回帰係数とその解釈
 ここで唐突におさらいしますが、一般に、散布図の横軸が$X$、縦軸が$Y$のとき、回帰係数は
 $b[X,Y] = r[X,Y] \times (s[Y] / s[X])$ [3.13]
$X$で$Y$を予測したときの予測の標準誤差は
 $s[e] = s[Y] \sqrt{1-r^2[X,Y]}$ [3.25]
である。

 本題に戻って...
 横軸に$x_2|x_1$、縦軸に$y$をとった散布図に、回帰直線をあてはめてみよう。

  • 相関にあたるのは、部分相関係数$r[y, (x_2|x_1)]$
  • 横軸の標準偏差は、$x1$で$x2$を予測したときの予測の標準誤差だから、[3.25]より $s[x_2|x_1] = s[x_2] \sqrt{1-r^2[x_1, x_2]}$ [8.4]
  • 縦軸の標準偏差は、$y$の標準偏差$s[y]$

 以上により、この散布図にあてはめた回帰直線の傾き
 $b[ y, (x_2|x_1) ]$
は、[3.13]より
 $\displaystyle = r[ y, (x_2|x_1)] \frac{s[y]}{s[x_2|x_1]}$
[8.1],[8.4] を代入して
 $\displaystyle = \frac{r[y, x_2] - r[y, x_1] r[x_1,x_2]}{\sqrt{1-r^2[x_1, x_2]}} \times \frac{ s[y] }{ s[x_2] \sqrt{1-r^2[x_1, x_2]} }$
 $\displaystyle = \frac{r[y, x_2] - r[y, x_1] r[x_1,x_2]}{ 1-r^2[x_1, x_2] } \times \frac{ s[y] }{ s[x_2] }$ [8.5]
 これを偏回帰係数 partial regression coefficientと呼ぶ。なお、横軸に$x_2|x_1$、縦軸に$y|x_1$をとっても、同じ偏回帰係数が得られる。

 [8.5]の第2項は標準偏差の比である。仮に$x_2$と$y$をまず標準偏差1に標準化してから求めたなら、この項は消えて、
 $\displaystyle b^{*}[ y, (x_2|x_1) ] = \frac{r[y, x_2] - r[y, x_1] r[x_1,x_2]}{ 1-r^2[x_1, x_2] }$ [8.7]
これを標準偏回帰係数standardized partial regression coeffientという。

 部分相関係数[8.1], 偏相関係数[8.2], 標準偏回帰係数[8.7]は分母のみ異なるという点に注目すべし。

8.3 重回帰モデル
 ここからは、
 $y = \alpha + \beta_1 x_1 + \beta_2 x_2 + \epsilon$ [8.10]
という線形モデルを考える。なお、推測に際しては
 $\epsilon | x_1, x_2 \sim N(0, \sigma^2_\epsilon)$
という確率モデルを想定する。

 ここから、
 $E[y | x_1, x_2] = \alpha + \beta_1 x_1 + \beta_2 x_2$
である。これを回帰平面ないし予測平面と呼ぶ。

 母数$\alpha, \beta_1, \beta_2$の推定量を$a, b_1, b_2$とすると
 $\hat{y} = a + b_1 x_1 + b_2 x_2$
 残差 $e = y - \hat{y}$の二乗和 $Q = \sum_i^N e_i^2$を最小化する推定量は
 $\displaystyle b_1 = \frac{r[y,x_1] - r[y, x_2] r[x_1,x_2]}{1-r^2[x_1,x_2]} \times \frac{s[y]}{s[x_1]}$ [8.15]
 $\displaystyle b_2 = \frac{r[y,x_2] - r[y, x_1] r[x_1,x_2]}{1-r^2[x_1,x_2]} \times \frac{s[y]}{s[x_2]}$ [8.16]
 $\displaystyle a = \hat{y} - b_1 \bar{x}_1 - b_2 \bar{x}_2$ [8.17]
なお、[8.16]は[8.5]と同じである。

 $y$と$\hat{y}$の相関係数は
 $\displaystyle R = \sqrt{ \frac{r^2[y,x_1] + r^2[y,x_2] - 2 r[y,x_1] r[y,x_2] r[x_1,x_2]}{1-r^2[x_1,x_2]} }$ [8.20]
これを重相関係数multiple correlation coefficientという。重相関係数は、独立変数の1次式で与えられる変数と従属変数との相関のうち最大のものである。

8.4 重回帰分析の仕組み
 平均0に中心化したデータを$\mathbf{y}, \mathbf{x_1}, \mathbf{x_2}$とする。
 予測値ベクトルは
 $\hat{\mathbf{y}} = b_1 \mathbf{x_1} + b_2 \mathbf{x_2}$
である。これは$\mathbf{x_1}, \mathbf{x_2}$によって張られた平面上のベクトルである。
 その先端から$\mathbf{y}$に向かうベクトルが残差ベクトル$\mathbf{e}$である。最小二乗法では、$\mathbf{e}$の長さを最小にするように$\hat{\mathbf{y}}$を決める。つまり、$\mathbf{y}$から平面に垂線をおろし、その足を$\hat{\mathbf{y}}$の先端に決めているわけである。
 重相関係数$R$とは、$\mathbf{y}$と$\hat{\mathbf{y}}$のなす角度のコサインである。これを最大にするように$\hat{\mathbf{y}}$を決めている、といってもよい。

 重相関係数$R$はどういうときに大きくなるか。
 まず、単独で高い相関を持つ独立変数があれば大きくなる。これは、$\mathbf{y}$が$\mathbf{x_1}$に近づくにつれて平面も近づいていく、と理解できる。
 独立変数間の相関が-1に近いときにも大きくなる(「0に近いとき」でない点に注意)。これは、$\mathbf{x_1}, \mathbf{x_2}$と$\mathbf{y}$との角度を保ったまま$\mathbf{x_1}$と$\mathbf{x_2}$の角度を拡げると、平面が$\mathbf{y}$に近づいていく、と理解できる(90度に拡げた瞬間なにか特別なことが起きるわけでない点に注意)。
 
 $\mathbf{x_1}$と$\mathbf{x_2}$の相関が高いとき、$\hat{\mathbf{y}}$が少し変動するだけで$b_1, b_2$が大きく変動する。
 このことは、独立変数間に高い相関があると、サンプリングによる偏回帰係数の変動が大きくなることを意味している。これを多重共線性という
 偏回帰係数の標準誤差は
 $\sigma[b_1] = \sigma[e] / (\sqrt{N} s[x_1] \sqrt{1-r^2[x_1,x_2]})$ [8.23]
 $\sigma[b_2] = \sigma[e] / (\sqrt{N} s[x_2] \sqrt{1-r^2[x_1,x_2]})$ [8.24]
一般化すると
 $\sigma[b_j] = \sigma[e] / \left( \sqrt{N} s[x_j] \sqrt{1-R^2[x_j, x_1,\cdots (x_j) \cdots x_p]}) \right)$ [8.25]
である($R^2[x_j, x_1,\cdots (x_j) \cdots x_p]$は$x_j$とそれ以外のすべてとの重相関係数)。他の変数との相関が高いほど大きくなるのがわかる。

 最後に、偏回帰係数を幾何学的に説明しよう。[←ここがこの本の難関のひとつだと思うんですよね...」

 8.2節にいわく、偏回帰係数とは、横軸に$x_2|x_1$、縦軸に$y$をとった散布図の回帰係数である。また8.3節にいわく、偏回帰係数とは、$x_1, x_2$で$y$を予測するときの係数である。

 $\mathbf{x_1}, \mathbf{x_2}$で張られた平面を考えよう。$\mathbf{x_2|x_1}$とは、$\mathbf{x_2}$の先端から$\mathbf{x_1}$に下した垂線を逆向きにしたベクトルである。当然、平面に乗っている。話を簡単にするため、こいつをずずずっと平行移動して、始点を原点に揃えよう。$\mathbf{x_2|x_1}$は$\mathbf{x_1}$と原点で直交しているわけね。

 こいつで$\mathbf{y}$を予測しよう。上空に斜めに伸びている$\mathbf{y}$の先端から、平面に垂線を降ろすんじゃなくて、$\mathbf{x_2|x_1}$に向けて垂線を降ろす(上空から斜めに落ちてくる線になる)。その足が、ベクトル$b_2(\mathbf{x_2|x_1})$の先端。これが8.2節の説明である。
 今度は、$\mathbf{y}$の先端から平面に垂線を降ろそう。その足の位置から、$\mathbf{x_1}$と平行に(つまり$\mathbf{x_2|x_1}$と垂直に)$\mathbf{x_2}$に移動し、ぶつかったところが、偏回帰係数$\times \mathbf{x_2}$の先端である。これが8.3節の説明。図に書いてみると、なるほど、それは$b_2\mathbf{x_2}$となる。

 なお、部分相関係数$r[y, (x_2|x_1)]$とは、$\mathbf{y}$(上空に斜めに伸びている)と$\mathbf{x_2|x_1}$(さっき地表に引いた新しい線)がなす角度のコサインである。
 $\mathbf{y|x_1}$とは、$\mathbf{y}$の先端から$\mathbf{x_1}$に斜めに降ろした垂線を逆向きにしたベクトルである。これを原点へと平行移動すると、それは、$\mathbf{x_2|x_1}$(さっき地表に引いた新しい線)の原点を押さえて先端を持ち、$\mathbf{x_1}$との角度を変えないようにまっすぐに引き上げ、$\mathbf{y}$の先端の高さまで伸ばした新しい棒となる。偏相関係数$r[(y|x_1), (x_2|x_1)]$とは、この引き上げ角度がなすコサインである。

5. 平方和の分割と重相関係数の検定
 $\mathbf{y}, \hat{\mathbf{y}}, \mathbf{e}$は直角三角形をなしているんだから、
 $||\mathbf{y}||^2 = ||\hat{\mathbf{y}}||^2 + ||\mathbf{e}||^2 $ [8.26]
ベクトルの長さは平方和だから
 $SS[y] = SS[\hat{y}] + SS[e]$ [8.27]
分散説明率は
 $SS[\hat{y}] / SS[y] = ||\hat{\mathbf{y}}||^2 / ||\mathbf{y}||^2 = cos^2 \theta[y,\hat{y}] = R^2$ [8.28]
[8.27] より
 $R^2 = 1 - SS[e] / SS[y]$ [8.29]
である。

 $SS[y]$の自由度は$N-1$。残差平方和$SS[e]$の自由度は平方の数から母数の数を引いたもので、ここで母数は$p+1$だから(切片がはいる)、自由度は$N-p-1$。よって$SS[\hat{y}]$の自由度は$p$である。

 予測の誤差分散と標準誤差はそれぞれ
 $s^2[e] = SS[e] / N = SS[y] (1-R^2)/N = s^2[y] (1-R^2)$ [8.32]
 $s[e] = s[y] \sqrt{(1-R^2)}$ [8.33]
だが、$\sigma[e]$の推定量としては(そして予測の標準誤差としても)、自由度$N-p-1$で割った不偏推定量
 $s^{'}[e] = s[y] \sqrt{N/(N-p-1)}$ [8.34]
を使うことが多い。同様に、$\sigma^2[y]$の推定量としても$s^{'2}[y] = SS[y] / (N-1)$を使うことが多い。[8.29]を書き換えると
 $R^2_{adj} = 1 - \sqrt{\frac{N-1}{N-p-1}}(1-R^2)$
これが自由度調整済み決定係数である。$R^2$が$p$の増大につれて過大になるのを修正しているわけだ。

 重相関係数がゼロであるという帰無仮説の下で、
 $F = \frac{SS[\hat{y}]/p}{SS[e]/(N-p-1)}$ [8.36]
は自由度$p, N-p-1$のF分布に従う。[8.28]で書き換えると
 $F = \frac{R^2/p}{(1-R^2)/(N-p-1)}$ [8.36]
である。

6. 個々の独立変数の寄与の評価
 [8.20]から$r^2[y,x_1]$を引くと
 $\displaystyle R^2 - r^2[y, x_1] = \frac{(r[y,x_2]-r[y,x_1]r[x_1,x_2])^2}{1-r^2[x_1,x_2]}$
となる。よくみると、これは[8.1]の部分相関係数$r[y, (x_2|x_1)]$の二乗である。
 これは独立変数の数に限らず成り立つ。つまり、$q$個[原文では$p_1$個]の独立変数からなるモデルに変数を1個以上加えて$p$個にした時の決定変数の増分は、部分相関係数の二乗になる。これを
 $R^2[y,x_1\cdots x_p] - R^2[y,x_1\cdots x_q] = r^2[y, (x_p|x_1\cdots x_q)]$
と書こう。

 追加した$p-q$個の偏回帰係数について、帰無仮説
 $H_0: \beta[x_{q+1}] = \cdots = \beta[x_p] = 0$
を検定することができる。検定統計量
 $\displaystyle F = \frac{(R^2[y, x_1\cdots x_p]-R^2[y,x_1\cdots x_q])/(p-q)}{(1-R^2[y, x_1\cdots x_p])/(N-p-1)}$ [8.43]
が帰無仮説の下で自由度$p-q, N-p-1$のF分布に従う。

 上で述べた独立変数の寄与の評価は、独立変数の投入順で変わってくる。
 投入順を決め、各ステップにおける$R^2$の増分に全平方和$SS[y]$を掛けて得られる平方和をタイプIの平方和という。
 投入順は決められないことが多い。そこで、それぞれの独立変数を最後に投入したと想定し、部分相関係数の二乗に全平方和$SS[y]$を掛ける。これをタイプIIIの平方和という。

 [8.25]で示した偏回帰係数の標準誤差$\sigma[b_j]$の、分子の$\sigma[e]$を$s^{'}[e]$で置き換えて$s[b_j]$とし、これと偏回帰係数$b_j$を比較した $t = b_j / s[b_j]$ は、$H_0: \beta_j = 0$の下で自由度$N-p-1$のt分布に従う。
 [8.43]で追加した変数が1個だった場合の$F$は、この$t$の二乗になる。つまり、偏回帰係数の標準誤差を使った検定は、タイプIII平方和を使った検定と同じである。

(以上!)

雑記:データ解析 - 覚え書き:南風原「心理統計学の基礎」8章

2018年10月23日 (火)

Rothschild, D., Wolfers, J. (2012) Forecasting Elections: Voter Intentions versus Expectations. SSRN.

 未公刊のWorking Paperなんだけど、頻繁に引用されているので目を通したら... いやー、これは凄いわ。なぜ論文にしないんだろう。

 第一著者のRothschildさんはMicrosoftにお勤め。第二著者は予測市場のレビューWolfers & Zitzewitz(2004)を書いたWolfersさんである。世間は狭い。

1. イントロダクション
 この論文はvote intention(VI)とvote expectation(VE)のどっちが予測力を持つかを調べる。[以下、この論文のあらすじ...]
 [なお、この論文は一貫して2政党の選挙だけを考えている]

2. 当選者の予測
 American National Election Studies の1948-2008のデータを使う。この調査では、大統領選(15回)の1か月前に、VI設問(誰に投票するか)とVE設問(だれが当選すると思うか)を訊いていた。集計すると、VEのほうが当たっている。
 ここからは州レベルの分析。「この州ではどっちが勝つと思うか」というVEを訊いていた。延べで345件のレースを分析できる。集計すると、やはりVEのほうが当たっている。

3. 得票率の単純予測
 レースを単位として、得票率、VI率、VE率の関係を調べる。ここではウェイティングなし。
 得票率とVI率との相関は0.57, 線形な関係があるようにみえる。
 得票率とVE率との関係も強いんだけど、線形ではない(これは当然で、オバマが勝つだろうという人が2/3いるからといってオバマの得票率が2/3だということにはならない)。

 VE率と得票率の関係を、以下のようにモデル化しよう。
 レース$r$における個人$i$の民主党得票率シグナル(潜在変数)を$x_{r}^{*i}$, 民主党得票率を$v_r$として
 $x_{r}^{*i} = v_r + e_r^{i}, \ \ e_r^i \sim N(0, \sigma_e^2)$ [1]
で、VE回答$x_r^i$は$x_{r}^{*i} > 0.5$のときに1, そうでないときに0とする。
 ここからプロビット回帰モデル
 $E[x_r^i | v_r] = \Phi \left( \frac{1}{\sigma_e} (v_r -0.5) \right)$ [3]
が得られる。推定すると$\hat{\sigma}_e = 0.15$となった。
 これに基づき、母集団モデル
 $E[x_r | v_r] = Prob(v_r + e^i_r > 0.5) = \Phi(\frac{v_r-0.5}{\sigma_e})$ [4]
を想定する。$x_r$は母集団パラメータであることに注意。
 左辺$E[x_r | v_r]$は期待値であって、$x_r | v_r$には実際には$e_r^i$に起因するノイズが乗るんだけど、母集団が十分に大きければ無視できるから、結局
 $x_r \approx \Phi(\frac{v_r-0.5}{\sigma_e})$ [5]
と考えられる。これをひっくり返して
 $E[v_r | x_r] \approx 0.5 + \sigma_e \Phi^{-1}(x_r)$ [6]

 さて、さきほど得票率$v_r$とVE率$\hat{x}_r$の散布図が非線形であることを確認した。これは曲線 $0.5 + 0.15 \Phi^{-1}(\hat{x}_r)$として理解できるわけだ。実際には、$\hat{x}_r$には標本抽出誤差が載っているから、この曲線はデータにフィットさせて得た曲線ではない(得票率とVI率の関係を表す45度線がデータにフィットさせて得た直線でないのと同じ)。
 [↑うわあ... これ滅茶苦茶面白い... 整理すると、人々の行動生起率(ここでは民主党の得票率)について閾値を切って二値で予測させたとき、その回答の割合を、実際の行動生起率と対応付けるべく変換する方法を考えたわけだ。なるほどねええ]

 こうして得た変換後VE率$0.5 + 0.15 \Phi^{-1}(\hat{x}_r)$と、得票率との相関は0.78。生のVI率と得票率との相関よりも高い。RMSE, MAEも有意に小さい。重回帰でも重みづけ和でも圧勝である。

4. 得票率の効率的予測
 上の散布図を観察すると、生のVI率にせよ変換後VE率にせよ、実際の得票率より極端に振れる(実際の得票率はもっと接戦である)。これは標本抽出誤差のせいだ。
 ここでは予測のMSEを最小化するような縮小推定量をつくってみる。
 
 まずはVIのほうで考えよう。
 $\hat{v}_r = v_r + \alpha^v + (\eta_r + \tau_r), \ \ \eta_r \sim N(0, \sigma^2_{\eta_r}), \ \ \tau_r \sim N(0, \sigma^2_\tau), \ \ E[\eta_r \tau_r] = 0$ [7]
 $\alpha_v$はANESにおける民主党バイアス。$\eta_r$は標本抽出による変動で、そのサイズは標本サイズに依存する。$v_r$は調査時点から投票日までに生じる変動。
 ここから次式を得る。
 $E[v_r | \hat{v}_r] = \mu^v + \frac{\sigma_v^2}{\sigma_v^2 + \sigma^2_{v_r - \hat{v}_r}} (\hat{v}_r -\alpha^v - \mu^v)$ [8]
 $\mu^v, \sigma_v^2$は実際の民主党得票率の平均と分散。実際に計算してみると、$\hat{\mu}^v = 0.468, \hat{\sigma}_v^2 = 0.0089$。$\alpha^v$もANESデータベースから簡単に計算できて、$\hat{\alpha}^v = 0.031$。さて、
 $\sigma^2_{v_r - \hat{v}_r} = \sigma^2_\tau + \sigma^2_{\eta_r}$ [9]
である。実は標本の一部について、VI回答と実際の投票先をつきあわせることができる。そこから$\hat{\sigma}^2_\tau = 0.00035$と推定できた。$\sigma^2_{\eta_r}$は、[...ANESの標本設計とデザイン効果の話に突入するので大幅中略...]、まあとにかく推定できた。
 こうして、$E[v_r | \hat{v}_r]$が推定できた。実際の得票率との相関は0.59、RMSEもMAEも下がった。

 今度はVEのほうで考えると...
 [本項、読みたいんだけどいまちょっと時間がないのでスキップ]
 こうして$E[v_r | \hat{x}_r]$が推定できた。実際の得票率との相関は0.77, RMSEもMAEも下がった。

 ふたたびVIとVEを比べると、やっぱしVEの圧勝である。
 
5. out-of-sampleテスト
 上では2008年のデータを使ってなかった。当てはめてみると、やはりVEの勝ち。

6. 二次データによる結果
他のデータソースをいろいろ集めてみると... 投票日の180日前までなら、やはりVEの勝ち。

7. 構造的解釈
 思うに、対象者は選挙結果の予測に役立つさまざまな情報を持っていて、VEはそれらを反映するんだけど、VIはその一部しか反映してないのではないか。
 モデル化してみよう。

 まずは単純なモデルから。
 対象者$i$は、自分を含めた身近な$m$人に対してひそかに調査を行い、その結果に基づいてVE回答しているとしよう。で、個々の対象者が持っているこの「内輪調査」における民主党投票意向の割合を$\hat{v}_r^l$とする。
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r] = \hat{v}^l_r$ [18]
仮に「内輪調査」の標本が不偏なら、これは二項分布$B(v_r, \frac{v_r(1-v_r)}{m})$に従う。接戦だったらこれは$N(v_r, 1/(4m))$で近似できる。
 ということは、
 $E[x_r^i | v_r] = Prob(E[v_r|\hat{v}_r^l] > 0.5) \approx \Phi (2\sqrt{m}(v_r - 0.5))$ [19]
である。このプロビット回帰モデル、2節で推定した
 $E[x_r^i | v_r] = \Phi \left( \frac{1}{\sigma_e} (v_r -0.5) \right)$ [3]
と同じですわね。$\hat{\sigma}_e = 0.150$だった。ここから$\hat{m}$はだいたい$11$だ。いいかえると、VE設問において、ひとりの人は自分だけでなく、10人分の身近な人々からの情報に基づいて回答しているのである。

 もちろん、身近な人々が無作為標本ってことはない。もうちょっと精緻化しよう。
 「内輪調査」における民主党投票意向の割合$\hat{v}_r^l$の平均は、$v_r$ではなくて$v_r+\theta_r^{s_i}$であるとする。添え字$s_i$は、$i$さんのソーシャルネットワークという意味。
 仮に対象者が、自分のソーシャルネットワークのバイアスに自覚的でそれをきれいに取り除くことができるならば、
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r; \theta_r^{s_i}] = \hat{v}^l_r - \theta_r^{s_i}$ [20]
である。これは二項分布$B \left(v_r, \frac{(v_r + \theta_r^{s_i})(1 - v_r - \theta_r^{s_i})}{m} \right)$に従う。分散がちょっぴり変わったけど、正規近似しちゃうなら $N(v_r, 1/(4m))$のままでよい。つまり、実質的には変わらない。

 さらに精緻化する。対象者が身近な人々のバイアスを知らない、ないし、長い目で見れば知っているけど今回のレースにおけるバイアスは知らない、としよう。
 身近な人々における未知のショックを$\eta_r^{s_i} \sim N(0, \sigma^2_\eta)$とする。このとき、$\hat{v}^l_r$は平均$v_r + \eta_r^{s_i}$の二項分布に従う。これを正規近似すると、平均は$v_r$だが、分散は$1/(4m) + \sigma^2_\eta$に増える。この分散を級内分散 $\lambda = \frac{\sigma^2_\eta}{\sigma^2_\eta + 1/(4m)}$ を使って書き換えると、$1/(4m-(1-\lambda))$となる。よって
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r] = \hat{v}^l_r \sim N\left(v_r, \frac{1}{4m(1-\lambda)} \right)$ [21]
 $E[x_r^i | v_r] = Prob(E[v_r|\hat{v}_r^l] > 0.5) \approx \Phi ([2\sqrt{m(1-\lambda}](v_r - 0.5))$ [22]
 よぉし、じゃあ$\lambda$を他のデータソースから推測したろうじゃないの。[...おおお。すごく面白い、面白いんだけど、正直疲れちゃったので本項はメモ省略]
 ...というわけで、$\lambda=0.45$と推測しました。$\hat{m}$はだいたい20となる。

8. どんな情報がアグリゲートされているのか?
 VEが反映している情報とは何か。言い換えると、$m$ってのはほんとに友達の人数なのか、それとも、マスメディアとか過去の選挙結果とかから得た情報なのか。
 ここでは、VEが反映しているのがidiosyncraticな情報か、それともcommonな情報かという点について検討する。[←うぉぉぉぉぉぉ]

 極端にいえば、VEが反映しているのが完全にcommonな情報であれば、みんなが同じVEを返すはずである。また完全にidiosyncraticな情報であれば、VEは人によって一致しないし、(それがinformativeなのであれば)VEは接戦のときにより不一致になるだろう。

 シミュレーションしてみよう。以下、$\sigma_e=0.15$とする。
 それぞれの対象者が、独立で不偏なidiosyncraticシグナルと、(選挙間で独立で不偏な)commonシグナルを受け取る。対象者は前者に$(1-\phi)$, 後者に$\phi$の重みをつけてこれを足し、VEを返す。
 $\phi=1$ならVEは必ず0か1になる。いっぽう$\phi=0$なら、横軸に実際の民主党得票率、縦軸にVE率をとったとき、なだらかなロジスティック曲線状になる。
 $\phi$を徐々に変えていくと、$\phi=0.14$のときに実データと近くなる。つまり、VEが反映しているのはかなりidiosyncraticな情報である。

 よーし。[21]式に戻るぞ。
 idiosyncratic シグナルを$\hat{v}^l_r \sim N \left(v_r, \frac{1}{4m(1-\lambda)} \right)$、それと直交するcommonシグナルを$c_r \sim N(v_r, \sigma_c^2)$とする。[21]式は
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r; c_r]$
 $= \frac{\sigma_c^{-2} c_r + 4m(1-\lambda) \hat{v}_r^l}{\sigma_c^{-2} + 4m(1-\lambda)}$
 $= v_r + \frac{\sigma_c^{-2}}{\sigma_c^{-2} + 4m(1-\lambda)}(c_r-v_r) + \frac{4m(1-\lambda)}{\sigma_c^{-2} + 4m(1-\lambda)}(\hat{v}_r^l-v_r)$ [24]
という風に化ける。最後の行の第二項がcommon シグナル, 第三項がidiosyncraticシグナルである。
 [...ちょっと時間切れなので以下メモは省略するけど、面白いなあ]

9. VEとVIの相関
 vote expectationにおけるwishful thinkingの存在は昔から知られている。また、他者に依存して選好を形成する現象も広く知られている(バンドワゴン効果とか)。
 実際、VIとVEの個人レベルでの相関は0.42。

 これは本論文のモデルで容易に説明できる。「内輪調査」の対象者のなかに自分が入っているからである。
 まずは「内輪調査」対象者が無作為だった場合。自分抜きの「内輪調査」結果を$\hat{v}_r^{-l} \sim N(v_r, \frac{v_r(1-v_r)}{m-1})$としよう。$\hat{m}=11.1$として、
 $Prob(x_r^i = 1|v_r^i = 1; \hat{v}_r^{-l}) \approx \Phi(6.4(v_r-0.45))$
 $Prob(x_r^i = 1|v_r^i = 0; \hat{v}_r^{-l}) \approx \Phi(6.4(v_r-0.55))$
となる。$v_r^i$と$x_r^i$の相関は、$v_r=0.5$のとき0.25となる。
 ソーシャルネットワークとcommon/idiosyncratic情報を付け加えると...[死ぬ―。以下省略するけど、レースごとにVIが民主党の人と共和党の人に分けて、実際の民主党得票率とVEの散布図を描き、モデルから予測される曲線を当てはめる。VIによる差をかなり説明できる]
 このように、VIとVEの相関は合理的推論モデルの範囲内で説明できる。

10. 非無作為標本からの効率的な予測
[どっちかの政党に投票した人だけに絞って分析し直す。頭が混乱してきたのでパスするけど、モデルを使うとそれでも得票率が結構予測できるという話]

11. 考察
 選挙分析者のみなさん、VIよりVEがあたります。
 構造的解釈の節ではVEが当たる理由の説明を試みた。またこのモデルを使えばVEとVIの相関が説明できるし、すごく偏った標本からでも予測できる。
 思えば、科学的な世論調査が勃興する前、選挙予測の方法は「誰が勝つと思いますか」と訊ねることだった。本研究はいわば歴史的実践へと立ち戻るものであった。
 今後はこういう手法の研究が進んで、製品の需要予測とか消費者測定とかに使えるようになるといいですね。

 ... 正直、参りました。脱帽。
 いやあ、これを最初に読んでなくてよかった。もし読んでたら、このテーマには絶対手出ししようと思わなかったわ...
 
 感動してばかりでも癪に障るので、自分なりに別の角度から考えてみると、この論文のモデルと、Hong&Pageいうところの「集合知が生じるのはエージェントが多様だからかもしれない」とはどういう関係にあるのだろうか。この論文の言葉で言うと、VEにおけるシグナルが不偏で分散が一定であれば、idiosyncraticシグナルの比率が高いほうがVEベースの予測の精度が上がる、ということになるのだと思うけれど、これは8節のモデルからいえることだろうか。

論文:予測市場 - 読了:Rothschild & Wolfers (2012) 「誰に投票しますか」と訊くより「誰が勝つと思いますか」と訊いたほうが良いのはなぜか、モデルで説明しよう

 引き続きcitizen forecasting 論文のメモ整理。
 政治学者Michael Lewis-Beckさんによるcitizen forecastingについての論文は、調べた限りでは3本。citizen forecastingという概念を最初に打ち出したノート Lewis-Beck & Skalaban (1989), 下記の Lewis-Beck & Tien(1999), そしてUK総選挙に適用した Lewis-Beck & Stegmaier(2011)である。

Lewis-Beck, M.S., Tien, C. (1999) Voters as forecasters: a micromodel of election prediction. Internetional Journal of Forecasting, 15, 175-184.

 Lewis-Beck & Skalaban (1989)と同じデータソース(American National Election Study)に基づき、期間を延ばして再分析した論文であった。中身はだいたい同じだが、こっちのほうが論述が整理されている。

論文:予測市場 - 読了:Lewis-Beck & Tien (1999) 選挙予測のcitizen forecasting (改訂版)

citizen forecasting論文読み祭りのメモ整理。自分の分析のほうが、なにがなんだかわけがわからなくなってしまったので、原点に戻って...

Lewis-Beck, M.S., Skalaban, A. (1989) Citizen forecasting: Can voters see into the future? British Journal of Political Science, 19(1), 146-153.
おそらくcitizen forecastingを研究テーマとした最初の論文。たしか前に目を通した覚えはあるんだけど...

 対象はUS大統領選。American National Election Studiesでは「誰が大統領になると思いますか」という設問をずっと訊いていた。集計すると、結構当たっている。

 個人レベルでモデルを組んでみた。予測(正解を+1, 不正解を-1)を目的変数、{政党支持、関与、関心、メディア接触、政治が複雑だと思うか}を説明変数にとったOLS回帰モデル、選挙ごとに推定した。整合的な知見はない。[二値変数を目的変数にとったOLS回帰? 著者が著者でなければ、おいおい素人か、と思ってしまうところだ。プロビットやロジットもやったけど結果は同じである由]

 今度は{政党支持、投票先意向、学歴、調査時点}を説明変数にとってみた。高学歴だと正解しやすい。投票日が近いと正解しやすい。
 
 集団レベルではよく当たるのはなぜか。選挙を分析単位として、正解者率を目的変数、勝った政党の得票率を説明率にとった単回帰ではR二乗が0.9。つまり差があるほど予測しやすい。[←そうそう、前にこれ読んだときは、なにこのモデル、アホちゃうかと思ったのだが、いまになって読むと「嗚呼、苦労してはるなあ」と涙ちょちょぎれる思いである]

 結論。
 投票者による選挙結果の予測を社会文化的諸属性が拡張する。接戦の程度も効果を持つ。投票者はアホではなく[←ほんとにこう書いてある]、結果をある程度理解しているのだが、しかしシニカルでもないので、投票に行くのである。

 ... こうして読み直してみると、この短い論文というかノートの段階で、ぱっと思いつく論点はだいたい網羅されていたのであった。
 「選挙結果が僅差だと個人の予測は外れやすい」というのも、正直「そりゃそうだろうよ」という話に聞こえるけど、この時点でのこの研究の文脈では、おそらく意味のあるステートメントだったのだろうと思う。想像するに、「投票者は選挙結果がわからないからこそ投票に行くのだ」というような対抗的な想定があったのではないか。
 いっぽうここに出現しないのは、スロウィッキーとかスコット・ペイジのような「群衆の知恵」という視点、集団の予測能力が個人の予測能力の総和を超えるという視点である。

論文:予測市場 - 読了:Lewis-Beck & Skalaban (1989) 選挙予測のcitizen forecasting (記念すべき第一弾)

citizen forecasting 論文読み祭り, こんどはドイツに参りました。Graefeさんが謝辞に入っている。

Ganser, C., Riordan, P. (2015) Vote expectations at the next level. Trying to predict vote shares in the 2013 German federal election by polling expectations. Electral Studies, 40, 115-126.

 いわく。
 選挙予測の手法といえば、まずはvote intention, 次が予測市場、そして多変量による統計的予測だが、本研究はvote expectationに注目する。

 vote expectationによる選挙予測の先行研究概観。[うわあ...まだノーマークのがあったよ...]

  • US大統領選: Lewis-Beckら; Graefe; Miller et al.(2012 Polit.Policy); Rothschild & Wolfers。
  • UK: Lews-Beckら; Murr。
  • スウェーデン: Sjoberg et al (2009, J.Forecast.)。
  • NZ: Levine & Roberts (1991 J.Commonw.Comp.Plit.)。
  • カナダ: Blais & Turgeon (2004 Elect.Stud.)
  • ドイツ: vote expectationを訊いてた調査はあったんだけど[ノエル・ノイマン共著のドイツ語の本が挙がっている。まじか]、分析してなかった。

 個人による予測能力について。[ここすごく関心あるので詳しくメモ]

  • 投票者による選挙結果の予測についてはすでにHayes が1936年に論じている。1932年US大統領選について。
  • Lews-Beck&Skalaban(1989): 予測能力に社会的・状況的属性が効く。教育、ネットワークサイズ、情報処理の効率性。
  • Blais & Bodet(2006 Soc.Sci.Q): 文脈的情報と個人的選好の両方が使われる。[←あっちゃー...ノーマークだ]
  • Rothschild & Wolfers(2012): 他者の意図についての情報が使われる。つまり「標本サイズ」が増える。
  • Meffert et al.(2011 Elect.Stud.): 高学歴者はwishfull thinkingしにくい。[←あっちゃー...これもだ]
  • Dolan & Holbrook(2001): 政治についての知識が効く。
  • Sjoberg et al.(2009): 政治についての知識(自己評価)が効く。
  • Babad(1995 J.Psych.): 政治についての知識は効かない。[←うわー...そんなのあるの...]
  • Andersson et al.(2006 Conf.): Babadと同じセッティングで実験、やっぱし政治についての知識が効く。
  • 投票に行くつもりの人のほうが情報を集めるので予測が正確になると想定できる。
  • いっぽう、特定の政党に投票するつもりがあるとwishful thinkingが生じるとも想定できる。上述のHayes, Babad(1997, Int.J.PublicOpin.Res.), Levine & Roberts (1991), Meffert et al.(2011)。
  • 長期的な政治的志向・関与も効くはず。しかし、よく政治について議論したりメディアに触れたりするので予測も正確になる反面、wishful thinkingも生じやすいかも。
  • メディアによるpollによって形成された知覚も予測に影響するだろう。
  • ドイツだと住んでる地域も影響するだろう。

 集団による予測能力について。

  • 集団による予測の成績が良くなるという考え方はスロウィッキーのせいで有名になった。理屈はCondorcet(18c), Golton(20c). Hastie & Kameda (2005 Psych.Rev.), Page (2007 "The Difference"), Larrick, Mannes, & Soll (2012 論文集)。
  • Hong & Page(2004): perspectiveとheuristicsの2要因を指摘。
  • Murr(2011): 集団予測のほうがあたる。
  • Sjoberg(2009): 専門家の予測より素人の集団予測のほうがあたる。

 ドイツの選挙システムについて。[省略するけど、やたらにややこしい...まあ日本の選挙システムも十分ややこしいと思うけど]

 リサーチクエスチョンと仮説。

  1. 投票者は政党の投票率を予測できるか。仮説: 個人の予測能力は以下の要因が高いと高い。(a)学歴, (b)政治的知識, (c)情報行動, (d)投票に行く確率, (e)最新のpoll知覚。
  2. 個人の予測能力は以下の要因が高いとどうなるか。(a)政治組織のメンバーであること, (b)特定の政党への投票意向, (c)政党選好, (d)政党支持。wishful thinkingで予測能力が下がるかも知れないし、情報収集が後半で予測能力が上がるかも。
  3. 旧東ドイツに住んでる人は予測能力が低いはず。
  4. (a)集団予測は成績がいい。(b)予測能力が高そうな人の集計よりランダムな集計のほうが成績がよい。

 データ。
 2013年9月の選挙の4週前に電話調査をやった。サンプルサイズ1000。性年代学歴でウェイティング。
 vote expectation設問は、政党リスト(「その他」含めて8つ)を読み上げ、各政党に合計100点を配点してもらうかたち。訊き間違えた人、ある政党への配分が平均から3SD以上離れた人を除いて823事例を分析。
 独立変数は、教育(最終学歴)、政治知識(クイズ3問の成績)、政治的情報(政治ニュースに触れる頻度5件法)、投票見込み(5カテゴリ)、最後に選挙予測に触れたのはどのくらい前か、政治組織のメンバーか、特定の政党に投票するつもりか、投票先政党... [後略]。

 結果。
 個人の予測はかなり不正確(RMSEで5.1パーセントポイント)。RMSEとMAPEを目的変数にした回帰モデルを組むと、政治的知識は負の効果(つまり予測は正確になる)、4日以内にpollの結果に触れていると負の効果、政党所属は負の効果(所属している人は予測を大きくは外さない)、教育は負の効果、政党支持は正の効果(つまりwishful thinkingと思われる)。投票意向、政党選好、住んでる地域はあんまり効かない。政党支持別に細かくみていくと[...中略...]。
 集団の予測もあんまり良くなかった[ええええ... ウケる...]。
 もっとも、伝統的なvote intentionsによる予測に比べればそう悪くない。また集団予測の誤差は個人予測の誤差の平均よりは小さい。
 個人の予測成績が良いはずの層に絞ってみると[...中略...]変な予測は減るけど、平均して良くなるとはいえない。

 [標本や集計方法についていろいろ細かい話。略]

 考察。
 多くの先行研究に反し、vote expectationは良い予測とならなかった。
 8政党の得票率の予測というのは調査対象者にとって難しかったのかも。群衆の知恵の研究はたいてい単純な数値に焦点を当てている。
 個人の予測誤差が集約でキャンセルアウトされるというのはその平均が0だった場合の話で、みんな歪んでいる場合はやはりだめだ。
 vote expectationがうまくいくかは特定の設問の構造と複雑性によるのであろう。

論文:予測市場 - 読了:Ganser & Riordan (2015) citizen forecastingによる選挙予測 in 2013年ドイツ連邦議会選挙

2018年10月22日 (月)

 ここんところ都合でcitizen forecastingの論文を読みまくっていたので、そのメモを整理しておく。

Boon, M. (2012) Predicting elections: A 'Wisdom of Crowds' approach. International J. Market Research, 54(4), 465-483.
 著者はロンドンのICM Researchという会社の人。Wikipediaによれば、世論調査をやっている会社で、Creston Insightというマーケティングの会社の傘下らしいが、この業界も離合集散が激しいので、いまどうなっているかはよくわからない。著者のBoonさんは現在はDeltaPollという会社のディレクターであるらしい。

 論文の構成がわからず、イライラしながら読んだんだけど... 要するに5つの事例の報告である。
 このジャーナルって、なんだかこういう風な、ちょっとゆるい雰囲気の論文が載るような気がするんですが、どういうことなんでしょうか...

 伝統的なvote intention survey(どこに投票するかを訊く調査)による選挙予測があたらなくて困ってますという前置きがあって...
 市場調査関係者はいまや皆知っているが[そうですかね?]、群衆の知恵というものがありましてですね、賢い人々の予測より、ランダムな群衆による集合予測が良かったりするのです。スロウィッキーいわく、その条件とは、(1)多様性、(2)独立性、(3)脱中心性、(4)集約。
 市場調査というものは、現実のアウトカムと照合されることはまずないわけで、選挙予測は得がたい機会である。
 
 事例1。2010年英国総選挙で、ガーディアン紙のために投票日直前に電話調査をやって、投票意向(10件法)、vote intention設問、2005年の投票行動を訊いた。
 これを組み合わせ、我が社のスタンダードな予測技法を用います。

  • まず性・年代・社会階層・世帯年収・職業状態・宗教でウェイティング。ターゲットは別の確率標本。
  • 投票意向と過去投票有無でウェイティング。まず投票意向の10件法回答(1~10)を10で割り、2005年に投票に行ってなかったらさらに半分にする。[意外に単純...]
  • 上の手続きでデモグラ的な代表性が確保できたはずだが、政党支持の代表性が確保できてないので、過去投票先でウェイティングする。ターゲットは、2005年の選挙結果を8割、他のデータを2割使ってつくる[政党の得票率ってこと?議席数かも]
  • 最後に、「2005年には投票に行きました、今年は投票先未定です」という人の半分を2005年の投票先に割り付ける。

 これをベンチマークにします。
 さて、実はこの電話調査の最後に、群衆の知恵方式の設問を入れました。まず選挙結果について推測して貰った(三大政党とそれ以外、計4つの得票率(?)。足して100になるように)。次に、2005年の実際の結果を伝えてもういちど推測して貰った。どちらもウェイティングなし、単純平均。標本サイズは2,022。
 結果:平均誤差[各政党の得票率(?)と予測の誤差の絶対値の平均のことらしい]は、スタンダードな方法で1.2パーセントポイントなのが、群衆の知恵設問その1が2.2, その2が0.9。

 事例2。今度はオンラインのオムニバス調査でやります。隔週、最低2000人、4回。設問は上の2問で、標準的なデモグラでウェイティング。。これをガーディアン用の電話調査と比べる。
 結果:[細かいところは省略すると...] 予測して正確そうにみえるし、vote intentionのトレンドを反映している。云々。

 事例3。群衆の知恵方式の設問を集計する際に、過去の投票行動でウェイティングしたらどうなるか。[...中略...] あんまりかわらない。ただし、ある特定の政党の支持者に絞ってしまうと、それはもちろん大きく歪む。云々。
 
 事例4。2011年のふたつのレファレンダムの予測。群衆の知恵方式は予測を大きく外した。考えるに、回答者に十分な知識がなかったからだろう。

 事例5。ここまでの分析で、群衆の知恵方式の設問には対象者の代表性はいらないけど多様性は必要だということが示された。具体的にどうすればいいのかは今後の課題なんだけど、ためしに2010年総選挙の群衆の知恵設問を、標本を少数抽出して集計しなおしてみた。2つの設問とも、2022人から500人抽出しても、250人抽出しても、結果はあまり変わらない。さすがに100人だとがくっと悪くなったけど。
 このように、群衆の知恵方式は標準的なvote intention調査の代替として有望です。
 云々。

 ... わたしゃイライラしましたけど、全体にのんびりしていて楽しい論文であったような気もする。やっぱしあれだろうな、持っているデータが貴重なら、こんな感じの分析でも立派な論文になる、ってことなんだろうな。
 それにしてもこの論文、引用文献は、スロウィッキーの一般書、ウェイティングについての論文らしきIJMRの2本、そしてBrainJuicerの人のESOMAR2009での発表、以上の計4本だけ。著者は"Wisdom of Crowds"アプローチと呼んでいるが、それって選挙のcitizen forecastingそのものなんだから、政治学で先行するLewis-Beck, Murr, Graefeを引用しないのはかなり妙な感じなんだけど... 知らないわけじゃないでしょうに。実務家が研究者をやたらに持ち上げ奉る傾向もちょっとアレだけど、無視するってのはどうなの?

論文:予測市場 - 読了:Boon (2012) UKの選挙における citizen forecasting (by 世論調査会社の中の人)

2018年10月21日 (日)

Temporano, M., Dufresne, Y, Savoe, J., van der Linden, C. (2019) Crowdsourcing the vote: New horizons in citizen forecasting. International Journal of Forecasting, 35(1), 1-10.
 citizen forecastingによる選挙予測(「誰が勝つと思いますか」と訊いて集計する。「誰に投票しますか」と訊くよりもあたるといわれている)についての最新の論文。著者らはカナダの研究者。
 来年出る論文が先行公開されている模様。こういうのって発表年は2019年なのか...なんか変な感じだ。

 citizen forecastingについての先行研究概観と、カナダの選挙制度の説明があって...
 対象とする選挙は2011年~2017年のカナダの選挙、計10件。えーと、カナダには政治学者が作ったVote Compassというアプリがある由。ボートマッチングみたいなサービスらしい(日本にもありますね)。実に210万人くらいのデータがある。これを使います。
 分析対象はのべ1154の選挙区。対象者は平均1821となる。当然ながら偏りはあって、教育やイデオロギーが偏っていることがわかっている。
 なにを訊いたかというと、自分の選挙区で各政党が勝つ見込みを訊いた。0から11までの数直線上に政党を並べてもらうかたち。ここから、1位政党については2位との差、他の政党については1位との差(負値になる)を求める。これをrelative confidence index(RCI)と呼ぶ。なぜすべて同じ基準で揃えないか(1位政党を0とすりゃいいじゃん)と思うけど、経験的にこっちのほうがいいのだそうである。そうなの?
 
 結果...

 ... 申し訳ないんだけど、だんだん関心が薄れてきちゃったので途中から読み飛ばした。要するに、選挙区レベルの結果をcitizen forecastingでかなり予測できましたという論文であった。
 先行研究概観に全然知らない話が載ってないことが確認できたので、目的は達したということにしよう。

論文:予測市場 - 読了:Temporano, et al. (2019) citizen forecasting による選挙予測 in カナダ

2018年10月20日 (土)

 「世論」と書いて、ヨロンと読むこととセロンと呼ぶことがありますわね。昔は「輿論」と書いてヨロン、「世論」と書いてセロンと読み、前者はpublic opinion, 後者はpopular sentimentsを指していたのだそうです。
 これはもちろん、佐藤卓己(2008)「輿論と世論 ー 日本的民意の系譜学」の受け売り。読み始めたら止まらない、超・面白本です。

 1946年11月、内閣は当用漢字表を告示。「輿」という漢字の使用が制限されることになる。新聞社は「輿論」をどのように言い換えるか。
 「輿論と世論」は、そのいきさつを主に吉原一真(1966)「黎明期のひとびと : 世論調査協議会の開催」に依拠して辿っていく。
 吉原は同盟通信社から官僚に転じて情報局に属し、46年の時点で内閣参事官だった人。この人のところに、毎日新聞輿論調査課・三宅英一から電話がかかってくる。輿論調査はどう言い換えるんだ? 吉原は提案する。「三宅さん、私見だが世論はどうだろう」

 いっぽう別の証言もある。毎日新聞の輿論調査部員・宮森喜久二の提唱によるものだという説で、毎日新聞社の社史はこの説を採っているらしい。なるほど、 宮森喜久二 (1995)「世論調査草創期の思い出」はこう述べている。「万人が首肯し抵抗も感じない別の文字を持ってくる以外にないと考えて思いついたのが「世論」という文字であった 。これなら重箱読みながら「よろん」と読めるし、「せろん」と読む時期が来るかも知れないが、それはその時のこととしても大した問題ではないか、と考えた。加えて字劃も少ないし感覚的にもスマートである」

 「輿論と世論」にはさらに別の証言も紹介されている。朝日新聞大阪本社の百瀬千仭という人(後に国語審議会委員となる)が、「輿論」の代用語として「世論」を書いた用語集を東京に送ったところ、東京では「世論」がヨロンと呼ばれるようになってしまい、のちに百瀬は驚愕した、というもの。この出典は、1974年の雑誌「言語生活」の記事らしい。ありましたね、そういう雑誌!

 佐藤卓己さん(というか、私この先生の著書のファンなので、以下スポーツ選手と同様に呼び捨てします) が吉原説を最初に取り上げているのは、発表年が早く信頼性が高いと踏んだからだと思う。そうだよねタクミ?
 実際のところは、複数の人がそれぞれの思惑で、同時多発的に「輿論」→「世論」という言い換えを考えた、というのが本当のところなのかもな、と思う。そういう理解でいいのかな、どう思う、タクミ? (...すいません)

 まあとにかくそんなわけで、1946年12月8日、毎日新聞の見出しに「世論がさばく」という表現が登場。そうか、真珠湾のちょうど5年後か。
 なお、翌9日には朝日新聞に「世論調査」という表現が登場する。

 なんでこんなメモをとっているかというと...
 数日前、別の調べ物をしていてほんとに偶然に見つけたんだけど、日本世論調査協会報「よろん」85巻 (2000) p.55に短い匿名コラムが載っていて、そこに上と関連する面白いエピソードが紹介されていた。
 「よろん」のこの号には宮森喜久二の追悼記事(2頁)が掲載されている(水野但「宮森喜久二君を送る」)。このコラムはその2頁目の余白を埋めているのである。
 このコラム、なにしろ目次に載ってない。関心ある人にとっても、これを探しあてるのは至難の業であろう。全文を転載しちゃいます。

宮森さんの「世論」作戦
 1946年、漢字制限で「輿」が使えなくなって「輿論」をどう表すか、与論、民論、公論ではどうか、などと問題となっていたころのこと。宮森喜久二さんは、「輿論」調査に替えて新聞紙上で「世論調査」を使い、論争に事実上の決着をつけようとした時の経緯を、当協会報第75号の「世論調査草創期の思い出」の中でふれている。
 新聞がある時期から派手な形で「世論」を使用することを考え、朝日にも足並みを揃えてもらうことにし、次回の調査からどちらが先になっても「世論」を使用する、という発想。その先のことを、宮森さんは「その時こちらは次の調査は企画に入る段階であったから、当然朝日が先に『世論』を使ってくれると期待し、またこちらの押しつけでない印象のためにも朝日に先鞭をつけて欲しかった。ところが悪いことに毎日の世論調査の発表の方が先になってしまった。勿論あいさつは忘れなかったが、半月程経って朝日が『世論調査』の文字で結果を発表して貰えた.私は朝日新闇の雅量に敬意を表してやまなかったが」と書いている。
 先年、実際の紙面を調べたところ、朝日が「世論調査」として報道したのは1946年12月9日の紙面であり、毎日はその一週間後の12月16日であった。これは毎日の世論・選挙センター副部長の浜田重幸氏にも調べて頂いて確認された。ただ、朝日が出す前日の毎日紙面で、世論調査の記事ではない一般の記事の見出しに「世論」が使われていることがわかった。「教組、遂に労委提訴」のニュースの関連記箏として、「正しい民論、大衆の声、健全な父兄の常識がこの問題をさばいてくれると信じている(以下、略)」という文相の談話が載り、それに「世論がさばく」の2段見出しがつけられているのだ。(以前から、「世間の議論」といった意味での「世論」は、「せうん」「せいろん」の読みで使われてはいたが、この見出しは談話の内容からみて、「輿論」に替えて使ったと思われる。)
 宮森さんの文では、「小出しに(『世論』を)使用することを避けるため社内においてもこれを秘匿すること」になっていた。そうしてみると、宮森さんの「あいさつ」は他部のフライングをわびたものではなかったか。宮森さんが毎日新聞世論調査に持ち続けてきた自負が、はからずも記憶でフライングしてしまったのかもしれない。(い)

 なるほどね、12月8日の見出しの「世論」は、毎日の世論調査とは関係ない。宮森の回顧談には、ちょっと事実と異なる部分があるわけだ。
 コラムの書き手である「(い)」とは誰か。この号の末尾に編集委員が連名であとがきを書いており、その6名のなかで名前が「い」から始まるのは今井正俊という方だけ。朝日新聞で世論調査に携わっていた方である模様。

 以上、この小さな埋め草的コラムが面白かったので、メモをとった次第。いやー、目次にない記事ってやめましょうよ、後世の人が困りますよ。

 なお、上述の宮森「世論調査草創期の思い出」は別の面でもとても面白かった。調査の基礎を学ぶため、 敗戦後の焼跡のビルの一室で戸田貞三ら錚々たる教授たちの教えを受け、のちに内幸町のGHQで占領軍の将校パッシンの教えを改めて受けたのだが、パッシンの説明のほうがシグマ記号が出てこなくてわかりやすかった、と感謝している。ありそうだなあ、そういうことって。

雑記 - 1946年に毎日新聞がpublic opinionという意味で「世論」という言葉を最初に使ったいきさつ秘話

2018年10月19日 (金)

 データ解析が活躍する分野は多々あるが、私がたまたまお世話になっております市場調査というのは、そのなかでもかなーり日陰のほうにある、かなーり地味な分野であって、我こそはデータ解析の専門家!と胸を張るような人はそうそういないように思う(いらっしゃいましたらすいません)。だからこそ私みたいな素性の知れない奴がうろちょろしている、という面もある。
 もっともグローバルの市場調査会社は、R&D部門に本格的な統計家を抱えていることがあって、その例として私の頭に浮かぶのは、LipovetskyとConklinという人たち。応用統計系の学術誌に結構な数の論文を載せているのだが、ご所属はUSのGfKである。

Conklin, M., Lipovetsky, S. (2013) The Shapley Value in Marketing Research: 15 Years and Counting. Proceedings of the Sawtooth Software Conference.
 仕事の都合でシャープレイ値についてお問い合わせを頂いたので、調べるついでに目を通してみた。前にSawtooth社のカンファレンスのproceedingsを眺めていたときに気が付き、面白そうだな、と思っていた奴。
 ゲーム理論の本にシャープレイ値というのが出てくるけど、マーケティングリサーチでもたまーに見かけることがある。それを最初に提案したのは俺たちだぜ、という回顧談である。

 いわく、
 1998年、我々2人はTURF(total unduplicated reach & frequencyね)について研究していた。TURFはもともと雑誌への広告出稿の文脈で出てきた概念で[←へー!]、リーチを最大化する出稿誌の組み合わせを見つけるというのが目標であった。これが製品ライン最適化に応用された。
 当時の標準的手続きは次の通り。あるラインにおけるフレーバーの候補集合のそれぞれについて購入意向を訊く。で、どちらかに「必ず買う」と答える人の人数を最大化するペアを見つける, 三つ組を見つける, 四つ組を見つける...。これはNP困難問題である。
 当時Lipovetskyさんはマーケティングリサーチ業界に参入したばかりだったのだが、この計算をみて云った。「これって...ゲーム理論でいうシャープレイ値に似てない?」「なにそれ?」
 これが二人の、15年間にわたるゲーム理論の世界への冒険の始まりであった。[←ひゅー、かっこいいー]

 シャープレイ値とはなにか。これはShapleyが1953年に発表したもので、協調型ゲームにおいて、ゲームによって作られた価値の全体を、個々のプレイヤーに配分するものである。
 プレイヤー$i$のシャープレイ値は,
 $\phi = \sum_{S - all subsets} \gamma_{n(s)} [v(S) - v(S-\{i\})]$
 $\gamma_{n(s)} = \frac{(s-1)!(n-s)!}{n!}$
[記法が大変不親切で、読み手に理解させようと思ってないだろ?という感じなのだが、$S$は可能なすべての提携を表すインデクス、$v(S)$は提携$S$の下でのゲームの特性関数値、$n(S)$はプレイヤー数、$S-\{i\}$とは「$S$から$i$を除いた集合」を指しているのであろう]
 要するに、プレイヤーのすべての可能な下位集合$S$を通じて、あるプレイヤーが入っている場合の価値から入っていない場合の価値を引いた値を重みをつけて合計したものである。いいかえると、あるプレイヤーがなんらかの他のプレイヤーの集合に参加したときの限界価値である。[文章にするとわかりにくいね...]
 この概念をTURFに適用すると、プレイヤーは製品、価値はリーチ、シャープレイ値はリーチの配分である。

 幸いにして、TURFはゲーム理論で言うところのシンプルゲームである。あるゲームの価値は1か0。ある提携が1を得たら、その提携の全てのプレイヤー($r$人とする)がシャープレイ値として$1/r$を得る。つまり、ある製品集合がある消費者にリーチしたら、そこに含まれるすべての製品が$1/r$を得る。
 シンプルゲームは結合が可能である。つまり、ある消費者をあるゲームとみなしてシャープレイ値を求め、すべての消費者を通じて平均すればよい。

 というわけで、TURFはNP困難であるにも関わらず、シャープレイ値はかんたんに計算できる。マーケティングの観点からみて、ここでいう価値とはなにかというと [...シャープレイ値を製品の購入確率として捉えることができるよね的な話。わかりにくいので中略...] というわけで、消費者をカテゴリ購入頻度と一回当たり購入数量で重みづけて集計すれば、有用なビジネスツールとなるであろう。
 一般に小売店のカテゴリ責任者は、製品の売上を順位づけし、下位にある製品を外す。シャープレイ値を使えばもっと良い案を提示できる。
 シャープレイ値を使うなら、TURFのやり方もちょっと変えたほうが良い。単に自社製品について意向を聞くんじゃなくて、競合こみのリストを提示し、これまでに買ったことがある奴を時間制限つきで選ばせるのがお勧め[←なるほど]。新製品について調べる場合は、今買ってる製品と新製品のリストを提示して順位づけさせるのがお勧め。
 
 他の使い方もある。たとえば、回帰分析で$R^2$を予測子に分配するとき...
[シャープレイ値を回帰モデルにおける予測子の相対的重要度の指標として使うという話である。この話題、それはそれですごく関心があるんだけど、この文章だと書き方がカジュアルすぎてかえってわかりにくいので、メモは省略。お二人は2000年代に、この問題について何本も論文を書いているのである。Gromping & Landau(2009)による批判とLipovetsky & Conklin (2010)での応答についても一言触れている。私はGrompingさんのほうに分があると思った覚えがあるんだけど、当人としては言い負けたと思ってない模様]

 シャープレイ値のいいところは効用関数が抽象的だというところだ。たとえば狩野理論と組み合わせて...
[これも説明が端折られすぎててわかりにくいので省略するが、Conklin, Powaga, & Lipovetsky (2004)の紹介であろう。前に読んだ気がする]

 というわけで、マーケティングリサーチにシャープレイ値を適用して15年、大変有用な手法であることがわかった。ビジネスというのは結局のところ優先順位づけである。シャープレイ値はそのための簡易な方法を提供してくれる。
 云々。

 ... さきほど検索してみたところ、SNSではお二人の所属はまだGfKとなっていた。先日GfKのカスタムリサーチ部門はIpsos社に買収されたのだが、お二人はIpsosに残るのかしらん。

論文:マーケティング - 読了:Conklin & Lipovetsky (2013) マーケティングリサーチにおけるシャープレイ値の使い道

2018年10月18日 (木)

Hong, L., Page, S.E. (2004) Groups of diverse problem solvers can outperform groups of high-ability problem solvers. PNAS, 101(46).
 都合で無理やり読んだ論文。集合知の研究で有名な、かのスコット・ペイジさんによる理論論文である。身の程知らずにもほどがあるのだが...

(イントロ)
 集団の問題解決において集団内の多様性が大事だといわれるのはなぜか。
 多くの人がこう考えている。デモグラフィック属性とか文化・エスニシティとか熟達とかの点で多様性がある集団は(これをアイデンティティ多様性と呼ぼう)、問題を表現し解決する方法においても多様性を持っているので(これを機能多様性と呼ぼう)、問題解決のパフォーマンスが高くなる。
 では、機能多様性がパフォーマンスにつながるのはなぜか。個々人の能力が低くても、機能多様性があれば、優秀な奴らに勝てるのか。
 これを説明する数学的枠組みを提案する。

多様な問題解決者のモデル
 解集合$X$を実数値にマッピングする関数$V$があり、この関数の最大化を目指す問題解決者の集団があるんだけど、ひとりひとりの能力は限られている、としよう。たとえば、$X$はエンジンのデザインの可能な集合で、$V$はエンジンの効率性である。

 問題解決者たちは内的な言語を持っており、それによって解をエンコードする。ここでいう内的な言語というのは、脳が情報を知覚し貯蔵する神経科学的仕組みだと思ってもよいし、我々が経験と訓練に基づき問題を解釈する仕組みを比喩的に指しているのだと思ってもよい。
 この内的言語による解の表現をパースペクティブと呼ぼう。つまり、パースペクティブとは解集合とエージェントの内的言語とのマッピング$M$である。

 問題解決者は解を探索する。その探索の仕方を表すために、ある問題解決者が、自分の内的言語で表現された解集合を、解の下位集合へとマッピングするヒューリスティクスを持っていると考え、このマッピングを$A$とする。つまり、問題解決者が検討するのは、$A$によって生成された解の下位集合だけである。

 というように考えると、あるエージェントの問題解決能力とは、パースペクティブとヒューリスティクスのペア$(M, A)$である。エージェントが2人いたら、$M$も違うかもしれないし$A$も違うかもしれない。
[←よくわからん。$M$はその人が内的に表象しうるすべての解の集合を生成するマッピングで、$A$はその人が実際に検討する下位集合を生成するマッピングだよね? $A$で生成された下位集合のなかでどれがいいかを選ぶ能力ってのはないかしらん。解の評価は自明であって、探索さえすればいいという設定なの? ここではきっとそうなんだろうな]

 あるエージェントが問題をエンコードし、ヒューリスティクスを適用し、検討した解のなかで解を選び、選んだ解より高い値を持つ解が検討した集合の中にないとき、選んだ解を局所最適解と呼ぶ。あるエージェントの持つ局所最適解の集合、そしてそのbasins of attractionのサイズが、そのエージェントの能力であるといえるだろう。
[←basins of attractionというのがよくわからん。$A$が生成した解の下位集合のサイズのこと?それとも、$M$が生成しうる解の集合のうち、なんといえばいいんだろうか、後になって「無視してはいなかった」といえるような範囲のこと?]

 エージェントの集団が手に入れる解は、個々のエージェントの局所最適解の共通部分に位置する解だけである。このことは、エージェントがチームとしてともに働く手順とは独立に成り立つ。しかし、相互作用の手順がちがえば、すべてのエージェントにとって局所最適解となる解のbasins of attractionも変わってくる。だから、チームの働き方はパフォーマンスに影響する。

計算実験
 整数$\{1,\ldots,n\}$を実数に変換するランダム値関数について考える。実は、値は$[0,100]$の一様分布から独立に抽出されている。
 エージェントはこの関数を最大化する値を見つけようとする。どのエージェントも、$n$個の解を、円周上に時計回りに並ぶ$n$個の点としてエンコードする(つまり、パースペクティブは皆同じ)。
 個々のエージェントは、現在位置の右にある$l$個の点のなかの$k$個をチェックする。そのヒューリスティクスは$\phi = (\phi_1, \ldots, \phi_k)$ ただし$\phi_i \in \{1,\ldots,n\}$で表される。
 例を挙げよう[←はい、さっさとそうしてください]。$n=200, k=3, l=12$とする。あるエージェントのヒューリスティクスが(1,4,11), 開始点は194であるとする。このエージェントは

  1. まず194番の値と194+1=195番の値を比べる。194番のほうが高かったとしよう。
  2. 194番の値と194+4=198番の値を比べる。198番のほうが高かったとしよう。
  3. 198番の値と、198+11=209番、すなわち(一周200個なので)9番の値を比べる。9番のほうが高かったとしよう。
  4. 9番の値と9+1=10番の値を比べる...
  5. というのを繰り返し、現在位置より高い値がみつからないのが3回続いたらストップする。

 あるヒューリスティクス$\phi$のパフォーマンスは、始点$i$のときに到達する停止点を$\phi(i)$として、
 $E[V, \phi] = \frac{1}{n} \sum_i^n V[\phi(i)]$
である。$k, l$が決まれば、ヒューリスティクスの集合が決まる。

 ここから実験。
 ここでは、$l = 12, k=3, n=2000$の結果を報告する。すべてのヒューリスティクスについてパフォーマンスを求めておき、最優秀な10個のエージェントの集団と、ランダムに選んだ10個のエージェントの集団をつくる。
 で、エージェントの集団に解を探させる。エージェント1番が解を探し、2番はそこからまた解を探す。順繰りにずっと繰り返して、誰も新しい解を見つけられなくなったらストップ。
 結果。ランダム集団のほうが成績が良い。集団内のヒューリスティクスの多様性をみると($\phi$の異同を総当たりで数える)、ランダム集団のほうが多様である。20エージェントに増やすと、成績の差も多様性の差も小さくなる。$l=20$にすると(多様性が高くなりやすくなる)、ランダム群の多様性は実際に高くなり、また成績も上がる。
 [いやぁ... 私が素人だからかもしれないけれど、セッティングが抽象的すぎて、「うまいこと騙されている」感が拭えない。まあこれはデモンストレーションで、本題はここからなんでしょね]

数学的定理
 エージェントの母集団を$\Phi$とする。以下を想定する。

  • エージェントは知的である。すなわち、あるエージェントは、所与の開始点から、weekly betterな解をみつける[←頭のいい人は難しいこと言うから嫌いだよ... 他の解と同等かそれ以上な解を見つけるってことであろう。局所解の集合は列挙可能である。
  • 解は難しい。すなわち、「いつも最適解を見つけちゃうエージェント」はいない。
  • エージェントは多様である。すなわち、いまここに最適でない解があったら、それよりも良い解を見つけうるエージェントが少なくとも一人は存在する。[←えっ...それ結構強い仮定じゃない...?]
  • 最良のエージェントは一意に決まる。

 これから次の定理を示す。$\Phi$からエージェントを、なんらかの分布に従って抽出するとき、$N$人を抽出したなかからさらに個人レベルで最良の$N_1$人を選んでつくった集団のパフォーマンスより、最初から$N_1$人を抽出してつくった集団のパフォーマンスのほうが良くなるような$N_1$と$N$($N_1 < N$)が、確率1で存在する。

 [と、ここから数学の話になる... 頑張って読み始めたんだけど、気が狂いそうになったので断念。人の頭にはですね、それぞれの限界というものがあるのです]

結語
 本論文では、知的問題の解決において、最良の問題解決者からなる集団より、ランダムに選ばれた問題解決者からなる集団のほうがパフォーマンスが良くなる条件を示した。
 理想の集団は有能かつ多様な集団だが、問題解決者のプールが大きくなるほど、最良の解決者はどうしても似てくる。
 なお、集団が小さすぎるとランダム集団はうまくいかない(局所最適解がたまたま共通してしまうから)。また集団が大きいときには有能集団も多様性が生じてパフォーマンスが上がる。
 今後の課題: コミュニケーションコストの考慮、学習の考慮。

 ... いやー、難しくて死ぬかと思たがな。
 この論文、ペイジさんの主著"The Difference" (2007) (邦訳「多様な意見はなぜ正しいか」)の8章の説明があまりに回りくどく、素人向けやからとゆうてこれはないやろ、ええ加減にせえよ、と腹を立て、探して読んでみた次第である。 先生すいませんでした。おとなしくご著書を読みますです。

論文:予測市場 - 読了:Hong & Page (2004) 平凡な人々のグループが賢い人々のグループよりも賢くなるメカニズム

<< 読了:Markos, et al.(2018) 次元縮約とクラスタリングを同時にやりたいあなたのためのclustrdパッケージ
 
validate this page / CSS