elsur.jpn.org >

« 2018年9月 | メイン

2018年10月30日 (火)

 仕事の都合で、統計学の一般的な知識についてのご相談を頂くことがある。そうしたご相談の、そうだなあ...4割か5割くらいは、南風原「心理統計学の基礎」を熟読すれば答えられる内容である。いうなれば、私の日々の仕事の一部は、南風原本を適宜わかりやすく言い換えることに過ぎない。嗚呼、哀れな人生。
 しかし、ここにふたつの問題がある。(1)ご相談を受けてから熟読している時間はない。(2)前もって熟読していたとしても、覚えていられるとは限らない。
 幸か不幸か、私は人生においてヒマな時期が結構長かったので、(1)の問題は一応クリアしているんだけど(つまり、2002年の刊行時にかなり真剣に読んだんだけど)、(2)の問題が壁となって立ちはだかる。特に最近は、この壁がすごく、すごーく、ものすごーく高い。

 このたび都合であれこれ説明を書いていて、ああこの話って、あの本の8章、部分相関係数とか偏相関係数とかからはじめてTypeIII平方和に至るくだりの、下手な書き換えに過ぎないなあ... と気が付いた。
 というわけで、せめてもの忘備録として、8章の内容をメモしておきます。
 事例を剥ぎ取って要点のみメモする。なので、メモだけをみると、いっけんすごく難しい話のようにみえるだろうと思う。
 南風原先生の略記法とはちがい、変数$X$の標準偏差を$s[X]$, $X,Y$の相関係数を$r[X,Y]$と略記する。

8.1 部分相関係数と偏相関係数
 ここに変数$y, x_1, x_2$がある。$x_2$と$y$の間には、その両変数と$x_1$との相関関係だけでは説明できないような独自の関係があるか。

 $x_2$を、$x_1$によって完全に予測可能な成分と、$x_1$と完全に無相関な成分$x_2|x_1$とにわけ、$x_2|x_1$と$y$との相関
 $\displaystyle r[y, (x_2|x_1)] = \frac{r[y, x_2] - r[y, x_1] r[x_1,x_2] }{ \sqrt{1-r^2[x_1, x_2]} }$ [8.1]
を調べよう。これを部分相関係数part correlation coefficient, ないし片偏相関係数(半偏相関係数) semipartial correlation coefficentという。

 部分相関係数においては、$x_2$からは$x_1$の影響を除いてあるが、$y$に関してはもとのままである。そこで、$y$から$x_1$の影響を除いた$y|x_1$と、$x_2|x_1$との相関
 $\displaystyle r [(y|x_1), (x_2|x_1)] = \frac{r[y, x_2] - r[y, x_1] r[x_1,x_2]}{\sqrt{1-r^2[y, x_1]} \sqrt{1-r^2[x_1, x_2]}}$ [8.2]
も調べよう。これを偏相関係数partial correlation coefficientという。

 $x_1$から$x_2$と$y$にパスが刺さるパス図で考えると、部分相関係数$r[y, (x_2|x_1)]$は「$y$と、$x_2$の残差との相関」であり、偏相関係数$r [(y|x_1), (x_2|x_1)]$とは「$y$の残差と、$x_2$の残差との相関」である。

 部分相関係数と偏相関係数の間には次の関係がある。
 $\displaystyle r [(y|x_1), (x_2|x_1)] = \frac{ r [(y|x_1), (x_2|x_1)] }{ \sqrt{1-r^2[y, x_1]} }$ [8.3]

8.2 偏回帰係数とその解釈
 ここで唐突におさらいしますが、一般に、散布図の横軸が$X$、縦軸が$Y$のとき、回帰係数は
 $b[X,Y] = r[X,Y] \times (s[Y] / s[X])$ [3.13]
$X$で$Y$を予測したときの予測の標準誤差は
 $s[e] = s[Y] \sqrt{1-r^2[X,Y]}$ [3.25]
である。

 本題に戻って...
 横軸に$x_2|x_1$、縦軸に$y$をとった散布図に、回帰直線をあてはめてみよう。

 以上により、この散布図にあてはめた回帰直線の傾き
 $b[ y, (x_2|x_1) ]$
は、[3.13]より
 $\displaystyle = r[ y, (x_2|x_1)] \frac{s[y]}{s[x_2|x_1]}$
[8.1],[8.4] を代入して
 $\displaystyle = \frac{r[y, x_2] - r[y, x_1] r[x_1,x_2]}{\sqrt{1-r^2[x_1, x_2]}} \times \frac{ s[y] }{ s[x_2] \sqrt{1-r^2[x_1, x_2]} }$
 $\displaystyle = \frac{r[y, x_2] - r[y, x_1] r[x_1,x_2]}{ 1-r^2[x_1, x_2] } \times \frac{ s[y] }{ s[x_2] }$ [8.5]
 これを偏回帰係数 partial regression coefficientと呼ぶ。なお、横軸に$x_2|x_1$、縦軸に$y|x_1$をとっても、同じ偏回帰係数が得られる。

 [8.5]の第2項は標準偏差の比である。仮に$x_2$と$y$をまず標準偏差1に標準化してから求めたなら、この項は消えて、
 $\displaystyle b^{*}[ y, (x_2|x_1) ] = \frac{r[y, x_2] - r[y, x_1] r[x_1,x_2]}{ 1-r^2[x_1, x_2] }$ [8.7]
これを標準偏回帰係数standardized partial regression coeffientという。

 部分相関係数[8.1], 偏相関係数[8.2], 標準偏回帰係数[8.7]は分母のみ異なるという点に注目すべし。

8.3 重回帰モデル
 ここからは、
 $y = \alpha + \beta_1 x_1 + \beta_2 x_2 + \epsilon$ [8.10]
という線形モデルを考える。なお、推測に際しては
 $\epsilon | x_1, x_2 \sim N(0, \sigma^2_\epsilon)$
という確率モデルを想定する。

 ここから、
 $E[y | x_1, x_2] = \alpha + \beta_1 x_1 + \beta_2 x_2$
である。これを回帰平面ないし予測平面と呼ぶ。

 母数$\alpha, \beta_1, \beta_2$の推定量を$a, b_1, b_2$とすると
 $\hat{y} = a + b_1 x_1 + b_2 x_2$
 残差 $e = y - \hat{y}$の二乗和 $Q = \sum_i^N e_i^2$を最小化する推定量は
 $\displaystyle b_1 = \frac{r[y,x_1] - r[y, x_2] r[x_1,x_2]}{1-r^2[x_1,x_2]} \times \frac{s[y]}{s[x_1]}$ [8.15]
 $\displaystyle b_2 = \frac{r[y,x_2] - r[y, x_1] r[x_1,x_2]}{1-r^2[x_1,x_2]} \times \frac{s[y]}{s[x_2]}$ [8.16]
 $\displaystyle a = \hat{y} - b_1 \bar{x}_1 - b_2 \bar{x}_2$ [8.17]
なお、[8.16]は[8.5]と同じである。

 $y$と$\hat{y}$の相関係数は
 $\displaystyle R = \sqrt{ \frac{r^2[y,x_1] + r^2[y,x_2] - 2 r[y,x_1] r[y,x_2] r[x_1,x_2]}{1-r^2[x_1,x_2]} }$ [8.20]
これを重相関係数multiple correlation coefficientという。重相関係数は、独立変数の1次式で与えられる変数と従属変数との相関のうち最大のものである。

8.4 重回帰分析の仕組み
 平均0に中心化したデータを$\mathbf{y}, \mathbf{x_1}, \mathbf{x_2}$とする。
 予測値ベクトルは
 $\hat{\mathbf{y}} = b_1 \mathbf{x_1} + b_2 \mathbf{x_2}$
である。これは$\mathbf{x_1}, \mathbf{x_2}$によって張られた平面上のベクトルである。
 その先端から$\mathbf{y}$に向かうベクトルが残差ベクトル$\mathbf{e}$である。最小二乗法では、$\mathbf{e}$の長さを最小にするように$\hat{\mathbf{y}}$を決める。つまり、$\mathbf{y}$から平面に垂線をおろし、その足を$\hat{\mathbf{y}}$の先端に決めているわけである。
 重相関係数$R$とは、$\mathbf{y}$と$\hat{\mathbf{y}}$のなす角度のコサインである。これを最大にするように$\hat{\mathbf{y}}$を決めている、といってもよい。

 重相関係数$R$はどういうときに大きくなるか。
 まず、単独で高い相関を持つ独立変数があれば大きくなる。これは、$\mathbf{y}$が$\mathbf{x_1}$に近づくにつれて平面も近づいていく、と理解できる。
 独立変数間の相関が-1に近いときにも大きくなる(「0に近いとき」でない点に注意)。これは、$\mathbf{x_1}, \mathbf{x_2}$と$\mathbf{y}$との角度を保ったまま$\mathbf{x_1}$と$\mathbf{x_2}$の角度を拡げると、平面が$\mathbf{y}$に近づいていく、と理解できる(90度に拡げた瞬間なにか特別なことが起きるわけでない点に注意)。
 
 $\mathbf{x_1}$と$\mathbf{x_2}$の相関が高いとき、$\hat{\mathbf{y}}$が少し変動するだけで$b_1, b_2$が大きく変動する。
 このことは、独立変数間に高い相関があると、サンプリングによる偏回帰係数の変動が大きくなることを意味している。これを多重共線性という
 偏回帰係数の標準誤差は
 $\sigma[b_1] = \sigma[e] / (\sqrt{N} s[x_1] \sqrt{1-r^2[x_1,x_2]})$ [8.23]
 $\sigma[b_2] = \sigma[e] / (\sqrt{N} s[x_2] \sqrt{1-r^2[x_1,x_2]})$ [8.24]
一般化すると
 $\sigma[b_j] = \sigma[e] / \left( \sqrt{N} s[x_j] \sqrt{1-R^2[x_j, x_1,\cdots (x_j) \cdots x_p]}) \right)$ [8.25]
である($R^2[x_j, x_1,\cdots (x_j) \cdots x_p]$は$x_j$とそれ以外のすべてとの重相関係数)。他の変数との相関が高いほど大きくなるのがわかる。

 最後に、偏回帰係数を幾何学的に説明しよう。[←ここがこの本の難関のひとつだと思うんですよね...」

 8.2節にいわく、偏回帰係数とは、横軸に$x_2|x_1$、縦軸に$y$をとった散布図の回帰係数である。また8.3節にいわく、偏回帰係数とは、$x_1, x_2$で$y$を予測するときの係数である。

 $\mathbf{x_1}, \mathbf{x_2}$で張られた平面を考えよう。$\mathbf{x_2|x_1}$とは、$\mathbf{x_2}$の先端から$\mathbf{x_1}$に下した垂線を逆向きにしたベクトルである。当然、平面に乗っている。話を簡単にするため、こいつをずずずっと平行移動して、始点を原点に揃えよう。$\mathbf{x_2|x_1}$は$\mathbf{x_1}$と原点で直交しているわけね。

 こいつで$\mathbf{y}$を予測しよう。上空に斜めに伸びている$\mathbf{y}$の先端から、平面に垂線を降ろすんじゃなくて、$\mathbf{x_2|x_1}$に向けて垂線を降ろす(上空から斜めに落ちてくる線になる)。その足が、ベクトル$b_2(\mathbf{x_2|x_1})$の先端。これが8.2節の説明である。
 今度は、$\mathbf{y}$の先端から平面に垂線を降ろそう。その足の位置から、$\mathbf{x_1}$と平行に(つまり$\mathbf{x_2|x_1}$と垂直に)$\mathbf{x_2}$に移動し、ぶつかったところが、偏回帰係数$\times \mathbf{x_2}$の先端である。これが8.3節の説明。図に書いてみると、なるほど、それは$b_2\mathbf{x_2}$となる。

 なお、部分相関係数$r[y, (x_2|x_1)]$とは、$\mathbf{y}$(上空に斜めに伸びている)と$\mathbf{x_2|x_1}$(さっき地表に引いた新しい線)がなす角度のコサインである。
 $\mathbf{y|x_1}$とは、$\mathbf{y}$の先端から$\mathbf{x_1}$に斜めに降ろした垂線を逆向きにしたベクトルである。これを原点へと平行移動すると、それは、$\mathbf{x_2|x_1}$(さっき地表に引いた新しい線)の原点を押さえて先端を持ち、$\mathbf{x_1}$との角度を変えないようにまっすぐに引き上げ、$\mathbf{y}$の先端の高さまで伸ばした新しい棒となる。偏相関係数$r[(y|x_1), (x_2|x_1)]$とは、この引き上げ角度がなすコサインである。

5. 平方和の分割と重相関係数の検定
 $\mathbf{y}, \hat{\mathbf{y}}, \mathbf{e}$は直角三角形をなしているんだから、
 $||\mathbf{y}||^2 = ||\hat{\mathbf{y}}||^2 + ||\mathbf{e}||^2 $ [8.26]
ベクトルの長さは平方和だから
 $SS[y] = SS[\hat{y}] + SS[e]$ [8.27]
分散説明率は
 $SS[\hat{y}] / SS[y] = ||\hat{\mathbf{y}}||^2 / ||\mathbf{y}||^2 = cos^2 \theta[y,\hat{y}] = R^2$ [8.28]
[8.27] より
 $R^2 = 1 - SS[e] / SS[y]$ [8.29]
である。

 $SS[y]$の自由度は$N-1$。残差平方和$SS[e]$の自由度は平方の数から母数の数を引いたもので、ここで母数は$p+1$だから(切片がはいる)、自由度は$N-p-1$。よって$SS[\hat{y}]$の自由度は$p$である。

 予測の誤差分散と標準誤差はそれぞれ
 $s^2[e] = SS[e] / N = SS[y] (1-R^2)/N = s^2[y] (1-R^2)$ [8.32]
 $s[e] = s[y] \sqrt{(1-R^2)}$ [8.33]
だが、$\sigma[e]$の推定量としては(そして予測の標準誤差としても)、自由度$N-p-1$で割った不偏推定量
 $s^{'}[e] = s[y] \sqrt{N/(N-p-1)}$ [8.34]
を使うことが多い。同様に、$\sigma^2[y]$の推定量としても$s^{'2}[y] = SS[y] / (N-1)$を使うことが多い。[8.29]を書き換えると
 $R^2_{adj} = 1 - \sqrt{\frac{N-1}{N-p-1}}(1-R^2)$
これが自由度調整済み決定係数である。$R^2$が$p$の増大につれて過大になるのを修正しているわけだ。

 重相関係数がゼロであるという帰無仮説の下で、
 $F = \frac{SS[\hat{y}]/p}{SS[e]/(N-p-1)}$ [8.36]
は自由度$p, N-p-1$のF分布に従う。[8.28]で書き換えると
 $F = \frac{R^2/p}{(1-R^2)/(N-p-1)}$ [8.36]
である。

6. 個々の独立変数の寄与の評価
 [8.20]から$r^2[y,x_1]$を引くと
 $\displaystyle R^2 - r^2[y, x_1] = \frac{(r[y,x_2]-r[y,x_1]r[x_1,x_2])^2}{1-r^2[x_1,x_2]}$
となる。よくみると、これは[8.1]の部分相関係数$r[y, (x_2|x_1)]$の二乗である。
 これは独立変数の数に限らず成り立つ。つまり、$q$個[原文では$p_1$個]の独立変数からなるモデルに変数を1個以上加えて$p$個にした時の決定変数の増分は、部分相関係数の二乗になる。これを
 $R^2[y,x_1\cdots x_p] - R^2[y,x_1\cdots x_q] = r^2[y, (x_p|x_1\cdots x_q)]$
と書こう。

 追加した$p-q$個の偏回帰係数について、帰無仮説
 $H_0: \beta[x_{q+1}] = \cdots = \beta[x_p] = 0$
を検定することができる。検定統計量
 $\displaystyle F = \frac{(R^2[y, x_1\cdots x_p]-R^2[y,x_1\cdots x_q])/(p-q)}{(1-R^2[y, x_1\cdots x_p])/(N-p-1)}$ [8.43]
が帰無仮説の下で自由度$p-q, N-p-1$のF分布に従う。

 上で述べた独立変数の寄与の評価は、独立変数の投入順で変わってくる。
 投入順を決め、各ステップにおける$R^2$の増分に全平方和$SS[y]$を掛けて得られる平方和をタイプIの平方和という。
 投入順は決められないことが多い。そこで、それぞれの独立変数を最後に投入したと想定し、部分相関係数の二乗に全平方和$SS[y]$を掛ける。これをタイプIIIの平方和という。

 [8.25]で示した偏回帰係数の標準誤差$\sigma[b_j]$の、分子の$\sigma[e]$を$s^{'}[e]$で置き換えて$s[b_j]$とし、これと偏回帰係数$b_j$を比較した $t = b_j / s[b_j]$ は、$H_0: \beta_j = 0$の下で自由度$N-p-1$のt分布に従う。
 [8.43]で追加した変数が1個だった場合の$F$は、この$t$の二乗になる。つまり、偏回帰係数の標準誤差を使った検定は、タイプIII平方和を使った検定と同じである。

(以上!)

雑記:データ解析 - 覚え書き:南風原「心理統計学の基礎」8章

2018年10月23日 (火)

Rothschild, D., Wolfers, J. (2012) Forecasting Elections: Voter Intentions versus Expectations. SSRN.

 未公刊のWorking Paperなんだけど、頻繁に引用されているので目を通したら... いやー、これは凄いわ。なぜ論文にしないんだろう。

 第一著者のRothschildさんはMicrosoftにお勤め。第二著者は予測市場のレビューWolfers & Zitzewitz(2004)を書いたWolfersさんである。世間は狭い。

1. イントロダクション
 この論文はvote intention(VI)とvote expectation(VE)のどっちが予測力を持つかを調べる。[以下、この論文のあらすじ...]
 [なお、この論文は一貫して2政党の選挙だけを考えている]

2. 当選者の予測
 American National Election Studies の1948-2008のデータを使う。この調査では、大統領選(15回)の1か月前に、VI設問(誰に投票するか)とVE設問(だれが当選すると思うか)を訊いていた。集計すると、VEのほうが当たっている。
 ここからは州レベルの分析。「この州ではどっちが勝つと思うか」というVEを訊いていた。延べで345件のレースを分析できる。集計すると、やはりVEのほうが当たっている。

3. 得票率の単純予測
 レースを単位として、得票率、VI率、VE率の関係を調べる。ここではウェイティングなし。
 得票率とVI率との相関は0.57, 線形な関係があるようにみえる。
 得票率とVE率との関係も強いんだけど、線形ではない(これは当然で、オバマが勝つだろうという人が2/3いるからといってオバマの得票率が2/3だということにはならない)。

 VE率と得票率の関係を、以下のようにモデル化しよう。
 レース$r$における個人$i$の民主党得票率シグナル(潜在変数)を$x_{r}^{*i}$, 民主党得票率を$v_r$として
 $x_{r}^{*i} = v_r + e_r^{i}, \ \ e_r^i \sim N(0, \sigma_e^2)$ [1]
で、VE回答$x_r^i$は$x_{r}^{*i} > 0.5$のときに1, そうでないときに0とする。
 ここからプロビット回帰モデル
 $E[x_r^i | v_r] = \Phi \left( \frac{1}{\sigma_e} (v_r -0.5) \right)$ [3]
が得られる。推定すると$\hat{\sigma}_e = 0.15$となった。
 これに基づき、母集団モデル
 $E[x_r | v_r] = Prob(v_r + e^i_r > 0.5) = \Phi(\frac{v_r-0.5}{\sigma_e})$ [4]
を想定する。$x_r$は母集団パラメータであることに注意。
 左辺$E[x_r | v_r]$は期待値であって、$x_r | v_r$には実際には$e_r^i$に起因するノイズが乗るんだけど、母集団が十分に大きければ無視できるから、結局
 $x_r \approx \Phi(\frac{v_r-0.5}{\sigma_e})$ [5]
と考えられる。これをひっくり返して
 $E[v_r | x_r] \approx 0.5 + \sigma_e \Phi^{-1}(x_r)$ [6]

 さて、さきほど得票率$v_r$とVE率$\hat{x}_r$の散布図が非線形であることを確認した。これは曲線 $0.5 + 0.15 \Phi^{-1}(\hat{x}_r)$として理解できるわけだ。実際には、$\hat{x}_r$には標本抽出誤差が載っているから、この曲線はデータにフィットさせて得た曲線ではない(得票率とVI率の関係を表す45度線がデータにフィットさせて得た直線でないのと同じ)。
 [↑うわあ... これ滅茶苦茶面白い... 整理すると、人々の行動生起率(ここでは民主党の得票率)について閾値を切って二値で予測させたとき、その回答の割合を、実際の行動生起率と対応付けるべく変換する方法を考えたわけだ。なるほどねええ]

 こうして得た変換後VE率$0.5 + 0.15 \Phi^{-1}(\hat{x}_r)$と、得票率との相関は0.78。生のVI率と得票率との相関よりも高い。RMSE, MAEも有意に小さい。重回帰でも重みづけ和でも圧勝である。

4. 得票率の効率的予測
 上の散布図を観察すると、生のVI率にせよ変換後VE率にせよ、実際の得票率より極端に振れる(実際の得票率はもっと接戦である)。これは標本抽出誤差のせいだ。
 ここでは予測のMSEを最小化するような縮小推定量をつくってみる。
 
 まずはVIのほうで考えよう。
 $\hat{v}_r = v_r + \alpha^v + (\eta_r + \tau_r), \ \ \eta_r \sim N(0, \sigma^2_{\eta_r}), \ \ \tau_r \sim N(0, \sigma^2_\tau), \ \ E[\eta_r \tau_r] = 0$ [7]
 $\alpha_v$はANESにおける民主党バイアス。$\eta_r$は標本抽出による変動で、そのサイズは標本サイズに依存する。$v_r$は調査時点から投票日までに生じる変動。
 ここから次式を得る。
 $E[v_r | \hat{v}_r] = \mu^v + \frac{\sigma_v^2}{\sigma_v^2 + \sigma^2_{v_r - \hat{v}_r}} (\hat{v}_r -\alpha^v - \mu^v)$ [8]
 $\mu^v, \sigma_v^2$は実際の民主党得票率の平均と分散。実際に計算してみると、$\hat{\mu}^v = 0.468, \hat{\sigma}_v^2 = 0.0089$。$\alpha^v$もANESデータベースから簡単に計算できて、$\hat{\alpha}^v = 0.031$。さて、
 $\sigma^2_{v_r - \hat{v}_r} = \sigma^2_\tau + \sigma^2_{\eta_r}$ [9]
である。実は標本の一部について、VI回答と実際の投票先をつきあわせることができる。そこから$\hat{\sigma}^2_\tau = 0.00035$と推定できた。$\sigma^2_{\eta_r}$は、[...ANESの標本設計とデザイン効果の話に突入するので大幅中略...]、まあとにかく推定できた。
 こうして、$E[v_r | \hat{v}_r]$が推定できた。実際の得票率との相関は0.59、RMSEもMAEも下がった。

 今度はVEのほうで考えると...
 [本項、読みたいんだけどいまちょっと時間がないのでスキップ]
 こうして$E[v_r | \hat{x}_r]$が推定できた。実際の得票率との相関は0.77, RMSEもMAEも下がった。

 ふたたびVIとVEを比べると、やっぱしVEの圧勝である。
 
5. out-of-sampleテスト
 上では2008年のデータを使ってなかった。当てはめてみると、やはりVEの勝ち。

6. 二次データによる結果
他のデータソースをいろいろ集めてみると... 投票日の180日前までなら、やはりVEの勝ち。

7. 構造的解釈
 思うに、対象者は選挙結果の予測に役立つさまざまな情報を持っていて、VEはそれらを反映するんだけど、VIはその一部しか反映してないのではないか。
 モデル化してみよう。

 まずは単純なモデルから。
 対象者$i$は、自分を含めた身近な$m$人に対してひそかに調査を行い、その結果に基づいてVE回答しているとしよう。で、個々の対象者が持っているこの「内輪調査」における民主党投票意向の割合を$\hat{v}_r^l$とする。
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r] = \hat{v}^l_r$ [18]
仮に「内輪調査」の標本が不偏なら、これは二項分布$B(v_r, \frac{v_r(1-v_r)}{m})$に従う。接戦だったらこれは$N(v_r, 1/(4m))$で近似できる。
 ということは、
 $E[x_r^i | v_r] = Prob(E[v_r|\hat{v}_r^l] > 0.5) \approx \Phi (2\sqrt{m}(v_r - 0.5))$ [19]
である。このプロビット回帰モデル、2節で推定した
 $E[x_r^i | v_r] = \Phi \left( \frac{1}{\sigma_e} (v_r -0.5) \right)$ [3]
と同じですわね。$\hat{\sigma}_e = 0.150$だった。ここから$\hat{m}$はだいたい$11$だ。いいかえると、VE設問において、ひとりの人は自分だけでなく、10人分の身近な人々からの情報に基づいて回答しているのである。

 もちろん、身近な人々が無作為標本ってことはない。もうちょっと精緻化しよう。
 「内輪調査」における民主党投票意向の割合$\hat{v}_r^l$の平均は、$v_r$ではなくて$v_r+\theta_r^{s_i}$であるとする。添え字$s_i$は、$i$さんのソーシャルネットワークという意味。
 仮に対象者が、自分のソーシャルネットワークのバイアスに自覚的でそれをきれいに取り除くことができるならば、
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r; \theta_r^{s_i}] = \hat{v}^l_r - \theta_r^{s_i}$ [20]
である。これは二項分布$B \left(v_r, \frac{(v_r + \theta_r^{s_i})(1 - v_r - \theta_r^{s_i})}{m} \right)$に従う。分散がちょっぴり変わったけど、正規近似しちゃうなら $N(v_r, 1/(4m))$のままでよい。つまり、実質的には変わらない。

 さらに精緻化する。対象者が身近な人々のバイアスを知らない、ないし、長い目で見れば知っているけど今回のレースにおけるバイアスは知らない、としよう。
 身近な人々における未知のショックを$\eta_r^{s_i} \sim N(0, \sigma^2_\eta)$とする。このとき、$\hat{v}^l_r$は平均$v_r + \eta_r^{s_i}$の二項分布に従う。これを正規近似すると、平均は$v_r$だが、分散は$1/(4m) + \sigma^2_\eta$に増える。この分散を級内分散 $\lambda = \frac{\sigma^2_\eta}{\sigma^2_\eta + 1/(4m)}$ を使って書き換えると、$1/(4m-(1-\lambda))$となる。よって
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r] = \hat{v}^l_r \sim N\left(v_r, \frac{1}{4m(1-\lambda)} \right)$ [21]
 $E[x_r^i | v_r] = Prob(E[v_r|\hat{v}_r^l] > 0.5) \approx \Phi ([2\sqrt{m(1-\lambda}](v_r - 0.5))$ [22]
 よぉし、じゃあ$\lambda$を他のデータソースから推測したろうじゃないの。[...おおお。すごく面白い、面白いんだけど、正直疲れちゃったので本項はメモ省略]
 ...というわけで、$\lambda=0.45$と推測しました。$\hat{m}$はだいたい20となる。

8. どんな情報がアグリゲートされているのか?
 VEが反映している情報とは何か。言い換えると、$m$ってのはほんとに友達の人数なのか、それとも、マスメディアとか過去の選挙結果とかから得た情報なのか。
 ここでは、VEが反映しているのがidiosyncraticな情報か、それともcommonな情報かという点について検討する。[←うぉぉぉぉぉぉ]

 極端にいえば、VEが反映しているのが完全にcommonな情報であれば、みんなが同じVEを返すはずである。また完全にidiosyncraticな情報であれば、VEは人によって一致しないし、(それがinformativeなのであれば)VEは接戦のときにより不一致になるだろう。

 シミュレーションしてみよう。以下、$\sigma_e=0.15$とする。
 それぞれの対象者が、独立で不偏なidiosyncraticシグナルと、(選挙間で独立で不偏な)commonシグナルを受け取る。対象者は前者に$(1-\phi)$, 後者に$\phi$の重みをつけてこれを足し、VEを返す。
 $\phi=1$ならVEは必ず0か1になる。いっぽう$\phi=0$なら、横軸に実際の民主党得票率、縦軸にVE率をとったとき、なだらかなロジスティック曲線状になる。
 $\phi$を徐々に変えていくと、$\phi=0.14$のときに実データと近くなる。つまり、VEが反映しているのはかなりidiosyncraticな情報である。

 よーし。[21]式に戻るぞ。
 idiosyncratic シグナルを$\hat{v}^l_r \sim N \left(v_r, \frac{1}{4m(1-\lambda)} \right)$、それと直交するcommonシグナルを$c_r \sim N(v_r, \sigma_c^2)$とする。[21]式は
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r; c_r]$
 $= \frac{\sigma_c^{-2} c_r + 4m(1-\lambda) \hat{v}_r^l}{\sigma_c^{-2} + 4m(1-\lambda)}$
 $= v_r + \frac{\sigma_c^{-2}}{\sigma_c^{-2} + 4m(1-\lambda)}(c_r-v_r) + \frac{4m(1-\lambda)}{\sigma_c^{-2} + 4m(1-\lambda)}(\hat{v}_r^l-v_r)$ [24]
という風に化ける。最後の行の第二項がcommon シグナル, 第三項がidiosyncraticシグナルである。
 [...ちょっと時間切れなので以下メモは省略するけど、面白いなあ]

9. VEとVIの相関
 vote expectationにおけるwishful thinkingの存在は昔から知られている。また、他者に依存して選好を形成する現象も広く知られている(バンドワゴン効果とか)。
 実際、VIとVEの個人レベルでの相関は0.42。

 これは本論文のモデルで容易に説明できる。「内輪調査」の対象者のなかに自分が入っているからである。
 まずは「内輪調査」対象者が無作為だった場合。自分抜きの「内輪調査」結果を$\hat{v}_r^{-l} \sim N(v_r, \frac{v_r(1-v_r)}{m-1})$としよう。$\hat{m}=11.1$として、
 $Prob(x_r^i = 1|v_r^i = 1; \hat{v}_r^{-l}) \approx \Phi(6.4(v_r-0.45))$
 $Prob(x_r^i = 1|v_r^i = 0; \hat{v}_r^{-l}) \approx \Phi(6.4(v_r-0.55))$
となる。$v_r^i$と$x_r^i$の相関は、$v_r=0.5$のとき0.25となる。
 ソーシャルネットワークとcommon/idiosyncratic情報を付け加えると...[死ぬ―。以下省略するけど、レースごとにVIが民主党の人と共和党の人に分けて、実際の民主党得票率とVEの散布図を描き、モデルから予測される曲線を当てはめる。VIによる差をかなり説明できる]
 このように、VIとVEの相関は合理的推論モデルの範囲内で説明できる。

10. 非無作為標本からの効率的な予測
[どっちかの政党に投票した人だけに絞って分析し直す。頭が混乱してきたのでパスするけど、モデルを使うとそれでも得票率が結構予測できるという話]

11. 考察
 選挙分析者のみなさん、VIよりVEがあたります。
 構造的解釈の節ではVEが当たる理由の説明を試みた。またこのモデルを使えばVEとVIの相関が説明できるし、すごく偏った標本からでも予測できる。
 思えば、科学的な世論調査が勃興する前、選挙予測の方法は「誰が勝つと思いますか」と訊ねることだった。本研究はいわば歴史的実践へと立ち戻るものであった。
 今後はこういう手法の研究が進んで、製品の需要予測とか消費者測定とかに使えるようになるといいですね。

 ... 正直、参りました。脱帽。
 いやあ、これを最初に読んでなくてよかった。もし読んでたら、このテーマには絶対手出ししようと思わなかったわ...
 
 感動してばかりでも癪に障るので、自分なりに別の角度から考えてみると、この論文のモデルと、Hong&Pageいうところの「集合知が生じるのはエージェントが多様だからかもしれない」とはどういう関係にあるのだろうか。この論文の言葉で言うと、VEにおけるシグナルが不偏で分散が一定であれば、idiosyncraticシグナルの比率が高いほうがVEベースの予測の精度が上がる、ということになるのだと思うけれど、これは8節のモデルからいえることだろうか。

論文:予測市場 - 読了:Rothschild & Wolfers (2012) 「誰に投票しますか」と訊くより「誰が勝つと思いますか」と訊いたほうが良いのはなぜか、モデルで説明しよう

 引き続きcitizen forecasting 論文のメモ整理。
 政治学者Michael Lewis-Beckさんによるcitizen forecastingについての論文は、調べた限りでは3本。citizen forecastingという概念を最初に打ち出したノート Lewis-Beck & Skalaban (1989), 下記の Lewis-Beck & Tien(1999), そしてUK総選挙に適用した Lewis-Beck & Stegmaier(2011)である。

Lewis-Beck, M.S., Tien, C. (1999) Voters as forecasters: a micromodel of election prediction. Internetional Journal of Forecasting, 15, 175-184.

 Lewis-Beck & Skalaban (1989)と同じデータソース(American National Election Study)に基づき、期間を延ばして再分析した論文であった。中身はだいたい同じだが、こっちのほうが論述が整理されている。

論文:予測市場 - 読了:Lewis-Beck & Tien (1999) 選挙予測のcitizen forecasting (改訂版)

citizen forecasting論文読み祭りのメモ整理。自分の分析のほうが、なにがなんだかわけがわからなくなってしまったので、原点に戻って...

Lewis-Beck, M.S., Skalaban, A. (1989) Citizen forecasting: Can voters see into the future? British Journal of Political Science, 19(1), 146-153.
おそらくcitizen forecastingを研究テーマとした最初の論文。たしか前に目を通した覚えはあるんだけど...

 対象はUS大統領選。American National Election Studiesでは「誰が大統領になると思いますか」という設問をずっと訊いていた。集計すると、結構当たっている。

 個人レベルでモデルを組んでみた。予測(正解を+1, 不正解を-1)を目的変数、{政党支持、関与、関心、メディア接触、政治が複雑だと思うか}を説明変数にとったOLS回帰モデル、選挙ごとに推定した。整合的な知見はない。[二値変数を目的変数にとったOLS回帰? 著者が著者でなければ、おいおい素人か、と思ってしまうところだ。プロビットやロジットもやったけど結果は同じである由]

 今度は{政党支持、投票先意向、学歴、調査時点}を説明変数にとってみた。高学歴だと正解しやすい。投票日が近いと正解しやすい。
 
 集団レベルではよく当たるのはなぜか。選挙を分析単位として、正解者率を目的変数、勝った政党の得票率を説明率にとった単回帰ではR二乗が0.9。つまり差があるほど予測しやすい。[←そうそう、前にこれ読んだときは、なにこのモデル、アホちゃうかと思ったのだが、いまになって読むと「嗚呼、苦労してはるなあ」と涙ちょちょぎれる思いである]

 結論。
 投票者による選挙結果の予測を社会文化的諸属性が拡張する。接戦の程度も効果を持つ。投票者はアホではなく[←ほんとにこう書いてある]、結果をある程度理解しているのだが、しかしシニカルでもないので、投票に行くのである。

 ... こうして読み直してみると、この短い論文というかノートの段階で、ぱっと思いつく論点はだいたい網羅されていたのであった。
 「選挙結果が僅差だと個人の予測は外れやすい」というのも、正直「そりゃそうだろうよ」という話に聞こえるけど、この時点でのこの研究の文脈では、おそらく意味のあるステートメントだったのだろうと思う。想像するに、「投票者は選挙結果がわからないからこそ投票に行くのだ」というような対抗的な想定があったのではないか。
 いっぽうここに出現しないのは、スロウィッキーとかスコット・ペイジのような「群衆の知恵」という視点、集団の予測能力が個人の予測能力の総和を超えるという視点である。

論文:予測市場 - 読了:Lewis-Beck & Skalaban (1989) 選挙予測のcitizen forecasting (記念すべき第一弾)

citizen forecasting 論文読み祭り, こんどはドイツに参りました。Graefeさんが謝辞に入っている。

Ganser, C., Riordan, P. (2015) Vote expectations at the next level. Trying to predict vote shares in the 2013 German federal election by polling expectations. Electral Studies, 40, 115-126.

 いわく。
 選挙予測の手法といえば、まずはvote intention, 次が予測市場、そして多変量による統計的予測だが、本研究はvote expectationに注目する。

 vote expectationによる選挙予測の先行研究概観。[うわあ...まだノーマークのがあったよ...]

 個人による予測能力について。[ここすごく関心あるので詳しくメモ]

 集団による予測能力について。

 ドイツの選挙システムについて。[省略するけど、やたらにややこしい...まあ日本の選挙システムも十分ややこしいと思うけど]

 リサーチクエスチョンと仮説。

  1. 投票者は政党の投票率を予測できるか。仮説: 個人の予測能力は以下の要因が高いと高い。(a)学歴, (b)政治的知識, (c)情報行動, (d)投票に行く確率, (e)最新のpoll知覚。
  2. 個人の予測能力は以下の要因が高いとどうなるか。(a)政治組織のメンバーであること, (b)特定の政党への投票意向, (c)政党選好, (d)政党支持。wishful thinkingで予測能力が下がるかも知れないし、情報収集が後半で予測能力が上がるかも。
  3. 旧東ドイツに住んでる人は予測能力が低いはず。
  4. (a)集団予測は成績がいい。(b)予測能力が高そうな人の集計よりランダムな集計のほうが成績がよい。

 データ。
 2013年9月の選挙の4週前に電話調査をやった。サンプルサイズ1000。性年代学歴でウェイティング。
 vote expectation設問は、政党リスト(「その他」含めて8つ)を読み上げ、各政党に合計100点を配点してもらうかたち。訊き間違えた人、ある政党への配分が平均から3SD以上離れた人を除いて823事例を分析。
 独立変数は、教育(最終学歴)、政治知識(クイズ3問の成績)、政治的情報(政治ニュースに触れる頻度5件法)、投票見込み(5カテゴリ)、最後に選挙予測に触れたのはどのくらい前か、政治組織のメンバーか、特定の政党に投票するつもりか、投票先政党... [後略]。

 結果。
 個人の予測はかなり不正確(RMSEで5.1パーセントポイント)。RMSEとMAPEを目的変数にした回帰モデルを組むと、政治的知識は負の効果(つまり予測は正確になる)、4日以内にpollの結果に触れていると負の効果、政党所属は負の効果(所属している人は予測を大きくは外さない)、教育は負の効果、政党支持は正の効果(つまりwishful thinkingと思われる)。投票意向、政党選好、住んでる地域はあんまり効かない。政党支持別に細かくみていくと[...中略...]。
 集団の予測もあんまり良くなかった[ええええ... ウケる...]。
 もっとも、伝統的なvote intentionsによる予測に比べればそう悪くない。また集団予測の誤差は個人予測の誤差の平均よりは小さい。
 個人の予測成績が良いはずの層に絞ってみると[...中略...]変な予測は減るけど、平均して良くなるとはいえない。

 [標本や集計方法についていろいろ細かい話。略]

 考察。
 多くの先行研究に反し、vote expectationは良い予測とならなかった。
 8政党の得票率の予測というのは調査対象者にとって難しかったのかも。群衆の知恵の研究はたいてい単純な数値に焦点を当てている。
 個人の予測誤差が集約でキャンセルアウトされるというのはその平均が0だった場合の話で、みんな歪んでいる場合はやはりだめだ。
 vote expectationがうまくいくかは特定の設問の構造と複雑性によるのであろう。

論文:予測市場 - 読了:Ganser & Riordan (2015) citizen forecastingによる選挙予測 in 2013年ドイツ連邦議会選挙

2018年10月22日 (月)

 ここんところ都合でcitizen forecastingの論文を読みまくっていたので、そのメモを整理しておく。

Boon, M. (2012) Predicting elections: A 'Wisdom of Crowds' approach. International J. Market Research, 54(4), 465-483.
 著者はロンドンのICM Researchという会社の人。Wikipediaによれば、世論調査をやっている会社で、Creston Insightというマーケティングの会社の傘下らしいが、この業界も離合集散が激しいので、いまどうなっているかはよくわからない。著者のBoonさんは現在はDeltaPollという会社のディレクターであるらしい。

 論文の構成がわからず、イライラしながら読んだんだけど... 要するに5つの事例の報告である。
 このジャーナルって、なんだかこういう風な、ちょっとゆるい雰囲気の論文が載るような気がするんですが、どういうことなんでしょうか...

 伝統的なvote intention survey(どこに投票するかを訊く調査)による選挙予測があたらなくて困ってますという前置きがあって...
 市場調査関係者はいまや皆知っているが[そうですかね?]、群衆の知恵というものがありましてですね、賢い人々の予測より、ランダムな群衆による集合予測が良かったりするのです。スロウィッキーいわく、その条件とは、(1)多様性、(2)独立性、(3)脱中心性、(4)集約。
 市場調査というものは、現実のアウトカムと照合されることはまずないわけで、選挙予測は得がたい機会である。
 
 事例1。2010年英国総選挙で、ガーディアン紙のために投票日直前に電話調査をやって、投票意向(10件法)、vote intention設問、2005年の投票行動を訊いた。
 これを組み合わせ、我が社のスタンダードな予測技法を用います。

 これをベンチマークにします。
 さて、実はこの電話調査の最後に、群衆の知恵方式の設問を入れました。まず選挙結果について推測して貰った(三大政党とそれ以外、計4つの得票率(?)。足して100になるように)。次に、2005年の実際の結果を伝えてもういちど推測して貰った。どちらもウェイティングなし、単純平均。標本サイズは2,022。
 結果:平均誤差[各政党の得票率(?)と予測の誤差の絶対値の平均のことらしい]は、スタンダードな方法で1.2パーセントポイントなのが、群衆の知恵設問その1が2.2, その2が0.9。

 事例2。今度はオンラインのオムニバス調査でやります。隔週、最低2000人、4回。設問は上の2問で、標準的なデモグラでウェイティング。。これをガーディアン用の電話調査と比べる。
 結果:[細かいところは省略すると...] 予測して正確そうにみえるし、vote intentionのトレンドを反映している。云々。

 事例3。群衆の知恵方式の設問を集計する際に、過去の投票行動でウェイティングしたらどうなるか。[...中略...] あんまりかわらない。ただし、ある特定の政党の支持者に絞ってしまうと、それはもちろん大きく歪む。云々。
 
 事例4。2011年のふたつのレファレンダムの予測。群衆の知恵方式は予測を大きく外した。考えるに、回答者に十分な知識がなかったからだろう。

 事例5。ここまでの分析で、群衆の知恵方式の設問には対象者の代表性はいらないけど多様性は必要だということが示された。具体的にどうすればいいのかは今後の課題なんだけど、ためしに2010年総選挙の群衆の知恵設問を、標本を少数抽出して集計しなおしてみた。2つの設問とも、2022人から500人抽出しても、250人抽出しても、結果はあまり変わらない。さすがに100人だとがくっと悪くなったけど。
 このように、群衆の知恵方式は標準的なvote intention調査の代替として有望です。
 云々。

 ... わたしゃイライラしましたけど、全体にのんびりしていて楽しい論文であったような気もする。やっぱしあれだろうな、持っているデータが貴重なら、こんな感じの分析でも立派な論文になる、ってことなんだろうな。
 それにしてもこの論文、引用文献は、スロウィッキーの一般書、ウェイティングについての論文らしきIJMRの2本、そしてBrainJuicerの人のESOMAR2009での発表、以上の計4本だけ。著者は"Wisdom of Crowds"アプローチと呼んでいるが、それって選挙のcitizen forecastingそのものなんだから、政治学で先行するLewis-Beck, Murr, Graefeを引用しないのはかなり妙な感じなんだけど... 知らないわけじゃないでしょうに。実務家が研究者をやたらに持ち上げ奉る傾向もちょっとアレだけど、無視するってのはどうなの?

論文:予測市場 - 読了:Boon (2012) UKの選挙における citizen forecasting (by 世論調査会社の中の人)

2018年10月21日 (日)

Temporano, M., Dufresne, Y, Savoe, J., van der Linden, C. (2019) Crowdsourcing the vote: New horizons in citizen forecasting. International Journal of Forecasting, 35(1), 1-10.
 citizen forecastingによる選挙予測(「誰が勝つと思いますか」と訊いて集計する。「誰に投票しますか」と訊くよりもあたるといわれている)についての最新の論文。著者らはカナダの研究者。
 来年出る論文が先行公開されている模様。こういうのって発表年は2019年なのか...なんか変な感じだ。

 citizen forecastingについての先行研究概観と、カナダの選挙制度の説明があって...
 対象とする選挙は2011年~2017年のカナダの選挙、計10件。えーと、カナダには政治学者が作ったVote Compassというアプリがある由。ボートマッチングみたいなサービスらしい(日本にもありますね)。実に210万人くらいのデータがある。これを使います。
 分析対象はのべ1154の選挙区。対象者は平均1821となる。当然ながら偏りはあって、教育やイデオロギーが偏っていることがわかっている。
 なにを訊いたかというと、自分の選挙区で各政党が勝つ見込みを訊いた。0から11までの数直線上に政党を並べてもらうかたち。ここから、1位政党については2位との差、他の政党については1位との差(負値になる)を求める。これをrelative confidence index(RCI)と呼ぶ。なぜすべて同じ基準で揃えないか(1位政党を0とすりゃいいじゃん)と思うけど、経験的にこっちのほうがいいのだそうである。そうなの?
 
 結果...

 ... 申し訳ないんだけど、だんだん関心が薄れてきちゃったので途中から読み飛ばした。要するに、選挙区レベルの結果をcitizen forecastingでかなり予測できましたという論文であった。
 先行研究概観に全然知らない話が載ってないことが確認できたので、目的は達したということにしよう。

論文:予測市場 - 読了:Temporano, et al. (2019) citizen forecasting による選挙予測 in カナダ

2018年10月20日 (土)

 「世論」と書いて、ヨロンと読むこととセロンと呼ぶことがありますわね。昔は「輿論」と書いてヨロン、「世論」と書いてセロンと読み、前者はpublic opinion, 後者はpopular sentimentsを指していたのだそうです。
 これはもちろん、佐藤卓己(2008)「輿論と世論 ー 日本的民意の系譜学」の受け売り。読み始めたら止まらない、超・面白本です。

 1946年11月、内閣は当用漢字表を告示。「輿」という漢字の使用が制限されることになる。新聞社は「輿論」をどのように言い換えるか。
 「輿論と世論」は、そのいきさつを主に吉原一真(1966)「黎明期のひとびと : 世論調査協議会の開催」に依拠して辿っていく。
 吉原は同盟通信社から官僚に転じて情報局に属し、46年の時点で内閣参事官だった人。この人のところに、毎日新聞輿論調査課・三宅英一から電話がかかってくる。輿論調査はどう言い換えるんだ? 吉原は提案する。「三宅さん、私見だが世論はどうだろう」

 いっぽう別の証言もある。毎日新聞の輿論調査部員・宮森喜久二の提唱によるものだという説で、毎日新聞社の社史はこの説を採っているらしい。なるほど、 宮森喜久二 (1995)「世論調査草創期の思い出」はこう述べている。「万人が首肯し抵抗も感じない別の文字を持ってくる以外にないと考えて思いついたのが「世論」という文字であった 。これなら重箱読みながら「よろん」と読めるし、「せろん」と読む時期が来るかも知れないが、それはその時のこととしても大した問題ではないか、と考えた。加えて字劃も少ないし感覚的にもスマートである」

 「輿論と世論」にはさらに別の証言も紹介されている。朝日新聞大阪本社の百瀬千仭という人(後に国語審議会委員となる)が、「輿論」の代用語として「世論」を書いた用語集を東京に送ったところ、東京では「世論」がヨロンと呼ばれるようになってしまい、のちに百瀬は驚愕した、というもの。この出典は、1974年の雑誌「言語生活」の記事らしい。ありましたね、そういう雑誌!

 佐藤卓己さん(というか、私この先生の著書のファンなので、以下スポーツ選手と同様に呼び捨てします) が吉原説を最初に取り上げているのは、発表年が早く信頼性が高いと踏んだからだと思う。そうだよねタクミ?
 実際のところは、複数の人がそれぞれの思惑で、同時多発的に「輿論」→「世論」という言い換えを考えた、というのが本当のところなのかもな、と思う。そういう理解でいいのかな、どう思う、タクミ? (...すいません)

 まあとにかくそんなわけで、1946年12月8日、毎日新聞の見出しに「世論がさばく」という表現が登場。そうか、真珠湾のちょうど5年後か。
 なお、翌9日には朝日新聞に「世論調査」という表現が登場する。

 なんでこんなメモをとっているかというと...
 数日前、別の調べ物をしていてほんとに偶然に見つけたんだけど、日本世論調査協会報「よろん」85巻 (2000) p.55に短い匿名コラムが載っていて、そこに上と関連する面白いエピソードが紹介されていた。
 「よろん」のこの号には宮森喜久二の追悼記事(2頁)が掲載されている(水野但「宮森喜久二君を送る」)。このコラムはその2頁目の余白を埋めているのである。
 このコラム、なにしろ目次に載ってない。関心ある人にとっても、これを探しあてるのは至難の業であろう。全文を転載しちゃいます。

宮森さんの「世論」作戦
 1946年、漢字制限で「輿」が使えなくなって「輿論」をどう表すか、与論、民論、公論ではどうか、などと問題となっていたころのこと。宮森喜久二さんは、「輿論」調査に替えて新聞紙上で「世論調査」を使い、論争に事実上の決着をつけようとした時の経緯を、当協会報第75号の「世論調査草創期の思い出」の中でふれている。
 新聞がある時期から派手な形で「世論」を使用することを考え、朝日にも足並みを揃えてもらうことにし、次回の調査からどちらが先になっても「世論」を使用する、という発想。その先のことを、宮森さんは「その時こちらは次の調査は企画に入る段階であったから、当然朝日が先に『世論』を使ってくれると期待し、またこちらの押しつけでない印象のためにも朝日に先鞭をつけて欲しかった。ところが悪いことに毎日の世論調査の発表の方が先になってしまった。勿論あいさつは忘れなかったが、半月程経って朝日が『世論調査』の文字で結果を発表して貰えた.私は朝日新闇の雅量に敬意を表してやまなかったが」と書いている。
 先年、実際の紙面を調べたところ、朝日が「世論調査」として報道したのは1946年12月9日の紙面であり、毎日はその一週間後の12月16日であった。これは毎日の世論・選挙センター副部長の浜田重幸氏にも調べて頂いて確認された。ただ、朝日が出す前日の毎日紙面で、世論調査の記事ではない一般の記事の見出しに「世論」が使われていることがわかった。「教組、遂に労委提訴」のニュースの関連記箏として、「正しい民論、大衆の声、健全な父兄の常識がこの問題をさばいてくれると信じている(以下、略)」という文相の談話が載り、それに「世論がさばく」の2段見出しがつけられているのだ。(以前から、「世間の議論」といった意味での「世論」は、「せうん」「せいろん」の読みで使われてはいたが、この見出しは談話の内容からみて、「輿論」に替えて使ったと思われる。)
 宮森さんの文では、「小出しに(『世論』を)使用することを避けるため社内においてもこれを秘匿すること」になっていた。そうしてみると、宮森さんの「あいさつ」は他部のフライングをわびたものではなかったか。宮森さんが毎日新聞世論調査に持ち続けてきた自負が、はからずも記憶でフライングしてしまったのかもしれない。(い)

 なるほどね、12月8日の見出しの「世論」は、毎日の世論調査とは関係ない。宮森の回顧談には、ちょっと事実と異なる部分があるわけだ。
 コラムの書き手である「(い)」とは誰か。この号の末尾に編集委員が連名であとがきを書いており、その6名のなかで名前が「い」から始まるのは今井正俊という方だけ。朝日新聞で世論調査に携わっていた方である模様。

 以上、この小さな埋め草的コラムが面白かったので、メモをとった次第。いやー、目次にない記事ってやめましょうよ、後世の人が困りますよ。

 なお、上述の宮森「世論調査草創期の思い出」は別の面でもとても面白かった。調査の基礎を学ぶため、 敗戦後の焼跡のビルの一室で戸田貞三ら錚々たる教授たちの教えを受け、のちに内幸町のGHQで占領軍の将校パッシンの教えを改めて受けたのだが、パッシンの説明のほうがシグマ記号が出てこなくてわかりやすかった、と感謝している。ありそうだなあ、そういうことって。

雑記 - 1946年に毎日新聞がpublic opinionという意味で「世論」という言葉を最初に使ったいきさつ秘話

2018年10月19日 (金)

 データ解析が活躍する分野は多々あるが、私がたまたまお世話になっております市場調査というのは、そのなかでもかなーり日陰のほうにある、かなーり地味な分野であって、我こそはデータ解析の専門家!と胸を張るような人はそうそういないように思う(いらっしゃいましたらすいません)。だからこそ私みたいな素性の知れない奴がうろちょろしている、という面もある。
 もっともグローバルの市場調査会社は、R&D部門に本格的な統計家を抱えていることがあって、その例として私の頭に浮かぶのは、LipovetskyとConklinという人たち。応用統計系の学術誌に結構な数の論文を載せているのだが、ご所属はUSのGfKである。

Conklin, M., Lipovetsky, S. (2013) The Shapley Value in Marketing Research: 15 Years and Counting. Proceedings of the Sawtooth Software Conference.
 仕事の都合でシャープレイ値についてお問い合わせを頂いたので、調べるついでに目を通してみた。前にSawtooth社のカンファレンスのproceedingsを眺めていたときに気が付き、面白そうだな、と思っていた奴。
 ゲーム理論の本にシャープレイ値というのが出てくるけど、マーケティングリサーチでもたまーに見かけることがある。それを最初に提案したのは俺たちだぜ、という回顧談である。

 いわく、
 1998年、我々2人はTURF(total unduplicated reach & frequencyね)について研究していた。TURFはもともと雑誌への広告出稿の文脈で出てきた概念で[←へー!]、リーチを最大化する出稿誌の組み合わせを見つけるというのが目標であった。これが製品ライン最適化に応用された。
 当時の標準的手続きは次の通り。あるラインにおけるフレーバーの候補集合のそれぞれについて購入意向を訊く。で、どちらかに「必ず買う」と答える人の人数を最大化するペアを見つける, 三つ組を見つける, 四つ組を見つける...。これはNP困難問題である。
 当時Lipovetskyさんはマーケティングリサーチ業界に参入したばかりだったのだが、この計算をみて云った。「これって...ゲーム理論でいうシャープレイ値に似てない?」「なにそれ?」
 これが二人の、15年間にわたるゲーム理論の世界への冒険の始まりであった。[←ひゅー、かっこいいー]

 シャープレイ値とはなにか。これはShapleyが1953年に発表したもので、協調型ゲームにおいて、ゲームによって作られた価値の全体を、個々のプレイヤーに配分するものである。
 プレイヤー$i$のシャープレイ値は,
 $\phi = \sum_{S - all subsets} \gamma_{n(s)} [v(S) - v(S-\{i\})]$
 $\gamma_{n(s)} = \frac{(s-1)!(n-s)!}{n!}$
[記法が大変不親切で、読み手に理解させようと思ってないだろ?という感じなのだが、$S$は可能なすべての提携を表すインデクス、$v(S)$は提携$S$の下でのゲームの特性関数値、$n(S)$はプレイヤー数、$S-\{i\}$とは「$S$から$i$を除いた集合」を指しているのであろう]
 要するに、プレイヤーのすべての可能な下位集合$S$を通じて、あるプレイヤーが入っている場合の価値から入っていない場合の価値を引いた値を重みをつけて合計したものである。いいかえると、あるプレイヤーがなんらかの他のプレイヤーの集合に参加したときの限界価値である。[文章にするとわかりにくいね...]
 この概念をTURFに適用すると、プレイヤーは製品、価値はリーチ、シャープレイ値はリーチの配分である。

 幸いにして、TURFはゲーム理論で言うところのシンプルゲームである。あるゲームの価値は1か0。ある提携が1を得たら、その提携の全てのプレイヤー($r$人とする)がシャープレイ値として$1/r$を得る。つまり、ある製品集合がある消費者にリーチしたら、そこに含まれるすべての製品が$1/r$を得る。
 シンプルゲームは結合が可能である。つまり、ある消費者をあるゲームとみなしてシャープレイ値を求め、すべての消費者を通じて平均すればよい。

 というわけで、TURFはNP困難であるにも関わらず、シャープレイ値はかんたんに計算できる。マーケティングの観点からみて、ここでいう価値とはなにかというと [...シャープレイ値を製品の購入確率として捉えることができるよね的な話。わかりにくいので中略...] というわけで、消費者をカテゴリ購入頻度と一回当たり購入数量で重みづけて集計すれば、有用なビジネスツールとなるであろう。
 一般に小売店のカテゴリ責任者は、製品の売上を順位づけし、下位にある製品を外す。シャープレイ値を使えばもっと良い案を提示できる。
 シャープレイ値を使うなら、TURFのやり方もちょっと変えたほうが良い。単に自社製品について意向を聞くんじゃなくて、競合こみのリストを提示し、これまでに買ったことがある奴を時間制限つきで選ばせるのがお勧め[←なるほど]。新製品について調べる場合は、今買ってる製品と新製品のリストを提示して順位づけさせるのがお勧め。
 
 他の使い方もある。たとえば、回帰分析で$R^2$を予測子に分配するとき...
[シャープレイ値を回帰モデルにおける予測子の相対的重要度の指標として使うという話である。この話題、それはそれですごく関心があるんだけど、この文章だと書き方がカジュアルすぎてかえってわかりにくいので、メモは省略。お二人は2000年代に、この問題について何本も論文を書いているのである。Gromping & Landau(2009)による批判とLipovetsky & Conklin (2010)での応答についても一言触れている。私はGrompingさんのほうに分があると思った覚えがあるんだけど、当人としては言い負けたと思ってない模様]

 シャープレイ値のいいところは効用関数が抽象的だというところだ。たとえば狩野理論と組み合わせて...
[これも説明が端折られすぎててわかりにくいので省略するが、Conklin, Powaga, & Lipovetsky (2004)の紹介であろう。前に読んだ気がする]

 というわけで、マーケティングリサーチにシャープレイ値を適用して15年、大変有用な手法であることがわかった。ビジネスというのは結局のところ優先順位づけである。シャープレイ値はそのための簡易な方法を提供してくれる。
 云々。

 ... さきほど検索してみたところ、SNSではお二人の所属はまだGfKとなっていた。先日GfKのカスタムリサーチ部門はIpsos社に買収されたのだが、お二人はIpsosに残るのかしらん。

論文:マーケティング - 読了:Conklin & Lipovetsky (2013) マーケティングリサーチにおけるシャープレイ値の使い道

2018年10月18日 (木)

Hong, L., Page, S.E. (2004) Groups of diverse problem solvers can outperform groups of high-ability problem solvers. PNAS, 101(46).
 都合で無理やり読んだ論文。集合知の研究で有名な、かのスコット・ペイジさんによる理論論文である。身の程知らずにもほどがあるのだが...

(イントロ)
 集団の問題解決において集団内の多様性が大事だといわれるのはなぜか。
 多くの人がこう考えている。デモグラフィック属性とか文化・エスニシティとか熟達とかの点で多様性がある集団は(これをアイデンティティ多様性と呼ぼう)、問題を表現し解決する方法においても多様性を持っているので(これを機能多様性と呼ぼう)、問題解決のパフォーマンスが高くなる。
 では、機能多様性がパフォーマンスにつながるのはなぜか。個々人の能力が低くても、機能多様性があれば、優秀な奴らに勝てるのか。
 これを説明する数学的枠組みを提案する。

多様な問題解決者のモデル
 解集合$X$を実数値にマッピングする関数$V$があり、この関数の最大化を目指す問題解決者の集団があるんだけど、ひとりひとりの能力は限られている、としよう。たとえば、$X$はエンジンのデザインの可能な集合で、$V$はエンジンの効率性である。

 問題解決者たちは内的な言語を持っており、それによって解をエンコードする。ここでいう内的な言語というのは、脳が情報を知覚し貯蔵する神経科学的仕組みだと思ってもよいし、我々が経験と訓練に基づき問題を解釈する仕組みを比喩的に指しているのだと思ってもよい。
 この内的言語による解の表現をパースペクティブと呼ぼう。つまり、パースペクティブとは解集合とエージェントの内的言語とのマッピング$M$である。

 問題解決者は解を探索する。その探索の仕方を表すために、ある問題解決者が、自分の内的言語で表現された解集合を、解の下位集合へとマッピングするヒューリスティクスを持っていると考え、このマッピングを$A$とする。つまり、問題解決者が検討するのは、$A$によって生成された解の下位集合だけである。

 というように考えると、あるエージェントの問題解決能力とは、パースペクティブとヒューリスティクスのペア$(M, A)$である。エージェントが2人いたら、$M$も違うかもしれないし$A$も違うかもしれない。
[←よくわからん。$M$はその人が内的に表象しうるすべての解の集合を生成するマッピングで、$A$はその人が実際に検討する下位集合を生成するマッピングだよね? $A$で生成された下位集合のなかでどれがいいかを選ぶ能力ってのはないかしらん。解の評価は自明であって、探索さえすればいいという設定なの? ここではきっとそうなんだろうな]

 あるエージェントが問題をエンコードし、ヒューリスティクスを適用し、検討した解のなかで解を選び、選んだ解より高い値を持つ解が検討した集合の中にないとき、選んだ解を局所最適解と呼ぶ。あるエージェントの持つ局所最適解の集合、そしてそのbasins of attractionのサイズが、そのエージェントの能力であるといえるだろう。
[←basins of attractionというのがよくわからん。$A$が生成した解の下位集合のサイズのこと?それとも、$M$が生成しうる解の集合のうち、なんといえばいいんだろうか、後になって「無視してはいなかった」といえるような範囲のこと?]

 エージェントの集団が手に入れる解は、個々のエージェントの局所最適解の共通部分に位置する解だけである。このことは、エージェントがチームとしてともに働く手順とは独立に成り立つ。しかし、相互作用の手順がちがえば、すべてのエージェントにとって局所最適解となる解のbasins of attractionも変わってくる。だから、チームの働き方はパフォーマンスに影響する。

計算実験
 整数$\{1,\ldots,n\}$を実数に変換するランダム値関数について考える。実は、値は$[0,100]$の一様分布から独立に抽出されている。
 エージェントはこの関数を最大化する値を見つけようとする。どのエージェントも、$n$個の解を、円周上に時計回りに並ぶ$n$個の点としてエンコードする(つまり、パースペクティブは皆同じ)。
 個々のエージェントは、現在位置の右にある$l$個の点のなかの$k$個をチェックする。そのヒューリスティクスは$\phi = (\phi_1, \ldots, \phi_k)$ ただし$\phi_i \in \{1,\ldots,n\}$で表される。
 例を挙げよう[←はい、さっさとそうしてください]。$n=200, k=3, l=12$とする。あるエージェントのヒューリスティクスが(1,4,11), 開始点は194であるとする。このエージェントは

  1. まず194番の値と194+1=195番の値を比べる。194番のほうが高かったとしよう。
  2. 194番の値と194+4=198番の値を比べる。198番のほうが高かったとしよう。
  3. 198番の値と、198+11=209番、すなわち(一周200個なので)9番の値を比べる。9番のほうが高かったとしよう。
  4. 9番の値と9+1=10番の値を比べる...
  5. というのを繰り返し、現在位置より高い値がみつからないのが3回続いたらストップする。

 あるヒューリスティクス$\phi$のパフォーマンスは、始点$i$のときに到達する停止点を$\phi(i)$として、
 $E[V, \phi] = \frac{1}{n} \sum_i^n V[\phi(i)]$
である。$k, l$が決まれば、ヒューリスティクスの集合が決まる。

 ここから実験。
 ここでは、$l = 12, k=3, n=2000$の結果を報告する。すべてのヒューリスティクスについてパフォーマンスを求めておき、最優秀な10個のエージェントの集団と、ランダムに選んだ10個のエージェントの集団をつくる。
 で、エージェントの集団に解を探させる。エージェント1番が解を探し、2番はそこからまた解を探す。順繰りにずっと繰り返して、誰も新しい解を見つけられなくなったらストップ。
 結果。ランダム集団のほうが成績が良い。集団内のヒューリスティクスの多様性をみると($\phi$の異同を総当たりで数える)、ランダム集団のほうが多様である。20エージェントに増やすと、成績の差も多様性の差も小さくなる。$l=20$にすると(多様性が高くなりやすくなる)、ランダム群の多様性は実際に高くなり、また成績も上がる。
 [いやぁ... 私が素人だからかもしれないけれど、セッティングが抽象的すぎて、「うまいこと騙されている」感が拭えない。まあこれはデモンストレーションで、本題はここからなんでしょね]

数学的定理
 エージェントの母集団を$\Phi$とする。以下を想定する。

 これから次の定理を示す。$\Phi$からエージェントを、なんらかの分布に従って抽出するとき、$N$人を抽出したなかからさらに個人レベルで最良の$N_1$人を選んでつくった集団のパフォーマンスより、最初から$N_1$人を抽出してつくった集団のパフォーマンスのほうが良くなるような$N_1$と$N$($N_1 < N$)が、確率1で存在する。

 [と、ここから数学の話になる... 頑張って読み始めたんだけど、気が狂いそうになったので断念。人の頭にはですね、それぞれの限界というものがあるのです]

結語
 本論文では、知的問題の解決において、最良の問題解決者からなる集団より、ランダムに選ばれた問題解決者からなる集団のほうがパフォーマンスが良くなる条件を示した。
 理想の集団は有能かつ多様な集団だが、問題解決者のプールが大きくなるほど、最良の解決者はどうしても似てくる。
 なお、集団が小さすぎるとランダム集団はうまくいかない(局所最適解がたまたま共通してしまうから)。また集団が大きいときには有能集団も多様性が生じてパフォーマンスが上がる。
 今後の課題: コミュニケーションコストの考慮、学習の考慮。

 ... いやー、難しくて死ぬかと思たがな。
 この論文、ペイジさんの主著"The Difference" (2007) (邦訳「多様な意見はなぜ正しいか」)の8章の説明があまりに回りくどく、素人向けやからとゆうてこれはないやろ、ええ加減にせえよ、と腹を立て、探して読んでみた次第である。 先生すいませんでした。おとなしくご著書を読みますです。

論文:予測市場 - 読了:Hong & Page (2004) 平凡な人々のグループが賢い人々のグループよりも賢くなるメカニズム

2018年10月17日 (水)

 たまたまみかけて、タイトルが気になってざっと目を通した論文。メモを読み返すと、途中で急速に興味を失っている様子がわかり、なんだかおかしい。

Markos, A., Iodice D'Enza, A., van de Velden, M. (2018) Beyond Tandem Analysis: Joint Dimension Reduction and Clustering in R. Journal of Statistical Software.

 ResearchGate(研究者向けSNS)に2018年のJSS誌の論文として公開されているんだけど、JSSのサイトには見当たらない。これから載るってことかしらん。
 知らなかったんだけど、Rにclustrdパッケージというのがあるそうな。その開発者による解説である。

 いわく、
 クラスタ分析するとき変数の数が多いと類似性の算出が難しくなる[次元の呪いのことであろう]。そこでいったん次元縮約してからクラスタ分析することが多い。一般的な方法は別々にやることである(タンデム・アプローチ)。
 次元縮約には主成分分析(PCA)とか対応分析(CA)とか多重対応分析(MCA)とかが使われる。Rのパッケージで言うとstatsのprcomp()やprincomp()とか、ade4, ca, CAvariants, FactoMineR, homalsとかである。
 FactoClassパッケージというのもある。まずPCAかCA/MCAで次元縮約し、次にユークリッド距離のWard法で階層クラスタリングしてクラスタ中心をつくり、それを初期値にしてk-meansする、というのを一気にやってくれる[←まじか...そんな風に手続き化しちゃっていいのかしらん...]。こういうのをLevart et al.(2000, 仏語の書籍)はconsolidationアプローチと呼んでいる。
 FactoMineRパッケージにも関数HCPC()があり、PCAないしCA/MCAの結果を階層クラスタリングしてくれる。
 なお、クラスタの評価にはfactoextraパッケージが便利だよ。

 さて。こういうタンデムアプローチは、前半戦と後半戦で違う基準の最適化をしているという問題点がある。そこで次元縮約とクラスタリングを同時にやる手法が提案されている。本論文ではいくつかの手法を紹介する。
 いずれの手法もあまり知られていない。たぶんソフトがなかったからだろう。clusterdパッケージというのを作ったので使うがいい。
 なお、手法の良し悪しについてはここでは扱わない[←えええええ]。量的データについてはTimmerman et al.(2010 Comp.Stat.&DataAnal.), カテゴリデータについてはvan de Velden et al.(2017 Psychometrika)をみればいいんじゃないすか。

 量的データの手法。
 以下、データ行列(中心化・標準化済み)を$\mathbf{X}$(サイズ$n \times Q$)とする。縮約空間の次元数を$d$とする。列が直交している負荷行列を$\mathbf{B}$(サイズ$Q \times d$)とする(つまり$\mathbf{B}^T \mathbf{B} = \mathbf{I}_d$)。クラス所属を表す二値行列を$\mathbf{Z}_K$(サイズ$n \times K$)とする。クラスタ重心行列を$\mathbf{G}$(サイズ$K \times d$)とする。

 タンデムアプローチの代替案を2つご紹介しよう。

 その1、reduced K-means (RKM) (De Soete & Carroll, 1994 Chap.)。
 これは射影追跡と等価である。クラスタへの分類と次元縮約を同時に行い、縮約空間におけるクラスタ間分散を最大化する。目的関数は
 $min \phi_{RKM}(\mathbf{B}, \mathbf{Z}_K, \mathbf{G}) = || \mathbf{X} - \mathbf{Z}_K \mathbf{GB}^T ||^2$
 ただし$||\cdot||$はフロベニウスノルム。[←ああ、難しい言葉を使いおって...行列の全要素を縦に並べたベクトルのユークリッドノルム、ってことでいいのだろうか]
 [...中略...]

 その2、Factorial K-means (FKM) (Vichi &l Kiers, 2001 unpub.)
 これはK-meansとPCAを同時にやって、縮約空間におけるクラスタ内分散を最小化する。目的関数は
 $min \phi_{FKM}(\mathbf{B}, \mathbf{Z}_K, \mathbf{G}) = || \mathbf{XB} - \mathbf{Z}_K \mathbf{G}||^2$
 [...中略...]

 この二つはどちらも次の手続きで解ける。

  1. $\mathbf{Z}_K$の初期値を決める(対象をランダムに分類する)。
  2. $B = \mathbf{X}^T((1-\alpha)\mathbf{P}-(1-2\alpha)\mathbf{I}) \mathbf{X}$を得る。$\alpha=0.5$だとRKM, $0$だとFKM, $1$だとタンデムになる。
  3. $\mathbf{XB}$をk-means法で分類して$\mathbf{Z}_K$を更新する。
  4. 2に戻り、$\mathbf{Z}_k$が変わらなくなるまで繰り返す。

 というわけで、$\alpha=0.25$とか$0.75$なんていう設定でもいいわけだ。
 実験によると、RKMはデータがデータの下位空間と直交な方向に分散を持っているときがだめで、多くの変数がクラスタ構造を反映しているときにうまくいく。[←よくわからん。上述のTimmmerman et al.(2010)というのを読まんとあかんらしい]

 カテゴリカルデータの手法。
 変数の数を$q$, $j$番目の変数のカテゴリ数を$p_j$とする。データ行列を$\mathbf{X}$のかわりに二値行列$\mathbf{Z} = [\mathbf{Z}_1, \ldots, \mathbf{Z}_q]$(サイズ$n \times Q$)とする。ただし$Q=\sum_j^q p_j$。[ダミー行列にするわけね。メンバーシップ行列$\mathbf{Z}_K$と記号が似ているけど意味が違うので注意]
 $j$番目の変数について、カテゴリをなんらか数量化した行列を$\mathbf{B}_j$(サイズ$p_j \times d$)とする(どのように標準化するかは手法によって異なる)。縦に並べて$\mathbf{B} = [\mathbf{B}_1^T, \ldots, \mathbf{B}_q^T]^T$(サイズ$Q \times d$)とする。
 データ行列$\mathbf{Z}$の列が縮約空間でとる座標を$\mathbf{Y}$(サイズ$n \times d$)とする。
 $\mathbf{Z}_K, \mathbf{G}$はさっきと同じ。
 
 3つの手法をご紹介しよう。

 その1、クラスタ対応分析
 発想としては、クラスタxカテゴリのクロス表$\mathbf{F} = \mathbf{Z}_K^T \mathbf{Z}$の対応分析である。クラスタ間分散を最大化するように、行(クラスタ)と列(カテゴリ)に数量を振る。しかしクラスタのメンバシップがわからないので、次の手順を採る。

  1. $\mathbf{Z}_K$の初期値を決める(対象をランダムに分類する)。
  2. $\mathbf{Z}_K^T \mathbf{Z}$を対応分析して$\mathbf{B}$を得る。
  3. 個人の座標をむりくり求める。$\mathbf{Y}=(1/q)(\mathbf{I} - \mathbf{11}^T/n)\mathbf{ZB}$。
  4. $\mathbf{Y}$をk-means法で分類して$\mathbf{Z}_K$を更新する。
  5. 2に戻り、$\mathbf{Z}_k$が変わらなくなるまで繰り返す。

なお視覚化の際には...[略]

 その2、MCA K-means。(Hwang et al, 2006 Psychometrika)
 最適化関数は...[省略]。手順で言うと、

  1. まず$\mathbf{Z}_K$の初期値を決める(対象をランダムに分類する)で、MCAをやって$\mathbf{Y}$を得てしまう。
  2. カテゴリ数量$\mathbf{B}$とクラスタ重心$\mathbf{G}$を得る。[式は省略]
  3. $\mathbf{Y}$を更新する。[式省略]
  4. $\mathbf{Y}$をk-meansして$\mathbf{Z}$を更新。
  5. 2に戻り、$\mathbf{Z}_k$が変わらなくなるまで繰り返す。

ステップ3で$n \times n$行列の固有値分解をするというのが弱点で、改善提案もある。[...中略]

 その3、i-FCB
 これは非対称CAとK-meansを繰り返すという手法で...[興味が薄れてきたのでスキップ]

 以上を搭載したclustrdパッケージの使い方と使用例をご紹介しよう。[スキップ]
 今後はファジークラスタリングに拡張したいと思ってます。云々。

 ... いやー、正直なところ、知らん手法の連続攻撃でびっくり、であった。いろんな手法があるものねえ。
 タンデム・クラスタリングの代替案といえば、真っ先に挙がるのは潜在クラスモデルでしょ? なぜ一言も言及がないの?と不思議に思うわけだが、そういう主旨の文章ではないのでありましょう。

論文:データ解析(2018-) - 読了:Markos, et al.(2018) 次元縮約とクラスタリングを同時にやりたいあなたのためのclustrdパッケージ

2018年10月16日 (火)

Camerer, C.F., et al. (2018) Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour, 2, 637–644.
 ちょっと前に読んだ奴。社会科学の実験研究の大規模な追試プロジェクトの報告で、話の主旨自体には正直あまり関心がなかったんだけど(すいません)、予測市場を使っているので手に取った。

 著者は24名の連名。ファーストはコリン・キャメラ―, 他に社会心理学のノセックとか、ベイズ認知モデルのワゲンメーカーズとか、若い経済学者のTaisuke Imaiとか、わたしゃ良く知らないが錚々たるメンバーなのではないかと思う。

 2010-2015年にNatureとScienceに載った社会科学の実験論文21本について、再現性を調べた。細かく言うと、各論文で報告されている研究のうち、処理効果が有意な最初の研究に注目し、そのなかで有意かつ重要な比較1つについて調べた。
 追試は二段階で行った。

ステージ1の標本サイズは平均すると元論文の約3倍、ステージ2は約6倍になった。以上、もちろん事前登録しました。[...中略...]
 これだけじゃ再現性の有無が二値になっちゃうので、さらに以下も行った。(1)オリジナルと追試を併せたメタ分析。(2)95%信頼区間の算出。(3)small telescopesアプローチ[不勉強にしてなんだかわからん。Simonsohn(2015 Psych.Sci)をみよとのこと]。(4)ベイズファクターの算出、(5)ベイジアン混合モデル, (6)再現性についてのピアの信念[←これが読みたくて手に取った次第である]。

 ... ここで本文メモを中断して、対象となった21本の論文とはいったいなんなのかをメモしておく。Nature, ScienceをN, Sと略記する。

というわけで、私は身体化認知の2本しか読んでないけど、さぞやメディアに取り上げられたであろうというキャッチーなタイトルの論文が目白押しである。

 結果。
 有意性という観点からいうと、再現されたのはステージ2までで21個中13個。[←うわーぉ]
 標準化した効果量の平均でいうと、元研究では0.46だったのが追試では0.25になった。

 メタ分析では...[以下、いろんな角度からの分析。丸ごと中略]

 再現性についてのピアの信念を推定するため、調査と予測市場を開催した。予測市場でによる再現性の予測は63%, 調査による回答は61%で、正解(62%)に近かった。研究別にみると正解との相関は高かった。つまり、ピアによる再現性の予測はかなり当たる。
 [元論文のFig.4。ほんとだ、追試での再現性をかなり正確に予測している。どの研究に再現性がなさそうか、研究者にはなんとなく見当がつくってことなんだろうな。なお、予測市場と調査の相関は高そうだ。]

 考察。
 科学研究においては検定力の低いたくさんの研究と出版バイアスのせいで、効果量が誇張されているものと思われる。
 効果量がほぼ0となった研究が8つ出てきた。これはオリジナルの研究が偽陽性だったせいかもしれないし、プロトコルを揃えるように努力はしたものの(21本中20本までは原著者の協力を得ている)、やっぱりどっかが違ってたのかもしれない。詳しくは付録を見てくれ...。
 云々、云々... [すいません、予測市場の話が終わったあたりから読み飛ばしてます]
 これからは、分析計画の事前登録、そして全研究の出版が大事でありましょう。

 ... いやー、予測市場の使い方が知りたくて手に取ったんだけど、途中でなんだか個人的に盛り上がってしまった。
 予測市場でも調査でも、もっとも再現性が怪しいと評価されたツートップは...(ドラムロール)... Ackerman et al.(2010)とLee & Shewarz(2010)、どちらも身体化認知でありました!
 もちろんこの2件、再現に失敗した8本に含まれている。はっはっは... いやあ、身体化認知に関しては、みんなちょっと頭冷やしたほうがいいよね、ほんとに。

論文:予測市場 - 読了: Camerer, et al. (2018) 社会科学の有名な実験研究21本を追試してみたら、ああなんてこったい、結果は...

 仕事の都合で突然訪れた「ヒストグラムから確率分布をノンパラメトリック推定したい」祭り、時間がないのでそろそろ終了したいんだけど、Rizzi et al.(2016)が挙げていたpenalized composite linkモデルが良く理解できず、なんだか気持ち悪いので、大急ぎで目を通した。Rのungroupパッケージの元論文である。

Rizzi, S., Gampe, J., Eilers, P.H. (2015) Efficient Estimation of Smooth Distributions From Coarsely Grouped Data. American J. Epidemiology, 182(2), 138-147.

 イントロ... [省略]

 ヒストグラムの元データに出現しうる値の系列(たとえば年齢だったら, 0歳, 1歳, ...)を$a_1, \ldots, a_J$とし、その頻度の期待値を$\gamma_j$とする。なにを云ってるのかというと、値が$a_j$である確率を$p_j$とし、仮にサイズ$N$の標本があるならば、$\gamma_j = Np_j$である。
 $a_j$の頻度は平均$\gamma_j$のポアソン分布に従う。我々が推定したいのは$\mathbf{\gamma} = (\gamma_1, \ldots, \gamma_J)^T$である。ここまではいいっすね。

 問題は、我々が観察しているのが$a_j$それぞれの頻度ではなく、もっと粗いビンにおける頻度分布だという点である。
 ビンを$I$個、観察された頻度を$Y_1, \ldots, Y_I$とする。これもポアソン分布に従う。各ビンでの平均を$\mu_i$として
 $P(Y_i = y_i) = \mu_i^{y_i} \exp(-\mu_i) / y_i!$
である。
 $\mu_i$は$\gamma_j$をいくつかまとめたものだ、と考えて、$\mathbf{\mu} = (\mu_1, \ldots, \mu_I)^T$について
 $\mathbf{\mu} = C \mathbf{\gamma}$
としよう。$C$は$I \times J$の行列で、要素は1か0。ビン$I$がもとの$J$番目の値を含んでいるときにのみ、行$I$, 列$J$が1になる。
 なお、これを合成行列と呼び、こういうモデルを合成リンクモデルという。提唱者はThompson & Baker (1981)で、一般化線形モデルの拡張になっている。[←そうなの? よくわかんないけど、まあいいや]

 $\mathbf{\gamma}$は非負じゃないと困るので、
 $\mathbf{\gamma} = \exp(\mathbf{X} \mathbf{\beta})$
とし、$\mathbf{\beta}$ を推定する。普通は、$\mathbf{X}$は$J \times J$の単位行列、$\mathbf{\beta}$は長さ$J$のベクトル、でよい。以下でもそう考えるが、$J$がすっごく大きいときはパラメータ数が大きくなりすぎるので、$\mathbf{X}$を次元$p$のBスプライン基底としてもよい。

 さて、こうしてデータ生成プロセスを妄想するのは勝手だが、問題は、$\mathbf{\beta}$をどうやって推定するかである。
 $\mathbf{\gamma}$はスムーズだと考え、$\mathbf{\beta}$の非スムーズさを表す行列$\mathbf{D}_2$を求める[詳細は付録。読んでないんだけど、ちらっとみたところでは、ある$\beta_j$について、その両隣の和からその2倍を引いた値を求める模様]。で、ペナルティ
 $P = (\mathbf{D}_2 \mathbf{\beta})^2$
というのを考える。

 さて、このモデルのポアソン対数尤度は
 $l = \sum_i^I (y_i \log\mu_i -\mu_i)$
である。ここからペナルティを引いた罰則つき対数尤度
 $l^* = l - \frac{\lambda}{2} P$
を最大化する。これはiteratively reweighted least-squaresで解ける。
 パラメータ$\lambda$は、AICが最小となる値をグリッドサーチして決めるがよかろう。
 実データへの適用例... [省略]

 考察。
 本提案は頻度主義アプローチである。前にこれのベイジアン版を提案したが(そのときはオープンエンドのことを考えてなかった)、それだと$\lambda$の決定に伴う不確実性を考慮できる。シミュレーションで比較してみたが(付録)、たいした違いはなかった。
 このモデルの漸近特性は解析的にはわかっておらず、今後の課題。シミュレーションで調べたところ(付録)、一致性など良い性質がみられた。
 今後の課題は...まず2次元への拡張。各ビンにおける平均やSDが分かっているときにそれをうまく使う方法。

 ... なるほどねー。データの背後に平滑な離散分布を考えるわけね。そこでのカテゴリ数($J$)はどのくらいがよいのだろうか? あまり大きくするとなんらかの構造($\mathbf{X}$)を入れないといけなくなるだろうけど、小さすぎても良くないような気がする。

論文:データ解析(2018-) - 読了: Rizzi, Gampe, & Eilers (2015) ヒストグラムから確率分布をノンパラメトリック推定する罰則つき合成リンクモデル

 ヒストグラムから確率密度曲線をノンパラメトリックに復元し、任意の区間の確率を推定したい... 絶対そういうのがあるはずだ... と、ディスプレイの前で延々と、探し、探し求めてー [←突然「長崎は今日も雨だった」の節になる]、ついに見つけた論文。

Rizzi, S., Thinggraard, M., Engholm, G., Christensen, N., Johannessen, T.B., Vaupel, J.W., Lindahl-Jacobsen, R. (2016) Comparison of non-parametric methods for ungrouping coarsely aggregated data. BMC Medical Research Methodology. 16:59.

 いやー、正直いって、この論文に辿り着くまでに半日かかった。あきらかに探し方が悪かったんだけど、ポジティブにいえば、その半日で少しは賢くなったということだろう。

 著者らの整理によれば、その方法は大きく3つある。

 その1, カーネル密度推定量
 いま、未知の連続分布$f(x)$からの標本$x_1, \ldots, x_n$があるとして、$f(x)$のカーネル密度推定量は
 $\hat{f}(x) = \frac{1}{nh} \sum_i^n K(\frac{x-X_i}{h})$
この推定においてポイントになるのは、カーネル関数$K()$よりもむしろバンド幅$h$である。$h$はプラグイン推定かCVで決めることが多い。
 さて、ヒストグラムのように値がグループ化されてて、もはや$x_1, \ldots, x_n$がわからないときはどうするか。

 その2, スプライン補完
 ヒストグラムを累積分布に直し、データ点の間を2次だか3次だかのスプライン関数でつなぐ。よく用いられている方法なんだけど、オープンエンドの階級のときに困る。うっかりすると曲線が下がっちゃう(つまりある区間の頻度が負になる)から。対策:

 その3, penalized composite linkモデル
 composite linkモデルというのは一般化線型モデルの拡張で、$I$個の階級について頻度$y_i$がわかっているとき、それを期待値$\mu_i$のポアソン分布の実現値とみる。で、実は背後にもっと狭い$J$個の階級があり、それぞれが$\gamma_j$を持っていて、それを$I$個の階級にまとめたら$\mu_i$が得られたのだと考える。この$\gamma_j$の分布を最尤推定するんだけど、その際に曲線のラフさを表す罰則項をいれる(そうしないと解けない)。この方法でポイントになるのは罰則項に掛けるパラメータで、AICで決める。

 さて、文献を検索しまくりまして、この問題に使われてきた方法を探しました。次の5つが見つかった。

 オーケー、じゃシミュレーションしてみましょう。
 架空の年齢別死亡数の分布を考える。あるパラメータ[略]を持つワイブル分布だとする。ここから標本を抽出し、ヒストグラムをつくり、真の分布を推定する。これを500回繰り返す。
 動かす条件は、標本サイズ{200, 1000}, 階級の切り方{5年幅, 5年幅だが85歳より右はオープンエンド}。2x2=4つのシナリオができるわけだ。
 成績の指標は3つ。(1)$IAE = \sum|\hat{f}(x)-f(x)|$。(2)$ISE = \sum(\hat{f}(x)-f(x))^2$。(3)KL距離 $\sum f(x) \log(f(x)/\hat{f}(x))$。
 他にNORDCANデータベースというのから、実際の死亡データを貰ってきて分析してみた[このくだりは略]。

 結果。
 ickdeでバンド幅を決める方法はKernSmooth::dpik()がよかったので、以下そっちを使う。
 オープンエンドなしの場合だと、n=200ではスプライン補完(hermite spline, hyman spline)の成績が悪い。n=1000では大差なし。
 オープンエンドがあると、bootkde, hermite spline, ickdeでは、推定された密度曲線が右の方で変な風に跳ねる[←へぇー]。pclmが最優秀, hyman splineがこれに次ぐ。
 [実データの話。略]

 考察。
 penalized composite linkモデルが最優秀、Hymanフィルタ付きスプライン補完がこれに次ぐ、という結果になりました。

 ... ヒストグラムにオープンエンドの階級があると、カーネル密度推定が上手くいかないって話、面白いなあ。素人ながら想像するに、これはカーネル密度推定の本質的な問題というより、オープンエンドをどう扱うかという問題であって、改善の余地がある話なのかもしれない。
 いま気がついたんだけど、この論文の第一著者のRizziさん、penalized composite linkモデルのコードを公開している人なのね。自分の提案手法を推していたのか、ははは。調べてみたところ、penalized composite linkモデルのRパッケージとしてungroupというのがあって、開発者のひとりがRizziさん。この論文のあとで公開したのだろう。
 検討されている中でいちばんシンプルだなと思うのは、累積分布を単調制約付きでスプライン補完するというアイデアである。標準パッケージstatsにsplinefun()というのがあって、hyman法というのを指定できるんだけど、これじゃだめなんだろうか。

 ところで... ヒストグラムがセンサスに由来している場合、推定された累積密度曲線は、ヒストグラムの階級境界においては、もとの累積分布と交わらないと気持ち悪いような気がする。こういう場合はスプライン補完一択、ってことなのかな?

論文:データ解析(2018-) - 読了:Rizzi et al. (2016) ヒストグラムから元の確率分布をノンパラメトリックに推定する方法コンテスト

2018年10月15日 (月)

Reyes, M., Francisco-Fernandez, M., Cao, R. (2016) Nonparametric kernel density estimation for general grouped data. J. Nonparametric Statistics. 28(2), 235-249
 仕事の都合で読んだ。
 ヒストグラムから密度関数を推定したい(ヒストグラムの元データから推定するんじゃなくて)、しかもノンパラメトリックに...というのを、誰かが必ずやっているはずだ、と半日かけて探し続け、疲れ切って投げ出す寸前になって、ついに見つけた論文。
 著者らはRのbinnednpパッケージの中の人。どうやらbinned kernel density estimationというキーワードで探すのが正解だったらしい。そうして探してみると、Rのパッケージが山ほどみつかる。なんだかなあ、もう...

 いわく、
 元の値を$(X_1, \ldots, X_n)$とする。間隔$[y_{j-1}, y_j) \ (j=1,\ldots, k)$が定義されていて、この間隔に落ちた個数が$(n_1, \ldots, n_k)$、割合が$(w_1, \ldots, w_k)$だとする。
 仮に$(X_1, \ldots, X_n)$が観察できたら、密度推定には標準的なカーネル密度推定量(sKE)が使えるよね。
 $(n_1, \ldots, n_k)$から密度推定する方法としては[...中略...]、ビンのサイズが均等なときについて、Scott & Sheather (1985)の binned kernel density estimator (BKE)というのがある。
 本論文は、ビンのサイズが不均等の場合にも一般化して、$(w_1, \ldots, w_k)$から密度推定する方法(gBKE)を提案する。

 どうやるかというと... [以下、すごく端折る。どうせわかんないもん]

 ふつうのsKEってのはだね、カーネルを$K$, バンド幅を$h$として、
 $\hat{f}^s_n(x) = \frac{1}{n} \sum_i^n \frac{1}{h} K \left(\frac{x-X_i}{h} \right)$
 この漸近的MSEはわかっていて[...中略...] 最適なバンド幅というのも簡単に求められる。
 これがBKEだと、各ビンの中央値を$t_i$として、
 $\hat{f}^b_n(x) = \frac{1}{n} \sum_i^n \frac{n_i}{h} K \left(\frac{x-t_i}{h} \right)$
 さて我々がご提案するgBKEは、
 $\hat{f}^g_n(x) = \frac{1}{h} \sum_i^n w_i K \left(\frac{x-t_i}{h} \right)$
そのMSEは[...読んでない...]。最適なバンド幅は[...読んでない...]。

 シミュレーションしました[...もちろんパス...]。
 応用事例[...パス...]。

 結論。gBKEは、漸近的に不偏な推定量です。標本サイズや分布にもよるのですが、大雑把な目安としては、ビンの幅の平均が標本の範囲の6%位までであればうまくいきます[ってことは、17カテゴリくらいはないといかんということか...]。

 ... すいません、肝心の内容は全然理解してないんですけど、雰囲気はわかったということでひとつご容赦いただきたい。

論文:データ解析(2018-) - 読了:Reyes, Francisco-Fernandez, & Cao (2016) ヒストグラムから元の確率密度を推定します、階級の幅が不均等でも大丈夫です

2018年10月13日 (土)

King, G. (1990) Stochastic variation: A comment on Lewis-Beck and Slakaban's "The R-Square". Political Analysis 2(1), 185-200.
 先に読んだLewis-Beck & Skalaban (1990) に対する、政治学者King先生の反論というかコメントがあったので(というか「いつか読む」箱に入っていたので)。ついでに目を通した。ほんとはそれどころじゃないんだけど、つい...

 いわく。
 いま回帰をやって、効果パラメータ$b$, その分散行列$\hat{V}(b)$、誤差項の分散$\hat{\sigma}^2$を手に入れ、オリジナルのデータは捨てたとしよう。ここに$R^2$を付け加えたら、実質的リサーチ・クエスチョンに関してなにか新しいことがわかるのか? Noだ。というのが86年の論文における私の主張であった。
 変数$z$について
 $S(z) = \sum_i^n(z_i - \bar{z})^2 / n$
として($n-1$で割ってないのは簡略のため):
 $R^2 = S(\hat{y}) / S(y)$
 $\hat{\sigma}^2 = S(y) - S(\hat{y})$
 $\hat{V}(b) = [S(y) - S(\hat{y})] (X'X)^{-1}$
だよね。違いは、$S(y)$と$S(\hat{y})$の比をみるか、差をみるか、差を重みづけるか、にすぎない。$R^2$は新情報を付け加えない。
 なお、Lewis-Beck & Skalabanは$R^2$を母集団パラメータの推定値だと捉えているけれど、本当だろうか? 回帰モデルの式をみてみよう。どこにも$R^2$にあたるパラメータはないぞ。
 話を戻すと、$R^2$と$\hat{\sigma}^2$(ないし$\hat{V}(b)$)の両方はいらない、どちらかでよい。どちらをとるべきかはほぼ趣味の問題だが、研究者をミスリードしないのはどっちだ、という議論はできる。私は$\hat{\sigma}^2$のほうがいいと思う。理由は次の3つ。

 [ここからはR二乗の是非というより、回帰モデルについての啓蒙的解説になるので、メモ省略]

 ... あーあ、この人たち、絶対友達だよな... 双方とも面白がって書いている...
 まあとにかく、整理しておくと、実質的関心がパラメータ推定値に向かっている場合に$R^2$が無意味だ、という点については合意がある。実質的関心が予測に向かっているとき、予測の良さの指標のひとつが回帰の標準誤差(SER)だという点についても合意がある。
 意見が分かれているのは、SERを目的変数のSDで標準化するのは回帰分析ユーザにとって手助けになるのか、という点に尽きると思う($R^2$は標本特性か母集団特性の推定値かという話はポイントではない)。King先生も触れていたけど、これ、標準化回帰係数に意味があるのかという論争とパラレルなんでしょうね。

 いましらべたら、なんと、同一号にAchenさんのコメントもあるようだ。読みたいような、読みたくないような... 前にAchenさんの本を読んだら、華麗なレトリックのつるべ打ちで、英文読解そのものに消耗したのである。

論文:データ解析(2018-) - 読了:King (1990) R二乗? だから要らないってば、そんなの

 都合によりcitizen forecastingについて調べていて(そういう話題があるのです)、主要研究者のひとりである政治学者M. Lewis-Beckを辿っていたら、この先生による全く別の方面の論文が「いずれ読む」箱に叩き込まれていたことに気が付いた。世界は狭い。
 というわけで、整理の都合で読んでしまった。面白かったけど、別にいま読むこたあなかったな...

Lewis-Beck, M.S, & Skalaban, A. (1990) The R-Squared: Some Straight Talk. Political Analysis, 2, 153-171.
 いわく。
 政治学ではR二乗は時代遅れだ。人々は口々にR二乗の悪口を言う。もっとも有名なのはAchen(1982)で、かの大先生に言わせれば、R二乗なんてものにたいした意味はない。King(1986, Am.J.Polit.Sci.)も同趣旨を述べている。分散説明率?政治の分析においてそれになんの意味があるんだい? というわけである。[←このKing先生のエッセイ?は面白そう]
 なるほど。確かに我々の心のなかには冷酷な「R二乗マクシマイザー」が住んでおり、無闇に変数を増やしたがる。上述の批判で質の低い分析が防止されるってんなら、拍手するのにやぶさかでない。しかぁし。悪いのはR二乗の誤用である。R二乗そのものは悪くありません。本稿では、回帰分析においてR二乗が価値ある統計量となることがあるということをお示しするぞ。

 いま母集団について
 $ Y = \alpha + \beta_1 X_1 + \ldots + \beta_k X_k + \epsilon$
というモデルがあるとする。政治学者はこれを観察データにあてはめ、$a, b_1, \ldots, b_k$をOLS推定し、$\hat{Y}$を得る。
 このとき、研究者は回帰モデルの諸想定への合致を達成しようと尽力する。合致している程度に応じて、研究者はOLS推定値がBLUEだと信じ、係数からなにかを推論しようとする。ときには信頼区間を出したり検定したりもするだろう。
 ここでふつうの実務家は、R二乗、すなわち$RSS=\sum (\hat{y}_i -\bar{y})^2$と$TSS = \sum(y_i - \bar{y})^2$の比によって、「あてはまりのよさ」を評価しようとする。
 いっぽうAchen先生いわく、正しい「あてはまりのよさ」指標はYの推定値の標準誤差
 $SEE = \sqrt{ \sum(y_i - \hat{y}_i)^2 / (n-k)}$
だ。
 というわけで、もうちょっと賢い実務家は、$a, b_1, \ldots, b_k, N, R^2$に加えて、$SE_{b_1}, \ldots, SE_{b_k}, SEE$をチェックする。使い方としては、(1)独立変数の効果を知りたいときは$b$と$SE_b$をみる。(2)予測したい場合は$\hat{Y}$とともに、$R^2$か$SEE$かその両方をみる。

 実例で考えてみましょう。
  政治学者Brooms氏はUSにおける市長選のモデルというのを作った。$Y$は現職候補の得票率、$X_1$は犯罪率の変化, $X_2$は予算に占める道路予算の割合、$X_3$は貧困層の税率の変化, $X_4$は予算に占める教育予算の割合で、
 $\hat{Y} = 22.39 - 1.15X_1 + 0.56X_2 - 0.33X_3 + 0.47X_4$
 $R^2 = 0.52, \ \ SEE = 7.7, \ \ N=70$
である[係数のSEと検定結果は省略]。
 さて、(1)Broom 氏は独立変数の効果を知りたいとしよう。$X_2$の係数は有意。どうやら、道路予算の1パーセントの増大は得票率の0.56パーセントの増加をもたらすようだ。という風に、Broom先生は$b$と$SE_b$から知りたいことを知ることができる。
 おそらくKing先生ならここでストップである。King先生にとって、回帰分析の目的とは母集団パラメータの推測だ。しかしBroom氏もそうかどうかは別の問題である。
 (2)Broom氏は予測の良さを知りたいとしよう。SEEは7.7。直観的に言えば、これは「絶対予測誤差」のようなものがだいたい8パーセントポイントだということを表している。しかしこれだけでは物足りない。Broom氏は他の情報も必要とする。現職候補の平均得票率は?(Yの平均は51.1)。現職がどこまで大勝ち・大負けするのか?(Yの範囲は30-79)。得票率はどのくらいばらつくか?(YのSDは10.8)。カッコ内の答えによって、SEEはさらに有意味となる。
 なぜカッコ内の答えを必要としたのか。それは、SEEが予測能の絶対指標だったからだ。それ単独で評価できるような相対指標があれば便利じゃないですか。それがR二乗である。R二乗とは、独立変数について知ったことによって$Y$の予測誤差がどれだけ減ったかを表している。
 R二乗をこのように使うのはナイーブすぎるという人もいる。R二乗は予測$\hat{Y}$をベースライン予測$\bar{Y}$と比べていることになるけど、 $\bar{Y}$がベースラインだというのはナイーブだ、という意見である。そうだろうか。Broom先生にとって、$Y$しか知らないときの予測は$\bar{Y}$ではないか、もっと良い代替案があるとは思えない。[...中略...]
 絶対指標SEEと相対指標R二乗の間には
 $\sqrt{1- adj.R^2} = SEE / SD_y$
という関係がある。これをcoefficent of alienationと呼ぶ人もいる[うーん... 「説明されてない度係数」という感じだろうか]。これはいわば標準化されたSEEである。

 別の政治学者Brush氏は、Broom氏に対抗してこういうモデルをつくった。[係数のSEと検定結果は省略]
 $\hat{Y} = 40.04 - 1.12X_1 + 0.46X_2$
 $R^2 = 0.46, \ \ SEE = 8.04, \ \ N=70$
 R二乗はBroom氏のモデルのほうが高い。これを根拠に、Broom氏はBrush氏のモデルよりも自分のモデルの方が良いと主張できるか(King先生にいわせると不可である)。
 どっちのモデルの予測能が高いかと云えば... 修正R二乗で比較すると、Broom氏のモデルのほうが良い。しかしこれは標本についての話である。F検定してみると、$X_3, X_4$を加えた方がR二乗が高くなっている(Broomモデルで$X_3, X_4$の係数は有意じゃなかったけど、それは別の話である)。やはりBroomモデルのほうが良い。
 なお、ここでBrush氏は反論するかもしれない。R二乗の増大は統計的に有意かもしれないけど、でも実質的にはどうよ?と。 ここから先はもはや実質的議論である。
 さて、上記の議論では、R二乗は母集団パラメータとみなされている。統計学者はそう考える傾向がある。いっぽう計量経済学者はR二乗を標本特性と捉える傾向がある。King先生は後者である。
 この論争に決着をつけることはできないけど、整理しておくと、まず回帰モデルは母集団について固定されたR二乗を生成するし、無作為標本のR二乗はその一致推定量になっている。検定に際してはふつう、標本がMVNに従うと仮定する。この仮定は守られていないかも知れないけどしかし頑健性があって...[面倒くさいのでこのくだりは省略]
 要するに、R二乗を評価するってこと自体がトレードオフを伴う。相対的予測能の指標としては有益である反面、実はMVN仮定が成り立たっておらず有意性検定は有害かもしれない。
 
 [ここから今度はPan氏という政治学者が出てきて、Broom氏のモデルを別のデータにあてはめようとする。SEEは下がったけどR二乗も下がった、どう評価する?というような話。面倒なのでメモは省略するけど面白い説明であった]

 というわけで、R二乗は、Xの効果の理解という観点からはあまり意味がないが、Yの予測という観点からは有益な道具である。
 どう解釈するかはデザインによって変わる。単一の無作為標本に対する単一のモデルであれば、標本におけるモデルの性能の記述とみることもできるし、母集団パラメータの一致推定量とみることもできる。いっぽう、多母集団の比較の場合はそれほどファンダメンタルな統計量とはいえない。分散の違いも考慮しないといけないわけだから。
 云々。

論文:データ解析(2018-) - 読了:Lewis-Beck, & Skalaban (1990) R二乗について率直に語ろう

2018年10月11日 (木)

Boone, H.N., Boone, D.A. (2012) Analyzing Likert Data. Journal of Extension, 50(2).
 掲載誌はオンライン誌。生涯教育の関係者向けの雑誌ってことなのかしらん? よくわからない。
 なにかの役に立つかと思って、資料整理のついでにディスプレイ上で目を通したんだけど...

 いわく、Extensionの専門家[←どう訳せばいいのかわからん] はリッカート的な調査項目を頻繁に使っているが、誤用に満ちているので、諸君の無知蒙昧を正そう。

 そもそもリッカート型項目とリッカート尺度は異なる。前者は単一項目として使うとき、後者はもともとリッカートさんが意図していたように、複数項目への回答から合成変数をつくるときだ。
 リッカート型項目はStevensの測定尺度でいうと順序尺度なので、記述の際には最頻値とか中央値とかがお勧めだし[←まじっすか? どの項目でも同じ中央値になったりしまっせ? まあ信念ならしょうがないけどさ]、項目間関係は連関係数でみないといけない。
 いっぽうリッカート尺度は間隔尺度なので[←これも...まあひとつの信念ですよね...]、平均とかSDとかがお勧めだし、相関係数を求めてもt検定してもANOVAやっても回帰やってもよろしい[←うううう...なにをもって「よろしい」というのかによるよね...]。

 えーと、なんというか... どう反応したらいいのかわからない解説記事であった。
 まあでも、あれですね、リッカート尺度という言葉が、x件法の複数項目の合成得点を表している場合と、(厳密に言えば誤用なのかもしれないが) x件法の単一項目を指している場合があって、ちょっと混乱することがある、というのは、ほんとだと思います。

論文:調査方法論 - 読了:Boone & Boone (2012) リッカート型項目とリッカート尺度

2018年10月 7日 (日)

Bae, S.H., Shin, M. (2007) Telecommunications expenditure potential of Korean households and income turning point. info: The journal of policy, regulation and strategy for telecommunications, information and media. 9(6), 45-56.

 仕事の都合で急遽無理やり読んだ奴。ある国のある品目の消費支出がどこまで増えうるかという問題について考えていたので、この論文のテーマはその関心にはジャストフィットなのだが(韓国の通信支出がどこまで増えうるかという話)、あいにく全く土地勘がない分野の論文である。辛い。
 掲載誌がどういう雑誌だか全然わからないが、現誌名はDigital Policy, Regulation and Governance。International Telecommunications Societyという学会の雑誌で、NACSISによれば所蔵館3館。メジャーではないにせよ、ものすごく変な雑誌でもなさそう。

 いわく。
 韓国では家計消費に占めるICT系消費の割合が96年から04年にかけて倍増した(4.4%→9.2%)。いまや先進国の平均を超えている。政府はICT産業のさらなる強化を目指しているんだけど、消費者支出ってのはロケットじゃないわけで、これからは徐々にしか増えないかもしれない。韓国の世帯におけるICT支出のポテンシャルを調べておく必要がある。

 先行研究:

 世帯収入とICT支出の関係についての研究の多くは、次の2つの概念を使っている。

 先行研究の問題点:

 本研究では通信支出をクズネッツ曲線でモデル化する。クズネッツ曲線というのは、経済発展とともにGNPに占める農業のシェアが低下し、産業財生産のシェアが上昇してやがて低下し、サービスのシェアが上昇する... という奴。新技術・新製品でいうところの「ライフサイクル」もこれに近い。[←そういう意味なの? 全然知らんかった。えーっと、縦軸にジニ係数、横軸に国民所得をとった山形の曲線をクズネッツ曲線って言わない?]

 世帯消費支出に占める通信支出の割合$TEXP$を以下のようにモデル化する。
 $TEXP = a_0 + \beta_1 Y + \beta_2 YSQ + \epsilon, \ \ \epsilon \sim iid(0, \delta^2)$
ただし、$Y$は世帯消費支出の月平均、$YSK$はその二乗。
 ここで収入ではなくて消費支出を使っている理由は以下の通り。Friedman(1957)の恒常所得仮説によれば、世帯の支出は現在の収入に基づいているのではなく、恒常収入に基づいている。恒常収入を説明変数にすべきモデルで現在の収入を説明変数にしてしまうと、不偏性と一致性が失われる。現在の収入が適切なバロメータになるのは、消費者の収入のフローと消費の欲求が時変しないときに限られるが、そんなのはおよそ現実的でない。世帯の消費支出とは、過去・現在の収入、そして期待される収入の複雑な関数なのである。というわけで、収入じゃなくて全消費支出を使います。
 話を戻して... 世帯収入と通信支出の関係がU字型なのであれば、$\beta_1$が正で$\beta_2$が負になるはずである。ターニング・ポイントになる収入レベルは$-\beta_1/2\beta_2$となる。

 韓国統計局の世帯調査データ(1982-2005)のうち働いている世帯のローデータを使う。交通費と通信費はわける。[←よくわからん。先行研究では集計表を使ってたから分けらんなかったってことかな?]
 通信支出は一貫して伸びてるんだけど、90年代に急増、99年をピークに伸び率は減少。
 時系列の観察と背景知識に基づき、仮に構造的変化があったならそれは97年だと考え、構造変化があったかどうかを調べる。Chow検定というのをやる。これは
 $TEXP_t = a_0 + \beta_1 Y_t + \beta_2 YSQ_t + \epsilon_t, \ \ t$は82年から96年まで
 $TEXP_t = a'_0 + \beta'_1 Y_t + \beta'_2 YSQ_t + \epsilon_t, \ \ t$は97年から2005年まで
と考えて(tは四半期)、誤差分散は同じだとして
 $H_0: a_0 = a'_0$ かつ $\beta_1 = \beta'_1$ かつ $\beta_2 = \beta'_2$
を検定する。[...計算手順の説明。省略...] 無事有意になりました。

 時系列は定常だろうか。96年以降の時系列についてADF検定とPP検定をやったんだけど棄却できなかった。そこで共和分検定をやったらどうのこうの...[ああもう、いらいらする。こういう経済時系列のごちゃごちゃした話題は苦手なんで、メモは大幅省略!]。というわけで、変数間に共通のトレンドがあること、どれも定常じゃないけど回帰分析できることがわかりました。
 回帰分析で推定したところ、通信支出のターニング・ポイントになる収入レベルは240万ウォンだとわかりました。あと4~5年は通信支出は伸びそうです。
 云々。

 うーん...
 難しいことやってるけど、背後にあるモデルはごく単純で、消費支出に占める通信費の割合は消費支出の二次関数になるだろう、って話ですよね。それってどこまで信じていいの? まるきり見当がつかないぜ。

論文:データ解析(2018-) - 読了:Bae & Shin (2007) 家計に占める通信費はどこまで増えるか予測する in 韓国

Rhemtulla, M., Brosseau-Liard, P.E., Savalei, V. (2012) When can categorical variables be treated as continous? A comparison of robust continous and categorical SEM estimation methods under suboptimal conditions. Psychological Methods, 17(3), 354-373.

 仕事の都合で読み始め、「本研究の目的」が示されたところで、あ、これはちがう...と気がついたんだけど、個人的に興味ある話ではあるので、そのままだらだらと読んでしまった奴。

 どういう話かというと、5件法評定値みたいなカテゴリカルデータを指標にしたCFAモデルを組むとき、それを量的データとみなしてそのままあてはめちゃう場合と、ちゃんとポリコリック相関行列を推定してからあてはめる場合とあるよね? 結果はどうちがうのかシミュレーションしてみました! という話である。かの萩生田・繁桝(1996)のCFA版といったところである。
 いやあなたね、2012年にもなってその比較? なぜにFIMLでやらない? と思ったんだけど、そこの説明はイントロ部分で縷々なされている(メモは末尾に)。

 さて。ポリコリック相関行列にCFAモデルをあてはめるとき、その推定方法にはいろいろある。
 以下、変数の数を$p$, ポリコリック相関を縦に並べたベクトル(長さ$p(p-1)/2$)を$r$とします。ポリコリック相関の共分散行列を推定した行列を$\hat{V}$とします。CFAモデルでの下でのポリコリック相関行列の構造を$\rho(\theta)$とします。

 なお、cat-LSとcat-DWLSにおいて頑健標準誤差を推定するのは、ちゃんとWLSを求めてないので有効性が失われているから。ときどき「cat-LSとcat-DWLSは、観察変数の背後にある連続変数の正規性仮定を緩和したものだ」といわれることがあるけど、これは間違いで、依然として正規性仮定は必要。もとも頑健標準誤差ってのは、最尤推定量の有効性がデータの非正規性のせいで失われるのに対処するためにつくられたものなので、混乱が生じたのであろう。

 連続量とみたててCFAモデルを当てはめる場合、正規性は仮定できないわけで、そのことを考慮して頑健修正した最尤法を用いるのがよろしかろう...[最小化する関数と検定統計量の説明。メモ省略。これ、MplusでいうとMLMVかなあ?]。とはいえ、ほんとは変数は連続量ではなく、変数と潜在変数の関係は線形でないわけで、パラメータ推定は歪む。

 先行研究概観。さすがは一流誌という感じで、長い。
 要点のみメモすると...連続量とみて最尤推定するとパラメータ推定は過小になるが、4~5カテゴリくらいあれば大丈夫。cat-DWLS, cat-LSのパラメータ推定は歪まない。
 標準誤差や検定統計量は無修正だと歪む。修正すると、連続量MLの場合は少し過小のままで、cat-DWLS, cat-LSはほぼ歪まない。[大幅中略]
 パフォーマンスに影響する要因としては... まず正規変数からカテゴリ変数を作る際の閾値が項目によって大きく違うとうまくいかなくなるといわれている。裏にある連続変数が正規分布じゃないときもバイアスが生じる。[要は、項目によって分布が大きく違うと困るってことね... どう困るのか色々書いてあったけど読み飛ばした]
 他に、モデルサイズが大きいときも困る。

 おまたせしました、実験します... なんだけど、疲れてきちゃったのでメモは簡略に。
 まずデータをつくる。動かす条件は以下の通り。各セルあたり1000セット。

 CFAモデルは、2因子, 因子当たり指標数は5ないし10, 負荷は0.3,0.4,0.5,0.6,0.7。因子間相関0.3。[交差負荷はないんやろね...]
 Mplusで推定した結果を報告する。
 [いい加減に読み飛ばしているので自信がないんだけど、cat-WLSは試さなかったみたい。cat-DWLSは報告から省略しているらしい。よって以下はcat-LSと連続量MLの比較である]
 
 結果。長い... メモは超簡略に...
 収束の失敗と不適解は、カテゴリ数が2の時に多く、4以上で少ない。収束失敗は連続量MLで、不適解はcat-LSで多い。指標が20あるとほぼ起きない。
 負荷の推定は、連続量MLだと過小で、カテゴリ数が多いと減る。5カテゴリあれば10%未満。cat-LSはおおむね正確...[いろいろ書いてあるけど読み飛ばした]。因子間相関はどちらもおおむね正確だった。
 推定量の有効性は...[えーい省略だ]
 頑健標準誤差は...検定統計量は... [著者の先生すいません、疲れたのでパスさせてください]

 考察。
 cat-LSは優秀です。ただし、小標本かつ非正規のとき問題が生じる。カテゴリ数が5以上ならば連続量MLでもよろしい。
 測定モデルはどうでもいい、構造モデルのパラメータだけに関心があるんだという場合には、カテゴリ数が4以下であっても連続量MLを使うのはアリ。小標本の場合にはむしろ望ましいかもしれない。
 [他、いろいろ書いてあったけど、省略...]

 ... というわけで、カテゴリ数が5以上ならまあ連続量とみなしてもいいんじゃない? という、よく言われている話を裏付ける論文であった。

 ところで、二十一世紀、アベノミクスの大成功によりいままさに美しい日本を取り戻そうとしているこの現代においてですね(すいません冗談です)、いまさらカテゴリカルCFAのためにいったんポリコリック相関行列を推定するのってどうなの? 時代は完全情報最尤法でしょう? と思ったわけですけど、著者らの説明は以下の通り。

  1. たしかに理論的には、完全情報法のほうがパラメータ推定の有効性が高い。しかし実務的にはたいした差はなく、むしろ限定情報法(モデルを相関行列にあてはめることね)のほうが良いこともあるといわれている。ご不審の向きはKnol & Berger (1991 MultivariateBehav.Res.), Forero & Maydeu-Olivares (2009 Psych.Methods)をみよ。
  2. 完全情報法は計算が大変。
  3. 著者らの知る限り、完全情報法ができるSEMのソフトはMplusとMxのみ。心理学者はIRTのソフトに馴染みがない。
  4. 検定統計量がつかいものにならない。

... 論点2、計算が大変だから実用に適しませんってのは、そうなんですかね、よくわからん。論点3については、私はMplusの信者なのでMplusを買いましょうとしかいいようがない。論点4はたぶんカイ二乗統計量の話だろう、別の適合度指標を使えばいいんじゃないかしらん、よくわからない。
 いっぽう、最初の論点はすごく意外だった。そうなの? へえええ。

論文:データ解析(2018-) - 読了:Rhemtulla, et al. (2012) 順序カテゴリ変数を連続変数とみたてて確認的因子分析をやっちゃってよいものか

2018年10月 3日 (水)

 調査法の研究で有名なKrosnickさんが、97年にリッカート尺度項目の段階数(5件法とか7件法とか)についてレビューしている。助かるけれど、手元のPDFが汚すぎて困っている(本買えよって話ですけど...)。

 引用している論文について何とか解読したので、リストを作っておく。
 出典は:
Krosnick, J.A., & Fabrigar, L.R. (1997) Designing rating scales for effective measurement in surveys. in L. Lyberg, et al. (Eds.), Survey Measurement & Process Quality. Wiley.
 この章の3節「尺度点の数」のみメモする。なお、途中でちょっと話が逸れてマグニチュード尺度の研究も紹介されているんだけど、そこは省略する(あんまし使わんほうがいいというのが著者の評価)。

信頼性
 概して、両極尺度では7件法ぐらいが良い模様。

 単極尺度では5~7件法ぐらいが良い模様。

妥当性
 連続変数をx件法に変換したときになにがおきるかというシミュレーションによれば、段階数を増やしたほうがデータの歪みが減る、でも5~7件以上に増やしてもあまり意味がない。

相関的な妥当性研究でも同様。

回答に文脈が及ぼす効果の研究によれば、段階数を増やしたほうが文脈の効果が小さいが、7件法ぐらいから上ではあまり減らない。

個人内・個人間変動は、7~9件法くらいまで増やしたほうがうまく捉えられる。

中央の点[「どちらでもない」みたいなやつね]
 Krosnick (1991 App.Cog.Psych.) いわく、回答者はsatisficeしようとするとき、どう回答したら良いかを示唆する手掛かりを探すだろう。中央の点はその手がかりのひとつになる。よって、中央の点を設けると、satisficingが起きやすくかもしれない。
 実証研究をみると... 中央の反応が認められていない時、対象者が自発的に中央に反応することは少ないが[←??? どういう状況の話なんだろうか]、中央の点を与えれば、そこに反応する人は多い。

また、個人的に重要でないトピックでは中央に反応しやすい:

信頼性への効果ははっきりしない。

妥当性への効果もよくわからない。

使いやすさ

 まとめ。一般に5~7件法がよろしかろう。中央の点を作るべきかどうかはよくわからないが、概念的に中央の点があったほうがいいような点のときには作ったほうがいいだろう。いずれにせよsatisficing対策は別の形でやんないといけない。

 ... いやー、90年代の研究がAyudiya & McClendon (1990 POQ)のほかにはKrosnickの奴しかないのには、ちょっと引いちゃいました。著者が見落としてるんじゃなくて、ほんとにないんだろうと思う。どれだけ枯れた話題なんだか。

雑記 - 覚え書き:調査におけるX件法尺度のXをどうするか研究レビュー by Krosnick(1997)

萩生田伸子, 繁桝算男(1996) 順序付きカテゴリカルデータへの因子分析の適用に関するいくつかの注意点. 心理学研究, 67(1), 1-8.

 リッカート尺度の段階数はどうすればよいかとか、リッカート尺度のデータを因子分析してもいいんでしょうかとか、そんな話の中で実にひんぱんに引用される有名論文。ちょっと用事があってメモをとった。実のところ、たぶん読むのは3回目くらいである。

 いわく。
 順序カテゴリカルデータの因子分析には2つの方法がある。

 推定値の挙動について実験してみましょう。

 データのつくりかた。まず量的データをつくる。
 $\Xi = F \Lambda^{'} + E$
とし、$F$と$E$に$N(0,1)$の正規乱数をいれる。$\Lambda$は単純構造とし、負荷があるところに$\sqrt{0.3}$をいれる。こうすると、ある因子に負荷を持つ項目間の真の相関は0.3になる。
 ここで動かす条件は3つ。

 このデータをやおらカテゴリ化する。全項目に共通の閾値を与えて順序尺度に落とすわけである。ここで動かす条件は2つ。

 簡便法と多分相関の2種類で因子分析をやる。データセットは各セルについて100個。SASのPROC FACTOR, ML、SMC。[これ、多分相関のほうは、まず別のプログラムで多分相関行列を推定し、PROC FACTORに食わせたのであろう。あああ、それって時間もかかるし不適解もでまくる...]

 実験1。負荷行列はどうなるか。因子数として真の因子数を指定する。得られた行列を、真の負荷行列をターゲットにしてプロクラステス回転する。
 結果。真の負荷行列と推定された負荷行列の乖離(RMSE)に注目すると、

共通性が1を超えちゃって計算不能になる回数は、乖離が大きいときに大きくなる。いっぽう、多分相関行列が収束しないという回数(結構多い)は、データサイズが小さいときに増える。
 なお、カテゴリ無し条件でも結構な不適解が出た。標本変動のせいでしょうね。

 実験2。因子数を当てられるか。AICとBICで因子数を推定し、真の因子数と比較する。計算不能だったら「当てられなかった」とカウント。[←条件によっては笑っちゃうほど当てられない...]
 カテゴリ数が多い方が、項目数は多い方が、因子数は少ない方が、的中率は上がる。閾値の位置はあんまり効かない。簡便法 vs 多分相関の勝負が気になるところだけど、AIC vs BIC と交互作用があってよくわからない(BICだと多分相関、AICだと簡便法が良かった)。
 
 考察。
 2件法・3件法は計算不能も多いし因子数も当てられないし乖離も大きい。因子分析はお勧めできない。逆に5件法と7件法は大差ない。
 なお、上の実験ではカテゴリなしだとかえって乖離するという変な話になったが、追加実験したところ、データサイズが大きければやはりカテゴリ化しないほうがよかった。[←うーん、それでも謎は残りますね。小さなデータでカテゴリ化したほうが乖離が小さくなったのはなぜか。外れ値のせいじゃないかなあ]
 項目数が少ないと乖離が大きくなる。因子数が多いとうまくいかなくなりやすい。「項目数は因子あたり3個」ルールはあてにならん。これはまあ、カテゴリカルデータに限ったことではない。
 データサイズについて。「データサイズは項目数の3倍」ルールもあてにならん[←そんなのあったの? 私は5倍って習ったけど]。いろんな要因の影響をうけるので、なかなか安心できない。
 データの分布は、正規性から極端にはずれていると悪影響を及ぼす可能性がある。
 簡便法よりも多分相関係数を分析した方が良いとは必ずしもいえない模様。時間もかかるし、計算不能になりやすいし、再現性も(この実験では)別に高くなかった。

 というわけで、調査データの因子分析ユーザへのアドバイス。(1)5件法か7件法がお勧め。(2)データサイズはなるたけ多く。(3)項目数は多い方が良いこともある。(4)多分相関行列の因子分析? 別にやんなくていいよ。

 ... ところで、これ、第一著者の先生の修論だったんですね。へー。

 この論文の価値とはまったく関係ないんだけど、この論文の主旨のひとつである「因子分析するときは3件法より5件法」という話が変な風に伝わっちゃって、調査票作成の際に「因子分析するから5件法にしなきゃ」と強く主張する人が結構多く、何度か頭を抱えたことがある。あのですね、それはいったん連続量を生成してからカテゴリ化したシミュレーション研究の話であって、調査票上で何件法になっていようが、全員が両端にしか反応してくれなかったらそれは2件法と同じでしょ、という話である。調査設計時にはなによりも、個別具体的な調査項目に対する反応分布を考えなきゃいけない。そういうわけで、こういう研究のせいでちょっと苦労しているんだけど、それは別の話。わかりやすくて勉強になる論文であります。

 細かいことをいくつかメモしておく。

論文:データ解析(2018-) - 読了:萩生田・繁桝(1996) 順序カテゴリカルデータを因子分析したときの推定値の挙動

« 2018年9月 | メイン

rebuilt: 2018年11月 4日 11:57
validate this page