読了: Park, Gelman, & Gafumi (2004) Mr.Pによる選挙予測

Park, D., Gelman, A., Gafumi, J. (2004) Bayesian Multilevel Estimation with Poststrafication: State-Level Estimates from National Polls. Political Analysis, 12, 375-385.

 みんな大好きミスターPことMRP (マルチレベル回帰・層別)の初期論文。googles様的には被引用回数589件。なお、一般にMr.Pの提案論文と称されているGelman & Little (1997)は411件である。

1. イントロダクション
 全国世論調査で州レベルの世論を調べようとした初期の試みにPool et al.(1965 書籍)がある。彼らは世論調査、投票、センサスを使って、社会人口学的諸因子を組み合わせた480個のsynthectic voter typesをつくり、州別の比率を求めた。Waber et al.(1972-1973 POQ)はこれを960まで増やした。[へえええ。昔からあるのね]
 本研究はですね、これを3264個にまで増やそうという試みです。ポイントはマルチレベル回帰モデルを使うということ。

2. 概観
 この論文で作るのはマルチレベル・ロジスティック回帰モデルで、二値反応変数の平均を事後層別セルに条件づけるというものです。

  1. デモグラフィクスと州のもとでの個人の反応\(y\)にマルチレベルモデルをあてはめる。このモデルでデモグラフィクスと州のクロス分類\(j\)の平均反応\(\pi\)を推定する。この論文の例では、性(2)xエスニシティ(2)x年代(4)x教育(4)x州(DCをいれて51)で3264カテゴリ。
  2. センサスから\(j\)の人口\(N_j\)をもってきて、州\(s\)について $$ \theta_s = \frac{\sum_{j \in s} N_j \pi_j}{\sum_{j \in s} N_k}$$ を求める。

3. モデル
3.1 二値データのためのマルチレベルロジスティック回帰モデル
 共和党支持を\(y_i = 1\) として、$$ Pr(y_1 = 1) = logit^{-1} (X \beta_i)$$ というモデルを組む。[変な表記だなあ]
 回答者レベルデザイン行列\(\mathbf{X}\)に、性、エスニシティ、年代、学歴、性xエスニシティ、年代x学歴を入れ、さらに州(51)と地域(5)を入れる。2群以上ある回帰係数については平均0の独立な正規分布を与える。データモデルはこんな感じ。$$ Pr(y_i = 1) = logit^{-1}(\beta^0 + \beta^{female} female_i $$ $$ + \beta^{black} black_i $$ $$ + \beta^{female.black} female_i \cdot black_i $$ $$ + \beta^{age}_{age(i)} + \beta^{edu}_{edu(i)} + \beta^{age.edu}_{age(i), edu(i)} + \beta^{state}_{state(i)}) $$ さらに、前回までの選挙の共和党の得票率の平均を \(v.prev_j\)として $$ \beta^{state}_j \sim N(\beta^{region}_{region(j)} + \beta^{v.prev} v.prev_j, \ \ \sigma^2) $$ とする。
 変動件数はすべて平均0の正規分布に従うとする。SD \(\sigma_{age}, \sigma_{edu}, \sigma_{age,edu},\sigma_{region}\)は無情報事前分布のもとで推定する。[ってことは、性とエスニシティは固定効果にしているわけだ]

3.2 モデルの一般化
 例として、一般化の2つの方向を示す。
 その1。leaner [どちらかといえば共和党支持、みたいな回答者のことだろう]はふつう支持者に含め、未決定者は欠損としたり捨てたりするのが普通である。USの政治の文脈ならだいたいそれでもいいけれど、ちゃんと扱ったほうがいい場合もあるだろう。これはモデルを順序付きプロビットにすれば扱える。
 その2。たとえば1992年大統領選では投票参加者が意外に多く、第三党候補への投票が多かった[ロス・ペローのことだ]。そこでこういうのを試した。(1)登録し投票に行くつもりだったら\(y_i=1\)。(2)(1)で1の人に絞り、2大政党に入れるつもりなら\(y_i = 1\)。(3)(2)で1の人に絞り、共和党支持を\(y_1 =1\)。で、$$ \theta_s = \frac{\sum_{j \in s} N_j \pi^{(1)}_j \pi^{(2)}_j \pi^{(3)}_j}{\sum N_j \pi^{(1)}_j \pi^{(2)}_j} $$ を求める。

[ここから実データ分析例。メモは省略する]

4. データ

5. 推定したモデル
[WinBUGSで推定している。シミュレーションごとに3264個の予測値を出して、州別にまとめ、1000試行を通じた区間を出している。で、実際の選挙結果と比べている]

6. 考察
 本論文ではベイジアン・アプローチを採用したけれど、この話のキーポイントはマルチレベルモデルを使うという点である。
 マルチレベル・モデリングと事後層別によって、いろんなトピックについての州レベルの世論を推定できる。さらにいれば州レベル以外でも。時間トレンドの推定も面白いですね、これは今後の課題です。
————-
 へー。

 この論文あたりで、現代のMRPで一般的なモデル形式が示されているかと思ったのだが、意外にそうでもなかった。
 モデルを要約しておくと、要約しておくと、層別変数は、性、エスニシティ、年代、学歴、州。うち性とエスニシティは固定効果。他の個人レベル共変量(年代, 学歴, 年代x学歴)も、事前確率を与えてはいるけれど地域間で変動させてはいない、つまり、いわゆるランダム効果ではないようである。層別変数以外の個人レベル共変量はなし。地域レベル共変量はあり(以前の選挙の共和党得票率)。