読書日記: 読了：Mercer et al. (2018) ネットパネルで調査したとき母集団の構成にあわせてウェイティングすることがあるけど、あれって意味はあるのかどうか試してみました

« 読了：前田(1999) G.カトーナ、消費者態度指数の父 | メイン | 読了：「R言語徹底解説」 »

2018年4月28日 (土)

Mercer, A., Lau, A., Kennedy, C. (2018) For Weighting Online Opt-In Samples, What Matters Most?, Pew Research Center.

　先日Pew Research Centerが出していたリリース。仕事の役に立つかと思って読んでみた(←建前. ホンネは「なんだか疲れちゃったので息抜きにパラパラ眺めた」)。
　70ページもあるんだけど、ちょうど半分がAppendixである。論文というより広報目的のホワイトペーパーという感じ。正直、こういうの、すごく読みづらい。

　いわく。
　任意参加型の標本を使った世論調査では、よく母集団に合わせてウェイティングすることがあるけど、あれって意味あんのか。実験してみました。
　[なお、Pew Research Centerでは2016年にもオンライン・パネルと確率標本の比較をやっている由]

　任意参加型のオンライン・パネルで調査して国レベルの推定値を得る、という場面に注目する。
　同じ調査票で複数のパネルからどさっと回答を集めておく。で、そこから票を抽出し、あれこれウェイティングとかして調整して集計しては、公的調査と比べ、一致するかどうか調べる。[それらの公的調査がベンチマークとして正しいのかという問題はあるわけだけど...その話は2016年のレポートをみて、とのこと]

　調査時期は2016年の6-7月。パネルは3種類、それぞれ約10000票を集めた。言語は英語かスペイン語。各パネルの回収票から、{2000票, 2500票, ..., 8000票}のいずれかを無作為抽出する。標本サイズによる違いを見たいから。

　調整に使う変数は2種類。

(A)基本的なデモグラ変数: {年齢(6水準)、性別(2)、人種とエスニシティ(5)、教育(5)、地域(9)}。
(B) (A)に加えて政治的態度と関与の変数: {有権者登録(2)、政党支持(3)、イデオロギー(3)、福音派キリスト教徒か(2)}。

　[...ここまで読んで、うわあこういう仕事やりたくねえなあと、思わず天を仰いだ。上記の変数で調整するからには、これらの変数の母集団分布が必要になる。でも全変数の分布を一発で教えてくれるデータソースは、たぶん存在しない。いろんな公的調査からデータを集めてきて、調査設計の違いを勘案しながら摺り合わせ、分布を確定する作業を、誰かがやんなきゃいけない。ものすごく面倒くさくて、そのわりには誰にも評価されない作業だ。あああ、想像するだけで辛い。吐きそう。
　いやまて、それだけじゃないぞ。この実験では調整の方法としてマッチングを使うから(後述)、各変数の周辺分布だけでなく、ケースレベルの母集団データが必要になるではないか。おいおい、どうすんだよ。
　というわけで、いったん絶望しかけたんだけど、気を取り直してきちんと読んでみた(Appendix B)。はい深呼吸！]

　母集団についてのデータソースは次の5種類。(1)米センサス局のAmerican Community Survey(ACS)。これが一番あてになる。(2)米センサス局のCurrent Population Survey(CPS)から、5つの調査データ。(3)General Social Survey(GSS)。(4)PewのReligious Landscape Study(RLS)。(5)PewのPolitical Polarization and Typology Survey.
　これらのデータのコーディングを揃えた上で[これも非常に大変なんだけど省略]、個票を20000票ずつ復元抽出する(つまり同じ票を2回抜き出すことも厭わない。なおここでウェイトを使ったり、いろいろとややこしいんだけど読み飛ばした)。
　で、これらを縦に積み、37変数のデータセットを作る。値がすべて埋まっているのは性別、年代、未既婚など少数の変数のみで、あとは虫食いだらけである。
　虫食いを埋めます。個々の変数について、その値を他の全変数から予測するモデルを作り、値を埋める。これを繰り返し、25バージョンつくる。これを連鎖方程式による多重代入(MICE)という。Azur, et al.(2011, Int.J.Methods in Psychiatric Res.)をみよ。なお、モデルはランダム・フォレスト。Doove, et al.(2014, Comp.Stat.Data Anal.)をみよ。[←MICEって本で読んだことはあったけど、使用例をみるのは初めてだ...]
　最後に、ACS由来の行だけを残し、あとは消す。25バージョンのうちひとつを採用する[バージョン間の比較も行っているけど省略]。以下これをsynthetic populationという。
　[あれれ？ってことはsynthetic populationのサイズは20000ってこと？ ACSだけはもっと積んでおけばよかったのでは...なにか誤解してんのかな...]

　本題に戻って... お待たせしました、調整方法のご紹介です(本文ならびにAppendix C)。選手入場！

その１、レイキング。またの名をiterative proportional fitting。世論調査ではもっともポピュラーな方法である。要するに、調整変数の周辺分布が母集団と標本で一致するような標本ウェイト値をつくるわけである。
　synthetic populationからすべての調整変数の周辺分布を得た。またデモグラ変数については適宜カテゴリをつぶしたうえで二元交互作用も出した[詳細略]。Rのsurveyパッケージのcalibrate()でレイキングし、ウェイトを求めた。ウェイトのトリミングはしなかった。このウェイトを使って集計する。
その２、マッチング。
　synthetic populationから1500行を抜き出しし、それぞれの行と一番類似している票を、パネルから抜き出した回収票のなかから探してひとつマッチさせた。ある行にマッチした票は他の行には使わない。で、マッチした票だけを集計する。結局、標本サイズが2000だろうが8000だろうが、1500票しか使わない。[←実務的にはありえないやり方だが、実験としては筋が通っている]。
　類似性は次のようにして求めた。まず、synthetic populationから抜き出した1500行と、パネルから抜き出した回収票を縦に積んだ。で、「どっちのデータから来た行か」を調整変数群から予測するランダム・フォレストを組んだ(Rのrangerパッケージ, 木は1000本)。で、ランダムフォレスト上のケース間近接性を類似性とみなした。詳細はZhao, et al. (2016 Contemporary Clinical Trials)をみよ。
その３、傾向スコア・ウェイティング。
　上のランダム・フォレストで「synthetic dataから来た行である確率」$p$を求め、$p/(1-p)$をリスケールしてウェイトにした。

　この3つのすべての組み合わせを試す(なにもしないのを含めると8通り)。複数使う場合は、マッチングで票を選ぶ→傾向スコアでウェイティング→レイキングでウェイティング、の順。

　[ここまで整理すると、この実験の要因は以下のとおり。(1)標本サイズ13水準。(2)調整手法8水準。(3)調整変数2水準。]

　評価方法。
　調査票にはACSなどに含まれる項目を24個入れてあった(たとえば「近所の人とどのくらい話しますか」「タブレットを使ってますか」)。各項目について、各カテゴリの(調整後)選択率を求める。で、ACSとかの回答分布と比べ、差の絶対値を求める。標本抽出を1000回繰り返し、平均を求める。
　調整しない場合でもバイアスは押しなべて小さい。ただしバイアスが大きい項目もあり、たとえば「2014年の中間選挙に投票しましたか」は32%ポイントものバイアスがある。[書いてないけど、ネットパネルの回答が高すぎるということだろうか]

　結果。[ちゃんと読んでないので、かなり抜け漏れがあると思うけど...]

ウェイティングによるバイアス除去にはそもそも限界がある。無調整のときのバイアスを100%として、調整で取り除けたのはせいぜい30%。
調整手法よりも調整変数の選択のほうが大事。政治関連の変数を調整変数にいれると(B)、調整手法・標本サイズを問わず、バイアスは減った。
調整手法に大差なし。細かく言うと、レイキングでは標本サイズとバイアスが無関係。マッチングは標本サイズが大きいときにレイキングよりバイアスが小さかった。傾向スコアマッチングはレイキングよりバイアスが大きかった。レイキングと他の手法を併用するとバイアスがちょっぴり小さくなった。もっともこのへんは下位集団によってもちがっていて、たとえばヒスパニックでは３手法併用とレイキング単体との差が開いた
調査トピックによって適切な調整変数は異なる。政治関連の変数を調整変数にいれたら、バイアスが減る項目と減らない項目があった。
政治に関する調整変数をつかって調整すると、結果がより共和党寄りになった。[←はっはっは]

　推定値の変動について。
　世論調査の分野では、調査を独立に繰り返した時に期待される推定値の変動のことをmargin of error(MOE)という[推定量の分散のことですかね]。確率標本ならMOEがすぐにわかるが、任意型パネルの場合には仮想的標本の性質についてのなんらかの仮定が必要になる。
　一般に、たくさんの変数について調整するとMOEは大きくなりやすい。そこでMOEを推定してみた。具体的には、1000回の反復を通じて95%信頼区間を構成し、その幅の半分をMOEと呼ぶ。

政治関連の変数を調整変数に追加しても、MOEは大きくならなかった。
サンプルサイズを大きくすると、レイキング単体ではMOEがどんどん下がるけど、３手法併用だとMOEが下げ止まった。[←そりゃそうだろうな、マッチングは常に1500票しか使わないんだから]

バイアス除去とMOEとのトレードオフを考えるため、いくつかのシナリオについてRMSEを調べた。[←そうそう！これが一番大事だと思うのよ。最初からMSEで評価すりゃいいのにと思いながら読んでいた]
　傾向スコア＋レイキングと３手法併用はRMSEに差なし。３手法併用のほうがちょっぴりバイアスが小さいが、MOEが大きくなるのでRMSEには差がつかない。
　ただしトピックによっても異なる。政治についての項目では３手法併用のRMSEが小さく、家族についての項目ではレイキング単体のRMSEが大きい(わずかな差だが、標本サイズとともに開く)。要するに、凝った手法を使って報われるかどうかは場合による。
　云々。

　。。。とても読みにくかったけど、面白い実験であった。ちゃんとお金かけてこういうの試しているの、すごいなあと感心する。
　私が糊口をしのいでおりますところの市場調査の場合だと、ネットパネルで調査して、少数の調整変数(多くの場合は性・年代)の同時分布を国勢調査とかから引っ張ってきて、これを目指して標本ウェイティングを掛けることが多いと思う。この実験でいうとレイキングに相当する(ウェイトの算出はもっと簡便だけど)。この実験、いろいろ頑張ってウェイティングしたところで、ネットパネルのバイアスはたいして取り除けませんねという話なわけで、なんというか、胸が痛みます。

　いっぽう、いっちゃなんだけど、壮大な努力の末にそりゃそうだろうなという結果を得ました、という感じのする実験でもある。
　標本ウェイティングによる調整の効果は、標本選択確率、調整変数、目的変数の３者の実質的な関係で決まるので、どんな結果がでたところで、「そういうデータだったんですね」という感想しか持てない面があると思う。
　いっけん予想外にみえる結果があったとすれば、調整変数を増やしてもレイキングで推定量の分散が大きくならなかったというところじゃないかと思うけど、調整変数と目的変数の関連が強ければそういうことも起きるはずである(と、Littleさんたちが前に書いていた)。

　結果があたりまえでも実務に対する示唆がヴィヴィッドであれば、デモンストレーションとして優れているといえるだろうけど、その点でもちょっと首をひねってしまう面があって...
　この実験では、標本が確率標本でなく、重要な共変量の分布が母集団と標本でずれているとき、いわゆるデザインベースのアプローチ(主に調査設計に基づいて調整するアプローチ。目的変数の標本分布は見ないで調整する)で標本選択のバイアスを取り除くという場面を想定している。でも、関心あるトピックがたとえば政治的態度であり、事前の政党支持といったトピックspecificな共変量が想定される場合には、ふつうはモデルベースのアプローチを使うんじゃなかろうか。たとえば、政治的態度の変数を目的変数にとった回帰モデルを推定し、母集団における共変量の同時分布を放り込んで目的変数の分布をシミュレーションするとか。
　調査データの分析においてデザインベースのアプローチ(標本ウェイティング)を使う理由は、(多くの公的調査がそうであるに)調査が多目的で関心ある変数の範囲が広いとき、ないし、事前知識が足りなくてトピックspecificな共変量を調整変数として選べないときではないかと思う。だから、「適切な調整変数によるウェイティングが大事です」といわれても、そりゃそうでしょうけど、うぐぐぐ、と思うしかないわけで...
　レイキングとマッチング・傾向スコアウェイティングとの間に大差がなかったというの話も、そりゃそうだろうと思う。レイキングのように共変量の周辺分布を母集団と揃える手法が不利になるのは、なにが共変量なのかいまいちはっきりしないときや、標本選択確率に対する共変量の効果に交互作用があるときだ(たとえば「男性の福音派の共和党員だけがパネルに登録していない」とき)。そういう事態が起きてなければ、そりゃレイキングでもなんとかなるでしょう。これは結局、いやー今回は運が良かったですねという話であって、調査一般において「ネットパネルの調整手法はレイキングによるウェイティングで十分」という風に受け取られるとしたら、それはちょっとちがうんじゃないですかね。

　この実験、たぶん大きな問題意識として、世論調査による政治的態度の測定と政治行動の予測が念頭にあるのだろうと思う(トランプ勝利を予測するためにはどうしたらよかったのか、というような)。私のように一般的な調査手法研究として読んじゃうほうがおかしいのかもしれない。どうなんでしょうね。専門家の方の意見を伺いたいところだ。

　ところで、ここで試している調整のやりかたは、実験の主旨として必要なのはわかるけど、調査実務の上でのリアリティはどのくらいあるんだろうか？
　教科書的には、ある共変量についての母集団分布があきらかでないならば、その共変量についてのデザインベースの調整はあきらめるべきであろう。しかしこの実験では、ACSにない変数であっても調整変数として選んでしまい、母集団分布を他の変数から無理やり推測しているわけで、これは相当に違和感がある状況設定だと思う。かの国の世論調査ではほんとにこういうことをやるのかなあ？
　調整手法を併用するというのも不思議である。傾向スコアによるウェイティングと共変量を投入したモデリングを併用するというのは聞いたことがあるけど(doubly robust推定というらしい)、傾向スコアでウェイティングしてさらに周辺分布をあわせてウェイティングすることって、実際にあるのだろうか。いや、架空の手法だというならばそれはそれでいいんだけど...

論文：データ解析(2018-) - 読了：Mercer et al. (2018) ネットパネルで調査したとき母集団の構成にあわせてウェイティングすることがあるけど、あれって意味はあるのかどうか試してみました

読書日記

読んだ本を淡々と記録します

2018年4月28日 (土)