elsur.jpn.org >

« Sirken, et al. (1999) 「認知と調査法研究」目次メモ | メイン | 読了:Ribeiro, Christensen, Diggle (2003) Rの空間統計パッケージ geoR と geoRglm »

2017年9月11日 (月)

Morris, D.S. (2017) A modeling approach for administrative record enumeration in the Decennial Census. Public Opinion Quarterly, 81, 357-384.

 先日、世論調査研究のトップ誌であるPublic Opinion Quarterlyが「サーベイ調査のこれから」という特集号を出した。目次を眺めていて、あれれ、これってひょっとして仕事に関係があるんじゃなかろうか、大変な鉱脈を見つけちゃったかも... と思って手に取った論文。半分くらい目を通したところで、鉱脈どころか私の仕事とはまるきり関係ないとわかったんだけど、気分転換にはなった。著者は米国勢調査局の中の人。

 いわく。
 米国勢調査(Decennial Census)では、回答がなかった世帯に対して追加調査するんだけど(nonresponse follow-up; NRFU)、2010年国勢調査の場合にはNRFUだけで16億ドルかかった。2020年調査ではそのコストをなんとか減らしたい。
 いっぽう世論調査のほかにも、納税記録とか民間企業の訪問調査みたいな世帯データがある(こういうのをadministrative record, ARと呼ぶ)。ARと国勢調査を併用できないか。こういう発想は実は珍しくなくて、デンマーク、オランダ、スイス、ドイツ、ポーランドなどで採用されている。
 米国勢調査でも80年代から発想はあった。問題は、上記の国々とは異なり、米にはARを国レベルで統一的に管理する仕組みがなかったという点だ。現在、国勢調査局にAR研究活用センター(CARRA)というのがあって、各所からARを取りまとめている。細かいことを言うといろいろと大変なんだけど[詳細略]、まあとにかく、集めたARには統一的な個人識別IDと住所IDを振っている。
 もし、ARデータ側に含まれている世帯についてはNRFUの実査対象から除外することができれば、コストが節約できるではないか。そこで、ARデータと2010年国勢調査と比較し、どの世帯についてはARを使いどの世帯についてはNRFUをやるかを決める方法を開発したい。

 使用するARデータは、IRS 1040 [よくわからんが確定申告みたいなものだろうか?]、IRS informatonal returns [所得申告みたいなもの?]、メディケア、IHS (Indian Health Service)。個人と住所の組み合わせをキーとする。ほかに商用データのTargus Federal Consumer Fileというのがあって、これはAR側名簿としては使わないが、後述するモデル構築の際に予測子として用いた由。
 ある個人$i$と住所$h$の組み合わせが、ARにも2010年国勢調査にも存在していたら$y_{ih}=1$、そうでなければ0とする。で、$p_{ih}=P(y_{ih}=1)$を予測するモデルを作る。[きちんと読んでないので自信がないんだけど、この確率が1に近い住所はNRFUのリストから抜いてよかろう、という話だと思う。つまり、2010年国勢調査は完璧、AR側の紐づけも完璧、という前提での研究なのであろう]
 説明変数として、ARデータのうち「IRS 1040に存在」フラグとか、「IRS 1040に個人のみ存在」フラグとか、そういう変数をいろいろ作る。
 最終的に推定しないといけないのは住所についての確率なので、
 $\hat{p}_h = min(\hat{p}_{1h}, \ldots, \hat{p}_{n_h h})$
として、この推定値が閾値$c$を超えたらNRFUの実査対象からは外してAR側の記録を使うことにする。$c$はfalse positiveとfalse negativeの二乗和が最小になる値とする。

 ... さあ予測モデルをつくりましょう、というわけで、ロジスティック回帰、分類木、ランダム・フォレストのモデルを作って比べたり、コストと正確性のトレードオフ曲線を推定したりしたらしいのだが、この辺で力尽きて読むのをやめた。
 ま、どういう問題なのかがわかったから、これでいいや。考えたこともないような話題で面白かった。

論文:調査方法論 - 読了:Morris (2017) 行政記録にデータがある世帯については国勢調査に無回答でもまあいいやということにできないか

rebuilt: 2020年11月16日 22:54
validate this page