世の中には、興味を持って取り組める事柄もあれば、全く興味はないけどやらなきゃならない雪かきみたいな仕事もあれば、本質的な興味はないんだけけど行きがかり上なんだか気になる問題というのもある。私にとっての三番目の代表例が、調査における標本ウェイティングである。きわめて切実な問題であり(その割に解説が少ない)、とても難しい(その割にお金にならない)。
というわけで、ときどき必要に駆られて資料を読み、ブログに記録したりしているんだけど、ブログに書いた内容を忘れるどころか、書いたことさえ忘れてしまう。三歩歩けば全て忘れる、ニワトリなみの記憶力である。
そこで、これまでに書いたウェイティングに関するエントリをまとめておこう。… というエントリを、実は2015年に書いているんだけど、それから幾星霜、追加して読んだものもたまってきて、いよいよ記憶があやふやになってきた。再度まとめ直す。すいません、これは私の私による私のためのメモです。
それにしても、以前はいまなら読まないようなタイプの資料を自分なりに真剣に読んでいて、いろいろ悩んでたんだなあ、と感慨深い。ASAのProceedingsとか、ANESのテクニカル・ペーパーとか。
標本ウェイティング全般について
- 読了: Kish (1990) ウェイティング:なぜ、いつ、どうやって (2007/12)
- Kish, L. (1990). Weighting: Why, When and How? Proceedings of the Section on Survey Research Methods, American Statistical Association, 121-130.
- 読了: Skinner & Wakefield (2017) 標本抽出デザインと調査データ分析:イントロダクション (2023/12)
- Skinner, C., Wakefield, J. (2017) Introduction to the Design and Analysis of Complex Survey Data. Statistical Science, 32(2), 165-175.
標本ウェイトのつくりかた
- 読了: Potter (1990) ウェイト値をトリミングする方法 (2008/01)
- Potter, F.J. (1990). A study of procedures to identify and trim extreme sampling weights. Proceedings of the Section on Survey Research Methods, American Statistical Association, 225-230.
- 読了:Little & Wu (1991) 標本から得たAxBクロス表を既知の周辺分布に合わせたい、標本にはバイアスがあることがわかっている、さあどうするか (2017/08)
- Little, R.J.A., Wu, M.M. (1991) Models for contingency tables with known margins when target and sample population differ. Journal of the American Statistical Association. 86(413)
- (標本ウェイティングの話ではないが、rakingによるウェイト値の作り方の話ともとれるので、ここに分類しておく)
- 読了: Eltinge (2001) ウェイト値の算出方法が複数ある時にどっちがいいか決める方法 (2008/04)
- Eltinge, J. (2001) Diagnostics for the Practical Effects of Nonresponse Adjustment Methods. in Groves, R.M., et al. (eds.) “Survey Nonresponse“, Wiley.
- 読了:Kalton & Flores-Cervantes (2003) 「ウェイトバック集計」のためのウェイト値のつくりかた (2015/04)
- Kalton, G., & Flores-Cervantes, I. (2003) Weighting Methods. Journal of Official Statistics, 19(2), 81-97.
- 読了:Fattorini (2006) 標本抽出デザインが複雑すぎて、そこから推定しようにも抽出確率がわからない、よし電子計算機の力でなんとかしよう (2020/11)
- Fattorini, L. (2006) Applying the Horvitz-Thompson criterion in complex designs: A computer-intensive perspective for estimating inclusion probabilities. Biometrika, 93(2), 269-278.
- 読了: Breidt & Opsomer (2017) 調査データ分析の第三の道、モデル・アシステッド・アプローチ (前編), (中編), (後編) (2023/11)
- Breidt, F.J., Opsomer, J.D. (2017) Model-assisted survey estimation with modern prediction techniques. Statistical Science, 32(2), 190-205.
- (枠組みとしては大きいけれど、結局は一種のGREGウェイティングだと思うので、ここに分類している)
標本ウェイトつきデータの分析: 推定量の性質
- 読了: Godambe & Thompson (1986) 推定関数の理論から見た母集団特性の推定 (難しい話をより難しく) (2023/12)
- Godambe, V.P, & Thompson, M.E. (1986) Parameters of Superpopulation and Survey Population: Their Relationships and Estimation. International Statistical Review, 53(2), 127-138.
- 読了: Dorfman & Valliant (1997) Hajek推定量再訪 (2023/12)
- Dorfman, A.H., Valliant, R. (1997) The Hajek Estimator Revisited. Proceedings of the Section on Survey Methods Research, American Statistical Association.
- 読了: Delovoye & Savje (2020) Horvitz-Thompson推定量の一致性 (2023/12)
- Delovoye, A., Savje, F. (2020) Consistency of the Horvitz-Thompson estimator under general sampling and experimental design. Journal of Statistical Planning and Inference, 207, 190-197.
標本ウェイトつきデータの分析: デザイン効果
- 読了:Potthoff, Woodbury, & Manton (1992) 調査ウェイトつきデータの分析における「等価標本サイズ」「等価自由度」(2014/03)
- Potthoff, R.F., Woodbury, M.A., Manton, K.G. (1992) “Equivalent sample size” and “Equivalent degrees of freedom” refinements for inference using survey weights under superpopulation models. Journal of American Statistical Association, 87(418), 383-396.
- 読了:Gabler, Haeder, & Lahiri (1999) 「ウェイトバック集計」におけるKish先生のデザイン効果の公式が正しいことを示そう(2015/06)
- Gabler, S., Haeder, S., Lahiri, P. (1999) A model based justification of Kish’s formula for design effects for weighting and clustering. Survey Methodology, 25(1), 105-106.
- 読了:Spencer (2000) 抽出確率が測定値と相関している標本におけるデザイン効果の推測(2014/03)
- Spencer, D. (2000) An approximate design effect for unequal weighting when measurements may correlate with selection probabilities. Survey Methodology, 26(2), 137-138.
- 読了: Park & Lee (2001) デザイン効果、その知られざる真実 (2014/03)
- Park, I. & Lee, H. (2001) The design effect : Do we know all about it? Proceedings of the Annual Meeting of the American Statistical Association. 2001.
- 読了: Little & Vartivarian (2005) 無回答の補正のためにウェイティングすると推定量の分散は必ず大きくなるとはいえない (2008/03)
- Little, R.J.A., Vartivarian, S. (2005) Does weighting for nonresponse increase the variance of survey means? Survey Methodology, 31(2), 161-168.
標本ウェイトつきデータの分析: 検定とか
- 読了:Scott(2007) 調査ウェイティングの下でのカイ二乗検定のRao-Scott修正について振り返る (2014/11)
- Scott, A. (2007) Rao-Scott corrections and their impact. Proceedings of the Section on Survey Research Methods, American Statistical Association, 3514–3518.
- 読了: Yao, Lo, & Graubard (2014) ウェイトつき調査データからAUCを求めるには (2023/11)
- Yao, W., Li, Z., Graubard, B.I. (2014) Estimation of ROC curve with complex survey data. Statistics in Medicine, 34(8), 1293-1303.
標本ウェイトつきデータの分析: もっとややこしいモデル
- 読了:Muthen & Satorra (1995) 複雑な標本抽出デザインのデータに対するSEM (2014/03)
- Muthen, B., & Satorra, A. (1995) Complex sample data in structural equation modeling. Sociological Methodology, 25, 267-316.
- 読了:Patterson, Dayton & Graubard (2002) 複雑な標本抽出デザインのデータに対する潜在クラス分析 (仁義なき質疑応答つき)(2014/03)
- Patterson, B.H., Dayton, C.M., Graubard, B.I. (2002) Latent Class Analysis of Complex Sample Survey Data: Application to Dietary Data. Journal of the American Statistical Association, 97(459).
- 読了:Asparouhov (2005) 因子分析・潜在クラス分析における確率ウェイティング(または: Mplus 3はこんなにすごいんだぜ) (2014/03)
- Asparouhov, T. (2005) Sampling weights in latent variable modeling. Structural Equation Modeling, 12(3), 411-434.
- 読了: Toth & Eltinge (2011) ウェイトつきの調査データでつくった回帰木が一致性を持つ条件 (2023/11)
- Toth, D., Eltinge, J. (2011) Building consistent regression trees from complex sample data. Journal of the American Statistical Association, 106(409), 1626-1636.
ケーススタディ
- 読了:Devell & Krosnick (2010) American National Election Studyにおける標本ウェイティング (2019/01)
- DeVell, M., Krosnick, J. (2010) Computing Weights for American National Election Study Survey Data. ANES Technical Report series, no. nes012427.
- 読了:Hu, et al. (2001) 固定電話対象のRDD調査と携帯電話対象のRDD調査を両方やってひとつにまとめました (2015/06)
- Hu, S.S., Balluz, L., Battaglia, M.P., Frankel, M.R. (2011) Improving Public Health Surveillance Using a Dual-Frame Survey of Landline and Cell Phone Numbers. American Journal of Epidemiology, 173(6), 703-711.
- 読了:Mercer et al. (2018) ネットパネルで調査したとき母集団の構成にあわせてウェイティングすることがあるけど、あれって意味はあるのかどうか試してみました (2018/04)
- Mercer, A., Lau, A., Kennedy, C. (2018) For Weighting Online Opt-In Samples, What Matters Most?, Pew Research Center.
関連する話題: デザイン・ベース推論とモデル・ベース推論
- 読了: Sterba (2009) 母集団のモデルベース推論とデザインベース推論、そしてその統合 (2022/08)
- Sterba, S.K., (2009) Alternative model-based and design-based frameworks for inference from samples to populations: From polarization to integration. Multivariate Behavioral Research, 44(6), 711-740.
関連する話題: 非確率標本
- 読了: Gelman (2007) ウェイティングと回帰モデリングを巡る悪戦苦闘(2014/02), (8年ぶり2回目のメモ)(2022/08), (質疑応答編) (2022/08)
- Gelman, A. (2007) Struggles with survey weighting and regression modeling. Statistical Science. 22(2), 153-164. (with commentaries)
- 読了:Mercer, et al. (2017) 因果推論から眺めた非確率的標本調査 (2022/08)
- Mercer, A.W., Kreuter, F., Keeter, S., Stuart, E.A. (2017) Theory and Practice in Nonprobability Surveys: Parallels between Causal Inference and Survey Inference. Public Opinion Quarterly, 81, 250-271.
- 読了: Elliot & Valliant (2017) 非確率標本に基づいて推測を行うふたつのアプローチ (2022/08)
- Elliot, M.R., Valliant, R. (2017) Inference for nonprobability samples. Statistical Science, 32(2), 249-264.
- 読了:Gao et al.(2019) MRP(マルチレベル回帰・層化)に構造化事前分布をいれる (2020/04)
- Gao, Y., Kennedy, L., Simpson, D., Gelman, A. (2019) Improving multilevel regression and poststratification with structured priors. arXiv:1908.06716v2. 30 Sep 2019.
- 読了: Downes& Carlin (2020) Mr.P (マルチレベル回帰・層化)ってやっぱり良いの? はい、良いみたいです (2023/09)
- Downes, M., Carlin, J.B. (2020) Multilevel Regression and Poststratification Versus Sample Weighting for Estimating Populatoin Quantities in Large Population Health Studies. Americal Journal of Epidemiology, 189(7), 717-725.
- 読了:Rao (2020) 非確率標本に基づく統計的推測手法レビュー (2022/09)
- Rao, J.N.K. (2020) On Making Valid Inferences by Integrating Data from Surveys and Other Sources. Sankhya B: The Indian Journal of Statistics. 83, 242–272.
関連する話題: 小地域推定
- 読了:Ghosh & Rao (1994) 小地域推定レビュー (2017/11)
- Ghosh, M., Rao, J.N.K. (1994) Small Area Estimation: An Appraisal. Statistical Science, 9(1), 55-93.
関連する話題: 欠損データ分析
- 読了: Little(2011) Calibrated Bayesアプローチからみた欠損データ分析 (2022/08)
- Little, R. (2011) Calibrated Bayes, for Statistics in General, and Missing Data in Particular (with comments and a rejoinder). Statistical Science, 26(2), 162-186.
関連する話題: 抽出デザインの性質
- 読了: Tille & Wilhelm (2017) 標本抽出デザインの良し悪しを決める三つの原理 (2023/12)
- Tille, Y., Wilhelm, M. (2017) Probability Sampling Designs: Princeples for Choice of Design and Balancing. Statistical Science, 32(2), 176-189
そのときどきの魂の叫びとか、覚え書きとか
- 統計ソフトの「ウェイト」は調査の「ウェイト」ではない(2013/05)
- 「ウェイトバック集計」すべき場合とすべきでない場合がある(ということを説明するためのwebアプリを作ってしまった)(2014/03)
- ウェイティング回顧録 (私は結構ヒマな男なのではないか)(2015/06)
- proportion-to-size抽出デザインで推定量の分散が減少するのはなぜか(2023/12)
更新履歴
- 2023/12/12: Tille & Wilhelm (2017), Skinner & Wakefield (2017) を追加。
- 2024/01/03: Godambe & Thompson (1986), Dorfman & Valliant (1997), Delovoye & Savje (2020), 「proportion-to-size抽出デザインで推定量の分散が減少するのはなぜか」を追加。