Cornesse, C., Blom, A.G., Dutwin, D., Krosnick, J.A., de Leeuw, E., Legleye, S., Pasek, J., Pennay, D., Phillips, B., Sakshaug, J.W., Struminskaya, B., & Wenz, A. (2020) A Review of Conceptual Approaches and Empirical Evicdence on Probability and Nonprobability Sample Survey Research. Journal of Survey Statistics and Methodology, 8, 4-36.
調べ物のついでに読んだ奴。謝辞によればドイツの大学のワークショップの産物で、第一著者はポスドクさん、あとはアルファベット順とのこと。よくわからんが、Krosnickさんが入っているので信用できそうだなと思った次第。
1. イントロダクション
[ながーい背景説明…]
本論文は、確率標本vs非確率標本という従来の論争を前進させることを意図している。
2. 非確率抽出アプローチの概念枠組み形成
総調査誤差フレームワークは確率標本の品質評価の基盤となっているが、非確率標本の世界にうまく翻訳できない。ステージごとの誤差の積み重ねで評価するのではなく、最終的にモデル化された標本のいろんな特徴を母集団t比べることしかできないのだ。正当化の主張は4タイプある。
- ある質問についてどの標本で検討しても同じ結論に達する
- 特定のデザインの標本によって対象母集団を反映する結論が得られるはずだ
- 標本と母集団の違いは一連の分析的手続きで説明できる
- 標本と分析アプローチの特定の組み合わせが正確な母集団推定値をもたらす
[このメモは読みながらリアルタイムで取っているので、いまのところわけわかんないけど、じーっと見てると、これってこういうことかな… と思い至る面もありますね。4番目はアウトカムのモデリングのことであろう]
2.1 関心ある質問そのものに由来するデザイン無視可能性
関心ある現象と抽出法が関係しないと主張される場合がある。たとえば、生理学・心理学の研究で、すべての人に共通するプロセスを理解しようとしている場合である。こういう主張は、直交性についての理論的期待ないし経験的証拠から導かれる。問題はそれがいつ正しいかである。
[なるほど、ここでは母集団特性の点推定を問題にしていて、推定量の分散推定は脇に置いているんだろうな…]
2.2 目的に合致したデザイン
バイアスがあるかもしれないけどデザインによって軽減されているはず、と主張される場合がある。たとえば、リサーチャーの推論におけるバイアスがデモグラフィック変数で決まっていて、その変数で定義したクオータ抽出を行ったから大丈夫、という場合である。問題はその想定の正しさである。
2.3 大域的調整アプローチ
非確率標本の正確さを向上するためにモデリングしようというアプローチは昔からある。それらは大域的調整とアウトカムごとの調整に分けられる。
大域的調整としては以下がある。
- カリブレーション・ウェイティング。ある特性のウェイト付き合計が、既知の母合計に対応するようにウェイトをつける。
- 標本マッチング。[…]
- 傾向スコアウェイティング。単位レベル参照データがあるとき、それと非確率標本を結合して、包含確率を推定し、その逆数でウェイティングする。関連した方法に、結合したデータセットを使って、両方で測定されている変数を使った予測モデルを作り、非確率標本側に代入する値をつくるという方法がある。[それはもうアウトカム特定的モデルではなかろうか? Raghunanthan(2015 書籍)というのが挙げられている]
- 非確率標本と参照データを結合して同時に分析するアプローチ。たとえば擬似デザインベース推定(Elliott 2009 SurveyPractices, Elliott & Valiant 2017)。非確率標本の単位に、非確率標本と確率標本に共通した変数集合にもとづく擬似包含確率を与える。包含確率の推定方法はいろいろある。(1)2つのデータセットを結合して非確率調査への参加確率を予測する。前項の傾向スコアウェイティングと似ている。(2)標本ウェイティング。こうして非確率標本側に擬似包含確率を付与したら、あとは実際のウェイトと疑似ウェイトを使って、あたかも同じ抽出メカニズムで得たかのように分析する。[なにいってんだかわかんない。同時に分析するっていっても、関心ある変数は非確率標本側にしかないでしょ? だったら傾向スコアウェイティングと同じじゃない? ひょっとして共通の変数に関心があるような状況なのだろうか…]
- ブレンデッド・カリブレーション。確率標本と非確率標本を結合して、確率標本側で測定したベンチマーク値に向かってカリブレートする。[??? つまり確率標本の集計値に合わせてカリブレートするってこと? つまり非確率標本のカリブレーションのターゲットが既知の母合計ではなくて確率標本の集計値になるっていうこと? よくわからんなあ。Fahimi, et al. (2015 SurveyPractices)というのが挙げられている]
これらの手法は調整に用いた変数で条件づけると選択メカニズムが無視可能だという仮定に基づいている。[…]
2.4 アウトカム特定的調整アプローチ
- 超母集団におけるデータ生成過程を非確率標本を使ってモデル化し、非抽出単位の値を予測し、母集団について集計する。
- モデルアシステッド・カリブレーション。母集団サイズと予測値の母合計に対する制約を利用してウェイトを決める。LASSOなどのモデル選択手法が提案されている。[Chen, Valliant, Elliott(2018 JRSS:C)が挙げられている]
- マルチレベル回帰・層別。[説明があるけどメモ省略。Wang, et al.(2015 Int.J.Forecasting), Downes, et al.(2018 Am.J.Epidemi.), Park, et al.(2004), Pfeffermann et al.(2015 J.SurveyStat.Methodol.)をみよとのこと]
[なんというか、排他的な分類になっていないので気持ち悪い..]
3. 確率標本調査・非確率標本調査の正確性
確率標本調査・非確率標本調査のベンチマークに対する正確性を比較した先行研究をTable 1.に示す。
[2節のレビューがしょぼいのでがっくりしてたんだけど、この論文の本題はこれかー。2003から2018の25本を列挙している。列は、国、ベンチマーク、確率標本のモード(電話調査とか対面調査とか)、確率標本は非確率標本よりも正確だったか(Yesが多め)、ウェイティングによって非確率標本のバイアスは十分に減衰したか(ほとんどがNoかN/A。Yesは2本だけ。はっはっは。みんなあれこれ苦労しているのに、現実ってのは残酷ですねー]
3.1 当初の正確性の比較
確率標本のほうが正確であることを示した研究が多い。
[いろいろ書いてあるけど、めんどくさいのでメモ省略]
3.2 非確率標本調査のバイアスを減らすためのウェイティング・アプローチ
Table 1. の多くの研究では、非確率標本をいろいろウェイティングしても確率標本には勝ててない。
非確率標本とベンチマークの比較だけやった先行研究をTable 2に示す[12本。うちMRPが2本。論文の著者らが「十分にバイアスを減らせた」と述べているのは5本だそうな]。やはり多くの研究ではバイアスを取り除けていない。
4. 結論
研究の透明性を確保するための提案をAppendixに載せたからみてね。[いろいろ書いてあるけど読んでません、すいません]
今後の課題:もっと事例が必要。もっと透明性が必要。
云々。
—————
ふーん。そらまあ、そうなんでしょうね、という感想である。何事も、うまくいくこともあればいかないこともあるでしょう。後者が多いからといってあきらめるわけにもいかんでしょう。
よし、次に行こう!次に!