読了: Valliant (2020) 非確率標本で母集団特性を推定する手法のエキジビジョン・マッチ

Valliant, R. (2020) Comparing Alternatives for Estimation from Nonprobability Samples. Journal of Survey Statistics and Methodology, 8, 231-263.

 非確率標本に基づいて母集団特性を推測する手法をシミュレーションで比較しましたという論文。

1. イントロダクションと背景
 [非確率標本の重要性は増しているが問題があって…という話。メモは省略。Matei(2018 SurveyStatistician)という無視可能でない個体無回答への対処についてのレビュー論文があるらしい]
 本論文は広く実務家むけに、非確率標本から推定値を作る方法、その推定値が特定の有限母集団を表していると主張するために必要な仮定、点推定量と分散推定量、について述べる。

2. 推定の方法
2.1 準ランダム化
 まず擬似包含確率を推定し、\(\pi-\)推定[Horvitz-Thompson推定のことかな]と同様に、その逆数を使って推定する。傾向スコアリングとか傾向スコア調整という。
 個体\(i\)の包含確率を\(\pi(i \in s | \mathbf{x}_i, \mathbf{y}_i; \Phi)\)と書くとして(\(\Phi\)は推定すべき未知パラメータ)、こういう風に\(\mathbf{y}_i\)への依存性があるとき、つまりNMARの場合は対処が難しい。研究としてはLittle(2003 Chap.), Matei(2018)があるけど実現困難である。現実的にはMARを仮定して\(\pi(i \in s | \mathbf{x}_i; \Phi)\)を推定することである。
 うまいこと\(\pi(i \in s | \mathbf{x}_i; \hat{\Phi})\)が手に入ったとして、その逆数を\(w_i\)として、母合計と母平均の推定量は$$ \hat{t}_y =\sum_{i \in s} w_i y_i $$ $$ \hat{\bar{y}} = \sum_s w_i y_i / \sum_s w_i $$ 近似的に不偏な推定量となる(擬似確率分布の下の反復包含という意味で)。母集団の全個体の包含確率が非ゼロでなければならないけれど。

 参照標本について:

  • 擬似包含確率を求めるためには別の確率調査を用いる。これを参照調査という。参照標本\(s_{ref}\)と非確率標本\(s\)を結合して、二値回帰モデルなり、CARTなりバギングなりランダムフォレストなりで擬似包含確率を推定する。
  • [参照標本をどうやって得るかという話が続く。メモ省略]
  • 推定に当たっては、参照標本のケースに0, 非確率標本のケースに1を振り、参照標本のケースにはその標本ウェイト、非確率標本のケースには標本ウェイトとして1を与える。で、重みづけ二値回帰で非確率標本由来のケースかどうかを予測し、その逆数をウェイトにすればよろしい。
     [うわ、これ、まさにWu(2022)が批判してたValliant & Dever(2011)の方法じゃんか…
     それはいいとしても、なんか腑に落ちないなあ。この方法で推定しているのは\(P(i \in s | \mathbf{x}_i, i \in s \cup s_{ref})\)ですよね。でもほんとに推定したいのは\(P(i \in s | \mathbf{x}_i)\) じゃないですか。\(s\)と\(s_{ref}\)が排反なら $$ P(i \in s | \mathbf{x}_i, i \in s \cup s_{ref}) = \frac{P(i \in s | \mathbf{x}_i)}{P(i \in s | \mathbf{x}_i) + P(i \in s_{ref} | \mathbf{x}_i)}$$ これを \(X = \frac{A}{A + B}\)と書くと、$$ AX + BX = A $$ $$ BX = A(1-X) $$ $$ A = B \frac{X}{1-X} $$ だから、ほんとは $$ P(i \in s | \mathbf{x}_i) = P(i \in s_{ref} | \mathbf{x}_i) \frac{P(i \in s | \mathbf{x}_i, i \in s \cup s_{ref})}{P(i \in s_{ref} | \mathbf{x}_i, i \in s \cup s_{ref})} $$ を求めないといけないんじゃない? Zhang(2019)Elliott(2002)に出てくるのもこの形の式なんだけど?]
  • [非確率標本のサイズが大きいときの有限母集団推定の話。メモ省略]
  • モデルの誤指定とかで小さな\(\hat{\pi}\)が出てくるとウェイトは大きくなる。推定値の範囲をチェックすることが重要。あるいは、小さな値に対してより頑健な推定方法というのもある。Tan(2006 JASA), Cao et al.(2009 Biometrika)をみよ。\(\hat{\pi}\)の高低で層別するという手もある。

 他に技術的制約がふたつある。

  • 共通サポート。母集団における\(\mathbf{x}_i\)のすべての値について、非確率標本である確率も参照標本である確率も正でなければならない。これは確率標本における選択確率のpositivity制約に相当する。この制約が破られると確率の予測が信頼できなくなる。[…中略…]
  • 共通共変量。共変量は非確率標本と参照標本で共通でないといけない。

 分散推定について…[パス]

2.2 超母集団モデル
 [説明。メモ省略。この論文、手法の説明は意外に雑で、むしろ本題はシミュレーションにあるようだ…]

2.3 マルチレベル回帰・層化
 [説明…]
 MRPは、\(y\)の予測に線形モデルを使っていれば個体レベルのウェイトに帰着するのだけれど、ロジスティックモデルとかだとそうでない。すべての\(y\)に別々のモデルをあてはめないといけないわけで、実務的には大変。[…]

2.4 二重頑健推定量
 まず擬似包含確率を2.1の方法で推定しウェイト\(w_i\)をつくる。で、線形モデルを使ってモデル・アシステッドなウェイトをつくる。
 [説明…]

3. シミュレーション研究
 RのPracToolsパッケージ[著者らが作ったようだ]についているmibrfssデータセット(Michigan Behavioral Risk Factor Surveillance Survey)をブートストラップしてN=50000の母集団をつくる。
 変数は、年代(6水準)、人種(3)、教育(4)、年収(5)、一般的健康(5)、喫煙(2)。推定対象は、喫煙率、一般的健康(5カテゴリの回答率、bottom2box, top3box, 平均)。
 インターネット使用者を台帳にする(65%, 若い人に偏る)。年代を層にしてn={500,1000}の非比例層別抽出。かなり偏った標本となる。これを非確率標本と呼ぶ。各手法別に10000個(MRPだけは500個)。[あれ? ということは、標本包含の要因はインターネット使用と年代だけなわけね? 結局このシミュレーションって、インターネット使用を説明する変数を共変量にすれば勝てるね…]

 選手入場!

  • 準ランダム化。母集団から標本と同サイズのSRS標本を得て[台帳からではないみたい。つまり参照標本はまじで無作為標本なわけだ]、非確率標本と結合して、ロジスティック回帰で非確率標本かどうかを予測する。共変量は、年代、人種、教育、年収。
  • 線形モデルベース。上と同じ4つの共変量を使う。線形モデル(主効果のみ)、レイキング、線形モデル(主効果のみ)なんだけどウェイトを0.25以上に制約。[レイキングは交互作用を暗黙的に保持することがあるから、とのこと。そうかねえ?]
  • 二重頑健。準ランダム化ウェイトを使った重みづけ線形モデル(主効果のみ)、そのまま or ウェイトを0.25以上に制約。
  • MRP。rstanarmパッケージで推定。切片は固定項にして、4つの共変量と2次交互作用はすべてランダム効果にする。健康平均は線形回帰、ほかはロジスティック回帰。切片の事前分布は分散100の正規分布で、平均はいろいろ試したけど(標本平均とかゼロとか)、結果は変わんなかった。ほかの係数の事前分布は無情報。なお、構造化事前分布も試したんだけど変わんなかったんで報告しない。事後層は4つの共変量の組み合わせ、273個。

 [言葉遣いのせいで混乱しちゃったんだけど、ここでいう準ランダム化というのは傾向スコア推定のこと。レイキングによるウェイティングは、ふつうは準ランダム化の手法として捉えると思うんだけど、ここではモデルベース手法として捉えている。MRPを別にして、ロジスティック回帰ベースのモデルがないことに注意]
 [メモは省略したけど、MRP以外の方法については分散推定までやっている]

 結果。
 [このメモは読みながら書いているので、この行を書いている時点ではまだ結果を知らないんだけど、わたしゃMSEでは結局シンプルなレイキングが勝つと思うね。直観的にいって、アウトカムのモデルであれ傾向スコアモデルであれ、モデリングは不利だと思うよ、標本サイズが小さいから。MRPはぼろ負けするんじゃないの? 共変量が4つしかないし、MRPが得意とする地域のようなタイプの共変量がないしさ]

 相対バイアス、RMSEで評価する。MRP以外の手法についてはSEの相対バイアスと信頼区間のカバー率、MRPについては信用区間のカバー率もみる。
 [結果の表がたくさんあるんだけど、いちいち見ている気力がない。本文中のコメントのみメモする]
 バイアスは、MRP、準ランダム化、レイキング、線形モデル、二重頑健の順に大きい。MSEは、準ランダム化とMRPで大きい。
 分散推定は… [めんどくさいのでスキップ]

 MRPについて層別に細かく調べると[…めんどくさいので読んでない…]、事前分布を改善すればもうちょいよくなったかも。それに、共変量がもっと多い場面では勝ててたかもしれんね。でもそれらがよい共変量だったら他の手法もよくなって、結局勝てないのかもしれんね。

4. 結論
 […] 共変量を使っても標本が大きくても、母集団のアンダーカバレッジ問題をなかなか解決できないことが示された。
 全体としては二重頑健推定量・ジャックナイフ分散推定の成績が良かった。
 […]
——
 手法の勉強のつもりで手に取ったんだけど、その解説はこの論文の主眼でないことに(そして結構雑な説明であること)に気づき、途中から気持ちを切り替え、フガフガと楽しく読んだ。
 シミュレーションについては、申し訳ないけど、ふーん、って感じである。だってこれ、目的変数の規定因は複雑、標本包含の規定因はインターネット使用と年代という場面で、目的変数と標本包含の共分散を、4つのデモグラ変数でうまく条件づけてゼロにできるか、という話ですよね? もし目的変数とインターネット使用が4つの共変量の主効果のみ線形モデルで説明できるんなら線形モデルが、主効果のみロジスティック回帰で説明できるんなら準ランダム化が、2次交互作用までのロジスティック回帰で説明できるんなら(そしてサンプルサイズがもうちょいあれば)MRPが勝っていたのではないかと思う。要は目的変数とインターネット使用がどういう変数か次第であって、他の場面に対しては一般化しにくいのではなかろうか。マジな試合というより、エキジビジョン・マッチと捉えたほうがいいんだろうな。

 それにしても、傾向スコアの求め方が納得いかないなあ。うーむ。