Ferri-Garcia, R., & Rueda, M.D.M. (2018) Efficacy of propensity score adjustment and calibration on the estimation from non-probabilistic online surveys. SORT, 42(2), 159-182.
非確率標本を傾向スコアで調整したりカリブレーションで調整したりするけどどうするのがいいのかシミュレーションで調べたよという論文。そりゃ傾向スコアでしょ、というか、共変量が良ければ勝つし、共変量に交互作用があるんなら周辺分布じゃなくて同時分布を調整したほうが勝つって話でしょ、と思ったけれど、「あとで読む」リストに入っていたので仕方なく読んだ。
掲載誌はカタルーニャの学術誌だと思う。なぜ読もうと思ったのか思い出せないが、著者らはNonProbEstパッケージの中の人。あ、そうだ、Rueda, Ferri-Garcia, & Castro (2020)で引用されていたからリストにいれたんだった。忘れてた。
1. イントロダクション
[伝統的調査が立ちいかなくなっていてネット調査が普及して…云々。読み飽きた]
というわけで、非確率標本をカリブレーションで調整するのと傾向スコアで調整する(PSA)のとどっちがいいのか調べました。また組み合わせる方法についても調べました。
2. 方法論
2.1 カリブレーション・ウェイティング
Sarndal(2007 SurveyMethodol.)いわく、カリブレーションとは下の3つの結合だ。
- ウェイト算出。ウェイトは指定した補助情報が統合されており、カリブレーション方程式によって拘束されている。
- それらのウェイトを使って、合計やそのほかの有限母集団パラメータの線形ウェイトつき推定値を求める。すなわち、ウェイトを値と掛けて合計する。
- 目的は、無回答やそのほかの非標本誤差がない限りほぼデザイン不偏な推定値を得ること。
ではカリブレーションの理論について。詳しくはDeville & Sarndal(1992 JASA)をみよ。
関心ある変数を\(y\), 標本を\(s\)とし、標本の要素\(k\)の選択確率を\(\pi_k = 1/d_k\)とする。補助情報がなければ、母合計\(Y\)の推定にはHT推定量が用いられる[原文では総和記号の下添字が\(i \in a\)になっているが誤植だろう]: $$ \hat{Y}_{HT} = \sum_{k \in s} d_k y_k $$ 補助情報のベクトルを\(\mathbf{x}\)とし、母合計\(\mathbf{X}=\sum_{k=1}^N \mathbf{x}_k\)は既知とする。\(Y\)のカリブレーション推定とは、\(k \in s\)についてオリジナルの標本ウェイト\(d_k\)をなるべく変えずに新しいウェイト\(w_k\)をつくり、かつカリブレーション方程式 $$ \sum_{k \in s} w_k \mathbf{x}_k = \mathbf{X} $$ を満たすことである。
どうやって解くかというと、カリブレーション方程式の下で、なにかの距離\(G(w_k, d_k)\)について$$ \min_{w_k} E\left[ \sum_{k \in s} G(w_k, d_k) \right]$$ を得るわけである。距離としては線形距離 $$ \sum_{k \in s} \frac{(w_k – d_k)^2}{q_k d_k} $$がもっともよくつかわれている。\(q_k\)は正のウェイトで、ふつうは\(1/q_k = 1\)とするが、\(k\)によって異なるウェイトを使うこともある。ウェイトはこうなる: $$ w_k = d_k(1-q_k \mathbf{x}^\top_k \lambda) $$ $$ \lambda = T^{-1}_s (\mathbf{X} – \sum_s \mathbf{x}_k d_k)$$ $$ T_s = \sum_s d_k q_k \mathbf{x}_k \mathbf{x}^k$$ ただし\(T_s\)には逆行列があること。
得られる推定量はGREG推定量になる: $$ Y = \sum_s w_k y_k = \sum_s y_k d_k + (\mathbf{X} – \sum_s \mathbf{x}_k d_k)^\top \hat{B}_s$$ $$ \hat{B}_s = T^{-1}_s \sum_s d_k q_k \mathbf{x}_k y_k $$ \(Y\)は不偏ではないが、\(w_k\)が\(d_k\)に近づくにつれて漸近不偏である。[\(d_k\)に近づくにつれて??? ここちょっとわかんないな]
2.2 傾向スコア調整(PSA)
[説明。メモは省略するけど、ネット調査への適用はHarrisが最初だというところで、Taylor(2000, IJMR), Taylor et al.(2001, IJMR)というのがreferされている。なにこれ、知らんかった]
参照調査を用意する[確率調査とは明記しておらず、単に「カバレッジと回答率が良い調査」としか書いてない。ひえー、大丈夫かね]。オンライン調査と結合し、どっちの調査に参加したか\(z\)を共変量で説明するロジスティック回帰モデルをつくる。すなわち$$ \pi(\mathbf{x}_k) = \frac{1}{\exp(- \tau^\top \mathbf{x}_k ) + 1} $$ で、Lee & Vallient(2009 Sociol.Methods&Res.)に従い、傾向スコアを\(g\)クラスにわける。\(g=5\)とすることが多い。各クラスの調整ファクターを以下とする。ネット調査の標本を\(s_V\), 参照調査の標本を\(s_R\) として $$ f_g = \frac{ \sum_{k \in s_{R_g}} d_{Rk} }{ \sum_{k \in s_R} d_{Rk} } / \frac{ \sum_{k \in s_{V_g}} d_{Vk} }{ \sum_{k \in s_V} d_{Vk} } $$ でもって、新しいウェイト$$ d^*_k = f_g d_{Vk} $$ をつくってHT推定する。[ちょっとちょっと… 単に非確率標本と参照標本の比をとっている。これWu(2002)で批判されてたやつだよな]
もう一つの方法としてSchonlau & Couper(2017 Stat.Sci.)の方法がある。傾向スコアを用いたHajek型推定量のためのウェイトを得る。2つの標本を結合した母集団ではなく、確率標本のほうの母集団へと調整する。ウェイトは、ロジスティック回帰で推定された回答傾向を\( \hat{\pi}(\mathbf{x}_k) \)として $$ w_i = \frac{1-\hat{\pi}(\mathbf{x}_k)}{\hat{\pi}(\mathbf{x}_k)} $$ とする。
[??? つまり縦積みデータでロジスティック回帰するというのは変わらないのね?
傾向スコア調整って、細かいことを考えるといろいろとバリエーションがある。Lee & Vallient(2009)は縦積み→ロジスティック回帰→\(g\)クラスに層別→デザインウェイトを修正→HT推定、Schonlau & Couper(2017)は縦積み→ロジスティック回帰→元のデザインウェイトは捨てて \(1-\hat{\pi}/\hat{\pi}\)をウェイトにして→Hajek推定、ということで合っているだろうか。どちらの方法でも、ロジスティック回帰のときに参照標本の元の標本ウェイトはどう使うのか]
3. シミュレーション研究
3.1 データについての説明
母集団(\(N=50000\))の投票意向を調べたい。変数は、年齢、国籍(ネイティブ/非ネイティブ)、ジェンダー、教育(3水準)、インターネットへのアクセス、支持政党(正答1,2,3,棄権)。
[ここからの苦労話、どうでもいい話だけどちょっと面白いので細かくメモする]
- 年齢は18歳から100歳まで、\(Beta(2,3)\)に従う変数とする。これはスペインの人口ピラミッドと似ている。
- 国籍は、年齢を{35歳未満、65歳以下、それより上}に層別し、非ネイティブ率を0.15, 0.1, 0.025とする。これはスペインでの分布と似ている。
- 性別は、女性率を0.5, ただし75歳以上では0.65とする。
- 教育レベルは年齢の3層ごとに決める。[表が載っている]
- インターネットへのアクセス率は年齢層と国籍で決める。[表が載っている]
- 政党支持率はこうやって決める。[これ、結局4カテゴリの1変数にまとめたわけだよね。どうやったんだろう?]
- 政党1の支持率は、女0.2, 男0とする。インターネットへのアクセスがない人が欠損になる時にはMCARとなる。
- 政党2の支持率は、年齢層別に0, 0.4, 0.6とする。インターネットへのアクセスがない人が欠損になる時、年齢層で条件づければMARとなる。
- 政党3の支持率は、インターネットへのアクセスがなかったら0.1, あったら年齢層別に0.6, 0.4, 0.2とする。MNARとなる。
3.2 結果
ネット調査の標本サイズは500から10000までの7水準。[ネットへのアクセスがない人は抜いて無作為抽出するんだと思う。つまり台帳のアンダーカバレッジのシミュレーションだ]
参照調査は500で固定。[あ… 書いてないけど、たぶん参照調査はSRSなんだな。楽観的な話だ]
各条件下で1000試行を行う。各試行において、ネット調査の標本平均、カリブレーション、PSA, PSA+カリブレーションを試す。PSAは2.2節の2種類を試す。共変量は以下とする。
- 状況1. PSAでは年齢・教育、カリブレーションは性。
- 状況2. PSAでは年齢・教育、カリブレーションは国籍。
- 状況3. PSAでは年齢・国籍、カリブレーションは教育。
- 状況4. PSAでは年齢・国籍、カリブレーションは性。
結果。
- 状況1:
- PSAはMARのときにバイアスを減らした。[それはもちろんそうでしょうよ!!!]
- PSAはカリブレーションのみにくらべて分散が大きくなった。いっぽうカリブレーションはMAR, NMARだったら分散を下げたが、MCARだったらむしろ上げた。[目的変数が標本選択メカニズムに対してMCARだったら余計な事すんなってことね]
- HTとHajekはほぼ変わらなかった。
- [状況2,3,4について。結果だけ淡々と語られても飽きるんですよね… めんどくさくなってきたのでスキップ]
4. 適用例
[実データへの適用。スキップ]
5. 考察と結論
[…]
Bethlehem(2010)は目的変数が無回答に対してMARならカリブレーションだけでバイアスを減らせるがNMARではうまくいかないことを示した。本研究でもそうだった。
Lee(2006)はPSAがうまくいくには目的変数にあわせた共変量が大事だと述べている。本研究では、母合計へのカリブレーションだけではあまり違いがでないこと、参照調査の併用を検討すべきであることが示された。
HTとHajekの違いは、共変量が良いときにだけ効く。これは次のように説明できる。[…説明が書いてあるんだけど全然理解できなかった…]
云々。
—————
正直、よくわからないまま読み終えてしまった。シミュレーションのところ、PSAとして2種類の方法が比較されているんだけど、何と何を比べようとしているのかがはっきりしないと思う(HT推定とHajek推定の比較だと書いてあるが、そもそものウェイトの作り方が全然違う)。
あとで要旨を見直してみたところ、PSAとカリブレーションを併用するのがよい、母集団合計を知っててカリブレーションするのはいいけど参照調査から母集団合計を推定してカリブレーションするのはあまり効かない、と書いてあった。えー?そんな話出てきたっけ? 4節で出てくるんだろうか?
どうもよく理解できていないみたいだけど、まあいいや、この論文は読み終えたことにしちゃおう。
しっかし、非確率標本の傾向スコア調整の手続きについて、もっと細かいシミュレーション研究をやった人はいないのだろうか? ありそうなもんだけどなあ。