Valliant, R., Dever, J.A. (2011) Estimating Propensity Adjustments for Volunteer Web Surveys. Sociological Methods & Research, 40(1), 105-137.
非確率標本の傾向スコア調整に関する研究で頻繁に引用されている論文。私が読んだ範囲でも、えーと、Mercer, et al.(2017), Chen, Li, & Wu (2020), Rueda, Ferri-Garcia, & Castro (2020), Wu(2022), Elliott(2022)に出てきた。
実のところ、この論文の提案はWu(2022)で結構きつめに批判されていて、たしかに変だよなという感じだったのだが、でもプロの研究者がそういう方法を提案したからにはなにがしか理由があったんじゃないのかな、とも思ったのであった。というわけで、原文に当たってみた次第。
1. (イントロダクション)
[… メモは省略するけれど、大きなネット調査パネルを抱えている会社の例として、Harris Interactive, TNS Global, Ipsos MediaCT, Synovate, YouGov Polimetrix, Perspektive Deuschland が挙げられている。Synovate… ありましたねえ、そういう会社…]
任意型標本に基づき母集団について推定する際にはいくつかの強い仮説が必要になる。説明する前に、以下の3つを区別しておこう。
- 目標母集団
- 潜在的にカバーされた母集団 (インターネットにアクセスしている人)
- 実現された標本 (オプトインパネルに任意参加している人)
[…]
本論文では任意型標本にウェイトを振って目標母集団に対する代表性を持たせる方法について検討する。
人\(k\)の調査参加を予測するための共変量ベクトルを\(\mathbf{x}_k\)とし、インターネットにアクセスがあることを\(W\)、オプトインパネルに参加することを\(V\)、参加依頼を受けることを\(s_V\)、参加することを\(s_{V_R}\)とする。調査参加確率\(\pi(\mathbf{x}_k)\)はこう書ける: $$ \pi(\mathbf{x}_k) = \pi(W|\mathbf{x}_k) \pi(V|W, \mathbf{x}_k) \pi(s_V|V,W,\mathbf{x}_k) \pi(s_{V_R}|s_v, V, W, \mathbf{X}_k)$$ 本論文では\(\pi(s_V|V, W, \mathbf{x}_k), \pi(s_{V_R}|s_V,V,W,\mathbf{x}_k)\)は知りうるものとし、$$ \pi(\mathbf{x}_k) = \pi(W|\mathbf{x}_k) \pi(V|W, \mathbf{x}_k) $$ というケースに集中する。
\(\pi(\mathbf{x}_k)\)を推定しようとする傾向スコアリング手法はいろいろある。傾向スコア調整を正当化するためには任意参加メカニズムについての仮定が必要だが、多くの人に無視されている。
本論文の目標は、これらの仮定について明示し、傾向を推定するための手法の正当化するのに必要な数学を提示し、それらの想定がいかに破られうるかを説明し、シミュレーションによって傾向スコアベース推定の性能を例示することである。
2. 推定アプローチ
任意型web調査のための推定量の開発には少なくとも3つのルートがある。
- 擬似ランダム化アプローチ。参加確率を推定してその逆数をウェイトにする。
- モデルに基づく推定量。群によって平均が違うという単純なモデルでもいいし(事後層別推定量)、もっと複雑なものでもいい。Deville(1991 SurveyMethodol.), Bethlehem(2010 Int.Stat.Rev.), Dever, Rafferty, & Valliant(2008 SurveyRes.Methods)をみよ。
- この2つの組み合わせ。参加確率を推定し、さらに構造的母集団モデルで調整する。
先行研究[手に入れられそうな奴だけメモする]:
- Lee(2006 J.OfficialStat.), Lee & Valliant(2009 SociologicalMethods&Res.): 傾向スコア
- Schonlau et al.(2004 Soc.Sci.Comp.Rev.): 傾向スコアに基づく事後層別
- Schonlau, van Soest, & Kapteyn (2007 SurveyRes.Methods.): 共変量選択
- Schonlau et al.(2009 Sociol.Methods&res.): インターネットアクセス有無の違い
- Smith(1983 JRSS:A), Copas & Li(1997 JRSS): 非確率標本からの推定
[観察研究で未知の割付が起きているときの傾向スコアと、任意型調査を調整するときの傾向スコアがどう違うかという話が2パラグラフ。メモ省略]
3. ユニバースのカバレッジ
傾向スコアはモデル・パラメータ、ないし、有限母集団の量として解釈される必要がある。どっちの解釈であっても、その手続きにおいて有限母集団のどの部分が含まれどの部分が除外されているのかを正確に知る必要がある。
任意標本と参照標本があるというケースでは、目標ユニバース\(U_{++}\)を次の2つの観点から分解できる。
- 任意標本\(s_{+V}\), webにアクセスできるが任意標本でない\(s_{+V^c}\) (この2つを合わせて\(U_{+W}\))、webにアクセスできない\(U_{+W^C}\)。
- 参照調査でカバーされている\(U_{R+}\), されていない\(U_{R^C+}\)。
推定問題とは、単純に言えば、\(s_{+V}\)を\(U_{++}\)にprojectする方法のことである。
傾向スコアモデリングを正当化するには、web任意標本\(s_{+V}\)に属するかどうかを確率変数としてみなさなければならない。[…]
[任意標本と参照標本の具体例が表になっていて、それぞれについて具体的な議論をしている。固定回線RDDのカバレッジはどのくらいかとか。メモ省略]
4. 傾向スコア推定のしくみ
任意標本\(s_{+V}\)を\(s_V\)と略記しサイズを\(n_V\)とする。参照標本を\(s_R\)、サイズを\(n_R\)とする。結合標本のサイズは\(n = n_V + n_R\)である。
[1節の定義では\(W, V, s_V, s_{V_R}\)の順に小さくなっていくわけだが、ここでは調査参加拒否者はいない、冒頭の記号でいえば\(s_V = s_{V_R}\)、つまり\(\pi(s_{V_R}|s_V,V,W,\mathbf{x}_k)=1\)だということであろう。3節の定義では\(s_{+V}\)かつ\(U_{R+}\)という人がいるから、理屈上は\(s_V\)かつ\(s_R\)という人がいてもおかしくないのだが、いないという前提であろう]
任意標本の個体\(i\)はウェイト\(d_{Vi}\)を持っているとする。任意標本がパネルの一部ならば、ウェイトはパネルからの選択確率の逆数であろう。[ウェイトは\(1/\pi(s_V|V, W, \mathbf{x}_k)\)ってことだよね]
参照標本の個体は\(j\)はウェイト\(d_{Rj}\)を持っているとする。たとえば層別RDD電話調査なら、ウェイトはそれに関連した選択確率の逆数であろう。
結合標本\(s_V \cup s_R\)の個体が任意標本に含まれている傾向の推定値を\(\hat{\pi}(\mathbf{x}_k)\)とする。共変量は両方の標本で同じように測られているとする。
[この書き方だと、\(\hat{\pi}(\mathbf{x}_k)\)は\(\hat{Prob}(k \in s_V |\mathbf{x}_k, k \in s_V \cup s_R)\)なのか\(\hat{Prob}(k \in s_V | \mathbf{x}_k)\)なのかあいまいだなあ… たぶん後者を意図しているのだと思うけれど]
傾向スコアモデルのパラメータを推定する際には、任意調査側のウェイトと参照調査側のウェイトを使うかどうかを決めなければならない。
任意標本のウェイトは、任意標本を完全なオプトインパネル\(s_{+V}\)のレベルまで拡大する[??? ここ理解できない。任意標本そのものが\(s_V = s_{V_R}\)でしょう? 1節でいう\(V\)のレベルまで拡大する、の誤りではないか]。参照側ウェイトは、参照標本を\(U_{R+}\)ないし\(U_{++}\)へと拡大する。厳密にいえば、前者の場合、参照標本のウェイトは\(s_R\)を\(U_{R+}-s_{RV}\)へと拡大するものになるよう調整すべきだが、ふつう\(s_{RV}\)は小さいので無視してよい。
- もし両方のウェイトを使用し、かつ参照側のウェイトが\(U_{R+}-s_{RV}\)へと拡大するウェイトであるならば、あてはめられたパラメータは、モデルにおけるパラメータを、もし\(s_V \cup U_{R+}\)の全ての人が標本にいたならば推定していたように推定している。この場合、推定された傾向スコアは\(k \in s_V \cup U_{R+}\)について\(\pi(\mathbf{x}_k) = \pi(W|\mathbf{x}_k) \pi(V|W, \mathbf{x}_k)\)を推定している。[ここも理解できない。「もし\(V \cup U_{R+}\)の全ての人が標本にいたならば」の誤りではないか]
- もう一つの方法は、参照標本を\(U_{++}\)でのカウントに対してカリブレートするという方法である(正確に言えば\(U_{++}-s_{RV}\)でのカウントに対して)。傾向スコアの推定値は\(U_{++}\)のなかでの任意参加確率を指すだろう。
- もっと一般的な方法はウェイトを使わないという方法だ。先行研究の多くがそうしている。推定された傾向スコアは、任意標本を\(s_V \cup s_R\)のレベルへと拡大している。その結果、その逆数をウェイトにするだけではバイアスが生じる。
傾向スコアの使い方を3通り挙げる。以下、\(\hat{\pi}(\mathbf{x}_k)\)を\(\hat{\pi}_k\)と略記する。
- (a) \(k \in s_V\)に対して\(1/\hat{\pi}_k\)をウェイトにする。\(Y\)の平均は$$ \hat{\bar{y}}_1 = \sum_{k \in s_V} \frac{d_{Vk} y_k}{\hat{\pi}_k} / \sum_{k \in s_V} \frac{d_{Vk}}{\hat{\pi}_k} $$
- (b) 結合標本を\(\hat{\pi}_k\)でソートし\(G\)クラスに分け、各クラスの傾向スコアの平均\(\hat{\bar{\pi}}_g\)を求め、その逆数をウェイトにする。\(Y\)の平均は$$ \hat{\bar{y}}_2 = \sum_{g=1}^G \sum_{k \in s_{Vg}} \frac{d_{Vk} y_k}{\hat{\bar{\pi}}_k} / \sum_{g=1}^G \sum_{k \in s_V} \frac{d_{Vk}}{\hat{\bar{\pi}}_k} $$
- (c) 「傾向スコア事後層別」推定量。(b)と同様にサブクラスを作り、それぞれのサブクラスで推定された母集団カウントを使って事後層別推定量を作る。$$ f_g = \frac{\sum_{k \in s_{Rg}} d_{Rk}}{\sum_{k \in s_R} d_{Rk}} / \frac{\sum_{k \in s_{Vg}} d_{Vk}}{\sum_{k \in s_V} d_{Vk}}$$ とし、\(k \in s_{Vg}\)について $$ d^*_k = f_g d_{Vk} $$ としたうえで、$$ \hat{\bar{y}}_3 = \frac{\sum_g \sum_{k \in s_{Vg}} d^*_k y_k}{\sum_g \sum_{k \in s_{Vg}} d^*_k} $$ おそらくHarrisもこの方法を使っている(公開していないけれど。Terhanian & Bremer(2000, WhitePaper)をみよ)。
本論文では検討しないが、他の方法として、任意標本の個体と参照標本の個体を傾向スコアでマッチングするという方法がある。YouGov Polimetrixはこの方法を使っている。
5. 傾向スコア重みづけ平均の諸特性
[この論文、ほんとにわかりにくい… 細かくメモする]
推定量(a)(b)(c)の諸特性は、傾向スコアの推定の際にウェイトを使うかどうかで変わってくる。特に、\(\hat{\bar{y}}_1, \hat{\bar{y}}_2\)はウェイトを使ったときには不偏だが、使わないと不偏でない。
\(s_V\)がボランティア全体のパネルで、\(d_{Vk} \equiv 1\)だとしよう。ここで重要なのは、傾向スコアモデルを正しく推定するためには任意標本にいる人は参照標本に入れないという点である。任意標本-参照標本の研究ではこれが暗黙の前提になっている。しかし2つの部分ユニバースの間には重複がありうる(\(s_{RV}\)は空でない)わけで、参照標本側のウェイトは本当は\(U_{R+}-s_{RV}\)ないし\(U_{++}-s_{V}\)に向けて調整するウェイトでなければならない。
参照標本のウェイトが\(U_{R+}-s_{RV}\)へと拡大するウェイトであるならば、\(E(\hat{\bar{y}}_1) \approx \bar{Y}_{s_V \cup U_{R+}} \)となる。ただし、ここで期待値は擬似ランダム化された任意参加メカニズムを通した期待値であり、\(\bar{Y}_{s_V \cup U_{R+}}\)は結合母集団 \(s_V \cup U_{R+}\)の平均である。もしも\(\bar{Y}_{s_V \cup U_{R+}} = \bar{Y}_{U++}\)ならば、\(\hat{\bar{y}}_1\)は目指す母平均に対して近似的に不偏である。
いっぽう、傾向スコアモデルがウェイトなしであてはめられていたら、結合標本の平均\(\bar{y}_s = \sum_{s_V \cup s_R} \frac{y_k}{n} \)は $$ \bar{y}_s = \alpha_V \bar{y}_V + (1-\alpha_V) \bar{y}_R $$ ただし \(\alpha_V = \frac{n_V}{n}\)となる。これは理論的な期待値に過ぎないという点に注意(参照標本の\(y\)はわからない)。
上の式からわかるように、仮に参照標本の平均が母平均の不偏推定量だとしても、任意標本と結合したせいでバイアスが生じる。任意標本のサイズを大きくしたところで、\(\bar{y}_V\)が母平均に接近しない限りバイアスは減らず、参照標本サイズが一定ならバイアスはむしろ増える。
ここから先には、参照標本側の標本デザインを決めないと進めない。
- 仮に参照標本がSRSなら以下が成り立つ(証明はAppendixをみよ)。参加メカニズムを通した期待値を\(E_I\)と書き、$$ relbias_I(\hat{\bar{y}}_V) = \frac{E_I(\bar{y}_V)}{\bar{Y}_{s_V \cup U_{R+}}} – 1 $$ と書くとして、$$ relbias(\hat{\bar{y}}_1) = \alpha_V relbias_I(\hat{\bar{y}}_V) $$ となる。つまり、
- 任意標本の単純平均が、目標母平均の擬似ランダム化不偏推定量ならば、\(\hat{\bar{y}}_1\)も不偏である。もちろんありそうにない話である。
- 任意標本が参照標本より十分に大きければ、\(\hat{\bar{y}}_1\)の経験的相対バイアスは任意標本の単純平均の経験的相対バイアスに接近する。
- 任意標本が参照標本よりはるかに小さければ、\(\hat{\bar{y}}_1\)の経験的相対バイアスは0に近づく。
[そりゃそうだろうね、という話ばかりだ…]
- \(\hat{\bar{y}}_2\)はどうか。参照調査ウェイトを使っていれば、サブクラス内での任意参加傾向スコアが一定に近い限り、近似的に擬似ランダム化不偏である。傾向スコアモデルをあてはめる際にウェイトを使っていないと、一般にバイアスが起きて[…めんどくさいのでメモ省略…]。
- \(\hat{\bar{y}}_3\)は分析が難しい。次の節ではバイアスが大きいことを示す。
6. 実証例
2003 Michigan Behavioral Risk Factor Surveillance Survey のデータに基づいてサイズ50000の目標母集団をつくった。
試行ごとに、参照標本はSRSで抽出。任意標本はポアソン抽出で、(1)母合計がわかっている共変量に依存して、(2)ないしわかんないのも含めた共変量に依存して、確率を決めた。
[どういうシミュレーションかなんとなくわかったので、ここから先はスキップ。だってめんどくさいもん!
abstractによれば、本論文の主たる知見は次の2つ。(1)傾向スコアモデルが参照標本のウェイトを使っていないとき、任意参加の確率が正しくモデル化できていたとしても母平均推定量はバイアスを持つ。(2)任意調査で集めた分析変数と任意参加確率が関連しているとき(MNARってことね)、傾向スコアモデリングではバイアスを修正できない。]
7. 結論
任意標本に基づく擬似ランダム化推論の鍵となるのは以下の3点。
- 任意参加の傾向スコアが、任意標本と参照標本の両方で集めた共変量を使ってモデル化できること。
- 任意参加の確率が、任意標本側でしか集めてない分析変数に依存していないこと。
- 傾向スコアは、任意標本と参照標本の結合で表現されるユニバースに推定値を適応できるような形で推定しなければならない。[ウェイト使えってことね]
本研究の主たる知見のひとつとして、傾向スコア事後層別だけでは推定値は偏るという点がある。傾向スコア事後層別推定量はやめたほうがよい。先行研究は他の共変量へのレイキングとか事後層別を併用していたから気が付かなかったのだろう。
もう一つの知見は、共変量が良ければカリブレーションでバイアスをうまく取り除けるという点である。こうしてみると、わざわざ参照調査をやる意味はあるのかという疑問が湧く。参照調査でないとわかんない共変量が大事だという理屈は成り立つが(ライフスタイルとかwebographicとかね)、実証的支持は少ない。今後の課題である。
云々。
————
いやー、難しいというより、読みにくい論文だった… 疲弊した…
プロの研究者の方に向かって大変失礼ながら、下位母集団の記号がなにを表しているのかがいまいちはっきりしないと思うんですよね。おかげで大変混乱した。どこかに誤植があるのかもしれない。
ともあれ、この論文が結合標本で推定した「任意標本に入っている確率」をそのまま傾向スコアとして使ってしまっている理由がなんとなくわかった。普通に考えたら、それは\(\hat{Prob}(k \in s_V |\mathbf{x}_k, k \in s_V \cup s_R)\)であって任意標本に対する正しい擬似包含確率ではないのだが、要は、両方に良いウェイトが付いていて、任意標本に対応する下位母集団と参照標本に対応する下位母集団を結合した母集団をうまく表していて、かつそこでの母平均が目標母集団の母平均と一致するならば、それで問題ないよね、という発想だったようだ。
いっぽう、Chen, Li, & Wu (2020)による批判はもう少しラディカルで、任意標本と参照標本の結合を使って傾向スコアモデルを推定している限り、たとえウェイトが正しくても傾向スコア調整した母平均推定量は不偏にはならないよ、なぜなら母集団の全要素で共変量が既知である場合の傾向スコアモデルと比べたとき対数尤度関数が違っているから、という主旨だった思う。この点についてはどう考えればいいんですかね。