読了:Mercer, et al. (2017) 因果推論から眺めた非確率的標本調査

Mercer, A.W., Kreuter, F., Keeter, S., Stuart, E.A. (2017) Theory and Practice in Nonprobability Surveys: Parallels between Causal Inference and Survey Inference. Public Opinion Quarterly, 81, 250-271.

 仕事の都合で読みまくった論文群のひとつ。
 POQの2017年「サーベイ調査の明日」特集号に載った論文。非確率標本ベースの調査を因果推論の観点からとらえ直すという啓蒙論文である。

イントロダクション
 伝統的には、サーヴェイ研究者は選択バイアスを台帳カバレッジの問題と無回答の問題だと考えてきた。しかし現在の多くの調査はそもそも非確率的である。非確率的調査を確率標本の観点から考えるんじゃなくて、より一般的な枠組みをつくりたい。
 疫学とか政治学とか経済学をみよ。たいていランダム化実験なんて無理で、観察データからどうにかして因果関係を捉えようとがんばってんじゃないですか。因果推論の文脈では処理間の差に関心があるのに対して、サーヴェイではより広い推定値に関心を持つちがいはあるけれど。
 因果推論とサーヴェイ推論の類似性を指摘した人は多い。Little & Rubin (2002 書籍), Groves (2006 POQ), Keiding & Lous (2016 JRSS-A)をみよ。
 自己選択がバイアスを生むかどうかを決めるのは次の3つの要素だ。

  • 交換可能性 exchangeability. すべての交絡変数がすべての標本単位について測定されているか。
  • 正値性 positivity. 標本が目標母集団の必要なすべての種類の単位を含んでいるか(特定の特性を持つ群がまるごと欠損ということはないか)
  • 構成性 composition. 標本の分布は交絡変数に関して目標母集団とマッチしているか、ないしマッチさせることができるか

実験とサーヴェイにおけるランダム化と不偏な推論
 因果的効果についての問いは、潜在アウトカムとか反事実の観点から定式化されることが多い。[…中略…]
 確率標本とは標本選択が処理であるようなランダム化実験である。ただし、実験と違って選択された単位のアウトカムしかわからないわけである。選択バイアスのない因果的効果推定とサーヴェイにおける不偏推定とはanalogousである。
 というわけで、非確率的調査に進む前に、ランダム化実験と確率的調査について検討しよう。

強い無視可能性 – 交換可能性と正値性
 Rosenbaum & Rubinは因果効果を選択バイアスなしに推論できる条件のことを「強い無視可能性」と呼んだ。それは2つの要素からなる。

  • 交換可能性。無視可能性とか、未観察の交絡がないこととか、隠れたバイアスがないことともいう。処理への割付が(無条件に、ないし共変量で条件付けた下で)アウトカムから独立だということですね。無条件な交換可能性とはMCAR, 条件つきの交換可能性とはMARみたいなもんである。
  • 正値性。処理を受ける確率は0より大きくないといけない。現実の推定のためには正値性だけじゃなくて十分なケースが必要。

 実験ではどちらもランダム割付で保証される。確率的調査では無作為抽出によって同様のことが起きる。

構成性
 実験では、潜在的交絡因子に対する処理群の構成性が次の2点で重要である。

  • その1、潜在的交絡因子の分布が処理群と統制群で一致する必要がある。ランダム割付ならこれが保証されるし、無条件な交換可能性があれば常にこれが含意される。
  • その2、標本の構成性が外的な一般化が可能となる程度に影響する。

 強い無視可能性が保証してくれるのは内的妥当性だけで、外的妥当性は保証してくれない。実験の結果を目標母集団へとどうやって一般化するのかという点についてはたくさん研究されている。再ウェイティングとか。そのためには処理と交絡変数の下でのアウトカムの条件付き分布だけでなく、目標母集団における交絡変数の同時分布を知る必要がある。
 サーヴェイはここまでややこしくない。実験では標本と母集団の比較可能性と処理群と統制群の比較可能性が問題になるが、サーヴェイでは前者のみが問題になる。もしすべての抽出単位の抽出確率が均等なら無条件な交換可能性があるわけで、標本は母集団にマッチする。抽出確率が不均等で既知なら条件付き交換可能性があることになり、抽出確率の逆数でウェイティングすれば母集団の不偏推定値が手に入る。

非確率標本へのフレームワーク拡張
 現実には、無作為割当も無作為抽出も完璧ではない。
 通常の対処法は統計的調整である。実験ならばマッチングや傾向スコアウェイティング。サーヴェイなら無回答ウェイティング。
 こうして推定値はモデルに依存する。仮に調整しないとしても、無条件な交換可能性とか、欠損とアウトカムの間に相関がないというモデルが暗黙に仮定されている。

 因果推論の世界では、交換可能性と正値性が維持されている限り、非実験データから因果効果を不偏推論できると考えられている。回帰不連続デザインのような準実験デザインや道具変数モデルは、適切な条件がないときに因果効果を同定する手法だし、マッチング、周辺構造モデル、structrual nested model[←?]が観察データから因果効果を推定するために使われている。しかしどの手法であれ、交換可能性と正値性という条件が成り立っていると確信することはできない。非実験データから得た結果を受け入れる際のバーは、ランダム化実験のときのバーよりはるかに高いところにある。

 おなじことが非確率的調査についていえる。確率標本では、交換可能性・正値性・構成性がデザインによって保証される。非確率標本ではすべての段階でモデルへの依存が生じる。モデルの要請が満たされていると確信することはできない。

サーヴェイにおける選択バイアスのメカニクス
[ろくに読まずに飛ばしたが、かんたんな例示の模様]

オンライン非確率的調査におけるバイアス管理のための現在の実践

リクルートメント
 リクルートメントとしてもっとも一般的なのはオプトインパネルへの参加である。あらかじめ対象者特性を収集しておくと後々助かるのだけれど、しかしパネル条件付けと脱落のせいで交換可能性が徐々に失われているかもしれないというおそれは残る。
 リバーサンプリングという手もある。条件付け・脱落は回避できるが今度は対象者特性がわからない(調査の時点で訊く羽目になる)。
 パネルとリバーサンプル、どっちがよいかについては研究がまだ不十分である。プロバイダーの中には併用を始めているところもある[Lorch et al.(2010), Young et al.(2012)というのが挙げられている。前者はSSIさん、後者はIpsosさんのホワイトペーパー]。

サンプリング
 非確率的調査の場合、データ収集のプロセスで、目標とする標本構成に到達するためのpurposiveな選択がなされることが多い。たいていはクオータを使う。クオータのセルの中では非選択の標本単位と交換可能性があるという仮定があるわけだ。
 たいていのweb調査では、クオータを決めるための変数は一握りのデモグラ変数に留まる。しかしそれらだけで交換可能性に到達できると思うのは甘い。Gittelman et al.(2015 J.Adv.Res.), Cook et al.(2008 J.PolicyAnalysis&Mgmt)をみよ。[へー、実証研究があるのね]

 もっとたくさんの潜在的交絡因子について条件づける試みとして:

  • USにおけるYouGovのパネル調査では、高品質な匿名化されたデータ(Am. Community Survey)から無作為標本をドローして(synthetic samling frame, SSF)、これにマッチするようにパネルからの抽出を行う。他のデータソースを使ってモデリングしてSSFに変数を追加することもある。
  • 傾向スコアマッチング。確率標本と非確率標本で同じ共変量セットを測定して、傾向スコアモデルを作っておいて、その四分位をクオータにして以後の抽出を行う。[…細かい議論が2パラグラフ。パス]

 [耳慣れない話なので丁寧にメモする] 多くの非確率的調査の抽出過程で用いられている、あまりよく知られていない要素としてルータがある。非確率的調査ベンダーは、多くの実査を同時に行っている。ルータが用いられている場合には、それぞれの調査のためにそれぞれの標本を抽出するのではなく、まず対象者に特定されていない調査への参加依頼を送る。その人にどの調査に参加してもらうかは、対象者の特性と、各調査のクオータないしスクリーニング基準に照らして決定する。この方法は、標本の使用という点ではより効率的だが、ある調査の標本がそれと同時に実査している他の調査に依存するということを意味する。もし対象者数が十分で、競合する調査の数が少ないなら、ルータによるバイアスへの脅威は小さい。いっぽう、レアな集団に焦点をあてた調査が存在する場合、その集団に属する個人は他の調査にはルーティングされないことになる。この場合、ルーティングの過程が共変量となるのだが、それを観察し明らかにするのは難しいだろう。
 [実証研究としてBrigham, et al.(2014 J.Adv.Res.)というのが挙げられている。えええ、日本のweb調査でそんなやりかた聞いたことないよ、と思ったが、私が知らないだけで、実査会社の人は「実はそうですねん」と仰るのかもしれない。それに、このようなアルゴリズムが明示的に用いられていないとしても、パネル管理上、調査参加依頼の送付頻度や調査参加頻度を個人別にコントロールしている場合(たぶんやってますよね)、ある調査への参加依頼送付確率が直前の調査の対象者条件に依存するわけで、同じバイアスが生じるわけだ]

調査後調整
 多くの研究は確率標本を参照した無回答調整を使っている。主な手法はカリブレーションと傾向スコアウェイティング。

  • カリブレーション。標本の構成を目標母集団の既知の変数分布に直接マッチさせる。一番単純なのが事後層別(同時分布についての知識が必要)。レイキングと一般化回帰推定も用いられている(周辺分布さえわかっていればよい)。ともあれ、アウトカムが調整変数の線形関数になっていることが必要。非線形だったり、モデル化されていない交互作用があったりするとうまくいかない。
  • 傾向スコアウェイティング。[…中略…] 参照データに対するなんらかの無回答調整とバイアス補正を傾向スコアモデルに組み込んでおかないと、そのバイアスが非確率標本側に転移する。
     共変量セットがおなじなら、傾向スコアウェイティングよりも一般化回帰推定(GREG)のほうがうまくいくことが知られている。つまり、母集団合計が既知ならば参照データはいらないわけだ。[Villant & Dever(2011 Soc.Methods&Res.)というのが挙がっている。どんな研究なんだろうか]。いっぽう非線形的関係とか交絡変数間交互作用とかについて傾向スコアウェインティングのほうがよい。交絡変数を機械学習で選ぶという手もある(Buskirk & Kolenikof 2015 Survey Methods, Lee, et al. 2010 Stat.Med.)。
  • マッチング。これは因果推論で使われてきた手法で、[…中略…]、傾向スコアウェイティングや事後層別に似ているんだけど、マッチできなかった事例を削ってしまう。情報を捨てているともいえるし、正値性という仮定の妥当性を強制的に確認させているともいえる。マッチングした後でレイキングというやり方もある。
  • マルチレベル回帰・事後層化(MRP)。マルチレベルモデルですっごいセル数の事後層化をやって重みづけ平均する。Park, et al.(2004 Pol.Anal.), Lax & Phillips(2009 Am.Pol.Sci.Rev.), Ghitza&Gelman(2013 Am.J.Pol.Sci.)をみよ。
     [大統領選の予測の話。共変量がリッチならうまくいくけどプアならあかんかったとかなんとか。ちゃんと読んでないけど]

 共変量のコントロール側合計が既知でアウトカムとの関係が線形ならカリブレーションがよい。傾向スコアは柔軟だけど共通の共変量を持つ別のデータセットが要る。マッチングはどこが優れているのか明確でないが他の指標と併用できる。MRPは小さなデータセットからの情報抽出についてはもっとも効率的だが、それぞれのアウトカムについてモデルが必要になる。
 どんな手法であれ、交換可能性と正値性に到達出来たら勝ち、そうでなかったら負けである。到達出来たら、あとの良し悪しは構成性で決まる。[なるほど、わかりやすいまとめだ]

変数選択
 どんな変数を使うべきか、いろいろ研究はあるけれど、一般的な答えは限定されるだろう。アウトカムと関連するわけだから。
 データ収集の前に交絡因子を理論的に同定するのが望ましい。強い理論がなければ交換可能性は望み薄である。ベンダーは抽出過程で使っている変数について透明性を持つべきだ。

考察
 確率的調査の場合、伝統的に、交絡を最小化するプロセスの構築が重視された。非確率的調査の場合、まずは潜在的交絡因子を同定し、それらを測定し能動的にあきらかにするようなデータ収集・分析を設計することが重要になる。

 因果推論における技法で、サーヴェイの文脈で使えるのがほかにもあるかもしれない。

  • 測定されていない交絡変数に対する感度のテストとか。
  • 選択バイアスの大きさを評価するpattern mixture modelのような手法とか[なにそれ… Andridge & Little(2011 J.OfficialStat.)というのがあげられている]。
  • 選択確率についての仮定に依存しない手法とか[これもなんのことだろうか… Robins, et al. (1999 Chap.), Manski(2007 書籍)というのが挙げられている]。
  • 因果ダイアグラムのような手法で共変量を同定するとか[Pearlさんたちが挙げられている]。

 非確率的調査における選択バイアスを回避するために交換可能性・正値性・構成性が必要だという原則を知ることと、実践においてそれをうまく実現できるかどうかとは別の問題である。とはいえ、これまで主に暗黙的であった一連の仮定をこうしてあきらかにできたことで、個別の知見を評価し実践を改善するための枠組みができたわけだ。
 云々。
—————
 すごく目新しい話があったわけじゃないけど、頭が整理されました。
 GelmanさんたちのMr.Pを事後層別や傾向スコアの延長線上に位置づけていて、やっぱしそうだよね、と嬉しかった。調査に詳しいはずの方でさえ、「最近アメリカで使われているすごい選挙予測手法」として扱っていることがあって、イライラしていたのである。

2022/08/04追記: そういえばこの論文にはコメントと返答がついていたのだった。ざっと目を通したのでメモしておく。3人のコメンテーターのうちDeMattiesさん(Westat), Linkさん(Abt SRBI)のはほぼ称賛なので置いといて、残りのコメントと著者らの返答をメモ。TSE陣営からの批判と応答である。

Lee, Suzer-Gurtekin, Lepkowski (U.Michigan)
 非確率標本の概念的諸問題を定式化するために因果推論フレームワークが使えるというのはそうかもしれませんが、交換可能性・正値性・構成性について考えたところで、問題の診断や補正ができるようにはなりません。
 標本調査における対象者\(i\)の反応を\(y_{i,RES}\)とします。これは反応\(r_i\), 標本抽出\(s_i\), カバレッジ\(c_i\), 測定メカニズム\(m_i\), 真値\(\mu_i\)を反映します。これらのメカニズムは\(y\)とパラメータ\(\Psi\) (観察された共変量を含みます) のなんらかの形式の関数 \(f(y_i, \Psi)\)です。
 実現された標本調査では、反応・標本抽出・カバレッジが二値のインジケータで表現されます。たとえば、標本抽出\(s_i = f(y_i, \Psi_{SAM})\)は、\(i\)が抽出されたときに1, そうでないときに0である、というように。
 これらのメカニズムが正しく指定されていれば、\(y_{i,RES}\)に基づく推論は、標本抽出アプローチを問わず妥当です。非確率標本の問題は、これらのメカニズムが絡み合っていて独立に評価できないという点です。
 試しに、因果推論とサーヴェイ推論を結びつけてみましょう。因果推論における処理群(\(T\))と統制群(\(C\))のあいだの処理効果\(D = Y_T – Y_C\)は、サーヴェイ推論における観察と非観察の間のバイアスと解釈できます。確率標本であれば推定量\(\hat{D} = \hat{Y}_T – \hat{Y}_C\)は不偏です。無回答があるなら、無回答メカニズムの説明を通じて\(T’\)と\(C’\)をバランシングさせれば、推定量\(\hat{D}’ = \hat{Y}_{T’} – \hat{Y}_{C’}\)は不偏です(ここで標本抽出は無視可能です)。非確率標本の場合、推定量\(\hat{D}^* = \hat{Y}_{T^{*’}} – \hat{Y}_{C^{*’}}\)は、\(c_i, s_i, r_i\)の同定を通じて\(T^{*’}\)と\(C^{*’}\)とバランスさせたときにはじめて不偏になります。標本抽出は無視可能ではないし、\(T^{*’}, C^{*’}\)についてもよくわかりません。
 非確率パネル調査に役に立つのは、因果推論フレームワークではなく、総調査誤差(TSE)フレームワークによる誤差メカニズムの検討です。
 [よくわからんが、なんぼ因果推論のタームをあてはめても、台帳が悪いのか抽出が悪いのか測定が悪いのかわからんでしょ? TSEフレームワークで実査プロセスを分解していかなあかんでしょ? ということであろうか]

著者ら:
 TSEフレームワークは有用ですが、非確率標本に対しては不十分です。なぜならTSEは暗黙的に無作為抽出に基づくデザインを想定しているからです。
 TSEアプローチでは、バイアスをカバレッジ、標本抽出、無回答に分類しますね。非確率標本では、調査のプロセスのどこの特性に基づいて判断すべきなのかがわからないので、実現された標本の観察された特性について判断するしかないのです。クオータのようなデザイン上の特性は、標本をある選択された変数集合の観点から捉えます。では他の変数は無視可能なのか? それらがクオータに使った変数集合と密接に関連していると信じることができる場合を別にして、無視可能ではありません。クオータが有用であるとして、除外された誤差とは標本抽出誤差でしょうか、無回答誤差でしょうか? 非確率標本では、こうした区別はあまり重要でありません。むしろ、アウトカムと交絡変数に関して母集団の構造を再現できたかどうかが重要です。
 TSEフレームワークが問うのは「ランダム化を成功させるためには、サーヴェイのプロセスはどんなものであるべきか?」です。因果推論アプローチが問うのは「調査の推定値に対して分析者が確信を持てるようにするためには、標本はどんなものであるべきか?」です。
 確率標本調査のプロセスが、真のランダム化からどのように逸脱しうるかを述べるためには、カバレッジ・標本抽出・無回答という概念が役立ちます。同様に、実現された標本と分析者の期待との差を記述するためには、交換可能性・正値性・構成性という概念が役立ちます。
 サーベイのプロセスの細部はもちろん大事です。しかしそれが大事なのは、採用した手法が、新しい未知の交絡変数をもたらすことなく、分析者の期待に合致した標本を生み出さないといけないからです。そのためにはどんなプロセスが必要でしょうか。因果推論フレームワークは、その点については不可知論の立場をとります。[…後略…]
 [なるほど。著者らのスタンスはわかる。いっぽう、TSEだとバイアスをカバレッジ、標本抽出、無回答に分類するんでしょ、というくだりは通常のTSEの枠組みに縛られているだけで、非確率調査を視野にいえるとTSEの枠組みも変わるような気がする。別に因果推論フレームワークとTSEが対立するわけじゃないんじゃないかしらん]