読了:Thompson (2018) サーヴェイデータ結合についてのレビュー

Thompson, M.E. (2018) Combining Data from New and Traditional Sources in Population Surveys. International Statistical Review, 87. S79-S89.

 これも仕事の都合で読んだ奴。サーヴェイデータをセンサスとか管理データと結合するという話のレビューである。
 Google様いわく、被引用回数12件。渋い.. 渋いなあ…

1. イントロダクション
 同じ母集団についての異なるデータセットの結合について議論する。たとえば、センサス・管理データとサーヴェイデータの結合とか、リンケージによるデータセット拡張とか、大規模商用データベースとサーヴェイデータの結合とか、非確率標本を使うためのデータ収集設計といった問題である。レビューとしてLohr & Raghunathan (2017 Stat.Sci.)をみよ。
 [ここで統計学者ラオを讃える段落がはいる。なにこれ??と思ったら、本論文の掲載号はラオさんを讃える特集号であった]

 データセット結合は、頻度主義かベイジアンかという学派が大きな影響を持つ分野である。

  • 頻度主義の立場では、推定量の抽出デザインベースの特性、特にデザイン不偏性・デザイン一致性が重視され、デザインベースSEによる不確実性の定量化が重視される。一次分析者はウェイトとデザイン変数を提供する。モデルは分析的にも記述的にも用いられる。記述的な場合、効率性を高めるためにモデルに補足データが投入される。モデルが間違っていても良いデザインベース特性を持つ手法は「二重頑健」といわれる。
  • ベイジアンの立場では、デザイン不偏性は余り重視されない。ウェイトは補足情報をデザイン包含確率の形で要約したものにすぎない。ベイジアンな手法はデザインが完全にはわからない場合にも適用しやすい。

両派によるウェイトの位置づけについてはChen et al.(2017 Stat.Sci)をみよ。[←これ読んでおいた方が良さそうだ]

 頻度主義的な推論では、推論が記述的な場合と分析的な場合でウェイトの役割が若干異なる。
 記述的推論の目的は、母集団における\(y\)の関数である(典型的には母合計や母平均)。それは「センサス」推定方程式の解である。デザインが完全に既知で、ウェイトが包含確率の逆数ないし回帰調整されたカリブレート済みウェイトであれば、推定量はデザイン一致性を持つし、ウェイトがそこから離れるとデザイン一致性が失われる。
 分析的推論の目的は、\(y\)の生成についてのモデルのパラメータ\(\theta\)である。\(\theta\)についてモデル不偏なセンサス推定方程式はたくさんありえて、それぞれがデザイン一致な標本推定方程式を持つ。従って標本推定方程式は相対的な効率性の観点から選ばれる。標本推定方程式の選択とは、たとえば、推論に関しては無情報な層について、ウェイトの合計を層の標本サイズにリスケールする、というようなことである。[←この段落、どうもぴんとこない…]
 本論文に出てくる例のほとんどは、記述的推論に関する例である。

 頻度主義者の世界では、カリブレーションが重要な概念である。つまり、ある重要な補足変数についてのウェイトつき合計や平均が、既知の値に一致するという性質である。たとえば母合計のGREG推定量はカリブレートされたウェイトによる標本合計として捉えられる。
 カリブレーションは推定量に良い影響を与えると考えられている。実際には必ずしもそうでないのだが。Lohr & Raghunathan (2017)をみよ。
 カリブレーションと似た概念に擬似経験尤度がある。[…]

 一方のデータソースが非確率標本であるとき、そのユニットに擬似ウェイトを振ることができる。[…補足変数の周辺分布を確率標本のそれに合わせるようなウェイトをIPF推定するというような話だと思う…] こうしたウェイトの逆数は、包含確率ないし抽出プロペンシティの推定値の逆数と解されることが多い。
 ミクロレベルのリンケージが可能な場合もある。
 […]
 以下では4つのデータ結合状況を例示しよう。

2. データ結合問題の例

2.1 リンクされたデータセット
 たとえばCanadian National Household Survey (NHS) は、センサスの30%を対象世帯とし、非対称世帯の一部がフォローアップされる。フォローアップの欠損をどうやって補完するかというと…[スキップ]
 リンケージの不確実性をどう扱うかという研究もあって…[スキップするけど、やっぱりあるのね、そういう話が。Chipperfield & Chambers(2015 J.Off.Stat.), Gutman et al.(2013 JASA)というのが挙げられている]

2.2 独立したデータセットの結合
 Kim & Rao (2012 Biometrika)は、大きな確率標本\(A\)で補足変数\(X\)を観察し、小さな確率標本\(B\)で関心ある変数\(y\)と補足変数\(X\)を観察しているときの結合について論じている。[スキップ]
 Merkouris(2010 JRSS B)は、同一の母集団についての(1)異なる調査、(2)単一調査の分割標本、(3)単一調査の複数標本、(4)単一調査のネストされた標本について論じている。[読んだけど記法について行けなかった… スキップ]
 Shaenker et al.(2009 Stat.Med.)では、\(A\)がNHISで自己報告のみ、\(B\)がNHANESで自己報告と臨床診断で、\(B\)の欠損値補完のベイジアン手法を論じている。[スキップ]
 Chipperfield et al.(2012 Aust.N.Z.J.Stat.)は[…スキップ]

2.3 小地域推定
[まるごとスキップ]

2.4 大きな非確率標本の調整
 Rivers(2006 YouGovのホワイトペーパー, 2007 Conf): センサス台帳のような高カバレッジの台帳から層別無作為抽出し、その各メンバーにマッチする対象者を、その人数の期待値が1になるようにして商用パネルから引っ張ってくる。
 Wang et al.(2015): MRP。
 Chen (2016 博論): MRPに近い。[スキップしたけど、LASSOとか使うらしい]

3. 考察
 データ結合の一般的な原則を挙げてみよう。

  • 明確な記述的推論のためには、厳密な確率標本調査、センサス、高カバレッジな台帳などが必要。さらにリッチな補足変数と、補足変数の予測上の効率性についての強い仮定が必要。要素のひとつがきちんとデザインされていないサーヴェイデータや低回答率のサーヴェイデータの場合は特にそうである。
  • データセットが比較可能でリンク可能であるように最初からデザインしておくことが望ましい。
  • データセット間で測定が異なる場合には、潜在変数モデルか測定誤差モデルが役に立つかも。
  • データが部分的にリンク可能な場合、確率的リンケージモデルを分析的フレームワークに統合すると効率が上がるかも。
  • 分析デザインに際しては、データセットの結合に利点があるか、単純さ(たとえばアウトカムを問わない手法)と効率性(個々のアウトカムについての手法)のトレードオフがどうなっているか、に気をつけること。
  • 各ソースからの不確実性を同定し結果に取り入れる方法を考えること。リサンプリングとか。

———————-
 あんまし網羅的なレビューじゃないんじゃないかという気がするし、そもそもちゃんと読んでないけど、いくつか面白い話を知ったのでよしとしよう。
 やっぱりあれね、非確率標本の調整の主役はMRPになるみたいね。