Rao, J.N.K. (2020) On Making Valid Inferences by Integrating Data from Surveys and Other Sources. Sankhya B: The Indian Journal of Statistics. 83, 242–272.
これも仕事の都合で読んだ奴。非確率標本に基づく推測に焦点を当てたレビュー。
ふだんなら読まないジャーナルだけど、著者が小地域推定で知られるラオ先生とあっては目を通さざるを得まい…と思った次第。
せっかくの偉い人の論文なので、メモも講演っぽく…
1. イントロダクション
調査回答率は低下しコストは上昇していますが、同時にビッグデータや非確率標本からのデータが安価に手に入るようになっています。こうしたデータを使う際には選択バイアスの対処が必須です。
小地域推定においては、デザインベースの直接推定では精度が低いため、モデルベースの手法が必要になります。ビッグデータはモデルのための良い予測子を提供してくれる可能性があります。
2. 確率抽出
まずは、古き良き日々のいくつかの重要な研究についてお話ししましょう。
サイズ\(N\)の有限母集団\(U\)のすべてのユニットが既知の非ゼロな包含確率\(\pi_i\)を持つとしましょう。母合計\(Y = \sim_{i \in U} y_i\)ないし母平均\(\bar{Y} = Y/N\)を確率標本\(A\)から推定するという問題に注目します。
デザイン・ベースのアプローチの理論的基盤を築いたのはNeyman(1934)です。彼は、デザイン不偏推定量の効率という概念を導入しました。また、バランスをとった有意抽出が、その基盤となるモデル上の想定が破られたときには性能が悪くなる可能性があることを示しました。
母合計の一般的なデザイン不偏推定量は \(\hat{Y} = \sum_{i \in A} d_i y_i\)、ただし\(d_i = \pi_i^{-1}\)です。\(d_i\)をデザインウェイトと呼びます。すべての同時包含確率が正ならば、\(\hat{Y}\)の分散\(s^2(\hat{Y})\)を求めることができて、大標本での信頼区間を構成できます。
Neyman以後、確率標本の使用が普及し、効率的抽出デザインとその際の推定の理論が発展しました。インドで1937年にMaharanobisが確率抽出の調査を行いました。[…中略…]
40-60年代にはHansen率いる米センサス局の人々が、層別二段クラスタ抽出の理論を構築し、[…中略…]
層別抽出やPSS抽出のデザイン時には、関心ある変数と関係する補足変数についての母集団情報を用いることが多いです。補足変数は推定時にも使われます。たとえば比推定では[…中略…]。Hajek推定量 \(\hat{Y}_H = (\hat{Y}/\hat{N}) N, \ \hat{N} = \sum_{i \in A} d_i\)は一種の比推定量です。ちなみに平均のHajek推定量\(\hat{\bar{Y}}_H = \hat{Y}/\hat{N} \)は、\(\hat{Y}/N\)と違って不偏推定量じゃないですからね。調査実務家はデザイン不偏性をあまり強くは求めないものです。
比推定は一般にデザイン不偏でないですが、大標本でデザイン一致性を持ちます。比推定量の分散のデザイン一致推定量は簡単に求められます。なお昔は回帰推定量についても研究がなされましたが、いまではあまり用いられていません。
かつてサーヴェイはシンプルでした。データは対面やインタビューで得られ、回答率は概して高かったのです。70年代はサーヴェイ調査の黄金期でした。[…]
[なんかこう面白くてだらだらメモしちゃったけど、こんなことをしているときりが無いということに気がついた。まだ確率調査の話が続くけどメモ省略。
本章後半は model-assisted calibrationという節で、GREG推定量についての紹介。3ページくらいあるけど、おそらく本題と関係ないと踏んで、スキップした]
3. 2つの独立な確率標本の結合
[前半はdouble sampling, 後半はdual frame sampling。どう違うんだろう? 一行も読んでないのでわからないが、まあいいや、たぶんこの章も本題ではないのでスキップ]
4. 非確率標本からの推論
[前半は、非確率標本の利用の普及、そしてその背景。メモ省略]
サイズ\(N_B\)の非確率標本\(B\)があるとします。当面、測定誤差はないものとします。母手段ユニットの標本包含を二値変数\(\delta_i\)で示します。
母平均\(\bar{Y}\)の推定量\( \bar{y}_B = N^{-1}_B \sum_{i \in U} \delta y_i\)の推定誤差は、次の3つの積になります。[恥ずかしながら、こういうのはじめて読んだかも。Meng (2018, Ann.Appl.Stat.)というのを読むと良いらしい]
- データ品質 \(\mathrm{corr}(\delta, y) = \rho_{\delta, y}\)。単純無作為抽出・完全カバレッジ・完全回答の下で0に近づく。
- データ量 \(\sqrt{ \frac{1-f_B}{f_B} }\) ただし \(f_B = N_B/N\)
- 問題の困難さ、すなわち母標準偏差 \(\sigma_y\)
\(\delta_i\)が未知の非ゼロの確率\(q_i\)を持つ確率変数だとしましょう。\(\bar{y}_B\)のモデルMSEは $$ MSE_\delta(\bar{y}_B) = E_\delta(\rho^2_{\delta, y}) \times f^{-1}_B(1-f_B) \times \sigma^2_y $$ となります。
では、測定誤差が乗って、観察が\(y^*_i = y_i + \epsilon_i\)となったらどうなるでしょうか。\(\bar{Y}_B\)には\(E(\epsilon_i) = B_\epsilon\)が加わります。MSEには、測定誤差の分散を\(\sigma^2\)として、\((\sigma^2/N_B + B^2_\epsilon) + 2 B_\epsilon \sqrt{\frac{1-f_B}{f_B}} E_\delta(\rho_{\delta,y})\)が加わります。\(B_\epsilon = 0\)ならば交互作用項は消えますし、大標本なら測定誤差の分散は無視できます。つまり、MSEを支配しているのは選択バイアスだということになります。
[ウェイティングすると、MSEの第一項を減らせるかもだけど、第二項はウェイトの変動係数に応じて拡大するという話。メモ省略]
確率標本\(A\)の場合、包含確率\(\pi_i\)が既知であれば、その逆数をウェイトにした推定量は近似的にデザイン不偏です。しかし非確率標本\(B\)の場合\(q_i\)は未知なので、推定する必要があります。
\(A\)と\(B\)があって共通する補足変数があれば、\(q_i\)を推定できます。\(B\)しかない場合でも、関心ある変数と補足変数との関連についてのモデルを用いた推定ができます。
5. 関心ある変数が両方の標本で観察されている場合
[ろくに読んでないけど、そういう場合のやりかたが紹介されている。確率標本とビッグデータとか。へー…]
6. 確率標本では関心ある変数が観察されていない場合
参照標本である確率標本\(A\)と非確率標本\(B\)の両方で共通の共変量\(x\)が測定されていて、\(B\)で関心ある変数\(y\)が安価に測定できるとしましょう。利用できるデータは\(\{(i, y_i, x_i) , i \in B\}, \{(i, x_i), i \in A\}\)です。
まず、\(A\)に属し\(B\)に属さないユニットが同定できる場合について考えます。
この場合、データ\(\{(\delta_i, x_i), i \in A\}\)を用いて傾向スコアモデル\(P(\delta_i = 1 | x_i) = q(x_i, \theta)\)を構築し、\(B\)にあてはめます。ここでは母集団のすべてのユニットについて\(q_i\)が非ゼロ、かつMARであるという想定が必要です。で、\(\omega_i = \hat{q}^{-1}_i\)として、たとえば母合計の推定なら比推定量 $$ \hat{Y}_{r,q} = N \frac{\sum_{i \in B} \omega_i y_i}{\sum_{i \in B} \omega_i} $$ を用います。[添字\(r,q\)ってなんだろう? わからん]
[二重頑健推定の話。パス]
こんどは、\(A\)と\(B\)をマッチングできない場合について考えます。実務的にはこっちの方が多いですね。
この場合は、データ\(\{(\delta_i, x_i), i \in U\}\)を用いて調査参加のモデルを構築します。たとえば$$ \mathrm{logit}(q(x_i, \theta)) = x^\top_i \theta$$ とか。そこには未知の項 \(\sum_{i \in U} \log q(x_i, \theta\)\)が入りますが、それは\(A\)に基づくデザイン不偏推定量に置き換えます。[えええ? \(A\)で\(q\)を推定するわけ? なんだかよくわかんなくなってきた。まあいいや、この論文はレビューなので、別ので勉強しよう。Chen et al.(2018, arXiv)というのが引用されている]
[共変量が多いときにlassoで二重頑健推定するというのがあるそうだ。Yang et al.(2019, arXiv)というのが引用されている]
[などなど、いろいろ書いてあるけどパス…]
7. 非確率標本しか利用できない場合
[Little(2015, Stat.J.IAOS)の、共変量をモデルに投入しなさいという話の紹介]
[Wang, et al.(2015 Int.J.Forecast.)のMRPの紹介]
8. 小地域推定
[ほんとはここが読みたかったんだけど… 前に一生懸命読んだRao & Monila(2015)のアップデートがあるかと思って。時間の都合でスキップするけど、いくつか新しい文献が引用されている]
9. 結び
調査参加確率のモデルと関心ある変数についてのモデルは強い仮定に基づいています。これらの仮定について理解し検証することが重要な挑戦となります。
非確率標本において、関心ある変数と密接に関連している共変量を利用できるかどうかという点が、モデル・ベースの手法の成否を決めます。
確率標本における無回答に対処するための方法と、非確率標本における選択バイアスに対処するための方法は、類似しています。前者は無回答バイアスを減少させることができます。しかし後者がうまくいくことはもっと少ないです。
非確率標本に基づく推定値は、公的統計において利用できるだけの信頼性を持ちうるでしょうか。また、時点間で比較可能でしょうか。確率標本の場合と同じく、管理記録からの回答と標本からの回答の品質についての研究が必要です。しかし、MSEのような品質指標は、非確率標本には適切でないかもしれません。[←そうか…]
云々、云々。
—————
すいませんラオ先生、途中で面倒くさくなってしまい、投げ出してしまいました。後日精進いたしますですー。