読了: Wu (2022) 非確率標本による統計的推論 (質疑応答編 パートI)

Bailey, M.A. (2022) Comments on “Statistical inference with non-probability survey samples” – Non-probability samples: An assessment and way forward. Survey Methodology, 48(2), 313-318.
Elliott, M.R. (2022) Comments on “Statistical inference with non-probability survey samples”. Survey Methodology, 48(2), 319-329.
Lohr, S.L. (2022). Comments on “Statistical inference with non-probability survey samples”. Survey Methodology, 48(2), 331-338.
Wang, Z. & Kim, J.K. (2022) Comments on “Statistical inference with non-probability survey samples”. Survey Methodology, 48(2), 361-366.

 カナダ統計局のSurvey Methodology誌に載った、非確率標本の分析についてのレビュー論文 Wu(2002) には、5人の識者によるコメントと著者の返答が付いている。以下はそのうち4人についてのメモ。残るMengさんのコメントは、20頁近い大論文になってしまっているので、別のエントリで。

 読み返してみるとなんだか喧嘩しているように見えて面白い。論文へのコメンタリーというものはかなりの行数を使って元論文の良いところを挙げるものだが、そういうのは全部端折ってメモしているので、そうみえるのである。いいぞ、もっとやれ。

Baileyのコメント
 Wuさんは池の片隅で釣り続けているようなものだ。彼の挙げたモデルはみんなMAR [仮定A1, つまり標本包含と目的変数が共変量のもとで独立していること] の下にあり、たいしたちがいはない。非確率標本における本物の虎はMAR違反だ。

 Meng(2018 AnnalsApp.Stat.)はこう定式化している: $$ \bar{Y}_n – \bar{Y}_N = \rho_{R,Y} \sqrt{\frac{N-n}{n}} \sigma_Y $$ [不思議な数式だ。誤植があるか、数式ではなく図示のようなものなのか、どっちだろう]
 第1項は母集団における\(R\)と\(Y\)の相関。これが非ゼロなら、\(N=n\)か\(Y\)の分散がゼロでもないかぎり誤差が生じる。
 第1項は第2項と相互作用する。MNARによる誤差は母集団サイズに依存する。中国とルクセンブルグで非確率標本を1000人づつ得たとする。調査参加確率はCOVIDの症状がひどい人ほど高くなるとしよう。すると中国の1000人は選ばれし本物の重病人となる。ルクセンブルグの1000人も病人だがそこまでひどくない。このように、MAR違反が引き起こす誤差は母集団サイズと比例する。
 [凄いたとえ話で呆れてしまった… こうして考えると、調査参加確率が調査変数と交絡する事態はもちろんありうるし深刻な問題をもたらすが、調査参加確率が調査変数と線形に関連するという事態もそれはそれでシュールで、だからMNARバイアスが母集団サイズと比例するというのは思考実験に過ぎないのではないかと思う]

 Wuさん含め多くの人はMNARモデルに近づこうとしない。難しいと思っているからだ。Wuさんいわく、調査変数と似ていて母集団全体で利用可能な変数を探せとのこと。無茶いうな。
 Wuさんの定式化は、MAR違反に対して我々ができることを過小評価している。MNARに対する取り組みとして…

  • Heckmanの選択モデルがあるよね。もちろん、exclusion制約が必要だとかパラメトリックな仮定がきつすぎるといった問題はあるけれども、それらを緩和する方向での進展が進んでいる。Bailey(2023 書籍), Gomes, et al(2019 Stat.Med.)をみよ。[前者はCUPから出ている”Polling at a Crossroads: Rethinking Modern Survey Research” という本で、なんだかとても面白そう。後者はcopulaがどうこうと書いてあるから手に負えそうにない]
  • \(Y\)のdeterminantsに関心があるならば、MNARの文脈での柔軟な制御関数の研究が進んでいる。Das, Newey & Vella(2003 Rev.Econ.Stu.), Liu & Yu(2022 J.Econ.)をみよ。[どういう話なんだろうか?]
  • 調査参加に影響するが目的変数には影響する変数を特定できている場合は、MNAR抽出をオフセットする方法が複数ある。Peress(2010 JASA), Sun et al.(2018 Stat.Sinica)をみよ。[道具変数にするっていうことかな?]

Wuの返答
 いや、仮定A1-A4の下での方法論的発展を軽く見てはいけません。
 まずA1は「無回答」と同じではないです。A1が維持される場面はたくさんあります。たとばwebパネルへの初期登録がある種のデモグラ変数に強く依存しているような場合です。
 第二に、非確率調査への参加行動は、確率調査における無回答と同様、データ収集を通じたある種の調査変数と交絡し得ます。これこそ非確率調査の研究がこうした問題の扱いを進化させてきた形でした。[??? 文意がとれなかった]
 第三に、非確率調査におけるいわゆる「MNARモデル」の進展は、A1-A4の下での起きることへの理解を必要とします。
 
 ご指摘のA1違反だけでなく、A2違反も深刻な問題です。そしてふたつは絡み合っています。Baileyさんがおっしゃる「MAR違反を扱うフレームワーク」はA1,A2違反を扱う近年の発展に沿ったものです。Chen, Li, & Wu(2023 SurveyMethodol.)とかをみてください。

Elliottのコメント
 Wuさんのレビューにいくつか追加したい。

  • 傾向スコア推定量について。
     初期の提案としてRivers(2007), Valliant & Dever(2011) があるのだが、それとは別に、我々はこういう推定量を提案していた。$$ \hat{\pi}^A_i(\mathbf{x}_i, \alpha) = \hat{P}(i \in S_A) \propto P(i \in S_B) \frac{\hat{P}(i \in S_A | i \in S_A \ \mathrm{or} \ i \in S_B, \mathbf{x}_i, \alpha)}{\hat{P}(i \in S_B | i \in S_A \ \mathrm{or} \ i \in S_B, \mathbf{x}_i, \alpha)} $$ 分子はロジスティック回帰、SVMのような機械学習、targeted最尤推定、BARTなどで推定する。分母は(1-分子)である。
     これに対しChen, Li, & Wu (2020 JASA) は擬似尤度を使って、母集団における\(\mathbf{x}_i\)の関数としての\(I (i \in S_A)\)の尤度から、\(\hat{\pi}^A_i(\mathbf{x}_i, \alpha)\)を直接に推定するというアプローチをとったわけだ。この方法は、\(\pi^A_i(\mathbf{x}_i, \alpha)\)がロジスティック回帰に従うという制約が必要だが、いっぽう非確率標本についての\(P(i \in S_B)\)がいらない。[あーなるほど]
  • 二重頑健推定量について。$$ \hat{\mu}_{DR2} = \frac{1}{\hat{N}^A} \sum_{i \in S_A} \frac{y_i – \hat{m}_i}{\hat{\pi}^A_i} + \frac{1}{\hat{N}^B} \sum_{i \in S_B} d^B_i \hat{m}_i$$ この式の背後にはこういう直観がある。\(m_i\)のモデルの誤指定は第二項にバイアスをもたらすが、逆向きのバイアスが第一項に生じる。\(\pi^A_i\)のモデルの誤指定があっても、\(y_i – \hat{m}_i\)はゼロの周りでiidであり、よって第一項もそうだ。だから大丈夫。
     実は上の式は予測値にGREGを適用するのと同じことである(Wu & Sitter(2001 JASA)をみよ) [どういうこと?]。Chen, Valliant, & Elliott(2019 JRSS)は\(\mathbf{X}\)の次元が大きいときにLASSOと一般化回帰推定量を併用する方法を提案しているが、これも上の式の\(m_i\)をLASSO推定しているのと同じことである。
     最初に紹介した我々の提案に戻ると、この二重頑健推定量とくらべていくつか美点がある。まず、\(d^B_i\)に依存していない。また、非線形モデルだろうが機械学習だろうが好きなのを使える。BARTでやるというのを提案したんだけど(Rafei, Flannagan, & Elliott, 2020 J.SurveyStat.Methodl.), この二重頑健推定量より性能が良い。
     他のアプローチとして、ウェイトの変動が大きかったりアウトカムとの関連が弱いときに、ウェイトの平滑化関数を使うというのも提案している。[…略…]
  • 層別推定量について。
     Wuさんは個体を包含確率で並べて層別するというのを紹介しているが、これについてはLittle(1986 Int.Stat.Rev.)がもっとフォーマルな提案をしている。[…略…]
     もっと直接的なアプローチとしてマルチレベル回帰・層別がある[Wang, Rothschild, Goel, & Gelman (2015 Int.J.Forecasting), Downes & Carlin (2020 BiometricalJ.)をreferしている]。非確率標本と層の母集団サイズしか使わない。推定量はこんな感じになる[詳細は端折って式だけメモする。右肩の\((b)\)ってなんの略だろうか]: $$ \hat{\mu}^{(b)}_{PST} = \sum_k W_k \left[ \frac{1}{n_k} \sum_{i \in k} \left( \beta^{(b)}_0 + \mathbf{x}^\top_k \beta^{(b)} + \sum_j \alpha^{j(b)}_{l[k]} \right) \right] $$ これは二重頑健ではないけど、事後層\(j\)がいっぱいあって確率標本と非確率標本のずれをとらえており、かつ非確率標本が十分に大きく\(\alpha^j_{l[k]}\)が推定できるときに役に立つ。いっぽう、\(\mathbf{X}\)が高次元で同時分布がわからないときには困る。[…]
  • ウェイティング vs. モデリングという問題について。
     思うに、記述的パラメータを導出するためのモデルと、モデル自体に関心があるようなモデル(いわゆる分析的パラメータ)とは区別したほうが良い。
     前者の場合、\(Y\)と\(\mathbf{X}\)を区別することには、単一の記述的パラメータの二重頑健推定量を作れるという利点がある[???]。この場合にはA1のような仮定も必要となる。
     後者の場合、選択バイアスを説明するために傾向スコアを使ってウェイトをつくったうえで通常の重み付き推定式を使うというのがもっとも賢い選択だと思う。検討すべきモデルの数はたくさんあるのがふつうだからだ。分析的パラメータを直接にモデル化しようとはしていないわけで、もはや二重頑健ではなくなってしまうというのが代償である。
     [難しくてよくわかんないんだけど… 有限母集団の平均を推定したいというような人は、Wuさんの論文の載っているような二重頑健推定量を目指すのがよろしい。でも、たとえば回帰モデルに実質的な関心がある人は、非確率標本の選択バイアスは標本ウェイトで対処していると割り切り、モデル構築時はいちいち考えないほうが良い。という話かな?]
  • 感度分析について。
     A1-A4をざっくりまとめれば、A1はselection at random(SAR), A2はpositivity, A3は独立性, A4は共通共変量である。このうちSARについての近年の研究を紹介しよう。無回答研究でいうR指標をここでも使うことができる。$$ \hat{R} = 1 – 2 \sqrt{ \frac{1}{n_a – 1} \sum_{i=1}^{n_A} \left( \hat{\pi}^A_i – \sum_{j=1}^{n_A} \frac{ \hat{\pi}^A_j }{ n_A } \right)^2 } $$ これは選択確率の変動の指標である。0に近いときには選択バイアスが疑われる。[???? これ非確率標本における包含確率の変動を調べてるだけだよね? 選択バイアスは共変量の下での目的変数と標本包含との独立性が失われているときに起きるんだからこれとは関係なくない?]
     もちろん、確率標本側には\(Y\)がないから選択バイアスを直接に評価することはできない。Andridge & Little (2011)は、非確率標本への選択が\(\mathbf{X}\)をスカラーに縮約した値に完全に依存している場合と\(Y\)に完全に依存している場合との凸関数になっているというパターン混合モデルを使って感度分析を行っている。混合比率を変えるとSARへの感度がわかる。[…中略…] こういう路線は共通共変量[A4]の仮定を使っていない。A4の下ではどうなるかというのは今後の課題だ。
     なおpositivityについて調べるのは難しい。[…] 共通共変量の仮定も厳しいよね、そもそも実務家は確率標本が一つも手に入らずに困っていることが多かろう。
  • [確率調査をみんなで支えていかなきゃね的な話。略]

Wuの返答
 Elliott先生のいう記述パラメータと分析パラメータの区別、ウェイティングvsモデリングという問題は、IPW推定量の効率性について重要な問題を提起しています。これはかつての、ウェイトが変動していて調査変数と関係してなかったときにHT推定量の分散が激増するという問題と深くかかわっています。[… とかなんとか。特に反論はないみたいね]

Lohrのコメント
 ここでは予測的アプローチとIPWアプローチに絞ってコメントしたい。

 A1-A3についての診断方法について。

  • 非確率標本の統計量と他のデータの統計量を比べる。
     Wuさんは\(S_A\)における\(\mathbf{x}\)の経験分布関数と\(S_B\)から得られるウェイテッドの経験分布関数を比べることを勧めている。なんなら別の調査\(S_C\)と比べてもよい。
     IPW法を使っているんなら\(S_A\)のほうは傾向スコアでウェイトした経験分布関数にしてもよい(傾向スコアモデルで使わなかった変数に対してしか使えないけど)。
     Wuさんは\(S_A, S_B\)の両方で測っている\(z\)について、共変量\(\mathbf{u}\)を\(\mathbf{x}\)から選び(というのは\(z\)は使えないから)、\(z | \mathbf{u}\)を両者間で比べるというのも提案している。もし違ってたら(z\)の共変量が足りないね、ってことは\(y\)も…ってことになる。
  • IPWとマス代入(MI)の結果を比べるという手もある。
  • モデル診断をやる。これは通常の回帰モデリングと同じ。
     IPWの場合はウェイトの変動もチェックしたい(変動が小さいからといって、それは標本が代表的であることに証拠にはならないけどね。早い話、web調査で人口に合わせてクオータ抽出すればウェイトの変動は小さくなるがインターネット使用者バイアスは消えてない)。
     ウェイトを調べると、ついでにA2にもついても情報が得られるかもしれない(大きなウェイトがついているドメインはアンダーカバレッジが多いのかも)。
     なおA2については、\(S_B\)の個体のうち\(S_A\)の誰とも似てない奴を探すという提案もある。Dever(2018 Conf.)をみよ。[これ面白そう!] […]

 非確率標本を使うべきなのはどんな場面か、という点について考えておこう。
 「どんな情報でもないよりはまし」というのは本当だろうか。注意深いモデリングとチェックを通じてもなお重要な統計量が歪んでいるとしよう。それを報告することはなにも報告しないことに比べて良いことだろうか?
 以下の点を考慮すべし。

  • 統計量はどう使われる予定か。マーケティング戦略立案とかならいいけど失業率の推定なら許せん、といったことがありうる。非確率標本を使うこと自体が目的にかなっているという証拠を用意すべし。[はっはっは]
  • \(S_A\)のデータの質は? […] 任意参加型webパネルにおいては設問への回答はもちろんデモグラ情報さえ怪しい。宇宙時代の手続きは石器時代のデータを救えない。[うける]
  • 補助情報はどのくらい詳しいか? […]
  • どんな分析をしたいのか? \(S_A\)内の変数間の関係を調べたいんならIPWがいいだろう。\(y\)と\(S_B\)にしか含まれていない変数\(u\)との関係を調べたいなら代入がよい。ただし、実は\(u\)と\(y\)の関係じゃなくて\(u\)と(たとえば) \(\mathbf{x}^\top \hat{\beta}\)との関係を調べているのだという点に注意。
  • その手法はデータのエクイティに関してどのような含意を持っているか? [MIとIPWでは含意が違うのだという話。面白そうなんだけど気力が切れてちゃんと読んでない]

Wuの返答
 [感想みたいな内容なので略]

Wang & Kim のコメント
 傾向スコアの推定について、Wuさんが触れていなかった新しい方法をふたつ紹介しましょう。情報射影を用いた密度比モデルと、再生核ヒルベルト空間を通じた一様カリブレーティング関数による方法です。
 [読んでもまずわからんだろうと思うのでパス]

Wuの返答
 [短い感想みたいな感じ。パス]
————–