Meng, X.L. (2018) Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics, 12(2), 685-726.
非確率標本の分析について調べていて、Meng による推定誤差の分解というのが出てきた。どこで出てきたんだっけ? えーと、Bailey(2022), Meng(2022)で出てきたようだ。他でも見かけたような気がする。
よく理解できなかったので、referされている論文を読み始めたんだけど、偉い学者に特有の皮肉と諧謔に満ちた文章で、私にとっては死ぬほど読みにくく… 途中で疲れ切ってしまい、あえなく中断した。あーあ。
1. プロローグ: やってきたパラダイス、それとも失われたパラダイス?
[ビッグデータの時代は漸近論的に見ればパラダイスではないか? いやデータ品質の観点から見れば失われたパラダイスだ。とかなんとか。。面倒なのでメモは省略する]
2. データ質-量トレードオフの基本的な同一性
2.1 例題
たとえば、母集団の1%に対する回答率60%の調査と、母集団の80%をカバーする非確率データセット、どちらが信頼できるだろうか?
より本質的にはこうだ。質も量も異なるふたつのデータセットをどうやって比べるか?
[…大幅中略。エッセイ調の文章でやたらに長い…]
2.2 データの質、データの量、問題の難しさをつなぐ同一性
関心ある変数(群) \(X\)があり、なんでもいいけど\(X\)を実数にマップする関数\(G\)があって\(G_j \equiv G(X_j)\)だとしよう。サイズ\(N\)の有限母集団があって、母平均を\(\bar{G}_N\)とする。母集団のサイズ\(n\)の下位集合\(I_n\)があって、\(\{X_j, j \in I_n\}\)のみ既知とする。
\(\bar{G}_N\)のもっともよく用いられる推定量は標本平均である。標本包含インジケータを\(R_j\)として $$ \bar{G}_n = \sum_{i \in I_n} G_j = \frac{\sum_{j=1}^N R_j G_j}{\sum_{j=1}^N R_j} $$ \(R\)はRandom samplingの頭文字かもしれないし、self-Reported, Recorded, Respondかもしれない。それは確率変数でさえないかもしれない。だからといって、私たちが愛する確率的アプローチが駄目になるわけではない。それどころか、単純な確率的議論によって、R-メカニズムの定量化方法についての深い洞察が得られるのである。
\(J \in \{1, \ldots, N\}\)上の一様分布に関する期待値を導入すれば $$ \bar{G}_n – \bar{G}_N = \frac{E_J(R_J G_J)}{E_J(R_J)} – E_J(G_J) = \frac{E_J(R_J G_J) – E_J(R_J) E_J(G_J)}{E_J(R_J)} = \frac{Cov_J(R_J, G_J)}{E_J(R_J)} $$ と書ける。\(J\)の一様分布上で\(\rho_{R,G} = Corr_J(R_J, G_J), f=E_j(R_J) = n/N\)、G_JのSDを\(\sigma_G\)とすると、\(V_J(R_J) = f(1-f)\)だから、こう書ける。$$ \bar{G}_n – \bar{G}_N = \rho_{R,G} \times \sqrt{\frac{1-f}{f}} \times \sigma_G $$ 第1項はdata defect correlation、データ品質を表している。第2項はデータ量、第3項は問題の難しさを表している。
[Mengさんが唱えたというこの式、これまでに何度か見かけたけれど、ようやく腑に落ちたよ…]
ここから、$$ MSE_\mathbf{R}(\bar{G}_n) = E_\mathbf{R}[\rho^2_{R,G}] \times \left( \frac{1-f}{f} \right) \times \sigma^2_G \equiv D_I + D_O + D_U $$ とかける。期待値は\(\mathbf{R}\)の任意の分布に関する期待値である(ただし\(\sum_{j=1}^n R_j = n\)と条件付けられている)。第1項をdata defect Index (ddi), 第2項をdropout Odds, 第3項をdegree of Uncertainty と呼ぼう[無理やりな頭文字だ…]。MSEを減らすには、データ品質をあげるか、量を増やすか、問題の困難さを減らすかである。
2.3 ddiについて理解する
読者は以下の疑問を抱くだろう。
- (A) 確率標本における\(D_I\)の大きさは?
もし単純無作為抽出なら、\(\bar{G}_n\)は不偏で、MSEは分散である。$$ V_{SRS}(\bar{G}_n) = \frac{1-f}{n} S^2_G, \ S^2_G = \frac{N}{N-1} \sigma^2_G $$ ですね。これを上の等式の左辺に放り込むと、ddiは$$ D_I = E_{SRS}(\rho^2_{R,G}) = \frac{1}{N-1} $$ となる。確率標本一般については後述する。
[ゼロになるわけじゃないのか! 母集団の個体が持つ値と、単純無作為抽出で抽出されるかどうかとの相関係数の二乗の期待値は0にならないってことだよね? 不思議な気がして、試しに簡単な例で計算してみたところ、なるほど確かにそうであった。これはあれだね、標本サイズで条件づけているからだね] - (B) 非確率データにおける\(D_I\)の算出方法は?
もちろん標本から\(D_I\)はわからない。しかし、たとえば選挙予測で選挙後に実際の誤差がわかるような場合には、そこから類似したデータセットの\(D_I\)の事前分布が手に入るだろう。 - (C) 理論的に、所与の\(D_O, D_U\)のもとで、\(D_I\)は\([0,1]\)の任意の値をとりうるのか?
\(D_I\)のとる範囲は\(R\)と\(G\)の周辺分布によって制約される。[…ややこしい話が続くのでスキップ…]
3. 質を量で補うのは絶望的なゲームだ
3.1 大母集団の法則?
非確率標本においては母集団サイズが推定誤差を駆動する。下の式をみてほしい。$$ Z_{n,N} \equiv \frac{\bar{G}_n- \bar{G}_N}{\sqrt{V_{SRS}(\bar{G})}} = \sqrt{N-1} \rho_{R,G} $$
すなわち、同一の(固定された)data defect correlation \(E_\mathbf{R}(\rho_{R,G}) \neq 0\)を持つ研究の間では、\(\bar{G}_n\)の(確率的な)誤差は、単純無作為抽出をベンチマークとした比較でみたとき、母集団サイズ\(N\)に伴って\(\sqrt{N}\)の速度で増大する。これを(大数の法則ではなくて)大標本の法則と呼ぼう。
[母集団が大きいほうがバイアスも大きくなるなんて、一瞬すごく奇妙なことを云われているような気がするけれど、同一標本サイズの単純無作為標本と比べたら、というところがポイントである]
Kishのデザイン効果と比べるとこうなる。$$ Deff = \frac{E_\mathbf{R}[\bar{G}_n – \bar{G}_N]^2}{V_{SRS}(\bar{G}_n)} = (N-1) E_\mathbf{R}(\rho^2_{R,G}) = (N-1) D_I $$ 大母集団の法則を厳密に表現するとこうなる。[漸近的な議論。母集団のサイズが大きくなっていく系列を考えて…というような話である。面倒なのでスキップ]
[関連した議論が続くけど、なんか疲れちゃったのでスキップ]
3.2 バタフライ効果: 忘れられていたモンスター\(N\)の帰還
ビッグデータの有効標本サイズ\(n_{eff}\)、つまり、\(\bar{G}_n\)のMSEと等しいMSEを持つSRS推定量の標本サイズにについて考えよう。ここまでの式から$$ D_I D_O = \left( \frac{1}{n_{eff}} – \frac{!}{N} \right)\left(\frac{N}{N-1}\right) $$が得られる。\(n^*_{eff} = (D_O D_I)^{-1}\)とすると$$ n_{eff} = \frac{n^*_{eff}}{1-(n^*_{eff}-1)N^{-1}} $$ である。\(n^*_{eff} \geq 1\)とすれば $$ n_{eff} \leq n^*_{eff} = \frac{n}{1-f} \frac{1}{N D_i} $$ が得られる。つまり、\(D_I\)が小さくても、\(N\)の増大とともに有効標本サイズは急速に減る。
ここからわかるのは、ビッグ・データのビッグさが品質を高めてくれるというのは、特に母集団が大きいとき、希望的思考に過ぎないということである。[…]
3.3 ビッグ・データ・パラドクス?
非確率標本では、通常の信頼区間 $$ \left( \bar{G}_n – \frac{M \hat{\sigma}_G}{\sqrt{n}}, \bar{G}_n + \frac{M \hat{\sigma}_G}{\sqrt{n}} \right) $$ は、\(M\)をどう選ぼうともほとんど確実に\(\bar{G}_N\)を含まない(有効標本サイズの巨大な損失を償うくらいに\(\hat{\sigma}_G\)が\(\sigma_G\)を過大推定していれば別だが)。
[… だめだ、力尽きた。スキップ…]
3.4 Weight, Weight, don’t tell me…
ウェイティングで推定誤差を減らせることが多いが、巨大な\(N\)という呪いからは逃げられない。
ウェイト \(W_j \geq 0\)を使って推定してみよう。\(\tilde{R}_j = R_j W_j\)として、$$ \tilde{G}_n = \frac{\sum_{j=1}^N R_j W_j G_j}{\sum_{j=1}^N R_j W_j} = \frac{E_J[\tilde{R}_J G_J]}{E_J[\tilde{R}_j]} $$ とすると、\(R_J = 1\)のもとでの\(W_J\)の変動係数(=SD/平均)を\(CV_W\)として $$ \tilde{G}_n – \bar{G}_N = \rho_{\tilde{R}, G} \times \sqrt{ \frac{1-f+CV^2_W}{f} } \times \sigma_G $$ ここから次のことがわかる。ウェイト\(W\)が推定誤差に対して2つの方法で効く。
まずはネタティブなインパクト。ファクター$$ a_W = \frac{ \sqrt{ \frac{1-f+CV^2_W}{f} } }{ \sqrt{ \frac{1-f}{f} } } = \sqrt{ 1+\frac{CV^2_W}{1-f} } \geq 1 $$ を掛けていることになる。つまり、\( |\rho_{R,G}| = |\rho_{\tilde{R},G}| \)ならば、ウェイティングは必然的に誤差を大きくする。この効果はウェイトの変動が大きいとき、抽出割合\(f\)が大きいときに大きくなる。
我々はウェイティングによって \( |\rho_{\tilde{R},G}| \lt |\rho_{R,G}| \) を達成し、ネガティブなインパクトを上回るポジティブなインパクトを得たい。つまり$$ \tilde{Deff} = \frac{E_\mathbf{R}[\tilde{G}_n – \bar{G}_N]^2}{V_{SRS}(\bar{G}_n)} = (N-1) \tilde{D}_I A_W $$ を\(Deff\)より小さくしたい。ここで$$ \tilde{D}_I = E_\mathbf{R}(\rho^2_{\tilde{R}, G}) $$ $$ A_W = E_\mathbf{R}[a^2_W] = 1 + \frac{E_\mathbf{R}[CV^2_W]}{1-f} \geq 1$$ である。
[だめだ、集中力が切れてきた… 写経しよう]
もちろん理想的目標は、\(\tilde{D}_I A_W\)を\(N^{-1}\)のレベルにまで引き下げることである。しかしこれはほぼ不可能である。ウェイト自体にも誤差があり、\(N\)が大きいときにはふつう\(O(N^{-1})\)よりも大きいからである。
R-メカニズムによってつくられる潜在的バイアスを捉えるために、\(\pi_j = Pr_\mathbf{R}(R_j = 1 | \mathbf{X})\)と書こう (\(R_j\)が決定論的であれば\(R_j=1\)の人の\(\pi_j\)は1である)。ここで\(\mathbf{X} = (X_1, \ldots, X_N)\)である。観察された\(G_j\)について\(\pi_j\)が既知ならば、良く知られているウェイティング・スキーマは\(W_j \propto \pi^{-1}_j\)と設定することであり、Horvitz-Thomspon推定量へとつながる[\(W_j \propto \pi^{-1}_j\)ならHajek推定量じゃない?]。ddiの観点からは、こうしたウェイティングが目指しているのは\(E_\mathbf{R}[Cov_J(\tilde{R}_J, G_J) | \mathbf{X}] = 0\)を保証することで\(\rho_{\tilde{R}, G}\)を減らすことである。しかし、ビッグデータの場合には\(\pi_j\)は未知であり近似も難しい。HT推定量はウェイトの推定誤差にきわめて敏感であるため、トリミングやべき乗縮小ののような方法が提案されている(Gelman(2007)をみよ)。しかし、\(\rho_{\tilde{R}, G}\)を\(N^{-1/2}\)のオーダーにまで減らすのは特に\(N\)が大きいときにはきわめて困難なのに、そのことを示唆している人はいない。
————-
残念ながらすっかり疲れてしまったので、この論文はここで中断。見出しのみメモしておく。元気になったら続きを読もう…
3.5 例題への答え
4. 二値アウトカムへの適用: 2016年US総選挙
4.1 2016年US大統領選における過剰信頼の指標
4.2 CCESサーベイにおけるトランプ支持者のddiの推定
5. エピローグ: Lenhard EulerからStepen Fienbergへ
5.1 オイラーの恒等式: 統計学におけるカウンターパートは?
5.2 単一母集団を超えて
5.3 モンテカルロ・擬似モンテカルロ(MCQMC)への適用
5.4 ファインバーグの夢: データの質とプライバシーを同時に増大させる?
5.5 データ・プライバシーを拡張しつつddiを減らす可能性
5.6 さらに挑戦的な問題: 個人化した予測
なお、abstractにはこの論文の主要な示唆として次の4点が挙げられている。
- 確率抽出は\(\rho_{R,X}\)[標本包含インジケータと目的変数の母相関]を\(N^{-1/2}\)のレベルにコントロールすることで高いデータ品質を保つ。
- このコントロールが失われたとき、\(N\)のインパクトはもはや\(\rho_{R,X}\)ではコントロールされず、「大標本の法則」が成立する。すなわち、ベンチマーク率\(1/\sqrt{n}\)と比べた推定誤差は\(\sqrt{N}\)とともに増大する。
- こうしたビッグデータの「ビッグ性」は、絶対サイズ\(n\)ではなくて相対サイズ\(f = n/N\)で測るべきである。
- 母集団について推論するためにデータを結合する場合、小さいが高品質なデータのほうにはるかに大きな重みをつけるべきである。
うん、これらの主旨についてはわかったから、よしとするか…