読了: Elliot & Valliant (2017) 非確率標本に基づいて推測を行うふたつのアプローチ

Elliot, M.R., Valliant, R. (2017) Inference for nonprobability samples. Statistical Science, 32(2), 249-264.

 仕事の都合で読んだ奴。非確率標本からの統計的推測についての概観論文。
 市場調査実務家というのは「統計学の先生のいうことは無作為標本を前提とした綺麗ごとなので僕らの仕事にはあまり役立ちません」「それよりもビジネス理解が大事です」などと言い訳を繰り返していてもなんとかなる気楽な商売なのだが、実際には本論文のように仕事と直結する統計学の研究はたくさんあり、学びうることは多い。あまりに多い。真面目に考えるとなかなか辛い。言い訳を繰り返していた方が健康的かもしれない。

 この号はComplex Surveys特集号だったようで、他に”Probability Sampling Designs”, “Model-Assisted Survey Estimation”, “Construction of Weights in Surveys”といった啓蒙的な感じの論文や、Couperさんらの”Options for Conducting Web Surveys”といった実務寄りな感じの論文が並んでいる。
 この雑誌、わりかし親しみやすい、ぬるめの論文が載っていることもあれば、うかつに足を踏み入れた初心者を絶叫させる熱湯論文が載っていることもあって、油断できない。今回のはあたりでした。

1. イントロダクション
[確率標本によって推測することは大事なんだけどと確率標本ならよいというものでもない、非確率標本の重要性は増している…云々]

1.1 非確率標本のタイプ
 AAPORタスクフォース(Baker et al, 2013 Tech.Paper)は非確率標本を次の3タイプに分けている。

  • comvenience sampling. モールインターセプト、任意型標本、リバーサンプル、観察研究、スノーボールサンプルなど。
  • sample matching. 母集団特性にマッチさせる。クオータ・サンプリングなど。Rivers(2007 AWS White Paper), Rothenbaum & Rubin(1983 Biometrika)をみよ。
  • network sampling. スノーボールサンプリング, respondent drivenサンプリングなど。

[よくわからない分類だ… 任意型ネットパネルからクオータ・サンプリングするのはどっちに分類するの? スノーボールサンプリングは両方にはいっているけど?]

1.2 推論の一般的枠組み
 Smith(1983 JRSS)は非確率標本からの推論を次のように定式化している。
 ある分析変数を \(\mathbf{Y} = (Y_1, \ldots, Y_N)\), 標本\(s\)のインジケータ・ベクトルを\(\mathbf{\delta_s} = (\delta_1, \ldots, \delta_N)\)とする。標本設計なり推定なりの際に使える共変量行列を\(\mathbf{X}\)とする(サイズ \(N \times p\))。
 \(\mathbf{X}\)とパラメータベクトル\(\mathbf{\Theta}\)の下での\(Y\)の条件付き密度を\(f(\mathbf{Y}|\mathbf{X}; \mathbf{\Theta})\)とする。
 インジケータの密度を\(f(\mathbf{\delta}_s | \mathbf{Y}, \mathbf{X}; \mathbf{\Phi})\)とする(\(\Phi\)は未知パラメータ)。
 次のモデルを考える: $$ f(\mathbf{Y}, \mathbf{\delta}_s | \mathbf{X}; \mathbf{\Theta}, \mathbf{\Phi}) = f(\mathbf{Y} | \mathbf{X}; \mathbf{\Theta}) f(\mathbf{\delta}_s | \mathbf{Y},\mathbf{X}; \mathbf{\Phi}) $$ このモデルは\(\mathbf{Y}\)がNMARであることを許容している点に注意(\(\mathbf{\delta}_s\)が\(\mathbf{Y}\)と未知パラメータに依存しているから)。確率標本であれば、右辺の二つ目は \(f(\mathbf{\delta}_s | \mathbf{X})\)になる。

 さて。非確率標本による推論にはふたつの一般的アプローチがある。

  • 準ランダム化。\(f(\mathbf{\delta}_s | \mathbf{Y}, \mathbf{X}; \mathbf{\Phi}) \)をモデル化する。
  • 超母集団。\(f(\mathbf{Y} | \mathbf{X}; \mathbf{\Theta})\)をモデル化する。

[恥ずかしながら、この段階で目からうろこが… 超母集団アプローチってそういうことなのか… 霧が晴れたような思いだ…]

 有限母集団推定のestimandはいろいろあるけど、一番簡単なのは母合計 $$ t_U = \sum_{i \in s} y_i + \sum_{i \in \bar{s}} Y_i$$ だ(標本の値は観察されているので小文字にしている)。第1項を\(t_s\), 第2項を\(t_{\bar{s}}\)と呼ぼう。
 推定量は典型的には、\( \hat{t}_{\bar{s}} = \sum_{i \in \bar{s}} \hat{y}_i \)とし、非標本の\( \hat{y}_i \)をどうにかして推測する、という形で書けるわけであります。たとえば\(\hat{t}_{\bar{s}} = \sum_{i \in \bar{s}} w_i y_i\) とかね。

 モデル・パラメータの推定は、パラメータ推定値についての推定方程式の解を必要とすることが多い。推定方程式はパラメータに関して線形であることもあれば(線形回帰), 非線形であることもある(一般化線形モデル)。デザイン・ベースの有限母集団推定においては、これらの推定方程式はサーヴェイ・ウェイトと、有限母合計のタイプの推定量を含む(Binder & Roberts, 2009 Chap.)。仮に非確率標本に対して合計の推定のために適切なウェイトを構築したならば、それらのウェイトは推定方程式のなかでも使える。そのため、非確率標本のためのウェイト構築は確率抽出における推定の場合と同じ役割を果たしうる。
 [集中力が途切れたせいか急にやる気が減少したので、眠気覚ましのために1パラグラフ逐語訳した。読み返してみると、「有限母合計のタイプの推定量を含む」っていうところがよくわかんないな… 式のなかにHorvitz–Thompson推定量みたいな形が出てくるよ、ってこと?]

 非確率標本では選択確率を計算できないから、選択確率の逆数をウェイトにするというわけにもいかない。しかしウェイトはどうにかして作れる。そのアプローチとして、準ランダム化と超母集団があるわけだ。

2. 非確率標本の潜在的な諸問題
 非確率標本にはどんなバイアスがあるでしょうか。

  • 選択バイアス。目標母集団を\(U\)、潜在的にカバーされている母集団を\(F_{pc}\)、実際にカバーされた母集団を\(F_c\), 標本を\(s\)としよう。
     [本文中の説明では、任意型ネットパネルの場合 \(F_c\)はwho participate in the studyって書いてあるから、\(F_c\)がスクリーニング調査参加者、\(s\)が本調査完了者のことであろう。\(F_{pc}\)がはっきりしないんだけど、3章ではネットへのアクセスがある人のことだと書いてある]
     ネットにアクセスできない人も多いわけで、\(F_{pc}\)にはすごい選択バイアスがある[…中略…]
  • 無回答。registration無回答(パネル登録時の確認メールに反応しなかった)、登録手続き中の脱落、調査依頼への無反応、がある。
  • パネルからの脱落。
  • 測定誤差(これは非確率標本に限らない)。[satisficingとかいくつか挙げられているけど省略]

3. 準ランダム化アプローチ
 \(f(\mathbf{\delta}_s | \mathbf{Y}, \mathbf{X}; \mathbf{\Phi}) \) ないし \(f(\mathbf{\delta}_s | \mathbf{X}; \mathbf{\Phi}) \)を推定しようというアプローチである。前者(つまり\(\mathbf{Y}\)がNMAR)の場合の研究もあるけど適用が限られているので、以下では後者について考える。
 たとえばですね。

  • \( \mathbf{x}_i \): \(i\)さんの参加を予測する共変量ベクトル
  • \( I \): \(F_{pc}\)つまりネットへのアクセスがある人
  • \( V \): ボランティア [パネル登録者のことね]
  • \( s_V \): 調査参加依頼対象者
  • \( s_{VR} \): 調査参加者

として、調査参加確率を次のように分解する。$$ P(\mathbf{x}_i) = P(i \in I | \mathbf{x}_i) \cdot P(i \in V | I, \mathbf{x}_i) \cdot P(i \in s_V | V, I, \mathbf{x}_i) \cdot P(i \in s_{VR} | s_V, V, I, \mathbf{x}_i)$$ 4つの項のうち3,4はなんとか求まる。問題は1,2である。国によっては1は確率標本でわかるんだけど(USではNHISが使える)、2がわからない。
 [軽くいうねえ… 3,4だって実査会社さんはなかなか開示してくださいませんけど]

さあどうするか。

  • Reference Survey. 同時に母集団から(ないし母集団のうちネットにアクセスがある人について)確率調査をやって\(\mathbf{x}_i\)を調べる(ないし公的データセットを使う。USだとACSとか)。で、標本包含確率を推測するモデルをつくる。
  • Sample matching. reference sampleに対する個人レベルのマッチングと、母集団分布に対する累積レベルのマッチングがある。クオータ・サンプリングは後者に相当する。

3.1 擬似ウェイトを使った推定
 確率標本の抽出インジケータを\(S_i\), 非確率標本の抽出インジケータを\(S^*_i\)とする。[以下、原文では丁寧に\(\mathbf{x}_i = \mathbf{x}_0\)と書いてあるが、面倒なので\(\mathbf{x}_i\)と略記する]
 ベイズルールにより$$ P(S_i = 1 | \mathbf{x}_i) = \frac{P(\mathbf{x}_i | S_i = 1) P(S_i = 1)}{P(\mathbf{x}_i)} $$ $$ P(S^*_i = 1 | \mathbf{x}_i) = \frac{P(\mathbf{x}_i | S^*_i = 1) P(S^*_i = 1)}{P(\mathbf{x}_i)} $$ ですわね。一本目を二本目に突っ込んで $$ P(S^*_i = 1 | \mathbf{x}_i) = \frac{P(\mathbf{x}_i | S^*_i = 1) P(S^*_i = 1) P(S_i = 1 | \mathbf{x}_i)}{P(S_i=1) P(\mathbf{x}_i | S_i = 1)} $$ \(P(S_i=1)/P(S^*_i=1) \) は基準化定数だと考えて $$ \propto \frac{P(\mathbf{x}_i | S^*_i = 1) P(S_i = 1 | \mathbf{x}_i)}{P(\mathbf{x}_i | S_i = 1)} $$ 分子の第1項と分母について考える。いま、確率標本と非確率標本を縦積みし、非確率標本に由来する行にダミーフラグ\(Z_i =1\)を振る。抽出確率が十分に大きければ、ある個体が確率標本と非確率標本の両方に抽出される確率は無視できるから、$$ = \frac{P(\mathbf{x}_i | Z_i = 1) }{P(\mathbf{x}_i | Z_i = 0)} P(S_i = 1 | \mathbf{x}_i )$$ $$ = \frac{P(Z_i = 1 | \mathbf{x}_i ) P(\mathbf{x}_i)/(P(Z_i=1)}{P(Z_i = 0 | \mathbf{x}_i) P(\mathbf{x}_i)/(P(Z_i=0)} P(S_i = 1 | \mathbf{x}_i)$$ $$ \propto \frac{P(Z_i = 1 | \mathbf{x}_i)}{P(Z_i = 0 | \mathbf{x}_i)} P(S_i = 1 | \mathbf{x}_i)$$ [なるほど。分数が非確率標本の偏りをオッズの形で表しているんだけど、確率標本が完全無作為でない場合は確率標本包含確率をかける必要があるわけね]
 さて「擬似ウェイト」$$ w_i = 1/\hat{P}(S^*_i = 1 | \mathbf{x}_i) \propto 1/\left( \frac{\hat{P}(Z_i = 1 | \mathbf{x}_i)}{\hat{P}(Z_i = 0 | \mathbf{x}_i)} \hat{P}(S_i = 1 | \mathbf{x}_i) \right)$$ について考える。仮に確率標本の包含確率\(P(S_i = 1 | \mathbf{x}_i = \mathbf{x}_0)\)が、デザイン時に\(\mathbf{x}_i\)によって決まっているのなら、包含確率の逆数を\(\tilde{w}_i\)として、$$ w_i \propto \tilde{w}_i \frac{\hat{P}(Z_i = 0 | \mathbf{x}_i)}{\hat{P}(Z_i = 1 | \mathbf{x}_i)} $$ そうでない場合は、確率標本でベータ回帰モデルを作って非確率標本について\(P(S_i = 1 | \mathbf{x}_i = \mathbf{x}_0)\)を予測すればよい。
 [原文: \(\hat{P}(S_i =1 | \mathbf{x}_i = \mathbf{x}_0)\) can be estimated by regressing \(\mathbf{x}_i\) on \(\tilde{w}^{-1}_i\) via beta regression in the probability sample, and predicting \(P(S_i =1 | \mathbf{x}_i = \mathbf{x}_0)\) for the nonprobability sample element. 確率標本でつくる回帰モデルがどんなモデルなのかよくわからない。ふつう”regress Y on X”だよね? だからこの原文だと\(\mathbf{x}_i\)が目的変数のようにみえてしまうのですが。実際には、\(P(S_i =1 | \mathbf{x}_i)\) を目的変数、\(\mathbf{x}_i\)を説明変数としたベータ回帰モデルを母集団をベースにして組め、ということだと思う。\(\mathbf{x}_i)\)の組み合わせで作られるセルを行、目的変数はそのセルの標本包含割合だから、ベータ回帰なんでしょうね]
 \(\hat{P}(Z_i = 0 | \mathbf{x}_i)\)はロジスティック回帰で推測すればよい。\(\mathbf{x}_i\)が高次元で嫌になっちゃったら、LASSO, BART, super learnerがよろしかろう。[ちょっと中略]

 \(P(S^*_i = 1 | \mathbf{x}_i)\)を推測するもう一つの方法は、縦積みしたデータについて、確率標本から来た行にウェイトを振っておいて(非確率標本から来た行のウェイトは1にする)、ウェイトつきロジスティック回帰モデルを組んで直接に推定するという方法である。どっちがよいかについては研究がない。

 [ウェイトを使って推測しているときに分散推定する際の注意点。メモ省略]

4. 超母集団モデル・アプローチ
 \(f(\mathbf{Y} | \mathbf{X}; \mathbf{\Theta})\)をモデル化するアプローチ。
 もし$$ f(\mathbf{\delta}_s | \mathbf{Y}, \mathbf{X}; \mathbf{\Phi}) = f(\mathbf{\delta}_s | \mathbf{X}; \mathbf{\Phi}) $$ なのであれば、標本選択確率は無視して\(f(\mathbf{Y} | \mathbf{X}; \mathbf{\Theta})\)のみに基づいて推論していればよい。非確率標本でもそういう場面はなくはない(\(x\)が最大の人を何人抽出するって決めている調査とか)。
 問題は、非確率標本の選択がそういう風にコントロールされてない場合である。

 \(\mathbf{Y}\)を、標本のベクトル\(Y_s\)と非標本のベクトル\(Y_{\bar{s}}\)にわける。$$ f(\mathbf{Y} | \mathbf{X}; \mathbf{\Theta}) = f(\mathbf{Y}_s | \mathbf{Y}_{\bar{s}}, \mathbf{X}; \mathbf{\Theta}) f(\mathbf{Y}_{\bar{s}} | \mathbf{X}; \mathbf{\Theta}) $$ ですね。右辺ひとつめの縦棒の右側から\(Y_\bar{s}\)を外して\(f(\mathbf{Y}_s | \mathbf{X}; \mathbf{\Theta})\)と書いてもよいなら、標本の\(Y\)と非標本の\(Y\)は共変量の下で独立だということになる。さて、もし\(\Theta\)について推論したいだけなら、\(f(\mathbf{Y}_s | \mathbf{X}; \mathbf{\Theta})\)がわかれば十分である。しかし完全な母集団について推測したいなら\(f(\mathbf{Y}_{\bar{s}} | \mathbf{X}; \mathbf{\Theta})\)が必要になる。それが\(f(\mathbf{Y}_s | \mathbf{X}; \mathbf{\Theta})\)と同型ならいいけど、そうでない場合は推論は難しいか不可能となる。

 [ここまでをまとめるとこういうことだろうか。まず、非確率標本の選択が共変量のみに依存しアウトカムに依存していないなら、共変量をモデルにいれるだけで母集団推測ができる。次に、非確率標本の選択がアウトカムに依存している場合でも、(1)共変量のもとで標本のアウトカムと非標本のアウトカムが独立で、(2)共変量の下でのアウトカムの条件付き分布が標本と非標本で同じなら、母集団推測ができる]

 有限母集団の母合計について推測する場合について考えてみよう。標本の合計に、非標本の合計の推定値を足したい。後者を得るためには、標本と非標本が同じモデルに従っていて、そのパラメータを標本から推測できることが必要になる。共変量が非標本について個体レベルで分かっている必要はない。
 いま、$$ E_M(y_i | \mathbf{x}_i) = \mathbf{x}^\top_i \beta $$としよう(\(E_M\)はモデルに関する期待値ということ)。所与の標本\(s\)について、推定量は $$ \hat{b} = \mathbf{A}^{-1}_s \mathbf{X}^\top_s \mathbf{y}_s$$ $$ \mathbf{A}_s = \mathbf{X}^\top_s \mathbf{X}_s $$である。母合計の予測値は$$ \hat{t}_1 = \sum_{i \in s} y_i + \sum_{i \in \bar{s}} \hat{y}_i = \sum_{i \in s} y_i + (\mathbf{t}_{Ux} – \mathbf{t}_{sx})^\top \hat{\beta} $$ ただし、\(\mathbf{t}_{Ux}\)は母集団における\(\mathbf{x}\)の合計、\(\mathbf{t}_{sx}\)は標本における\(\mathbf{x}\)の合計である。標本抽出確率が小さければ $$ \hat{t}_2 = \sum_{i \in U} \hat{y}_i = \mathbf{t}_{sx}^\top \hat{\beta} $$ でよい。
 こういう「予測アプローチ」の理論については Valliant, Dorfman, &amp ;Royall (2000 書籍)をみてね。
 なお、上の式は標本の\(y\)の重み付き合計として書き換えることができる。重みは $$ w_{1i} = 1 + (\mathbf{t}_{Ux} – \mathbf{t}_{sx})^\top \mathbf{A}^{-1}_s \mathbf{x}_i $$ $$ w_{2i} = \mathbf{t}_{Ux} \mathbf{A}^{-1}_s \mathbf{x}_i $$ となる。ここで、ウェイトは\(y\)に依存してない。このウェイトがすべての\(y\)について同じくらい効率的だとはいえないが、それはデザイン・ベースのウェイトでもそうである。

 超母集団(\(y\)モデル)アプローチでは、バイアスとバリアンスのような統計的特性は、観察された標本ユニットの集合に条件づけられた形でに条件づけられた形で計算される。いっぽう準ランダム化アプローチでは、擬似デザイン・ベースの計算によって、標本において観察された共変量の布置と同じ布置に従うランダム出現を通じた平均化が行われる[原文: This contrasts to the quasi-randomization approache where the pseudo design-based calculations average over the random appearance in the sample of units that have the same configuration of covariates observed in the sample.]。準ランダム化推定量は、推定された包含確率の逆数をウェイトとして用いているだけならば、\(E_M(y|\mathbf{x})\)が共変量に依存する\(y\)モデルの下ではバイアスを持つだろう。その結果、準ランダム化アプローチだけを使うより、\(y\)モデル・アプローチを使って推定量を構築したほうが、推定はよりpreciseになる。[うーむ、なにいってのかよくわからん。準ランダム化アプローチは共変量分布を潰した周辺分布をみていて、超母集団アプローチは共変量で条件付けた条件付き分布をみている。前者がバイアスを持つってどういうこと? ウェイトが正しかったらバイアスはないと思うんだけど。個々のアウトカムに特化したモデルを使ったほうが推定量の分散は小さくなりうる、って話ならわかるけどさ]

4.1 予測推定量の分散推定
[すいませんが、いまあんまし関心ないので1頁弱をまるまるスキップ]

4.2 階層回帰モデリング
 事後層別は、すべての(離散)カリブレーション変数とその交互作用への線形回帰とみることができる。たとえば、カリブレーション変数\(\mathbf{x}_i\)は\(p\)個の二値変数だとしよう。$$ \mu_{yi} = E_M(y_i | \mathbf{x}_i) = \beta_0 + \sum_k^p \beta_k I(x_{ik} = 1) + \sum_{k_1}^p \sum_{k_2}^p \beta_{k_1,k_2} I(x_{ik_1} = 1) I(x_{ik_2} = 1) + \cdots$$ 以下、\(p\)次交互作用まで延々続く、という感じ。レイキングってのはこのモデルの交互作用を全部削ったやつだ。
 共変量の組み合わせ(\(2^p\)通り)を\(h\)と書こう。母平均の推定量は$$ \hat{\bar{Y}} = \sum_h P_h \hat{\mu}_h $$ である。\(P_h\)とはその組み合わせが母集団に占める割合、\(\hat{\mu}_h\)はそこに属する個体の\(\mu_{yi}\)の推定量である。
 さて、\(\mu_{yi}\)は上のような線形回帰じゃなくて、一般化線形回帰に拡張してもよい。また、事後層別とレイキングの中間をとってもよい。
 ここで階層モデルを使おうと最初に提案したのは Holt & Smith (1979)である。$$ y_{ih} | \mu_h \sim N(\mu_h, \sigma^2) $$ $$ \mu_h \sim N(\mu, \tau^2) $$ Elliott & Little(2000 J.Off.Stat.)のシミュレーション研究で、こういうexchangable priorsだと\(\sigma^2\)と\(\tau^2\)が近いときに平滑化しすぎてしまうことがわかっている[\(h\)間で共通の事前分布を使っていると\(\mu_h\)が\(\mu\)に向かって縮小しすぎるってことかな?]。そこで、事前平均か事前分散に\(w_h = N_h/n_h\)の情報を入れてやると良いということがわかっている。たとえば、\(\mu_h\)を\(w_h\)の関数にするとか、層を\(w_h\)で並び替え、分散に自己回帰構造をいれて\(|h – h’|\)の関数にするとか。

 そこで出てきたのがWang, Rothschild, Goel, & Gelman (2015, J. Forecasting)のMRPである。[2012年大統領選の予測で成功したという話。中略]

 彼らのアプローチでは\(P_h\)を確率標本から推測し、その不確実性を無視していた。ベイジアン有限母集団推測アプローチでちゃんとやってたらもっと良かっただろう。
 確率標本と非確率標本で\(\mathbf{X}, \mathbf{Y}\)が手に入り、確率標本のデザイン変数が\(Z\)だとする。以下、確率標本を添字\(p\), 非標本を\(ns\)であらわす。
 非標本の事後予測分布\(p(X_{ns} | X_s, Z_p) \)について考えよう。\(X\)が\(Z\)の下で標本抽出から独立だという仮定の下で、$$ p(X_{ns} | X_s, Z_p) \propto \int p(X_{ns}, Z_{ns} | X_p, Z_p) p(X_p, Z_p) d Z_{ns} $$ である。[えーっと、非標本の共変量分布を予測したいと。そこで、非標本について、共変量と(確率標本の)デザイン変数の同時分布を推測しましょうと。それはわかんないけど、確率標本における同時分布ならわかる。さらに、共変量とデザイン変数の組み合わせの下での、非確率標本の条件付き同時分布ならなんとかわかる方法がある。だからその二つを掛けて、デザイン変数のほうで積分して周辺化すればいいじゃん。ということだろうか。あっれー、左辺にある\(X_s\)というのがわからないー。\(X_p\)のことではあるまいか]
 \(p(X_{p}, Z_p)\)はベイジアン・ブートストラップでドローできる。\( p(X_{ns}, Z_{ns} | X_p, Z_p) \)は有限母集団ベイジアン・ブートストラップという方法でドローできる。
 [ここからの説明が全然わかんなくなっちゃったので断念。Dong, Elliott, & Raghunathan (2014 SurveyMethodol.), Zhou, Elliott, & Raghunathan (2016 J.SurveyStat.Methodol.; 2016 J.Off.Stat.; 2016 Biometrics)というのが挙げられている]

5. 結論
 非確率標本からの推測には準ランダム化アプローチと超母集団アプローチがある。どちらも長所と短所がある。準ランダム化アプローチは、\(y\)と無関係に包含確率を推測するから、どんな\(y\)の推定にも使える。いっぽう超母集団アプローチでは個別の\(y\)についてモデルをつくり、\(y\)の母集団構造を説明しているからモデル分散は小さい。しかし、たとえば重要な共変量を見落としていたりしたときにバイアスが生じる。どっちがよいかは今後の課題である。
 また、手に入る共変量が非確率標本の選択メカニズムを捉え損なっていることに対する結果の敏感性をどう評価するかというのも今後の課題である。
 云々。
——
 細かいとこよくわかんなかったんだけど(特にMRPの拡張のところ)、勉強になりましたですー。

 複雑な抽出デザインのデータ分析では、よくデザインベース推測とモデルベース推測という言葉が使われる。おおざっぱに言っちゃうと、抽出デザインに基づき標本包含確率の逆数でウェイティングするのが前者、抽出デザインに用いた変数を投入したアウトカムについての回帰モデルを組んじゃうのが後者。非確率標本の場合、もはやデザインベース推測という概念は成り立たないんだけど(標本包含確率はもはやわからない)、それでもリファレンスデータを使ってなんとかして標本包含確率を推測しようというアプローチがあるわけだ(この論文でいう「準ランダム化アプローチ」)。
 いっぽう、アウトカムについての回帰モデルを作るというアプローチも依然としてある。これがこの論文で「超母集団アプローチ」と呼ばれるところが私などには分かりにくく感じられるのだが(論文中にも説明はない)、有限母集団のアウトカム・ベクトルを確率変数として捉えているから、きちんと定式化しようと思ったら、頻度主義の立場からはもはや超母集団を呼び寄せるしかない、というところがこの言葉の由来なんだろうな。