読了: Breidt & Opsomer (2017) 調査データ分析の第三の道、モデル・アシステッド・アプローチ (前編)

Breidt, F.J., Opsomer, J.D. (2017) Model-assisted survey estimation with modern prediction techniques. Statistical Science, 32(2), 190-205.

　標本ウェイトつき調査データの分析方法について調べていて(ときどき仕事の都合でそういうニーズに突き動かされる)、たまたまめくった奴なんだけど、意外や意外、とても面白くて、最後まで目を通すことなく、途中で冒頭に戻ってメモを取り始めた。しかも講演口調で。
　実はいまもって読み終えてないんだけど(記事題名に読了とあるのは現時点で偽りである)、これ、もっと早く読んでおけばよかった… そうすれば先日のToth & Eltinge (2011)ももう少しは理解できていたかもしれない。

　長くなりそうなので数回に分ける。まずは全9章のうち1-3章のメモ。

1. デザイン・ベースの推定・推論とは
　サーベイ統計の基本問題は、目標である有限母集団の特性を推定することです。たいていの場合、関心ある変数はたくさんあります。母集団も変数も非常に複雑かつ多様であり、すべての変数の挙動を統計モデルで特定するのはためらわれます。そこでデザイン・ベースのサーベイ統計は、どの母集団単位を測定するかを選ぶためのツールとしてランダム化を用い、ランダム化に依存して推定量を構築します。

　確率的な母集団構造ではなくてランダム化に依存するということは、以下の2点を意味します。

関心ある変数の母集団における値は、未知の定数として扱われます。
- サイズ$N$の有限母集団$U$の$k$番目の要素が持っている、関心ある変数の非確率的な値を$y_k$とします。
- 我々は有限母集団合計$t_y = \sum_{k \in U} y_k$に関心を持ちます。
- 平均とか割合とか比率とか回帰係数といったより複雑な有限母集団パラメータも、たいていは有限母集団合計の明示的な関数として書けますし、合計の適切な推定量をプラグインすることで推定できます。母集団レベルの推定方程式の解として暗黙的に定義されるような有限母集団パラメータもあるでしょう。その場合も、その推定方程式が有限母集団合計の明示的な関数として表現されます。つまり、推定方程式を推定することが、暗黙的に定義された有限母集団パラメータの推定方法につながるわけです。従って、ここでは$t_y$の推定に焦点を当てるのが適切です。それはほかの数多くのサーベイ推定量を構築するための土台となるからです。
  [このくだりはちょっと抽象的過ぎてわかりにくいっすね。もっと具体的な話に落とせば腑に落ちるのだろう]
推定量のランダム性は、標本のランダム選択のみに起因します。
- $U$の可能な下位集合は$2^N$ありますが、それらの上の確率分布を抽出デザイン$p(s)$と呼びます。つまり、$p(s)$は特定の標本$s$が抽出される確率です。
- 標本成員インジケータ、つまり$k \in s$のときそのときのみ1となる変数を$I_k$とします。
- $k \in U$について$\pi_k = E(I_k) = P(k \in s) = \sum_{s \subset U:k \in s} p(s)$をそのデザインの一次包含確率と呼びます。
- $k, l \in U$について$\pi_{kl} = E(I_k I_l) = P(k, l \in s) = \sum_{s \subset U:k,l \in s} p(s)$を二次包含確率と呼びます。
- すべての$k \in U$について$\pi_k \gt 0$であるデザインを確率抽出デザインと呼びます。

　抽出デザインが複雑な時、デザイン情報を推定量に組み込むことが、妥当性の観点からも効率性の観点からも大事になります。
　いかなる確率抽出デザインにおいても、Horvitz-Thompson推定量$$ HT(y) = \sum_{k \in s} \frac{y_k}{\pi_k} = \sum_{k in U} y_k \frac{I_k}{\pi_k} $$は$t_y$のデザイン不偏推定量です。ここでいうデザイン不偏とは、$$ E(HT(y)) = \sum_{k \in U} y_k \frac{E[I_k]}{\pi_k} = t_y $$ということです。
　HT推定量の分散は$ \{I_k\}_{k \in U} $の共分散構造に依存します。$\Delta_{kl} = \pi_{kl} – \pi_k \pi_l $として$$ Var(HT(y)) = \sum_{k,l \in U} Cov(I_k, I_l) \frac{y_k}{\pi_k} \frac{y_l}{\pi_l} = \sum_{k,l \in U} \Delta_{kl} \frac{y_k}{\pi_k} \frac{y_l}{\pi_l} $$ すべての$k, l \in U$について$\pi_{kl} \gt 0$のとき、デザインはmeasurableであるといい、デザイン分散の不偏推定が可能になります。$$ \hat{V}(HT(y)) = \sum_{k,l \in U} \Delta_{kl} \frac{y_k}{\pi_k} \frac{y_l}{\pi_l} \frac{I_k I_l}{\pi_{kl}}$$ [恥ずかしながら、HT推定量の分散の不偏推定が可能な条件をはじめて知った。同時包含確率が0より大なら不偏推定できるのか… いや、まあ、同時包含確率が既知だという夢のような状況の話ですけどね]

　多くのサーベイ推定量は、合計のHT推定量のような重み付き合計や、これに関連した推定量の、平滑化関数になっています。ですから、信頼区間や仮説検定の際には漸近的正規性を利用できます。

　このように、有限母集団合計については不偏推定量があり、その分散についてもmeasurableな確率抽出デザインなら不偏推定量があり、データについてのモデルを特定する必要はないわけです。デザイン・ベース・アプローチの単純さと頑健さがここにあります。
　しかしデザイン・ベース・アプローチには欠点もあります。得られる推定量が時として非効率だ、という点です。効率性は抽出デザインと母集団特性の関係に依存します。

　推定量の効率性を高めようという試みは、サーベイ統計家の関心の的であり、論争の種でもあります。主要なアプローチが3つあります。

抽出デザインをうまくつくることでデザイン・ベース推定量の効率性を高める。
デザイン・ベースのパラダイムを捨て、母集団の変数について統計モデルをあてはめる。
母集団の情報とモデリングをデザイン・ベース・アプローチに組み込む。モデル・アシステッド・アプローチと呼ばれることが多い。

　本論文は三番目のアプローチに焦点を当てます。

　モデル・アシステッド推定量についての多くの研究を統一的にとらえる枠組みとしてカリブレーション・アプローチがあります。標本ウェイトをオリジナルの逆確率ウェイトに可能なかぎり合わせつつ、しかし既知の母集団レベル情報を再現しようとするアプローチです。Sarndal(2010 Survey Methodology)を参照のこと。
　いっぽう本論文は予測というアイデアに直接的に動機づけられたモデル・アシステッド推定量に焦点を当てます。そこにはカリブレーションという側面もいくらかはあるのですが、主たるモチベーションはそこにはありません。

2. 補足情報と差分推定量
　多くのサーベイでは、母集団レベルでの補足情報が手に入ります。母集団のすべての単位について手に入ることもあれば、合計や平均の形で手に入ることもあります。
　補足変数のベクトルを$\mathbf{x}_k$とします。少なくとも$t_x = \sum_{k \in U} \mathbf{x}_k$は既知であるとします。また$ \{\mathbf{x}_k\}_{k \in s}$は観察可能とします。

　ここからしばらくの間は$ \{\mathbf{x}_k\}_{k \in U}$自体を既知とします。また、標本によらない形で$y_k$を予測するなんらかの方法$m(\cdot)$があって$ y_k \approx m(\mathbf{x}_k) $ だとします。たとえば、標本とは別にセンサスのデータがあるというような状況です。
　$t_y$の差分推定量として以下を考えることができます。$$ DIFF(y;m) = \sum_{k \in U} m(\mathbf{x}_k) + \sum_{k \in s} \frac{y_k – m(\mathbf{x}_k)}{\pi_k} = \sum_{k \in U} m(\mathbf{x}_k) + HT(y – m)$$ これは不偏推定量です。なぜなら期待値をとると $$ E(DIFF(y;m)) = \sum_{k \in U} m(\mathbf{x}_k) + E(HT(y-m)) = t_m + t_y – t_m = t_y$$ だからです。
　分散について考えると、第1項は確率変数でないので無視できて、$Var(HT(y-m))$となります。$ Var(HT(y)) $より小さいと期待できます。予測の方法がよかろうが悪かろうがHT推定量であり、抽出デザインがmeasurableなら分散を不偏推定できるわけです。さらに、後述しますがいくつかのマイルドな条件の下で、一致推定量であり漸近正規性を持つといえます。

　実際には差分推定量はほとんど用いられていません。$m(\cdot)$がなかなか手に入らないからです。では、標本から$m(\cdot)$を手に入れることはできないでしょうか。
　[話の方向が見えてきた。やばい、これ面白い…]

3. サーベイの漸近解析 I
　話を進める前に、デザイン・ベース推定量の漸近解析の理論的枠組みについて述べておきましょう。
　サイズ$N \rightarrow \infty$の有限母集団$U_N$から、デザイン$p_N(\cdot)$に従ってサイズ$n_N$の$s_n \subset U_n$を抽出します。包含確率を$\pi_{kN}, \pi_{klN}$とします。添え字の$N$は適宜はしょります。
　$N$によって母集団もデザインも変わるので、regularity conditionをつけないと漸近的な結果をうまく定義できなくなります。$HT(y)$についてregularity conditionの例を挙げます。

D1. $N \rightarrow \infty$とともに$n N^{-1} \rightarrow \pi^* \in (0,1)$とする。すべての$N$について、$\min_{k \in U} \pi_k \geq \lambda_1 \gt 0$ かつ$$ \mathrm{lim \ sup}_{N \rightarrow \infty} n \ \max_{k,l \in U:k \neq l} | \Delta_{kl} | \lt \infty$$ [日本語でメモすると… 母集団サイズが無限大に近づいていくとともに、標本割合$ \frac{n}{N} $が0でも1でもない値$\pi^*$に近づき、母集団要素の一次包含確率は0より大きな下界$\lambda_1$を持つ。二次包含確率は一次包含確率の積からずれてていいんだけど、そのずれ $\Delta_{kl} = \pi_{kl} – \pi_k \pi_l$の絶対値の最大値に標本サイズを掛けたやつ $n \max |\Delta_{kl}| $には上極限があって、無限大にはならない。]
この条件は、$p_N(\cdot)$について包含確率の観点から述べるというもっとも一般的なやり方をとったものです。$\pi_k$に下界があるということは、つまり確率抽出デザインであることを意味します。また$\Delta_{kl}$について述べている部分は、標本成員インジケータ間の依存性が十分に小さいということを意味しており、多くの古典的な抽出デザインはこれを満たします。
D2. 研究対象である変数 $ \{y_k\}_{k \in U}$は以下を満たす。$$ \mathrm{lim \ sup}_{N \rightarrow \infty} N^{-1} \sum_{k \in U} y^2_k \lt \infty $$ [日本語訳: 母集団サイズがいくら大きくなろうとも、$y$の二乗の母平均には上極限があって、無限大にはならない。]
この条件は、有限母集団での$y$の二次モーメントが限界を持つということを述べています。非常にマイルドな条件です。

　条件D1, D2の下で以下を示すことができます: $$ Var(N^{-1} HT(y)) \leq \frac{1}{N \lambda_1} \sum_{k \in U} \frac{y_k^2}{N} + \frac{\max_{k,l \in U: k\neq l} |\Delta_{kl}|}{\lambda^2_1} \cdot \left( \sum_{k \in U} \frac{|y_k|}{N} \right)^2 $$ さらに、この上界は$N\rightarrow \infty$とともにゼロに収束します。
　[日本語訳: 母平均のHT推定量の分散には上界がある。それは、$y$の二乗の母平均をさらに母集団サイズと$\lambda_1$で割ったものと、$|\Delta_{kl}|$の最大値に$y$の絶対値の母平均の二乗を掛けて$\lambda^2_1$で割ったものの和である。ふうん。つまり、母集団サイズが小さいほど、一次包含確率の下界が小さいほど、標本抽出が独立でないほど、HT推定量の分散の上界は大きくなります、ってわけね。
　直感として、あれ？母集団サイズが大きくなっても推定量の分散は小さくならないでしょ？むしろ、標本サイズが小さいほど、そして一次包含確率の分散が大きいほど大きくなるはずでしょ？と不思議に思ったのだが、それはついつい標本サイズを固定して考えているからだ。ここでは標本は定められた抽出デザイン$p_N(\cdot)$の下で出なりで決まると考えるべきで、だったら母集団サイズが大きいほど標本サイズも大きくなるし、一次包含確率の分散はどうでもよくて下界だけが問題になるわけだ。ひいいい。なんだか鏡の国に来たような気分だぞ]

　上記の結果を$HT(y)$の不偏性と併せて考えると、HTがデザイン平均平方一致性を持つ、したがって$p_N(\cdot)$の系列に関して一致性を持つことがわかります。これをデザイン一致性といいます。

　推論のためにはさらなる条件が必要です。
　具体的に言うと、$Var(HT(y))^{-1/2} (HT(y) – t_y) $の漸近正規性、そして$Var(HT(y))$の一致推定のために、母集団と抽出デザインの系列に対してこれから述べる十分条件が求められます。
　HT推定量の漸近正規性については明示的に仮定してしまうことが多いです。任意のデザインについてそれを満たすための十分条件を述べるのが難しいからです。特定のデザインに絞れば話は別で、たとえばポアソン抽出と非復元単純無作為抽出についてはHajek(1960)の古典的結果がありますし、復元ありの層別非比例抽出についてはKrewski & Rao(1981)が、一般的な確率不均一抽出についてはBreidt, Opsomer & Sanchez-Borrego(2016)があります。
　$Var(HT(y))$の一致推定について、以下を付け加えます。

D3. すべての$N$について、$$ \min_{k,l \in U_N} \pi_{kl} \leq \lambda_2 \leq 0$$ [日本語訳: 二次包含確率には0より大きな下界$\lambda_2$がある]
この条件は、デザインがmeasurableであること、$\hat{V}(HT(y))$が不偏であることを保証しています。
D4. $\{y_k\}_{k \in U}$が以下を満たす。$$ \mathrm{lim \ sup}_{N \rightarrow \infty} N^{-1} \sum_{k \in U} y^4_k \lt \infty$$ [日本語訳: 母集団サイズがいくら大きくなろうとも、$y$の4乗の母平均には上極限があって、無限大にはならない]
この条件はD2を置き換えるものです。

　
　これらの条件の下で以下が示せます。$$ n E( ( \hat{V}(N^{-1} HT(y)) – Var(N^{-1} HT(y)) )^2 ) \rightarrow 0 $$　[日本語訳: 母平均のHT推定量の推定された分散の誤差二乗の期待値に標本サイズを掛けたやつは0に収束する。]
　HTと同様、平均平方一致性とデザイン一致性があることがわかります。漸近的正規性の仮定と合わせれば信頼区間を構成できます。

　[もう少し緩和したregularity条件についても紹介されているが、難しいのでパス]

　本章ではHT推定量の漸近特性について議論してきました。ここでの議論と枠組みは、より一般的なサーベイ推定量に拡張できます。それらの多くは不偏でもないし、分散についての正確な表現を持ちません。主な関心はそのデザイン一致性と漸近分布に向けられます。
　そういう話に進む前に、次章では、本章でのべた結果を2章の差分推定量に適用してみましょう。差分推定量はHT推定量を任意の固定的な$m(\cdot)$でシフトしただけのバージョンだからです。次章が、モデル・アシステッド推定量の漸近特性について理解するための鍵になります。

　以下、固唾を飲んで次号を待て！

読書日記

読んだ本を淡々と記録します

読了: Breidt & Opsomer (2017) 調査データ分析の第三の道、モデル・アシステッド・アプローチ (前編)