読了: Tille & Wilhelm (2017) 標本抽出デザインの良し悪しを決める三つの原理

Tille, Y., Wilhelm, M. (2017) Probability Sampling Designs: Princeples for Choice of Design and Balancing. Statistical Science, 32(2), 176-189

 Statistical Science誌の2017年の調査特集号に掲載された論文を全部読んじゃおうプロジェクト、その第4弾。この論文は標本抽出デザインの選択という話で、いまの私の関心からちょっと外れているので、メモは粗めである。

1. イントロダクション
 抽出デザインの選択に焦点を当てる。関心ある推定量は合計のNarain-Horvitz-Thompson(NHT)推定量とする。
 俺たちに言わせれば、抽出デザインの選択にあたって重要な原理が3つある。ランダム化、過剰表現(overrepresentation)、制約(restriction)だ。
 ランダム化原理とは、抽出デザインはできるだけランダムにしないといけないということだ。過剰表現原理とは分散が大きい単位を選ぶのがよいという原理である。制約原理とは、空のカテゴリを持つ標本や、なんらかの補足変数のNHT推定量が母合計から遠く離れているような標本を避けるという原理である。[はあ???]
 補足変数が利用できる場合、抽出デザインにそれを含めることで推定値の精度を高めることができる。補足変数の合計の推定値が真の合計と近似的に等しい標本を釣り合い標本という。直感的には、釣り合い標本は事前のカリブレーションだといえる。俺たちはCube法というのを提案してんだけど(Deville & Tille, 2004 Biometrika)、これは一次包含確率を使って釣り合わせる方法で、過剰表現原理と制約原理の直接的な実装だといえる。[なにいってんだかわからん…]
 上の3原理だけが選択の基盤だというつもりはない。手続きの単純さとか、台帳の品質とか、回答率の高さとかも大事だ。でも、調査の品質向上のためには一般的な原理について考えるべきだと思うぞ。
 […]

2. 確率抽出と推定
 サイズNの母集団をUとする。その下位集合(2^n個ある)の集合を\mathcal{S}とする。非復元標本sはその要素になる(空集合を含む)。抽出デザインp(\cdot)\mathcal{S}上の確率変数で、p(s) \geq 0かつ\sum_{s \in S} p(s)=1である。
 無作為標本Ssを確率p(s)で選んで得られる。つまりすべてのs \in \mathcal{S}についてPr(S = s) = p(s)である。Sが確率変数でsが実現値である。集合 \{s \in \mathcal{S}: p(s) \gt 0) \} \subset \mathcal{S}を抽出デザインのサポートという。たとえば「標本サイズnの抽出デザイン」のサポートは\mathcal{S}_n = \{s \in \mathcal{S} | \#s = n\}である。
 一次包含確率を\pi_k = \sum_{s \ni k} p(s)、同時包含確率を\pi_{kl} = \sum_{ s \supset \{k, l\}} p(s)とする。
 目的は合計 Y = \sum_{k \in U} y_kの推定である。
 ここまではいいな?

 YのNHT推定量は \hat{Y} = \sum_{k \in S} \frac{y_k}{\pi_k} である[kSの要素だと考えるのね。別にsでもいいような気がするけど]。もしすべてのk \in Uについて\pi_k \gt 0なら不偏である。これをE_p[\hat{Y}] = Yと書く。添え字は「p(\cdot)の下での期待値」という意味である。
 この推定量のデザイン分散はこうなる。 var_p(\hat{Y}) = \sum_{k \in U} \sum_{l \in U} \frac{y_k y_l}{\pi_k \pi_l} \Delta_{kl} ただし、\Delta_{kl}k \neq lのとき\pi_{kl} – \pi_k \pi_l, k = lのとき\pi_k(1-\pi_k)である。[抽出インジケータの共分散ってことね]
 標本サイズが固定なら、分散は以下のように単純化される。 var_p(\hat{Y}) = – \frac{1}{2} \sum_{k \in U} \sum_{l \in U; k \neq l} \left( \frac{y_k}{\pi_k} – \frac{y_l}{\pi_l} \right)^2 \Delta_{kl} [ええええ? そうなの? なんで? いや、nを固定したらHT推定量の分散が変わるというのはなんとなくわかるけど、この式になる理由がわからないーーー! ふつうnは固定しているから、これって結構大事な話じゃんか…]
 分散の推定量は…[式は省略するけど、上の2式のUSに代えて、\Delta_{kl}のところを\Delta_{kl} / \pi_{kl} に代えた式になる]。どちらの推定量も、\pi_{kl} \gt 0なら不偏である。

 要するに、一次包含確率が正なら、NHT推定量は不偏で、分散とMSEが一致する。二次包含確率も正なら、分散推定量がMSEの不偏推定になる。
 不確実性の定量化の際にはふつう正規分布を仮定する。多くの抽出デザインで正規性の仮定が漸近的に妥当となる。収束の速度はエントロピーに、つまり大雑把に言えばランダム性に依存する。

3. いくつかの基本的デザイン

  • ベルヌーイ抽出デザイン。単位が同じ包含確率\piを持つ独立なベルヌーイ変数で選択されるやつ。標本サイズは二項分布に従う。\pi_k = \pi, \pi_{kl} = \pi^2である。
  • ポアソン抽出デザイン。上のデザインで包含確率が\pi_kのやつ。標本サイズはポアソン二項分布に従う。\pi_{kl} = \pi_k \pi_lである。
  • 非復元の単純無作為抽出(SRS)。標本サイズはnに固定である。\pi_k = n/N, \pi_{kl} = \frac{n(n-1)}{N(N-1)} となる。
  • 条件付きポアソン抽出(CPS)。ポアソン抽出なんだけど標本サイズが固定されているやつ。実装は難しいけど不可能ではない。二次包含確率も求まる。なお、一次包含確率と標本サイズを固定した状態でエントロピー(後述)を最大化しているので最大エントロピー抽出ともいう。[へえー]
  • 層別抽出。層の数をHとして、p(s)は すべての層で\#(U_h \cap s) = n_hになるsについては\prod_{h=1}^H C(N_h, n_h)^{-1}、そうでないsについては0となる。一次包含確率はk \in hとして\pi_k = n_h / N_h, 二次包含確率は[…メモ省略…]。基本的な割り当てスキーマとして、比例割り当てとネイマン割り当てがあって[…メモ省略…]。

4. いくつかの抽出原理
4.1 ランダム化原理
 可能な限り多くの標本[個体じゃなくて、ありうる標本sのことね]に、できるだけ均等に正の確率を割り当てるべきだ。そうすることで、二次包含確率がゼロになるのを避け、NHT推定量の分散の不偏推定が可能になる。
 ある抽出デザインのランダム性の指標としてエントロピーがある。 I(p) = -\sum_{s \in \mathcal{S}} p(s) \log p(s) ただし0 \log 0 = 0とする。情報の量の指標ともいえる。エントロピーが高いデザインはランダム性の高い標本をもたらす。よってデザインはより頑健になる。漸近的な正規性への収束もエントロピーが高いときに速い。
 複雑抽出デザインでは、二次包含確率はめったに利用できないけど、エントロピーが高いデザインなら二次包含確率に依存しない近似式を使って分散推定できる。
 [なるほどね? そんならベルヌーイ抽出のエントロピーが一番高くて、SRSを層別抽出にするだけでエントロピーが下がるような気がするんだけど、合ってるだろうか]

4.2 過剰表現原理
 抽出とは、母集団の下位集合を選ぶことだけど、包含確率を等しくしなければならない特別な理由はない。推定量の分散に貢献する単位をより多く取ったほうがよい。いわゆる「代表性」という概念は完全にミスリーディングであって、標本は母集団のコピーだから推論のためには母集団と類似した標本を得なければならないという間違った直感に基づいている。実際には、推定量が不偏であるためには、母集団のすべての単位において一次包含確率がゼロでない抽出デザインを使うこと、つまりデザインにカバレッジの問題がないこと、だけが必要なのである。
 不均一確率抽出によってYをより効率的に推定できる。ポイントは、不確実性の高いユニットを多く取ることである。過剰表現の原理は、事前情報が利用できるなら包含確率は不均一であるべきだということを意味している。

4.3 制約原理
 [ここで標本を選ぶといっているのは母集団から個体を選ぶ話じゃなくて、母集団の下位集合\mathcal{S}からひとつの標本sを選ぶという話だからね… と自分に言い聞かせる]
 所与の特性集合を持つ標本のみを選ぶこと。たとえば、母集団のカテゴリの標本サイズを固定すること(層別)。そうする理由はいろいろある。たとえば、標本に空のカテゴリが生じるのを防ぎたいとか[やっと意味がわかった。特定の層の標本サイズがゼロになることをいっているのね]。また、標本からの推定がなんらかの補足知識と整合していることは望ましいことだ。そうした性質を持つ標本だけを選ぶというのは検討に値する。補足変数の合計の推定値が既知の合計と合致するように標本を選ぶとか。こういう標本を釣り合いのある標本という。一般に、制約によってある種の推定量の変動を取り除くことができる。
 制約原理はいっけんランダム化原理と矛盾するように見えるが、可能な標本の数はすごく多いから、制約を掛けても推定量の正規性は仮定できる。釣り合い抽出は「悪い」標本を避けることである。

5. 釣り合い抽出
 母集団からの非復元抽出は長さNの二値ベクトルで表現できる(抽出を1とする)。ある標本はN次元の単位超立方体の頂点とみなせる。この幾何的解釈が、抽出アルゴリズムの開発において中心的となる。[か、かんべんしてよ…]
 釣り合い標本とは以下を満たす標本である。単位kの補足確率変数の長さpのベクトル(母集団の全個体で既知)を\mathbf{x}_kとして \sum_{k \in S} \frac{\mathbf{x}_k}{\pi_k} = \sum_{k \in U} \mathbf{x}_k 別の言い方をすると、サポートを \left\{ s \in \mathcal{S}: \sum_{k \in s} \frac{\mathbf{x}_k}{\pi_k} = \sum_{k \in U} \mathbf{x}_k \right\} とするわけである。

 もっと一般化しよう。以下を満たす標本を近似的釣り合い標本と呼ぶ。 \left| \left| \mathbf{D}^{-1} \left( \sum_{k \in U} \mathbf{x}_k – \sum_{k \in S} \frac{\mathbf{x}_k}{\pi_k} \right) \right| \right| \leq c ただし\mathbf{D} = \mathrm{diag}(\sum_{k \in U} \mathbf{x}_k, cは正の定数、|| \cdot || はなんらかのノルムである。
 まあとにかく、関心ある変数と補足変数が強く相関している場合、こういうデザインでNHT推定量の分散も減少するわけである。

 標本サイズを固定した抽出デザイン(SRS, CPS)や層別抽出は釣り合い抽出の特殊ケースである。標本サイズを固定したとき、唯一の釣り合い変数が一次抽出確率になる[??? わからん]。層別の場合、Hこの釣り合い変数 \pi_k I(k \in U_1), \ldots, \pi_k I(k \in U_H)ができる[母集団における層1のサイズに層1の抽出確率を掛けた値が、標本における層1のunweightedなサイズに一致するということね]。

 釣り合い標本をどう実現するか。第一の方法は棄却手続きである。たとえば、SRSなりポアソン抽出なりを、近似的釣り合いが達成されるまで続ける[??? どういうことだろうか]。しかしそうすると包含確率が変わってしまい… [なんだか関心が失せてきたので中略]
 事前の一次包含確率を保持しながら釣り合い標本を選ぶ方法としてcube法がある。[…説明されているけれどよくわからん。まるごとパス]

6. 抽出デザインと釣り合い抽出のモデル・アシステッド選択
6.1 母集団のモデリング
 過剰表現原理と制約原理の実装のためには、関心ある変数と補足変数の関係のモデル化が必要である。たとえば次のモデルを考えよう。 y_k = \mathbf{x}_k^\top \beta + \epsilon_k \epsilon_kは平均0, 分散\sigma^2_{\epsilon k}に独立に従い、無作為標本Sとも独立とする。以下、モデルのもとでの期待値と分散であることを添え字Mで表す。
 NHT推定量のanticipated varianceは次の式となる。[どういう意味だろうか。式をみると、所与のモデルの下での分散の、所与の抽出デザインの下での期待値になっているようだけど…] AVar(\hat{Y}) = E_p E_M (\hat{Y} – Y)^2 = E_p \left( \sum_{k \in S} \frac{\mathbf{x}^\top_k \beta}{\pi_k} – \sum_{k \in U} \mathbf{x}^\top_k \beta)^2 \right) + \sum_{k \in U} (1-\pi_k) \frac{\sigma^2_k}{\pi_k} 第二項をGodambe-Joshi boundという。[へー]

 では、標本サイズnが固定されていたらどうなるか。anticipated varianceを最小化する抽出デザインは、包含確率を\sigma_{\epsilon k}に比例させ、補足変数\mathbf{x}_kについて釣り合いのとれたデザインである。包含確率はこうなる。 \pi_k = \frac{n \sigma_{\epsilon k}}{\sum_{l \in U} \sigma_{\epsilon l}} もし1を超える箇所があったら1に設定して再計算する。
 このときanticipated varianceは…[中略]

 ランダム化原理を適用すれば、anticipated varianceを最小化させる制約の下での最大エントロピー抽出デザインが得られるだろう。しかし、特定のケースを除き、この問題への一般的な解は存在しない。もし解がみつかったら、それを「最適」デザインと呼ぶ。最適デザインの例を示す。[表が載っている。たとえばモデルがy_k = \beta + \epsilon_kだったら、最適デザインはSRS、モデル分散は\sigma^2, 包含確率はn/Nになる、とか]
 [いろいろ書いてあるけど、なんか関心なくなっちゃったのでパス]

6.2 モデル・ベース・アプローチとの関連
 別の研究として、モデルベースアプローチによるものがある。この枠組みでは、合計の推定とは予測問題であり、超母集団モデルに基づいて推論が行われる。たとえば、上で挙げたモデル y_k = \mathbf{x}_k^\top \beta + \epsilon_k の下での最良線形不偏予測量(BLUP)は… [式省略]。NHT推定量とBLUPが等しくなるのはどういうときかというと…[略]

6.3 線形回帰モデルを超えて
 上のモデルを線形混合モデルに拡張するというのが、特に小地域推定で盛んにおこなわれている。ノンパラモデルへの拡張もある。

7. 空間釣り合いモデル
8. 適用例
 [空間から地点をどうやって抽出するかという話らしい。なるほどね、補足変数とか空間相関とかをいれたモデルで測定地点を最適化できそうだね。面白そうだけどいま関心ないのでパス]

9. 考察
 本論文では理論的に魅力ある3つの原理を提案した。
 本論文の限界: (1)理論的原理のほかに実務的制約がある。(2)単純性も大事だ。(3)多目的な調査においては、関心ある変数と補足変数の関係を要約するひとつのモデルをつくれない。(4)縦断調査では全然別の問題が起きる。
 云々。
———————-
 5節あたりから関心が急激に薄れて流し読みになってしまったけれど、勉強になりました… なりましたような気がします。
 著者らのいう3原則って、実験計画でいうFisherの三原則みたいなものじゃない? ランダム化原理はFisherのそれと似たようなもので、残りのふたつの原理はFisherのいう局所管理。知らんけど。
 論文の主旨からはちょっと外れるけど、標本の「代表性」なんてのはミスリーディングな概念だ、と書いているくだりが面白かった。なんでも、Kruskal & Mosteller (1979, 1980)という、統計学内外の「代表性」概念を概観する4本のレビュー論文があるらしい。面白そうだけど、自分で読もうとまでは思えないな…