読書日記: 読了: Park & Lee (2001) デザイン効果、その知られざる真実

« 読了: Armisted (2014) 第三変数の復活 | メイン | 読了：Muthen & Satorra (1995) 複雑な標本抽出デザインのデータに対するSEM »

2014年3月11日 (火)

　ひょんなことから、いわゆるウェイト・バック集計について考える機会があった(年に何回かそういうことがある)。ふと思いついて、日本語での解説をwebで探してみたら、みつかるページはピンキリである。大変失礼ながら、かなりイイカゲンな説明が多い。「ウェイトバック後のサンプル数」とか。それはいったいなんだ。
　OJTというのはあてにならないもので、いま関わっている市場調査の分野を見ていると、経験を積んだ優秀なリサーチャーの方でも、この話に関しては結構怪しげな考え方をすることがある。性別や年齢のような共変量について、母集団の構成比率と標本の構成比率とを事後層別ウェイティングで揃えることは、それが可能な限りにおいて常に善である、とか。そんなことはない。一般に確率ウェイティングは推定量の分散を増大させる。個別の調査データ解析にとってホントに大事なのは不偏推定ではなく推定誤差の最小化なのだ。デザイン効果やeffective sample sizeって聞いたことないんですかね？ ... と思ったところで、ハタと気が付いた。ごめんなさい、私もいまいちよくわかってないです。お世辞にも得意分野とはいえない。

Park, I. & Lee, H. (2001) The design effect : Do we know all about it? Proceedings of the Annual Meeting of the American Statistical Association. 2001.
　というわけで反省して、昼飯のついでにいくつかの資料に目を通した、そのなかの一本。ASAのProceedingsだけど、タイトルがそのものずばりだったので。著者らはWestat社の人。

　まず、デザイン効果の小史。

design effectという考え方を最初に提出したのはCornfieldという人である[Kishではないのね!!]。彼の定義では、ある複雑な抽出デザインの効率は、「ある統計量の、単純無作為非復元抽出(srswor)の下での分散と、同じ標本サイズの複雑なデザインの下での分散との比」である。この逆数がdesign effectと呼ばれた。
design effectが有名になったのは、Kish(1965)"Survey Sampling"からである[8章2節。私が持っている1995年版でもそうだ。なんてこったい、大幅改定されているものだとばかり思っていたぞ]。彼の定義では、「標本の分散の、同じ要素数の単純無作為標本の分散に対する比」。たとえば、ある複雑なデザインにおける母平均 $\bar{Y}$ の推定値 $\bar{y}$について、design effectは
　$Deff = Var(\bar{y}) / \{ (1-f) S^2_y / n \}$
ここで $n$ は標本サイズ、$S^2_y$ は母分散 (標本分散ではない)。$f$ は標本割合で、単に有限母集団修正をしているだけである。
Deffは抽出デザインによっても異なるし推定量によっても異なる。Sarndal et al.(1992) "Model Assisted Survey Sampling"は次のように定式化している。デザインを $p$, 母集団パラメータを $\theta$, その推定量を $\hat{\theta}$ として、
　$Deff(p, \hat{\theta}) = Var_p(\hat{\theta}) / Var_{srswor}(\hat{\theta}')$
ここで $\hat{\theta}'$はsrsworの下での推定量で、通常 $\hat{\theta}$ とは異なる。たとえば、母平均の推定ならば、$\hat{\theta}=\sum w_i y_i /\sum w_i, \hat{\theta}' = \sum y_i / n$ であろう。
Kish(1992)では新たにDeftが提案された。これは、非復元抽出ではなく復元抽出(srswr)を分母にとったもの。
　$Deft(p, \hat{\theta}) = \sqrt{ Var_p(\hat{\theta}) / Var_{srswr}(\hat{\theta}') }$
Sarndalらとちがって平方根がついている。調査データ分析の専用ソフトであるWesVarやSUDAANでは、$Deft^2$ をDeffと呼んでいる由。
Kish(1987)は、ウェイト値と $y$が無相関のときの平均のDeftの近似式として下式を示している:
　$Deft^2(p, \hat{\bar{Y}}) = { 1 + \rho (\bar{b} - 1) } (1+cv^2_w)$
ここで $\rho$ は級内相関、$\bar{b}$ はクラスタサイズの平均, $cv^2_w$ はウェイト値の相対分散である。ウェイト値と $y$ に相関がある場合の修正式はSpencer(2000, Survey Methodology)によって提案されている。

　さて。母集団パラメータとして合計 $Y$ と平均 $\bar{Y}$ に注目しよう。複雑な抽出デザインにおいて、合計の不偏推定量は $\hat{Y} = \sum w_i y_i$ (w_iはどなたかが宜しく作ってくれたとして)、平均の不偏推定量は $\hat{\bar{Y}} = \sum w_i y_i / \sum w_i$ である。良く似ている。しかし、$Deft(p, \hat{Y})$ と $Deft(p, \hat{\bar{Y}})$ は全然違っている。前者のDeftはとても大きい。
　Kish(1995)はこういっている。「Deftは要素の変動性($S^2_y / n$)のむこうにある標本デザインの効果を表現するために用いられる。そのために、測定単位と標本サイズの両方を剰余変数として除外するのである。測定単位 $S_y$ とサンプルサイズ $n$ を取り除くことで、標本誤差におけるデザインの効果が他の統計量や他の変数に一般化できるようになる。同じ調査のなかでも、異なる調査の間でさえ」。この言葉は $\hat{\bar{Y}}$ についてはだいたい正しいが、$\hat{Y}$ については正しくない。

　というわけで、この論文の本題は、合計に対するdesign effectの話であった。そうタイトルに書いといてほしいなあ。
　有限母集団 $U$ からの、ある複雑なデザインによる標本サイズ $n$ の復元抽出を考えよう。要素 $k$ の値を $y_k$ とする。$k$ の抽出確率を $p_k$ とし、$U$ を通じて $\sum p_k = 1$ と基準化する。$i$ 番目に抽出された単位を $k_i$ とする。$y_{k_i}$ とか書くのが面倒なので $y_i$ と書く。
　母合計 $Y = \sum y_k$ の推定量は
　$\hat{Y} = 1/n \sum_i y_i / p_i$
これをHansen-Hurwitz推定量という(へー。知らなかった)。その分散は、
　$Var(\hat{Y}) = 1/n \sum_U (1/p_i) (y_i - p_i Y)^2$
いっぽう、母平均 $\bar{Y} = Y / N$ の推定量は、
　$\hat{\bar{Y}} = \hat{Y} / \hat{N}$
ただし、$\hat{N} = \sum_i (1/np_i)$ である。
式の展開は端折って、それぞれのDeftは以下のようになる由。$N$ が十分大きいとして、
　$Deft^2 (\hat{Y}) \approx { \sum_U (1/p_i) (y_i - p_i Y)^2 } / {\sum_U N (y_i - \bar{Y})^2 }$
　$Deft^2 (\hat{\bar{Y}}) \approx { \sum_U (1/p_i) (y_i - \bar{Y})^2 } / {\sum_U N (y_i - \bar{Y})^2 }$
ここで $p_i$ と $y_i$ の無相関を仮定すると、二本目の式はKishの与えた有名な近似式 1 + ($w_i$の相対分散) に帰着する。
　さて、上の二本の式を整理すると、結局
　$Deft^2 (\hat{Y}) - Deft^2 (\hat{\bar{Y}}) = (1/CV_y^2) {\sum_U (1/p_i) (p_i - \bar{P})^2 - (2/Y) \sum_U (1/p_i) (y_i - \bar{Y})(p_i - \bar{P}) }$
ただし $CV_y = S_y / \bar{Y}$。つまり、合計に対するデザイン効果は、平均に対するデザイン効果よりも大きくなる。その増分は、$y$ の分散が小さいとき、$p_i$ の分散が大きいとき、$p_i$ と $y_i$ の相関がないとき、に大きくなる。へえー。

　最後に、Spencer(2000)による修正式が合計に対しては当てはまらない、という説明。それからデータ例。読み飛ばした。
　結論。合計の推定におけるデザイン効果はKishの説明とは異なり、変数の分散や変数と抽出確率との相関に依存するから注意しないといけない。云々。

　ある複雑なデザインの調査データを集計する際に、確率ウェイティングを行うかどうか悩む場合がある。その判断の手がかりになるのが、確率ウェイティングによる推定精度の低下の評価、すなわちデザイン効果の推定である。いっぽう集計の際には、確率ウェイティングだけでなく、頻度について母集団サイズへの拡大推計を行うこともある。この2つは全然別の事柄だから、まず確率ウェイティングの是非について考え、ウェイティングするかどうか決め、割合を求め、それに母集団サイズを掛ければいいや、と思っていた。でもこの論文によれば、母集団における頻度を統計量と捉えたとき、その推定量におけるデザイン効果は平均のデザイン効果より大きくなるわけだ。ということは、拡大推計を行う際はそのことを考慮して、ウェイティングの是非をよりシビアに判断する必要がある、ということになりそうだ。うううむ。そうなのか。あとでよく考えてみよう。とにかく、意外な面で勉強になりました。

　ところで、この文章によれば、KishがDeftを提案したのは1992年の論文"Weighting for Unequal P_i"である。この論文はかなり前に読んだのだけど、デザイン効果についての突っ込んだ議論はなかったし、記憶が正しければそもそもDeftなんて出てこなかったように思う。著者らはなにかと勘違いしているのではないだろうか。調べてみると、1995年の"Methods for Design Effects"という論文が怪しい。掲載誌はどちらもJ. Official Statisticsだし。

論文：データ解析(-2014) - 読了: Park & Lee (2001) デザイン効果、その知られざる真実

読書日記

読んだ本を淡々と記録します

2014年3月11日 (火)