« ウェイティング回顧録 (私は結構ヒマな男なのではないか) | メイン | 生存時間データの打ち切り・切断に関する用語総ざらえ »
2015年6月16日 (火)
Gabler, S., Haeder, S., Lahiri, P. (1999) A model based justification of Kish's formula for design effects for weighting and clustering. Survey Methodology, 25(1), 105-106.
なにかの事情で調査のデザインが複雑になり、集計する際に確率ウェイティングしなければならないとき、ウェイティングによって推定量の標準誤差が拡大する。その拡大の大きさを知る方法として、Kishのデザイン効果の公式が有名だけど、Kish先生はなにしろ謙虚な方なので「この扱いは不完全で不十分なものかもしれない」とおっしゃっている。Kishの公式が正しいことを示します。というたった2頁の論文。
多段抽出の状況で、それぞれの観察があるウェイティングのクラスに属している場合を考える。たとえば一次抽出単位が地域、二次抽出単位が世帯で、世帯の世帯人数の逆数をウェイトにする場合、各地域がクラスタで、たとえば「二人世帯」がクラスである。
クラスタを$c=1,\ldots,C$、そのクラスタのサイズを$b_c$、クラスタサイズの平均を$\bar{b}$、級内相関係数を$\rho$とする。クラスを $i=1,\ldots,I$, クラスタ$c$のクラス$i$ [原文では$I$だがミスだろう] に属する観察数を$m_{ic}$、クラスタを通した観察数の合計を$m_i$、クラスとクラスタを通した観察数の合計を$m$とする。Kishのデザイン効果は
${\rm deff}_{Kish} = m \frac{\sum_i^I w_i^2 m_i}{(\sum_i^I w_i m_i)^2} [1+(\bar{b}-1)\rho]$
である。
クラスタ$c$における抽出単位$j$の観察値を$y_{cj}$、ウェイトを$w_{cj}$とする。母平均のデザインベースの推定量は
$\bar{y}_w = \frac{\sum_c \sum_j w_{cj} y_{cj}}{\sum_c \sum_j w_{cj}}$
ですわね。
- $y$の分散と共分散は、クラスと抽出単位を問わず${\rm Var}(y_{cj}) = \sigma^2$, $c=c', j \neq j'$のときに${\rm Cov}(y_{cj}, y_{c'j'}) = \rho \sigma^2$, そうでないときには${\rm Cov}(y_{cj}, y_{c'j'}) =0$であるというモデルを仮定しよう。クラスタ抽出の場面での無理のない仮定である。これをモデル1と呼ぶ。
- もっと強気に、${\rm Var}(y_{cj}) = \sigma^2$、$(c, j) \neq (c', j')$なら常に${\rm Cov}(y_{cj}, y_{c'j'}) =0$、というモデルも仮定しよう。単純無作為抽出の場面でのモデルである。これをモデル2と呼ぶ。
デザイン効果を${\rm deff} = {\rm Var}_1 (\bar{y}_w) / {\rm Var}_2 (\bar{y})$と定義しよう。分散記号の添え字はモデルの番号である。
準備はできた。さて! このデザイン効果の定義をどんどん展開していく。分母はかんたん、$\sigma^2/m$だ。分子${\rm Var}_1 (\bar{y}_w)$をごりごり整理していくと、結局Kishの公式まであともう一歩、
${\rm deff} = m \frac{\sum_i w_i^2 m_i}{(\sum_i w_i m_i)^2} [1+(b^*-1)\rho]$
$b^* = \sum_c (\sum_i w_i m_{ic})^2 / \sum_i w_i^2 m_i$
というところまで持っていける。面倒ではあるが、まあ理解可能な変形であった。
ここでコーシー・シュワルツの不等式を持ちだす。ええと、長さが同じ2本のベクトルについて(二乗和の積)≧(積和の二乗)だ。$b^*$の分母のサメ―ションの内側$(\sum_i w_i m_{ic})^2$が積和の二乗になっていることにご注目。ちょっと工夫して書き換えてからコーシー・シュワルツの不等式を適用すると、$b^* \leq \bar{b}_w$と書ける。ここで$\bar{b}_w$とはクラスタサイズのウェイティングした平均である。クラスタサイズがみな同じなら$\bar{b}$である。つまり、Kishの式はクラスタサイズが等しい場合のdeffの上界を示しているのだ。
... あれれ? Kishのdeffは$w$と$y$が独立だという仮定の下での指標だと思ってたんだけど、その仮定がなくても、Kishのdeffが真のデザイン効果の上界だというところまではいえるってこと?
それともひょっとして、式の展開の途中にこの仮定がこっそり忍び込んでいるのかしらん。いやいや、専門家のなさることだから、そんなズルはないだろうけど。いずれ時間ができたら読み直そう。
論文:データ解析(2015-) - 読了:Gabler, Haeder, & Lahiri (1999) 「ウェイトバック集計」におけるKish先生のデザイン効果の公式が正しいことを示そう