読了: Kish(1995) デザイン効果とはなにか

Kish, L.(1995) Methods for Design Effects. Journal of Official Statistics, 11, 55-77.

 調査データ解析のレジェンド、Kish大先生によるデザイン効果の解説。デザイン効果ってのはあれですね、推定量の分散が標本デザインのせいでどれだけ拡大したかってやつですね。調査に関わる多くの人にとってさえ、わりかしどうでもいい話かもしれないが、マーケティング・リサーチにおいては結構深刻な話題である。その深刻さに気付いているかどうかは別にして。

 掲載誌はStatistics Swedenが出している雑誌で、上記リンクはpdfへの直リンク。この雑誌は2013年からはSageが出しているんだけど、それ以前についてはStatistics Swedenがpdfを配っている。DOIも振られてないんじゃないかしらん。私は原論文ではなくて、論文集”Leslie Kish: Selected Papers”に再録されているのを読んだ。

 晩年のKish先生の他の論文もそうなんだけど、おそらくは講演録がもとになっているせいで、説明はかなりラフである。数式の展開とかは付録でやるんだけど、そっちも結構ラフである。どうなっているんだ。ここでは付録も本文に埋め込む形でメモする。節の中の小見出しは私が勝手につけている。

1. イントロダクション
[略]

2. デザイン効果の定義
deffの定義
 デザイン効果の最初の定義 [おそらくKish(1965)”Survey Sampling”であろう] はこうであった。標本平均\( \bar{y} \)の現実の分散 \( \mathrm{var}(\bar{y}) \)が適切に求められているとして、
$$ \mathrm{deff} = \frac{\mathrm{var}(\bar{y})}{(1-f)(s^2/n)}$$ \(s^2\)は抽出率\(f\)のサイズ\(n\)のEPSEM標本に基づいて求められた要素分散である。
 [ここのKish先生の説明はひどくわかりにくい… おそらくこういうことだと思う。どうやってわかったのかは別にして、所与の標本デザインの下で求めた標本平均の分散\(\mathrm{var}(\bar{y})\)と、母分散\(s^2\)がわかっているとする。もしその標本じゃなくくて、サイズ\(n\)の等確率抽出標本を得ていたならば、そこから得られる標本平均の分散は(有限母集団修正を別にすれば)\(s^2/n\)だから、標本平均の現実の分散とそれとの比をとろう。ということだと思う。
 分母についてEPSEM標本と説明されているところもわかりにくい。EPSEM(equal probability of selection method)というのは、標本包含確率が全個体間で等しいってことだろうなって思うじゃないですか。すると、クラスタ抽出であっても、標本包含確率さえ等しければEPSEMだということになるけれど、そのとき標本平均の分散は\(s^2/n\)にならない、でも\(s^2/n\)でいいの? って思っちゃうじゃないですか。おそらくEPSEMというのは、一次包含確率も二次包含確率も等しい、つまり単純無作為抽出のような標本のことなのだと思う]

deftの定義
 しかし、今日では私を含め多くの人が、次の定義のほうをより好んでいる。
$$ \mathrm{deft} = \sqrt{ \frac{\mathrm{var}(\bar{y})}{ s^2/n } } $$ [さあ、このdeftの初出論文はなんだろうか。Park & Lee (2001)はKish(1992)としているんだけど、それはたぶん勘違い。私はdeftの初出はこの論文なのではないかと疑っている]

 ここでいくつかの戦略的決断について述べておこう。

  • \( \mathrm{deft}(\bar{y}) \)はシンプルでなければならない。ひとつの調査のなかに\(y\)はたくさんあるわけだから。
  • もっと複雑な統計量についても\( \mathrm{deft} \)を求めたい。後述する。
  • \(\mathrm{var}(\bar{y})\)の適切な推定値をどうやって得るか、というのはこの論文の範囲外である。調査法の教科書とかをみよ。

 過去40年のあいだに私も他の人も変わった。昔は数個の\(y\)について\(\mathrm{deft}(\bar{y})\)を求めて他の変数に一般化すればいいやと思っていた。いまはそういう時代じゃない。もっとも、ある程度の一般化はできると思うけどね。

deffとdeftのちがい
 deffよりdeftのほうが優れていると思う理由は以下の通り。

  • deftは \(\bar{y} \pm t \mathrm{se}(\bar{y})\)と同じ単位で表現されている。だから、deftを\(t\)なり\(\mathrm{se}(\bar{y})\)なりに掛ければよい。[原文では\(\bar{y} \pm t \mathrm{ste}(\bar{y})\)という表記になっているが、わかりにくいので勝手に変えた。\(t\)ってのは\(t\)値じゃなくて、幅を決める定数ね]
  • \(\sqrt{\mathrm{deff}}\)って書くより\( \mathrm{deft}^2 \)って書くほうが楽でしょ?
  • \(1-f\)というのはデザイン効果の一部だと考えたほうが良い。ベースはIIDな単純無作為標本なのである。[ああなるほどね、有限母集団修正ってのは標本が微妙にIIDじゃないからやるわけで、つまり標本デザインに由来する修正だもんね]
  • 抽出がEPSEMでないのに抽出率が\(f\)だというとき、\(1-f\)の代わりにどうすればいいのかを決めるのが難しい。

諸注意

  • 細かいことはどうでもいいんだけど、しかし母集団パラメータとしてのDeff, Deftと標本に基づくdeff, deftとは区別する必要がある。また\(\mathrm{SE}(\bar{y}) = \sqrt{ \mathrm{Var}(\bar{y}) }\)と\(\mathrm{se}(\bar{y}) = \sqrt{ \mathrm{var}(\bar{y}) }\)も区別する必要がある。
  • 他の統計量\(b\)のdeftを考えることもできる。$$ \mathrm{deft}(b) = \sqrt{ \frac{ \mathrm{var}(b) }{ \mathrm{var}_{SRS}(b) } } $$ [分母は原文では\(SRS \mathrm{var}(b)\)だけど、書き直した]
  • Deftの分母はSRSでの分散\(S^2/n\)である。Fisherの効率性は「最適」デザインが分母だが、ここではいわば水の融点を0にするというような考え方をとっている。
  • 後述するように、$$ \mathrm{Deff}-1 = \frac{ \mathrm{Var}(b) – \mathrm{Var}_{SRS}(b)}{\mathrm{Var}_{SRS}(b)} $$ のほうが便利なこともあるのだが、これは負になりうる。いっぽう\( \mathrm{Deft}^2 \)は負にならない。

付録E.2A
 [私の理解力の問題だと思うけど、話のポイントがつかめなくてメモをとれない… \(\hat{s}^2 = \frac{1}{n}\sum y^2_j – (\frac{y}{n})^2\)の期待値は\(\sigma^2 = \frac{1}{N}\sum Y^2_i – \bar{Y}\)じゃなくて\(\sigma^2 – Var(\bar{y})\)だよ、という注意喚起なのかなあ?]

付録E.2B
 デザイン効果の歴史について。
 似た概念は、19世紀末ドイツのLexisという人にさかのぼる。Yule & Kendall(1965)の教科書には「Lexis比」として紹介されている。さらに言えば、Fisher(1950)の「級内相関」概念は、分散分析における要素内の分散と要素間の分散を問題にしている。
 分散の比を求めようという発想は40年代末からちらほらあって、Hansen et al.(1953)は5つの大きな標本について真の分散とSRS分散の比を求めている。

3. deftが不要な場面
 以下のいずれかの場合にはdeftはいらない。

  • 母集団のどの部分についてもIIDとみなせるような場合。そういう幻想を持つ人は、モデル依存的な統計家、数理統計家、計量経済学者、楽観的な研究者やマーケティング・リサーチャーなどなど多岐にわたるのだが、私ら標本抽出専門家に言わせれば、甘いね。[←とは書いてないけどだいたいそういう主旨]
  • 標本デザインがSRSに近いとき。
  • 母集団なり標本なりが「近似的にランダム」だという仮定を受け入れるとき。小標本の場合に多い(そもそも抽出誤差が大きいから、非ランダム性によるバイアスがあまり気にならない)。
  • 記述しか求められていないとき。
  • ひとつ、ないし少数の統計量についてのみ抽出誤差と推測統計量が求められているとき。その統計量についての信頼区間を出せばよい。

4. deftが必要な場面
deftの意義
 deftを求める主な理由とは:

  • ある調査のいろんな調査変数について抽出誤差を平均したい時。SEの平均には意味がない(単位がちがうから)。deftの平均のほうがよい。もっとも、調査変数によってdeftが大きくばらつくことも多いけれど。[デザイン効果ってそういう発想だったのか… 調査変数が特定できない状況で標本抽出デザインの良し悪しを考えるための指標だと思っていたよ]
  • 定期的な調査を通じて同じ変数を平均するとき。時期による標本サイズの違いを取り除く際には、SEよりDeftのほうがよい。[??? そうなの?]
  • 同じ調査で異なる統計量の誤差を関連付けるとき。[ここだけ読むと訳が分からないが、あとで説明がある]
  • 過去の調査を参考にして、同じ台帳を使った別の調査を計画するとき。
  • 分散の計算を間違えていないかどうか、deftと見比べてチェックする。

どの変数についてのdeftを求めるか
 では、どの変数についてのdeftを求めるのが良いか。かつては、いくつかの重要な変数とか代表的な変数とかについてdeftを求めるのがよい、と思っていたんだけど、現在では、むしろ全変数についての平均のdeftを求めるのが良いと思うようになった。理由:

  • いまでは抽出誤差の計算はかんたんだから。
  • 調査変数によってDeftは大きく異なるから。
  • 平均のdeftは、もっと複雑な統計量のdeftと関連しているから。

 調査変数の平均として最も一般的な形式は比率だけれども、比率だろうがなんだろうが、標本平均というのはふたつの確率変数の比\(r = y/x\)だ。\(x\)は標本サイズ。[標本サイズは定数であることのほうが多いと思いますけどね]
 二値変数の場合は\(\mathrm{deft}(p_1) = \mathrm{deft}(p_0)\)だけど、三値以上のカテゴリカル変数はカテゴリごとにdeftが出る。往々にしてカテゴリによって大きく異なったりする。

deftのみせかた
 deftはふつう1から3とか5くらいになるはずなので、分散やSEよりも間違いのチェックに向いている。いっぽう、非専門家の受け手にとってはあまり意味がない。技術付録につけるのがよい。
 [このあとの記載の意味がよくわからなかったんだけど、たぶん、たくさん二値変数があるときにdeftを平均して、割合0.5だったら抽出誤差がだいたいどうなるか、割合0.1だったら… という表をつくる、という話ではないかと思う]

付録E.4A
 deftの代わりによく使われてきたのが、\(\mathrm{CV}(\bar{y}) = SE(\bar{y})/\bar{Y}\)とその二乗である。しかしCVには以下の欠点がある。

  • CVは\(\sqrt{n}\)の関数になっているが、deftからは取り除かれている。
  • CVもDeffに依存するのだが、明示的な表現を欠いている。
  • 分母が小さいときに不安定になる。
  • \(\mathrm{SE}(p) = \mathrm{SE}(1-p)\)だが、CVはそうならない。

5. その他の必要な抽出誤差
 deftと一緒に、平均( \(\bar{y}\), \(r\), ないし\(p\) ) とか、\(y\)の合計とか母合計推定値\(\hat{Y}\)とか、\(\mathrm{se}(\bar{y})\)とか\(\mathrm{se}_{SRS}(\bar{y})\)とかを併記するのがふつうだろう。これらに比べれば\(\mathrm{var}(\bar{y}) = \mathrm{se}^2(\bar{y})\)の必要性は低い。\(\bar{y} \pm 2 \mathrm{se}(\bar{y})\)のチャートを描くのはいいだろうけど。
 \(n\)を見せるのもよい。ふつうはEPSEM選択における標本要素数だから。欠損が少ないなら、すべての変数について\(n\)を載せる必要はなくて、冒頭で\(n\)をPSUの数\(a\)を示せば十分だろう。
 いわゆる有効標本サイズ \(n’ = \frac{n}{\mathrm{deft}^2} \)を載せるべきだろうか? 私にもどうすべきかわからない。等質性比 \(\mathrm{roh} = \frac{\mathrm{deft}^2 – 1}{\frac{n}{a} – 1}\)を載せたほうがいいかもしれないけれど、解釈が難しい。
 […CVを載せるべきか。メモ省略…]

付録E.5 [cvの話。メモ省略]

6. 下位クラスと差
[なんだか関心をなくしてしまったので、気合をいれるため、この節のみほぼ逐語訳]

問題
 今度は、全体の平均と下位クラスとの比較という問題について考えよう。これは理論的検討というよりも実務的な理由による検討である。下位クラスの統計量はよく用いられるが、そのもっとも一般的な理由は比較である。一番多い形式は下位クラス\(c, b\)のあいだの差\(\bar{y}_c – \bar{y}_b\)だが、比\(\bar{y}_c / \bar{y}_b\)とか、\( \frac{ p_b / (1-p_b) }{ p_c / (1-p_c) } \) のような形式が用いられることもある。

ふたつの標本の差
 下位クラスの問題に取り組む前に、2つの標本の差\(\bar{y}_1 – \bar{y}_2\)について考えておこう。いろいろなタイプがあるが、そのうち2つのタイプを区別しておく。第一に、2つの地域とか2つの国のような、2つの独立標本の比較である。その場合、$$ \mathrm{Deft}^2(\bar{y}_1 -\bar{y}_2) = \frac{\mathrm{Var}(\bar{y}_1) + \mathrm{Var}(\bar{y}_2)}{\mathrm{Var}_{SRS}(\bar{y}_1) + \mathrm{Var}_{SRS}(\bar{y}_2)} $$ となる。両方の平均の\(\mathrm{Deft}\)と\(n\)が似ていたら、差の\(\mathrm{Deft}^2\)はふたつの\(\mathrm{Deft}^2\)の重みづけ平均となる(重みは\(1/n_i\))。同じ調査で地域間比較をする場合には、全体と地域の標本サイズを\(n_t, n_c\)として、\(\frac{n_t}{n_c} \mathrm{Deft}^2(\bar{y}_t)\)を使うのが一般的で安全だろう。[ここだけ読むと意味不明だが、あとで出てくる小地域の話を読むとわかる]
 いっぽう、同じ調査の2時点の差の場合は$$ \mathrm{Deft}^2(\bar{y}_1 – \bar{y}_2) = \frac{\mathrm{Var}(\bar{y}_1) + \mathrm{Var}(\bar{y}_2) – 2 \mathrm{Cov}(\bar{y}_1, \bar{y}_2)}{\mathrm{Var}_{SRS}(\bar{y}_1) + \mathrm{Var}_{SRS}(\bar{y}_2)} $$ となる。なぜなら、差の\(\mathrm{Deft}^2\)の値を著しく減少させる共分散が利用可能だからである。共分散と\(\mathrm{Deft}^2\)減少は、同じクラスタ(一次、二次、あるいはもっと低次)を使うことによっても生じる。たとえ要素や最終セグメントが異なっているとしても生じる。共分散は相関係数\(R_{12}\)からも求めることができる。

領域間の比較
 下位クラスのタイプのひとつに「正則」ないし「領域」下位クラスと呼ばれるものがある。含んでいる標本が独立である下位クラスのことで、上記の最初のタイプと似ている。例としては、地域とか、都市と地方の比較とかが挙げられる。分散とdeftの計算方法はこの2つの例の間で異なる。都市部の標本の選択とクラスタリングの方法は地方の標本の場合とは全く異なるので、deftも全く違うかもしれない。また、ふつうは十分な一次選択があるので、分散の推定を都市と地方とでは別の方法でやることことも正当化できるだろう。いっぽう地域の場合は、地域が小さくて多いとき、一次選択(PSU)の数が少なく、自由度が小さく、分散とdeftはきわめて不安定になる。この場合は全体の\(\mathrm{deft}^2(\bar{y}_i)\)を平均として使うことが望ましい。下位標本サイズ\(n_c\)の地域の\(\mathrm{deft}^2\)は、\(\frac{n_t}{n_c} \mathrm{deft}^2(\bar{y}_t)\)として推測できる。[ざっと読んだときはわけがわからなかったんだけど、ほぼ逐語訳してみたらようやくわかった。これ小地域推定の話じゃん、ちょっと別の話じゃん。Kish先生は実務に寄り添うあまり、話をどんどん広げてしまうのである]

交差クラス
 下位クラスのもう一つのタイプとして「交差クラス」と呼ばれるものがある。上のタイプよりも一般的である。たとえば、年代と他のデモグラフィックなクラスとか[…例示を省略]。これらはクラスタリングと層別の効果の一部ではありえないし実際そうでない。これらは標本デザインを「横断」しており、一次選択のすべてないし多くにおいてみられる[要するに、標本抽出デザインには出てこないような層別のことね]。したがって、交差クラスは(ほぼ)同数の一次選択に基づき、標本全体と同程度の安定性を持つ。従って、標本クラスタのサイズ\(n_c/a\)は標本サイズ\(n_c\)の平均とともに減少し、「デザイン効果」もほぼ比例的に減少する。
 ここから\(\mathrm{deft}^2 = 1 + \mathrm{roh}(n_c/a-1)\)が得られる。ここでは\(\mathrm{roh}\)が交差クラスを通じて一定だと仮定している。この仮定は必ずしも正しくないし数学的に得られるわけでもないが、多くの場合において経験的に支持される。つまり、\(\mathrm{Deff}\)は一般に、クラスタサイズ\(n_c/a\)の減少ともに1に近づく。この減少はスムーズでないし完全に成り立つわけでもない。その理由のひとつはクラスタサイズの相対的分散の上昇である。こうした不規則性hあ、真の「交差クラス」でない下位クラスではより大きくなる。そうした下位クラスではクラスタサイズがランダムよりも大きな変動を持つからである。実際、社会経済的下位クラスはデモグラフィック下位クラスよりも大きな変動と大きなrohを持つ。従って、1.2rohないし1.3rohを使うことを勧める。
 過去経験に基づき、同じ変数の標本全体の\(\mathrm{var}(\bar{y}_y)\)から、下位クラスの分散\(\mathrm{var}(\bar{y}_c) = \mathrm{se}^2(\bar{y}_c)\)を推測する良いモデルを使うこともできるかもしれない。

  • 分散は標本サイズに反比例し\(n_t/n_c\)倍に増える。しかしこのSRS調整は、\(\mathrm{deft}(\bar{y}_t)\)が1に近くないときには修正が必要になる。なぜなら\(\mathrm{deft}(\bar{y}_c)\)も増えるから。後述する。
  • 標本のクラスタのサイズが\(n_t / a\)から\(n_c / a\)に変化すると、\(\mathrm{roh}_t\)の値は\(k_c \gt 1\)倍に増え、$$ \mathrm{deft}^2 (\bar{y}_c) = 1 + k_c \mathrm{roh}_t (n_c / a-1) $$ となる。 厳密な比例関係を考えれば\(k_c = 1\)なのだが、ある種の下位クラスについては1.2くらいが、そして社会経済的下位クラスでは1.3くらいがよいだろう。別の計算方法としては、下位クラス\(c\)のサイズの割合を\(p_c = n_c / n_t\)として$$ \mathrm{deft}^2(\bar{y}_c) = 1 + k_c \frac{p_c n / a – 1}{n/a – 1} \left[ \mathrm{deft}^2(\bar{y}_t) -1 \right] $$ でもよい。もっと単純に、$$ \mathrm{deft}^2 (\bar{y}_c) = 1 + p_c \left[ \mathrm{deft}(\bar{y}_t) – 1 \right]$$ でもよい。[この式については付録E.6Aにいろいろ書いてあるが、さすがにめんどくさいのでパス]

交差クラス間の平均差
 交差クラスの平均差\(\bar{y}_c – \bar{y}_b\)はしばしば標本調査の主目的となるが、そのデザイン効果は交差クラスの平均自体のデザイン効果とは少し異なる。多くの場合、以下のように一般化できる。$$ \mathrm{var}_{SRS}(\bar{y}_c) + \mathrm{var}_{SRS}(\bar{y}_b) \lt \mathrm{var}(\bar{y}_c – \bar{y}_b) \lt \mathrm{var}(\bar{y}_c) + \mathrm{var}(\bar{y}_b) $$ 左の項は本質的に\( s^2/n_c + s^2/n_b\)である。この一般化の背後にあるモデルは、ANOVAでいうところの「加法性」に近い。つまり、(層内の)一時クラスタが、交差クラス\(c\)において変数\(y\)が高い(低い)とき、交差クラス\(b\)においても高い(低い)というモデルである。経験的証拠はこのモデルを支持している。共分散は正に大きい傾向があり、分散の多くはSRSにおける\(\mathrm{Deft}^2\)の下限の近く、つまり1の近くに落ちやすい。こうして、\(\mathrm{Deft}^2\)は1よりちょっと上のあたりに押し込められる。SRSの下限よりも分散が小さくなることさえ珍しくない。つまり\(\mathrm{deft}^2\)が1より下になる場面である。もっとも理論的にみても経験的にも、こういう現象はランダム分散のせいであるから、\(\mathrm{deft}^2\)は1にしてよい。\(\mathrm{var}(\bar{y}_c – \bar{y}_b)\)の不安定性は高い。なぜならそれは3つの要素の和であり、いずれも不安定だからである。
 交差クラスの分散とdeftは標本全体についての\(\mathrm{deft}^2(\bar{y}_t)\)に基づくモデルから得るべきだと私は確信しているが、とにかく実際のデータから計算してみることを強く勧めたい。知識と経験がみにつく。もし意味のある矛盾がみつかったら、結果とその原因を通じて、よりよいモデルが見つかるだろう(複雑なモデルになるかもしれないが)。分散、deft、そのほかの抽出誤差についての計算を助けてくれる良いプログラムが存在する。すべてのの下位クラスについてそれらを求めるのは無理かもしれないが、おそらくもっとも「大事な」ものについては計算できるだろうし、deft値が高い変数について計算することができるだろう。その結果は我々のモデルについての強力な検証となる。

付録E.6B
[三値以上のカテゴリカル変数の話。パス]

7. 複雑な統計量のdeft
[ほぼ逐語訳はやめにして、通常のメモに戻る。疲れた…]

 最初に注意。

  • Deftがなぜあるのかということと、複雑な統計量のために確率的選択が必要だということとの間には因果的な関係がある。もしも確率選択がなかったらdeftはいらなかっただろう。
  • 確率的選択のニーズが高すぎて理論が追い付いていない。

 では本題。
 複雑な統計量のdeftを出力してくれるソフトはあるが、研究者はソフトを入手できなかったり、ソフトにウェイティングとかの機能がなかったり、時間とか能力とかが不足してたり、ソフトが対応できない統計量が問題だったり、ソフトが対応できない標本デザインだったり、ということもある。
 平均のdeft\(\mathrm{deft}(\bar{y}_t)\)から複雑な統計量のdeft\(\mathrm{deft}(\bar{y}_b)\)を推測する方法について。
[以下、比の比、分位点、あるカテゴリカル変数のカテゴリのペアにおける割合の差、回帰係数についてのdeftの議論。マニアックすぎていまちょっと関心ないのでパス]

8. ウェイティングと一般化
 すべての統計量は一般化を含む。計算されたdeftからの一般化は、特にウェイティングがあるときに難しくなる。同じ調査の中で、Deffは複数の段階におけるクラスタリング・層別の効果を持つ[?]。\(S^2/n\)で基準化した\(\mathrm{Deft}^2 = \mathrm{Var}(\bar{y}) / (S^2/n)\)も、等質性\(roh\)が変数によって異なる以上、変数によって異なる。
 ここで非均一選択確率とウェイティングの4つの主要な源を区別しておく必要がある。deft算出の際の扱いが異なるためである。[4つじゃなくて5つじゃないですか?]

  1. 無回答をクラス別のウェイトで修正する場合。ふつうは差は小さい。
  2. 台帳の問題をウェイトで修正する場合。これもふつうは小さい。
  3. 領域によって抽出割合が異なる場合。
  4. 非比例的な抽出割合が交差クラスに導入されている場合。たとえば、特定のエスニックグループの世帯を多めに抽出している場合とか。
  5. 事後層別や比推定。

 1, 2は単純で、ウェイティングがdeftに与える影響は小さい。3.は領域別にdeftを求める必要がある。5は、単純な解はないが、ウェイトの最大と最小の比が2程度未満であればウェイトなしのdeftでよい。
 問題は4である。さらにわけると、

  • 内部的な使用と推論にあたっては、標準的な\(\mathrm{deft}^2(\bar{y}) = \mathrm{var}(\bar{y}) / (s^2/n)\)で、ウェイティングの効果とクラスタリング・層別の効果とを同時に捉えることができる。分子は重みづけ分散とする。分母でも重みづけ分散を使うがこれは\(S^2\)の推定値のつもりである。すべての統計量・平均は標本全体を通じて同じウェイトを持つわけだから、このdeftはそれらのウェイトに関する標本のSEのDeff補正を提供する。
  • 調査における内部的な一般化、たとえば\(\mathrm{deft}^2(\bar{y}_t)\)の他の統計量への一般化も可能だが、注意が必要である。下位クラスが選択確率・配分確率と相関しているとき、ウェイティングの効果は高くなったり低くなったりするからだ。たとえば、選択率が等しくないせいで、平均のうち一部について分散が小さくなり、クラスタリングの効果を超えてdeftが1未満になるのだが、他の統計量(特に割合)ではむしろ分散が上がる、ということもある。収入の平均のための最適配分が収入の中央値においては損失につながったりするわけだ。[なるほどね… 調査変数を特定せずにデザイン効果を語るのは怖いってことですね]
  • deftを対外的に使用するのは、望ましいことではあるが難しい。ウェイティングの効果とクラスタリングの効果を分離する必要がある。まずウェイトなしのdeft $$ \mathrm{deft}^2 = \frac{\mathrm{var}_u(\bar{y})}{s^2_u/n} $$ を求めてみる、という考え方もできるだろう。
  • 無計画なウェイトの場合は扱いが楽である(無回答・台帳の問題によるウェイトもこれに近い)。こうした状況では、要素ウェイトを\(k_j\)として、分散は$$ 1+L = \frac{n\sum k_j^2}{(\sum k_j)^2} $$だけ大きくなると仮定できる。損失\(L\)は\(k_j\)の相対分散である(Kish, 1992)。よって$$ \mathrm{deft}^2 = \frac{\mathrm{var}(\bar{y})}{ (1+L)s^2 / n} $$ となる。

9. deftの算出
[パス]
———————
 やれやれ、やっと読み終えた… 昔の学者の書き方なのか、たいそう読みにくかった。しかも、細かい話が多すぎて、得るところがあまりなかったように思う。強いて言えば、今後この論文が引用されているのをみたら「ふふん、俺それ読んだぜ」と思える、というくらいかな。
 Kishにとってdeftっていうのは、要するに推定量の分散の表現形式なんですね。推定量の分散の求め方にはなんらコミットしていない(「Kishは1+(ウェイトの相対分散)をウェイティングのデザイン効果とみなすことを提案した」というような紹介を見かけることがあるが、そういう話ではない)。また、使用場面にもコミットしておらず、ウェイティングとdeftの間に直接の関係はないわけだ。その点は勉強になった。