elsur.jpn.org >

« 読了:Muniz & O'Guinn (2001) ブランド・コミュニティ | メイン | 読了:Hui, Huang, Suher, & Inman (2013) 買物客の行動データで非計画購買を解剖する »

2014年3月26日 (水)

 いわゆる「ウェイト・バック集計」、すなわち確率ウェイティングの下でデータ集計を行ったとき、ついでに平均や割合の差について検定をしようとすると、標準誤差はどうやって求めるのかという問題が生じる。確率ウェイトがごくシンプルなデザインに由来している場合は簡単で、たとえば層別一段抽出で層サイズが大きい場合であれば、層ごとに求めた標準誤差を合成すれば済むだろうと思うのだが、往々にして層は小さくウェイトは複雑である。テーラー展開か、リサンプリングか、はたまたロバスト推定か。ああ、嫌だ嫌だ、どうしたなら検定も信頼区間もない、静かな、静かな、データも何もぼうつとして物思ひのない處へ行かれるであらう (by 樋口一葉)。
 ところがある種のソフトウェアを見ていると、ややこしいことを考えないで、いわゆる有効ベース(この論文でいう等価標本サイズ)という考え方に基づき、あっさり検定統計量を修正してしまうものがある。ケースに付与されたウェイトの相対分散に応じて、標本サイズを一律に割り引いてしまうのである。わかりやすくていいけれど、でもそれってどうなの? というのが、ずっと疑問であった。

Potthoff, R.F., Woodbury, M.A., Manton, K.G. (1992) "Equivalent sample size" and "Equivalent degrees of freedom" refinements for inference using survey weights under superpopulation models. Journal of American Statistical Association, 87(418), 383-396.
 というわけで、当該のソフトウェア(名前を挙げちゃうと、SPSS Data Collection)のマニュアルで引用されている論文。何年も前から積んであったのだけど、ここんところ確率ウェイティング関連の資料をめくっていたので、ついでに目を通しておくことにした。こういう話題は、いったん飽きたら本当に面倒になってしまうから。

 まず、概論。
 超母集団(母集団の母集団)という概念を導入する。この観点からいえば、確率的変動性(とでも訳せばいいのかしらん。stochasticity)にはふたつのソースがある。(1)超母集団の確率構造によって仮定されたもの。たとえば測定の変動性。(2)調査プロセスにおけるランダム化選択によって導入されたもの。つまり、仮に全数調査を行ったところで(1)は残り、推定量の分散は0にならないわけだ。
 サイズ $N$ の有限母集団からのサイズ $n$ の標本を考える。個体 $i$ のウェイトを $W_i$ とする。その由来は問わないけど、確率変数ではなく固定されていると考えることにする(そうしないとややこしくなるから)。合計を$W_{sum}$とする。
 いま、個体 $i$ の測定値 $y_i$ について
 $m_i = E( y_i ) $
 $v_i = var( y_i ) $
と考える。さらに、
 $m = (1 / W_{sum} ) \sum_i W_i m_i $
 $v = (1 / \sum_i W^2_i) \sum_i W^2_i v_i$
とする。$m$ の推定量
 $\hat{m} = (1/ W.) \sum_i W_i y_i $
について考えよう。その分散は
 $var(\hat{m}) = (\sum_i W^2_i / W^2_{sum}) v$
さて、上記4本の式を書き換える。まず、ウェイト値の合計の二乗をウェイト値の二乗の合計で割って
 $\hat{n} = W^2_{sum} / \sum_i W^2_i $
ウェイト値の合計をいったん1にし、これにこの値を掛けて、新しいウェイト値をつくる。
 $w_i = (\hat{n} / W_{sum}) W_i$
すると、4本の式はそれぞれ
 $m = (1 / \hat{n}) \sum_i w_i m_i$
 $v = (1 / \hat{n}) \sum_i w^2_i v_i$
 $\hat{m} = (1 / \hat{n}) \sum_i w_i y_i$
 $var(\hat{m}) = v / \hat{n}$
となる。このように、$\hat{n}$ は「等価標本サイズ」とでも呼ぶべきものになっている。なるほどねえ、鮮やかなものだ。

 $v$ の推定量としては
 $\hat{v} = 1 / (\hat{n} - 1) \sum_i w_i (y_i - \hat{m})$
を使えばいいんだけど、これが $v$ の不偏推定量になるのは、$v_i = v$ かつ $m_i = m$ のとき、つまり個体が等質なときである。そうでない場合、$E(\hat{v})$は $v$ より大き目、つまり保守的な推定量になる。
 信頼区間を求めたり検定したりする際には、自由度も修正しないといけない(ああ、そうか...)。どうやるのか延々説明してあるんだけど、面倒なので省略。そのほか、$v_i$ が変動している場合に $E(\hat{v})$ がとる範囲、$y_i$ が二値だった場合はどうなるか、などなど。省略。

 以下、各論。$v_i$ がなにか別の変数に比例していたらどうか。クラスタ抽出の場合はどうか。事後層別の場合のウェイト値の決め方。クラスタ抽出と事後層別の両方の場合はどうか。層別抽出の場合に限定したもっと良い方法。一元配置分散分析。$k \times 2$ 対応表での $k$ 群の等質性の検定。全部適当に読み飛ばしました。ごめんなさい、疲れました。

 というわけで、超母集団という概念に基づき、確率ウェイトつきデータを簡単に集計・分析するための「等価標本サイズ」「等価自由度」の求め方が示されているわけだが、細かい理屈はとても面倒そうなのであった。でもまあ、母集団分布についての一切の仮定抜き、というところは気分がいいですね。他の標準誤差推定と比べるとどうなのか、知りたいものだ。
 細かい話だけど、当該のソフトは標本サイズだけでなく自由度も修正してんのか、という点が気になった。マニュアルではどうもよくわからない。

論文:データ解析 - 読了:Potthoff, Woodbury, Manton (1992) 調査ウェイトつきデータの分析における「等価標本サイズ」「等価自由度」