« 読了:永田(1998) 「統計的多重比較法の基礎」をめぐる10個の質疑応答 | メイン | 読了:LaBarbera & Mazursky (1983) 顧客満足の縦断研究 »
2014年11月14日 (金)
季節はめぐり、寒い冬が近づいているが、「ウェイトバックした集計表の検定」についてどなたかにご説明する、という機会も周期的にめぐってくる。というのは、私はたまたま市場調査に関連するお仕事で細々と暮らしており、市場調査の世界では消費者にアンケート調査かなんかをやることが多く、それを集計するときに「ウェイトバック」することが多く(すなわち、抽出確率が均等でない標本に基づき、確率ウェイティングによって母集団特性を推定することが多く)、しかし市販の教科書にはこの種の話題はあまり触れられておらず、皆さんもっと有益な話題を語るのに忙しく、こういう金にならない話についてお答えする暇人は少なく、日は昇り、また沈み、時移る... という事情がある。
この話題、あまりに定期的にめぐってくるので、「そんな検定、お使いの統計ソフトではたぶんできませんよ」という点と、「そもそもウェイトバックなんてしないほうがいいかもしれませんよ」という点については、かつてこのブログでくどくどと説明した。各界でご活躍の優秀な皆様が、どうか必要なタイミングで、これらの記事をみつけてくださいますように。図々しいけれど、ひとりでも多くの関係者の方に読んでいただければ幸いである。
さて、このたびまた同じご説明を行っていて、ふと思ったんだけど、確率ウェイティングの下で二群の割合の差を検定する手法って、なぜあんなにたくさんあるのだろうか? これがですね、案外たくさんあるのですよ。私の知る限り、大きく分けてカイ二乗検定のRao-Scott修正という方向とワルド検定という方向があり、それぞれにおいていくつものバージョンがある。なにがどう違うのか、実に面妖な話である。個々の手法についての説明ではなく、手法を比較したレビューのようなものはないかしらん?
Scott, A. (2007) Rao-Scott corrections and their impact. Proceedings of the Section on Survey Research Methods, American Statistical Association, 3514–3518.
というわけでwebを探していて目に留まった、「Rao-Scott修正」のScottさんご自身による文章。えーっと、2007年のアメリカ統計学会Joint Statistical MeetingsではRao先生の古稀をお祝いする招待セッションが開かれ、そこでScottさんが講演したようで、その要旨である。ほんとはレビュー論文を探すべきなのだろうけれど、すいません、そこまで本気じゃないんです。
ええと、Rao&Scott(1981JASA, 1984Annals of Stat.)はもう四半世紀も前のことだね、あの頃僕らは誰々や誰々と一緒に研究したよね、みんな若かったよね、というような思い出話があって...
セル数$T$の多元クロス表の、セル$t$の母比率を$\pi_t$とし、まとめてベクトルで$\pi$と表す。$\mu_t = log(\pi_t)$ として、次の対数線形モデルを考える(そうそう、Rao&Scott(1984)って、意外にもいきなり対数線形モデルから始まるんですよ...)。
$\mu = u(\theta) e + X \theta$
$\theta$は長さ$p$のパラメータ・ベクトル。$e$は長さ$T$のベクトルで要素は$1$。$u(\theta)$は定数で、$\pi_t$の合計が$1$になるように調整している。Xは$T$行$p$列の係数行列で、そのランクは$p < T-1$、$X^T e = 0$。これをモデル1と呼ぼう。
ベクトル$\theta$をふたつにわけ、上の$T-k$個を$\theta_1$, 下の$k$個を$\theta_2$とする。同様に$X$も $X = (X_1, X_2)$と分割する。で、下位モデル
$\mu = u_1 (\theta_1) e + X_1 \theta_1$
を考える。これをモデル2と呼ぼう。モデル2の適合度を調べれば、帰無仮説$H_0: \theta_2 = 0$について検定したことになる。典型的には、モデル2はクロス表の行と列が独立だというモデルである。
モデル1による$\pi_t$の最尤推定量を$\hat{\pi_t}$とする。単純無作為抽出であれば、標本比率$\hat{p}$について$X^T \hat{\pi} = X^T \hat{p}$である。モデル2による最尤推定量を$\hat{\pi}^*_t$とする。ピアソンのカイ二乗統計量は
$X^2_P = n \sum_t \frac{ (\hat{\pi}_t - \hat{\pi}^*_t)^2}{\hat{\pi}^*_t}$
尤度比統計量は
$G^2 = 2n \sum_t \hat{\pi}_t log(\frac{\hat{\pi}_t}{\hat{\pi}^*_t})$
どちらも帰無仮説のもとでカイ二乗分布に漸近的に従う。
さて。標本抽出デザインが複雑なとき、なにが起きるか。
母比率の推定量$\hat{p}$は、もはや標本比率でなく、もっと複雑ななにかである。期待できるのはせいぜい、$\hat{p}$が$\pi$の一致推定量になっていること、中心極限定理が成立してくれること、くらいである。$\sqrt{n} (\hat{p} - \pi)$が平均0の$T$変量正規分布に従うとし、その共分散行列を$V_p$としよう。
Rao&Scott(1981, 1984)で僕らは、$X^2_P$と$G^2$が帰無分布の下で、$\sum_i^k \delta_i Z^2_i$と同じ分布に従うことを示した。ここで$Z \sim N(0,1)$。$\delta_1, \ldots, \delta_k$は「一般化デザイン効果」と呼ばれていて... (求め方は省略)。というわけで、理屈からいえば、仮に$V_p$の推定値が手に入るなら、「一般化デザイン効果」の推定値が手に入り、帰無分布の下での$X^2_P$ないし$G^2$の分布が手に入り、検定できるわけである。
理屈はわかった。具体的にはどうしたらいいのか。
一般化デザイン効果の推定値の平均 $\bar{\delta} = \sum_1^k \hat{\delta_i}$を求める。で、サンプルサイズをこれで割って、いわゆる等価サンプルサイズ $\tilde{n} = n / \bar{\delta}$を求める。検定統計量$X^2_p$ないし$G^2$の式のなかの$n$を、この$\tilde{n}$で置き換えて修正しよう。これがRao-Scott修正である。
こうして得た$X^2_{RS}$ないし$G^2_{RS}$の、帰無仮説の下での分布をどうやって近似するか。3つのやりかたがある。
ひとつめ、単に自由度$k$のカイ二乗分布で近似する。これを一次のRS修正という。
ふたつめ、自由度 $k/c$のカイ二乗分布に$c$を掛ける。ただし、$c=\sum \delta^2_i / (k \bar{\delta}^2)$。これを二次のRS修正という。
みっつめ。どうにかして$\hat{V}_p$を手に入れる。たとえば$Cov(\hat{p})$を使う。で、そのランクを$\nu$とする。通常、$\nu$は(PSUの数)-(層の数)である。で、自由度$(k/c, \nu k / c)$のF分布に$k$を掛ける。何言ってんだかわかんないけど、とにかくそうなるんだそうである。
最後のやつが一番正確なのだが、あいにく$\hat{V}_p$は手に入らないことが多い。いっぽう一般化デザイン効果の平均値$\bar{\delta}$だけなら、セル比率と周辺比率の標準誤差から算出できる。なので一次のRS修正が使われることが多い(←なるほどー)。
RS修正の発表以後、一次のRS修正を改善しようという試みが多数行われてきたが、たいしたインパクトはなかった。RS修正の対抗馬はほかにいっぱいあったのだが("the Wald, Fay's Jackknife, and Bonferroni inequalities"と書いてある。最後のBonferroni法ってなんのことだろう...)、RS修正のわかりやすさには勝てない。
Rao&Scott(1981, 1984)の引用件数の推移をみてみよう(←さすがは統計学者、loess回帰しているぞ)。意図に反し、社会科学系ではあんまり使われていない。SPSSがRS修正の機能を積んでないからかなあ。(←そうなの? Complex Samplesパッケージには積んであるのかと思ってた。それともあのパッケージはユーザが少ないのかな)
ところで、一次のRS修正には、忘却されつつあるもうひとつの可能性(Scott & Rao, 1981)があった。ちょっとPRさせてください。たとえば、地域で層別した調査とか、多国間調査とか。あるいは、同一母集団に対する異なる調査とか、agreement between interviewers based on Mahalanobis’ interpenetrating subsamplesとか(←最後のやつがよくわからない。独立に抽出した二標本間でマッチングをかけるような状況だろうか)。そういう場面で、等質性を検定したいこと、あるよね? そんなときにも一次のRS修正が使えるのだ... 云々。
最後に、いろんな方面への拡張を紹介。ロジスティック回帰とか一般化線形モデルとか、ドメイン平均の検定とか。
私のような素人にも親しみやすい紹介であった。ほんとはワルド検定との比較について知りたかったんだけど、まあいいや。
論文:データ解析(-2014) - 読了:Scott(2007) 調査ウェイティングの下でのカイ二乗検定のRao-Scott修正について振り返る