読書日記: 読了：Pan, et al. (2014) 標本ウェイティングの下で中央値や分位数について群間の差を検定する方法

« 読了：Enders & Tofighi (2007) 階層線形モデルで説明変数をセンタリングする正しいやり方 | メイン | RでどうやってLEFT JOINするか (ああなんて最先端な話題だろうか) »

2017年1月13日 (金)

Pan, Y., Caudill, S.P., Li, R., Caldwell, K.L. (2014) Median and quantile tests under complex survey design using SAS and R. Computer Methoss and Programs in Biomedicine, 117(2), 292-7.
　勤め先の同僚と話していて、そういえば標本ウェイティングの下での中央値ってなんだろう...と疑問に思い、適当に拾って読んでみた。

　えーと、Moodの中央値検定というのがある。
　母集団のサイズを$N$、母中央値を$M_N$、標本中央値を$M_n$とする。母集団が$C$個の下位母集団(subpopulation)に分かれていて、そのサイズが$N_1, \ldots, N_C$だとする。下位母集団$i$の標本[? 原文 "the ith sample"]の中央値を$M_i$とする。いま、
　$H_0: M_1 = M_2 = \cdots = M_C = M_N$
について検定したい [←あれ？ちょっと変じゃない？この式を信じるなら、$M_i$は標本中央値じゃなくて母中央値でないとおかしい]。
　下位母集団$i$の標本[? 原文 "the ith sample"]において、値が$M_N$以下のケースの数を$A_{1j}$、$M_N$より大のケースの数を$A_{2j}$とする。$A_{11} + A_{12} + \cdots + A_{1c} = (1/2)N$である。[←あ、やっぱりおかしい。著者のいう"the ith sample"というのは下位母集団のことなのだろうか？]
　$H_0$の下で、任意のケースが$M_N$を超える確率は0.5である。$M_n$を超える確率は超幾何分布になっちゃうんだけど、$n$が$0.1N$より小さければ$p=0.5$の二項分布で近似できる。[←この論文、数式の記法が滅茶苦茶わかりにくいな。$M_n$というのは「$n$番目の下位母集団の中央値」という意味じゃなくて全体の標本中央値のこと。$n$は標本サイズであろう]
　"the ith sample"における任意のケースが$M_N$以下となる確率を$P_i$とすると、
　$H_0: P_1 = P_2 = \cdots = P_C = 1/2$
と書き換えられる。これは$df=C-1$のカイ二乗検定で検定できる。
　これを分位数の検定に拡張するのは簡単で、$q$分位数について
　$H_0: P_1 = P_2 = \cdots = P_C = q$
とすればいい。

　これをcomplex sampleに拡張しよう。
　層$h$、クラスタ$a$における個体$i$の値を$y_{hai}$とする。面倒なので以下では$y_i$と略記する。ウェイトを$w_i$とする。
　母集団全体における$y_i$の分布を$F$とする。$q$分位数を$Q$とする。$y_i \leq y$のときに1となるインデクスを$I_y(y_i)$として、標本経験分布[標本CDFのことであろう]は
　$G(y) = \sum_i w_i I_y(y_i) / \sum_i w_i$
である。$P_i$の推定量は、個体$i$が下位母集団$c$に属しているときに1となるインデクスを$x_{i|c}$として、
　$p_i = \sum_i w_i x_{i|c} I_q(y_i) / \sum_i w_i x_{i|c}$
となる。[←あーもう！ $i$の意味が右辺と左辺で違うじゃん！下位母集団の添え字は別のを使うべきだよね]
　検定統計量は、まず$[p_1, p_2, \ldots, p_C]'$の共分散行列を、SASのproc surveyregなりRのsurveyパッケージなりで推定して... 云々... めんどくさくなってきたのでやめるけど、とにかく$df=C-1$でカイ二乗分布に従う検定量がつくれる由。
　
　後半は、著者らによるSASマクロならびにRプログラムの紹介。欲しければ連絡せよとのこと(webを探したけど見当たらなかった)。さらに、NHNEMというデータによる実例。どちらも読み飛ばした。

　。。。検定統計量の組み方はなんだかわからんが、要するに、ウェイティングした標本CDFを群ごとに描いたとき、特定の母分位点(たとえば母中央値)について、その不偏推定量をつくることなく、それが群間で異なるかどうかを検定する、ということだろうか。

　いやー、ゆうたらなんやけど、めっちゃわかりにくい論文だった。記号の使い方が滅茶苦茶である。ひょっとしてこれ、校正前の原稿かなにかなのだろうか。
　いまためしに検索してみたら、google scholar 的には被引用数0件。痺れる。たった数頁とはいえ、読むものは選ばんといかんなあ。

論文：データ解析(2015-) - 読了：Pan, et al. (2014) 標本ウェイティングの下で中央値や分位数について群間の差を検定する方法

読書日記

読んだ本を淡々と記録します

2017年1月13日 (金)