読書日記: 読了：Divine, et al. (2018) Mann-Whitney検定は中央値の検定ではない

« 覚え書き：スキャン・パネル・データの分析事例 | メイン | 読了：萩生田・繁桝(1996) 順序カテゴリカルデータを因子分析したときの推定値の挙動 »

2018年9月28日 (金)

　Wilcoxon-Mann-Whitney検定ってのがありますわね。おさらいしておくと、えーっっっとですね、いわゆる「対応のないt検定」のノンパラ版だって習った気がします。
　群Aと群Bがあるとき(サイズを$n_A, n_B$とする)、群間でのすべての測定値ペア($n_A
\times n_B$個)について、Aの値のほうが大きいペア数$U$を数える。群間にぜんぜん差がなければ、$U$の期待値は(タイになるペアがないとして)$n_A \times n_B / 2$である。というわけで、帰無仮説の下での$U$の分布をどうにかして求めて検定する。$n_A$+$n_B$個の測定値を順位に変換し、群Aの測定値の順位の和を検定統計量にすることもあるが、まあ結局は同じことである。Mann-WhitneyのU検定とか、Wilcoxonの順位和検定ということもある。

　ここでの帰無仮説とはなにか。修士課程ははるか記憶の彼方ですけど(ついでにいうと学部の統計学教育はかなりめちゃくちゃであった。あれはナイよなあ...今でもちょっと可笑しい)、わたしゃ「母集団において二群の中央値が等しい」だと習いましたね、確か。
　手元の本で言うと、森・吉田(編著)「心理学のためのデータ解析テクニカルブック」には、はっきりと「対応のない2条件の中央値の比較」とある(もっとも、先ほどめくってみたところ「比較される代表値が今一つ明確でない、しかし[...]測定値間の大きさの順位を問題にするものであり、このような意味では、各条件の中央値を比較しているといえよう」と微妙に日和った脚注がついているのを発見した)。この定評ある参考書に限らず、たいていの本には「二群の中央値を比較する検定」だと書いてあると思います。

Divine, G.W., Norton, H.J., Baron, A.E., Juarez-Colunga, E. (2018) The Wilcoxon-Mann-Whitney procedure fails as a test of medians. American Statistician, 72, 278-286.
　最近のAmerican StatisticianのTeacher's Cornerの記事らしい。いま必要な内容じゃないんだけど、Mann-Whitneyの検定はたまに使うこともあるし、タイトルに惹かれて目を通してみた次第。

　いわく。
　Wilcoxon-Mann-Whitneyの手続き(以下WMW)は二群の中央値が等しいかどうかの検定だと思っている人が多い。信頼ある教科書にもよくそう書いてある。
　これは誤りである。WMWについてはいろいろ誤解がある。諸君の無知蒙昧を正そう。

　まず、WMWとt検定を比べてみよう。
　t検定、それはパラメトリックな手続きである。各群の分布は$N(\mu_1, \sigma_1^2)$, $N(\mu_2, \sigma_2^2)$に従うと想定する。
　概念上は、$\mu_1$と$\mu_2$が同じかどうかという話をしたい。計算上は、標本平均$\bar{x}_1$と$\bar{x}_2$を比べる。検定統計量は
　$t = (\bar{x}_1 - \bar{x}_2) / se(\bar{x}_1 - \bar{x}_2)$
である。
　いいですか、t検定というのは、概念上は母平均の検定であり、計算上は標本平均を使う。このように、t検定は平均についての検定だといって差支えない。

　WMW検定、それは分布フリーな検定である。
　概念上はどんな検定なのか。一般には、帰無仮説は「分布Fと分布Gが等しい」で、対立仮説は$G(x)=F(x+\delta), \ \ \delta \neq 0$だと考えられることが多い(つまり、分散も歪度もなにもかも同じで位置だけが異なるという対立仮説である)。これを「シフト仮説」と呼ぼう。
　シフト仮説の下では、確かに$\delta$は母中央値の差である。同時に、$\delta$はお好きな分位点の差でもあり、平均の差でもあり、最頻値の差でもある。[←なるほどそりゃそうだ]
　計算上はどんな検定か。正確法と漸近法があるが、ここでは説明の都合上、後者について考えよう。
　測定値の順位を求め、各群の順位和を$R_1$, $R_2$とする。検定統計量は
　$X^2 = [(R_1 - E(R_1)/se(R_1)]^2$
　ちなみにMann-WhitneyのU統計量はちょっと定式化が違うが、
　$U_1=n_1n_2 + n_1(n_1+1)/2 - R_1$
という関係がある。
　いま
　$p^{''} = Pr(X_1 < X_2) + Pr(X_1=X_2)/2$
という母集団特性を考えると、
　$U_1/n_1 n_2 = \hat{p}^{''}$
　$X^2 = [(\hat{p}^{''}-0.5)/se(\hat{p}^{''})]^2$
と書きかえられる。WMW検定の帰無仮説は$p^{''}=0.5$だといえる。
　なお、$p^{''}/(1-p^{''})$を「WMWオッズ」と呼び、これがWMW検定のための理想的な要約統計量だとする主張もある。帰無仮説は「WMWオッズ=1」だというほうが、$p^{''}=0.5$だというよりわかりやすいだろうという主張である。

　ちょっと話が逸れるけど...
　タイがある場合について。教科書のなかには「タイがあったら使えない」と書いてあるのもあるけど、これは間違い。順位和で定式化する場合なら、タイには平均順位を与える。ある弱い条件の下で、タイがあるデータでも検定統計量の漸近正規性が成り立つことが示されている。
　t検定の場合、分散が等しくない時、そのことを考慮した分散推定量と自由度を使えばそれでOKなの？という問題が生じる。御存じBehrens-Fisher問題である。WMW検定でも同じことが起きる[←漸近法の場合は、ってことだと思う]。連続データの中央値の比較に関心があるという仮定の下で、分散が異なるときでもうまくいくというFlinger-Policello検定というのが提案されている(SAS/STATのPROC NPAR1WAYに載っている)。ほかにBrunner-Munzelの提案というのもあって、標本サイズが小さい時にはこっちのほうが良いと報告されている。標本サイズが30以下だったり、タイが多かったりする場合には、permutationによる正確法に切り替えたほうが良い。

　さて、このようにですね、WMW検定は$p^{''}=0.5$かどうかの検定であり、中央値の検定ではないのであります。いくつか例を示しましょう。

どちらの群も、値の半分以上が0である場合。標本中央値はいずれも0だが、しかしWMW検定は有意になりうる。
標本中央値が等しいけど、WMW検定は有意になるような例。[←ヒストグラムをみて納得。なるほど、そりゃそうなるわ]
以下の数値例をみてください。
　A: {1,1,2,2,2,3,3,9,105,105,106,106,106,107,107}
　B: {5,5,6,6,6,7,7,99,101,101,102,102,102,103,103}
標本中央値は9と99。しかしWMW検定は有意になりません。[←笑ってしまった。そりゃそうだけどさ... この例だと母中央値は似たようなもんだろうから、「WMW検定は母中央値の検定だ」説への反例にはなってないんじゃないの？]
上の数値例の真ん中の値だけ取り換えます。
　A: {1,1,2,2,2,3,3,99,105,105,106,106,106,107,107}
　B: {5,5,6,6,6,7,7,9,101,101,102,102,102,103,103}
標本中央値は99と9, Aのほうが大きい。しかしWMW検定では$\hat{p}^{''}=0.716$で有意、Bのほうが大きい。[←ああ、なるほどね...]
たとえばなしをしよう。ここに研究者と助手がいる[実はこのくだり、登場人物におかしな人名がついていて、きっと笑えるところなんだろうけど、英語力不足で理解できない...]。4条件(A,B,C,D)を比較する実験をやった。WMW検定をやったら、AよりBが大, BよりCが大, CよりDが大となった。しかしよくみると、AとDのヒストグラムは全く同じである。ショック！

ご覧のように、WMW検定は標本中央値と対応しない。複数群間で推移律さえ満たさない。この検定は、あくまで分布間の相対的な比較であって、標本の位置を表すなんらかの指標によって決まるような検定ではないのである。

　では、WMW検定は母中央値の検定だといえるだろうか。
　「シフト仮説」の下ではそうだろう。しかし、たいていの場合、「シフト仮説」はナンセンスである。リッカート尺度項目の回答分布を考えてみてほしい。またはなんらかの出来事の回数の分布について考えてほしい。分布が同じで位置だけ変わるってありえないでしょ。

　なぜにWMW検定は中央値の検定だといわれているのか。おそらくこういう事情だろう。

正規性のあるデータでは平均とt検定の報告が推奨されている。歪んだデータでは中央値とWMW検定の報告が推奨されている。そのせいで、平均とt検定、中央値とWMW検定がセットで捉えられるようになってしまった。
中央値は測定値を順位で並べた時の中央であり、WMW検定は順位の関数だから。良く考えてみると、前者は各群内の順位、後者は群を通した順位なんだけど。
ある分析を行った際、その際の尺度を反映する要約統計量を報告するのは良いことだ。その意味では、WMW検定と一緒に中央値を報告するのは良いことである。しかしこれが誤解を生んだ。
たくさんの教科書に、そしてソフトのマニュアルに、「WMW検定は中央値の検定だ」と書いてあるから。

なぜにWMW検定は連続量データを必要とするという誤解が広がっているのか。おそらくこういう事情だろう。

歴史的経緯。昔のソフトは小標本の時、検定統計量を表と比べていたので、タイがあると表がたくさん要ることになり、計算が事実上不可能だった。教育上も同じ事情があった。
概念上の理由。シフト仮説が正しいならばタイなんてありえないから。[このくだりはよくわからんかった。離散分布のシフト仮説を考えればタイはありうるのではないかしらん。まあいいや]。
論理的な誤り。シフト仮説の下でタイのあるWMWは妥当、しかしシフト仮説が成り立たないからタイのあるWMWは妥当でない、と推論しちゃったのではないか。

　というわけで、著者らは講義でWMWについて正しく教えてます...[略]
　教えるときにはこういうチャートを使うといいでしょう。全ペアを(群1の値) vs (群2の値)の散布図上に載せたバブルチャート。ペア内の大小を診断と見立ててROC曲線を書くとAUCが$p^{''}$になる[←頭が混乱する...]。ドミナンス・ダイアグラム[←説明を読んでたらわけわかんなくなってきたので省略]。

　...というわけで、最後のほうは疲れて読み飛ばしちゃったけど、面白い啓蒙論文でありました。
　著者らが力説しているのは「WMWは2群の中央値の検定じゃなくて、2群間のすべてのペアにおいて片方が勝つ確率が0.5かどうかの検定だ」ということであって、「WMWは使うな」と言っているわけではない。でも世の中にはWMWそのものに対して否定的な方もいるわけで(たしかGelmanさんがそうだった)、有識者の方々に、その辺のご意見も聞きたいところである。

論文：データ解析(2018-) - 読了：Divine, et al. (2018) Mann-Whitney検定は中央値の検定ではない

読書日記

読んだ本を淡々と記録します

2018年9月28日 (金)