Liu, Z., Chen, H. (2015) Power analysis for testing two independent groups of likert-type data. 5th International Conference on Computer Sciences and Automation Engineering (ICCSAE 2015).
リッカート型のデータの分布が2標本の間で同じかどうか調べる場面で、Mann-Whitney検定(MW), Kolmogorof-Smirnov検定(KS), Cramer-von Mises検定(CM)の頑健性と検定力を比較する、という内容。
どこかの学会の発表要旨なんだけど… 内容がいま知りたいこととジャストミートだったので、ついつい読んでしまった…
選手入場:
- MW検定 (Rでいうとstats::wilcox.test())。[…ここで検定統計量の式が書かれているんだけど、これがなんだかよく分からない書き方で困惑。メモは省略する]
- 2標本KS検定。Rでいうとdgof::ks.test()。これはstats::ks.test()とほぼ同じなんだけど、仮定された離散分布と比べる1標本検定ができるようになっている。検定統計量は… [メモ省略。しっかしこれってだいじょうぶなんだろうか、dgof::ks.test()で離散分布の2標本比較ってできるのだろうか]
- 2標本CM検定。Rのcramerパッケージ。[メモ省略。しっかし、CM検定も本来は連続分布が前提じゃありませんでしたっけ… なんか読んでてそこはかとない不安を感じる…]
シミュレーションします。5件法の架空データを作る。動かすのは、分布のかたち{一様、ちょっとskew, すごくskew, 対称, 二峰}, 標本サイズ({10,30,50,100,300}の組み合わせのうち12通り), 効果量({0.30, 0.50})。有意水準は0.05に固定する。
[ちょっちょっと待って、そこでいう効果量ってなに!? なんなの!?]
… ここからはシミュレーションの結果。分布x効果量別に、横軸に標本サイズ、縦軸に検定力、線が手法を表す折れ線グラフを描いていく。[ここもよくわからん。有意水準0.05ってのはあくまで名目であって実質は違うんじゃなかろうか、だから効果量0のときのチャートも描いた方がいいのではなかろうか]
結果をまとめると、二峰分布を除く4種類の分布では、検定力はCM, KS, MWの順に高い。二峰分布ではKS, MW, CMの順に高い。
… 目を通したはいいものの、謎が謎を呼ぶ内容であった。そもそもWM検定とKS検定・CM検定は対立仮説がちがうのではなかろうか。こうやってRの関数の挙動を調べるだけで話を終わらせちゃっていいのか? … いいのか… いいのかも… 学会発表だし… (だんだん冷静になる)
正直、内容というより、いい感じの参考文献がみつかることを期待してたんだけど(すいません)、しっくりくるのはなかった。離散分布のCM検定としてはChoulakian et al.(1994 Canadian J.Stat.), 離散分布のKS検定はPettitt & Stepens (1977 Technometrics), 離散分布への適合度検定(たぶん1標本)の検定力についてはSteel & Chaseling(2006, Comm.Stat.)というのが挙げられていた。