elsur.jpn.org >

« 読了:12/07まで (A) | メイン | 読了:12/10まで (A) »

2009年12月 9日 (水)

ただいま「データ集めてから求める検定力ってなんなの」ブームにつき,論文を4本。最初は仕事の都合だったんだけど,途中から趣味になってきました。

Onwuegbuzie, A., Leech, N.L. (2004) Post hoc power: A concept whose time has come. Understanding Statistics, 3(4), 201-230.
先日読んだHoenig&Heisey(2001)とは逆で,標本効果量に基づく検定力算出を支持する立場。
話がすごくややこしいのだが,彼らが支持する"post hoc power"というのは,SPSSでいうところのobserved powerのこと,G*Powerの開発者がいうところのretrospective powerのこと,すなわち標本効果量に基づく検定力のことであり,Hoenig&Heiseyがコテンパンにけなしているアイデアである。いっぽうG*Powerでいうところの"post hoc power"は,標本特性値を使うというニュアンスはさらさらなくて,単に「母効果量から逆算した検定力」という意味であり,この論文の著者らの呼び方でいえばa priori powerなのである。
うぎー。わけわかんなくなってきたので,最近読んだ3本の論文を整理しておこう。とにかく! 標本サイズ・有意水準・母効果量・検定力の4つのうち3つが決まれば,残りのひとつが決まる。以下の論文で問題になっているのは,どんな効果量を使って検定力を求め,それをどう使うか,である。大きく分けると,標本効果量で検定力を求めることに賛成する人と反対する人がいる。

O'Keefe, D.J. (2007) Post hoc power, observed power, a priori power, retrospective power, prospective power, achieved power: Sorting out appropriate use of statistical power analysis. Communication Methods and Measure, 1(4), 291-299.
上記論文のメモをとったあとで読み始めた論文。こっちを先に読めばよかった。このタイトルのくどさ,ちょっと可笑しい。
検定力関連の話がややこしくなっているのはソフトウェアに責任の一端がある,とのこと。G*Powerの"a priori power"と"post hoc power"は,実験前・実験後という区別とはなんら関係ない。これはユーザにはわかりにくい。またSPSSの"observed power"は,あたかも実際に得られた検定力を測定しているようにみえてわかりにくい。

"post hoc" power, "observed" power, "retrospective" power, "achieved" power, "prospective" poser, "a priori" power,こういった呼び方は止めよう。これらは混乱を招きかねない略記法であり,算出された検定力の基にある具体的な値についてきちんと記述するのを妨げる。あなたの検定力の計算が,観察された標本効果量を母集団の効果として使用しているのならば,そういいなさい。post hoc powerなんていうな。

なるほどね。
著者らは基本的にHoenig &Heisey(2001)の線に従い,「標本効果量に基づく検定力」の有用性を否定する立場である。Onwuegbuzie & Leech(2004)のいう「有意差が得られなかったらpost hoc powerを求めましょう」というアドバイスはナンセンスである由。
とはいえ,反対派も一枚岩ではないようだ。

この検定力[標本効果量に基づく検定力]が提供してくれるのは次の疑問への答えである。「仮に,母集団の効果が観察された標本における効果と全く同じならば,統計的に有意な結果を得る確率はどのくらいか?」  しかし,この問いにはほとんど意味がない。
しかし,次の疑問であれば話は別だ。「理論的な理由,先行研究の結果,実務的重要性などに基づき,母集団におけるなんらかの値を仮定しよう。その場合,統計的に有意な結果を得る確率はどのくらいか?」 この疑問に対する答えは,事実を観察する前だろうが後だろうが有用でありうる。たとえば以下のように:「先行研究では平均してr=.40の効果を得ています。母集団における効果を.40と仮定すれば,我々は高い検定力を確保しているわけです。ですから,このたび有意な効果が得られなかったという事実には意味があります」

上記引用の後半で著者らが支持しているのは,「目指す効果量を検出するための検定力が高いこと」を「検定が有意でなかったときに帰無仮説を支持するための証拠が強いこと」と捉える見方,すなわちHoenig & Heisey (2001)が批判するところのbiologically significant effect sizeアプローチではなかろうか?

Colegrave, N., Ruxton, G.D. (2003)Confidence intervals are a more useful complement to nonsignificant tests than are power calculations. Behavioral Ecology, 14(3), 446-450.
Hoenig & Heisey(2001)を掲載誌読者向けにやさしく解説した啓蒙的コメント。
Hoenigらの論文を読んでて最後まで理解できなかったのは下記の記述なのだが

2つの実験[2つの1標本Z検定]の例に戻ろう。実験1のほうが有意性に近かった(Zp1>Zp2)。さらに,推定された効果量は2つの実験の間で同じ,サンプルサイズも同じだったとしよう。このことはσ1<σ2であったことを意味する。

この部分,著者らの説明では

上で述べた実験[2標本Z検定]を繰り返す場合について考えよう。同じサンプルサイズでもう一度実験し,実験1と全く同じ平均差を得たとする。唯一のちがいは,実験1ではp=0.09だったのに対し,実験2ではp=0.21であったという点である。[...]サンプルサイズと効果量がかわらないのに,p値が高くなったということは,分散が実験1よりも大きいということだ。

やっぱりわからん。わたくし,平均の差の検定における効果量とは平均の差をそのSDで割ったものだとばかり思っていましたよ??? どうやら上記の引用部分で,彼らは効果量ということばをなにか違う意味で使っているらしい。。。母平均の差そのものを指して使っているのだろうか?

Lenth, R.V. (2007) Post Hoc Power: Tables and Commentary. Technical Report 378, Dept. Statistics and Actuarial Science, Univ. Iowa.
この論文もHoenig & Heisey(2001)のラインで,Onwuegbuzie & Leech(2004)を名指しで逐一批判している。また,実際に標本効果量に基づく検定力とp値との関係を大きな数表で示している。ある程度Nが大きくなってしまうと,p値さえ決まればNとは無関係に検定力が決まってしまうのだそうだ。
著者らの主張は,検定力はとにかくprospectiveなものだ,というもの。もしそれがretrospectiveな概念でありうるというならば,使えるデータを全部使わないとおかしい。というわけで,著者はpost hoc powerの大統一公式(grand unified formula)なるものを提案している。従来のpost hoc powerの欠点,それは検定の結果を無視していたことでありました。そこで,post hoc powerを次のように一般的に定義しましょう: post hoc power = Prob(H0を棄却する|利用可能なデータ)。この公式は衝撃的に簡潔で,誰にでも覚えられる。検定の結果が有意であるときの検定力は1, 有意でないときの検定力は0なのである。。。とのこと。ははは。

ときどき,資格試験とか院試のための勉強ノートを自分のブログに載せている人を見かけて,物好きなひとだなあ,と呆れていたのだが。。。いま俺がやっていることって,まさにそれそのものですね。
まあとにかく,事後的検定力についてある程度理解できたような気がするので,そろそろこの関係の論文を読むのはやめにしておこう。

論文:データ解析(-2014) - 読了:12/08まで (A)