elsur.jpn.org >

« 読了:12/06まで (A) | メイン | 読了:12/08まで (A) »

2009年12月 8日 (火)

Hoenig, J.M., Heisey, D.M. (2001) The abuse of power: The pervasive fallacy of power calculations for data analysis. American Statistician, 55(1), 19-24.
先日読んだG*Powerの紹介論文で引用されていた論文。

 帰無仮説が棄却されなかった場合の検定力分析の適用例には主に2種類ある。一つ目は,検定統計量の観察値に関して検定力を計算することだ。つまり,観察された処理効果と変動が真のパラメータ値と等しいと想定して,帰無仮説が棄却される確率を計算することである。これは「観察された検定力」と呼ばれるものである。SPSSのような統計ソフトウェアは,データ分析と一緒に観察された検定力を出力する。観察された検定力の支持者は,もし統計的有意性が見出されず,しかし観察された効果量に対する検定力が高い場合には,それは帰無仮説が真であるという証拠となる,と論じる。[...]

 観察された検定力は,その支持者たちの目標を決して達成できない。なぜなら,ある検定において観察された有意水準(「p値」)が観察された検定力を決定するからである。いかなる検定においても,観察された検定力はp値と一対一に対応する関数なのだ。p値は[0,1]のあいだに落ちる確率変数である。p値の累積分布関数(CDF)をPr(P≦p) = G_δ(p)と表現しよう(δはパラメータ値)。さて,既知のσを持つ正規分布から得られているデータについて,H_0:μ≦0とH_α:μ>0とを比較する一標本Z検定について考えよう。δ=√n * μ / σ とすると,G_δ(p)=1-Φ(Z_p-δ) である (Z_pは標準正規分布の100(1-p)番目のパーセンタイル)。ここでZ_pは観察された統計量である。p値も観察された検定力も,G_δ(p)から得られる。p値を得るにはμ=0とすればよい。つまり,G_0(p) = 1-Φ(Z_p) = pである。観察された検定力を得るには,パラメータの値を観察された統計量の値にして,P<αとなるパーセンタイルを調べればよい。つまり,観察された検定力はG_Zp (α) = 1-Φ(Z_α-Z_p)から得られる。このように,観察された検定力は,p値によって完全に決定されている。結果の解釈にはなにも付け加えてくれない。[...]

 観察された検定力が有用でないという可能性に言及した人は多いが,観察された検定力という考え方の致命的な論理的欠陥について触れている人は少ない。次の場合について考えてみよう。2つの実験を行い,どちらでも帰無仮説が棄却されなかった。観察された検定力は実験1のほうが大きかった。観察された検定力の支持者なら,実験1のほうが帰無仮説を支持する強い証拠を与えている,と解釈するだろう。彼らの論理はこうだ。「検定力が低いということは,帰無仮説からの真の乖離を検出することに失敗しているのかもしれない。いっぽう,高い検定力があるにもかかわらず帰無仮説の棄却に失敗したということは,帰無仮説はおそらく真,ないし真に近いということだ」 この理屈がナンセンスであることは簡単にみてとれる。上述の片側Z検定について考えよう。実験1と実験2で観察された検定統計量をZp1, Zp2とする。観察された検定力が実験1のほうで大きかったということは,観察された統計力G_Zp(α)はZの単調増加関数だから,Zp1>Zp2ということだ。p値を統計的証拠として用いる通常の考え方に従えば,実験1のほうが,帰無仮説に反する強い証拠を与えていることになる。これは先に述べた検定力解釈と矛盾する。以下ではこの不適切な解釈のことを「検定力アプローチのパラドクス」と呼ぶことにする。すなわち,検定力が高いことが,棄却されなかった帰無仮説を支持する証拠の強さを意味しない,というパラドクスである。

 事後的な検定力計算の二つ目の適用例は,特定の検定力(たとえば.9)が得られるであろう仮説的な真の差を見つけること,すなわち「検出可能な効果量」を決定することである。この手法は,ある実験の結果として帰無仮説が棄却できなかったときに,観察された変動に基づき検定力が.9になるような効果量を求める,という形で適用される。この手法の支持者は,「検出可能な効果量」を真の効果量の上限として捉える。つまり,検定力が高いなら,有意性に達しなかった以上,真の状態が検出可能な状態に近いとは思えない,というわけである。検出可能な効果量が帰無仮説に近いほど,結果は帰無仮説を強く支持する証拠であるとみなされる。たとえば,H_0:μ≦0とH_α:μ>0とを比較する一標本Z検定において,平均1.4, 平均の標準誤差 1 を得たとする。Z=1.4, P=.08となり,α=.05において有意でない。仮に真のμが3.29であるならば(SEは1であるとしよう)。H0を棄却する検定力は.95である。従って,3.29が真の平均の上限とみなされる。

 「検出可能な効果量」アプローチの変形のひとつに,「生物学的に有意な効果量」アプローチがある。生物学的に重要であるとみなされるなんらかの効果量について,その検定力を求めるアプローチである。帰無仮説からの意味ある乖離を検出するための検定力が高いほど,帰無仮説が棄却されなかったことが,真の状態が帰無仮説に近いということを示す強い証拠であるとみなされる。

 これらの推論アプローチが明示的に正当化されたことはこれまでに一度もない。Cohen(1988)は以下のように述べている。いま,帰無仮説からの乖離Δを検出する検定力1-βが高くなるように研究を設計し,かつ帰無仮説を棄却することに失敗したとしよう。この場合,真のパラメータ値が帰無仮説の前後Δぶんの範囲に落ちているという結論が「水準βで有意になる。このように,リスクαを伴って帰無仮説を棄却するのと同じ論理に従い,リスクβを伴って,効果量=Δという仮説ではなく帰無仮説を支持することができる。」[...] さらにCohenは,「統計的演繹による「証明」は確率的なものだ」と述べている。彼はどうやら,パラメータの真の値についての確率的言明を行っているようだ(古典的な統計学の文脈では不適切な言明である)。さらにいえば,彼の手続きでは特定され固定された検定力を達成すべく,実験を実施する前にサンプルサイズが決められるのであるから,彼の議論は実際の検定力が意図された検定力と等しいと想定していることになる。実験の結果がどうであれβの値は更新されないのだから,彼の手続きでは,効果量と標本変動についての実験的証拠が無視されているといってよい。[...]

 「検出可能な効果量」アプローチと「生物学的に有意な効果量」アプローチは,「観察された効果量」アプローチよりも魅力的だ,とみなす人が多い。しかし,これらのアプローチもまた,「検定力アプローチのパラドクス」という致命的問題から逃れられない。2つの実験の例に戻ろう。実験1のほうが有意性に近かった(Zp1>Zp2)。さらに,推定された効果量は2つの実験の間で同じ,サンプルサイズも同じだったとしよう。このことはσ1<σ2であったことを意味する。求められている検定力水準をΠ_αとすると,求められている検出可能な効果量ρを得るためには,式Π_α=1-Φ(Z_α - √n * ρ / σ)を解けばよい。この式をみるとわかるように,検出可能な効果量は実験1のほうが小さい。いかなる効果量に対しても,検定力は実験1のほうが小さくなるだろう。以上の結果から,実験1のほうが帰無仮説を支持する強い証拠を提供している,という意味不明な結論が得られる(実験1は,検定力は高いのに有意差が得られなかった実験だからである)。これは実験結果(p値)の標準的な解釈と矛盾する。[...]

恥ずかしながら,一番肝心であると思われる部分の議論(上記引用の最終段落)がよく理解できなかったので,その部分のメモを取り始め,それでも分からないのでさかのぼってメモを取り。。。ずるずる悩んでいるうちに,いつのまにかこんなに訳文を作ってしまった。思い詰めるとついつい訳してしまうのは悪い癖だ。しかも,まだ理解できていない。情けない。
 2つの一標本Z検定のあいだで,推定された効果量が同じ,サンプルサイズも同じだったら,検定統計量も同じでは??? なにか俺が勘違いしているんだろうけど。。。うーむ。
 なお,こうした議論について「アホだなあ。。。事後分布を得ることだけに焦点を当てれば,問題全体が無意味になるだろうに」と感じるであろうベイジアンの皆様(ほんとにこう書いてある)に対する返答としては,リアル・ワールドにおけるデータ解析は当面は頻度主義のままだろうから,頻度主義の枠組みのなかでできる限り適切な分析をすることが重要なのです,とのことであった。そうそう,そうですよね。
 ユーザに対するアドバイスとしては,もっと信頼区間を使え,とのことであった。いっちゃなんだが,伝統芸能のようなアドバイスだ。ずいぶん前からいろんな人がそう云っているけど,その割には世の中変わらないですよね。

論文:データ解析(-2014) - 読了:12/07まで (A)