読了:Gelman & Carlin (2014) 諸君の検定力計算は甘い。タイプSエラーとタイプMエラーを求めなさい

Gelman, A., Carlin, J. (2014) Beyond Power Calculations: Assessing Type S(Sign) and Type M(Magnitude) Errors. Perspectives on Psychological Science, 9(6), 641-651.

 ずっと前に目を通して放置していた奴。こういうメモが散乱して収拾がつかなくなっている。

 Gelman兄貴らが心理学者向けにお送りする、検定力に関する解説論文。タイプSエラーとタイプMエラーという面白い概念が登場する。
 ふだんこういう論文はほげーっと脱力しながら目を通すのだけれど(そして読み終えると忘れてしまう)、今回は検定力の話で結構面倒くさいので、適宜メモをとりながら読んだ(それでも読み終えると忘れてしまっている)。

 いわく。
 データを収集する前でも後でも使えるデザイン計算[design calculation. デザインの評価のことであろう]の方法を提案します。タイプSエラーとタイプMエラーという考え方に基づきます。

慣用的なデザイン計算(検定力計算)と効果量の仮定
 デザイン計算のためにはまず効果量の仮定が必要になる[標本効果量じゃなくて母効果量のことね。たとえば2群の間に差があるという仮説を実験で検証しようと思っているとして、どのくらいの差があるはずかを事前に決めておかないと標本サイズを決められない、という話であろう]。
 私たちのお勧めは、「もし無限大の標本が手に入ったらどうなるか」を真の効果量とする考え方。このお勧めのポイントは、関心の対象である母集団について明確にしなさいということである。
 従来、検定力計算のための効果量の決め方にはふたつの標準的方法があった。

  • 経験的方法。データ収集前なら先行研究、データ収集後なら手元のデータに基づいて決める。
  • 目標に基づく方法。実質的に重要な効果とか、その最小値とかを効果量とする。

 どちらの方法も、標本サイズを過少にしてしまうか、結果の解釈を誤りに導いてしまう。
 データを収集したあとで効果量を計算するのを批判する専門家は多い。Hoenig & Heisey (2001)とかね。確かに、回顧的な検定力分析には、(1)効果量を過大に評価する、(2)有意な結果が得られなかったときのアリバイとして使われる、という問題点がある。しかし、回顧的なデザイン分析に罪はない。むしろ有意な結果が得られたときにこそやるべきだ。
 我々のご提案はこれまでの方法と次の点で異なる。

  • 統計的有意性じゃなくて、効果の符号と強さに注目する。
  • 手元のデータの外部にある文献レビューなどの情報に基づいて効果量を決める。

デザイン分析のためのお勧めアプローチ
 なにか研究して、推定値\(d\)とその標準誤差\(s\)を得たとしよう。なんでもいいけど、たとえば連続的アウトカム指標の2つの条件間の平均差の推定値、とかね。標準的な手続きに従えば、もし\(p < .05\)だったら(それはたいていの場合\(|d/s| > 2\)というのと近い)、あなたは結果は統計的に有意でしたと報告するし、そうでなければ、あなたは結果はincolnclusiveでした(ないし帰無仮説を支持しました)と報告する。
 そこからあとは、真の効果量\(D\)について、外部情報に基づいて仮説を立てましょう。で、あなたの研究のデザインと同じデザインの架空の再現研究を想定し、そこで観察されるであろう推定量を、確率変数\(d^{rep}\)として定義しましょう。このステップは、ある研究のデザインについての一般的言明(真の効果量と、データからなにが得られるかとの間の関連づけ)を、具体的な点推定値に依存せずに行うためのステップである。
 \(d^{rep}\)の確率モデルに基づき、次の3つの要約を得る。

  • 検定力。すなわち、\(d^{rep}\)の絶対値がその分析における臨界値よりも大きくなる確率。
  • タイプSエラー率。すなわち、再現された推定値が有意に0から離れている場合、その符号が誤っている確率。
  • 誇大比(exaggeration ratio)。すなわち、再現された推定値が有意に0から離れている場合の、推定値の絶対値の期待値を効果量で割った値。タイプMエラー率の期待値。

つまり、真の効果量\(D\), 推定値の標準誤差\(s\)、有意水準\(\alpha\), 自由度\(df\)を入力とし、推定値の標本抽出分布が中心\(D\), スケール\(s\), 自由度\(df\)の\(t\)分布に従うという仮定の下で、検定力、タイプSエラー率、誇大比を出力するのである。Rで関数を作ったから使え。

 [コードをみると、めちゃくちゃ簡単な関数である。自由度\(df\)の\(t\)分布の両側\(\alpha\)を棄却域としたときの右臨界値を\(z\)とする。左臨界値\(-z\)と右臨界値\(z\)を\(D/s\)だけ左に動かして、それよか外側の確率を求める。これを左右で足したやつが検定力。左裾の確率を検定力で割ったのがタイプSエラー率。自由度\(df\)の\(t\)分布に従う乱数値のベクトルを生成し、それを\(s\)倍して\(D\)を足した奴を推定値ベクトルとし、絶対値が\(sz\)を超えた奴ら(つまり有意な奴ら)に絞り、そいつらの絶対値の平均を\(D\)で割ったのが誇大比。
 なお後注によれば、推定値が正規分布に従うとき、標準正規分布関数を\(\Phi\)として$$ Pr(|d^{rep}| > 1.96) = 1-\Phi(1.96-D/s)+\Phi(-1.96-D/s)$$ である。タイプSエラー率は、\(D\)が正なら $$ \frac{\Phi(1.96-D/s)}{1-\Phi(1.96-D/s)+\Phi(-1.96-D/s)} $$ である。
 ううう… わからん… 頭が混乱してきた… 非心 t 分布を使わなくてもよいのだろうか…]

 よくある疑問:実験の前ならわかるけど、実験後でも外部情報で決めた\(D\)を使うのはなぜ? お答えしよう。(1)実験前にできることは全部実験前にやっとけ、というのは現実的でない。(2)実験後であってもデザイン計算は結果の解釈の役に立つ。

 検定力、タイプSエラー率、誇大比の関係は? 推定値が不偏で正規分布に従う場合について考えよう。
 公衆衛生分野の前向き研究では95%水準、検定力80%というのが標準的だ。真の効果が2.8のときに検定力が80%になる。\(D=2.8, s=1, \alpha=0.05\)とし自由度を無限大にすると、検定力0.8, タイプSエラー率は\(1.2 \times 10^{-6}\), 誇大比は1.12となる。このように、検定力が大きければ符号は気にしなくていいし効果はそれほど過大に推定されない。
 ところが心理学では検定力はふつうもっと小さい。図を見よ。[検定力が下がるとタイプSエラー率も誇大比も急上昇する。おおう]

 [事例その1。メモは省略するけど、Kanazawa(2007, J.Theoretical Biology)を取り上げている。母親が美人だと第一子が娘になりやすいという話。先行研究では貧困や飢饉で女児が増えることがわかってるけどこの効果はすごく小さいから、真の差はすごく小さいとみるべきだ、この研究のデザインについて計算するとタイプSエラー率は46%, 誇大比は77となる、云々。Gelman兄貴は同誌に批判のレターを寄せているようで、おそらく怪しい研究事例としてお気に入りなのであろう]
 
 [事例その2, Durante et al.(2014, Psych. Sci.)。女性の生理周期によって選挙での投票先が変わるという話。スキップ]

「統計的に有意」であることにたいした意味が無いのはどういうときか
 デザイン計算は3つのことを教えてくれる。

  • 検定力の低い研究はめったに有意にならない。
  • 逆向きに有意になっちゃうことはよくある。
  • 検定をスクリーニングに使うと効果の強さは著しく過大評価される。

 本提案のように、事前情報に基づき仮説的な効果量を決めるのと、従来の「実質的に重要な最小の効果量」を決めなさいという話はちがうので注意せよ。
 [中略…]

効果量についての仮説を立てる
 本論文は先行研究のシステマティック・レビューに基づく仮定を用いるという方法に焦点を当てているが、補足データとかメタ分析とか階層モデルを使うという手もあるし、二次データ分析のために回顧的なデザイン計算をやることもできる。この戦略についてはもっと研究が必要ですね。
 ぴったりな先行研究がないときや、(心理学みたいに)先行研究があるけど不確かなときは、ありそうな効果の範囲について考えるのがよいだろう。
 良い事前情報がないときにもデザイン分析は有用である。なぜなら(1)おおざっぱな事前情報でもガイダンスにはなるし、(2)先行研究をちゃんと調べようというきっかけになるし、(3)効果量について量的に述べることを促進するから。
 
考察
 […中略…]
 デザイン計算には効果量の仮定が必要である。仮説的な効果量を手元のデータそのものから推定したなら、デザイン計算に価値はない。しかし、デザイン分析を事前情報を使う手段とみなし、伝統的で単純な検定力の計算だけでなく、方向についての量と推定値のサイズについての量へと拡張することで、手元のデータの真の価値を明確にすることができるだろう。
 適切な問いは「この検定の検定力は?」ではない。「このサイズの研究ではなにが起きるだろうか」である。また、広く普及した印象とは異なり、回顧的なデザイン計算が大事なのは検定の結果が有意だったときである。[←ああそうか… 「統計的に有意でないことをもってH0を支持してよいか」問題というより、「統計的に有意であることを実質的主張の証拠とみてよいか」問題が焦点になっているわけね]
 […後略…]
——–
 えーっと… きちんと理解できたかどうか自信がないんだけど…
 おさらいすると、{母効果量, 標本サイズ, 有意水準, 検定力}のうち3つを決めると残りの1つが決まる。おそらく最も一般的な考え方は、{検出すべき母効果量の下限, 標本サイズ, 有意水準}を決めて検定力を求める、ないし{検出すべき母効果量の下限, 有意水準, 達成したい検定力}を決めて必要な標本サイズを求める、というものだろう(Hoenig & Heiseyが批判する「検出可能な効果量」アプローチ)。いっぽう著者らの提案は、{仮定される母効果量, 標本サイズ, 有意水準}を決めて{検定力, タイプSエラー率, 誇大比}を求める、というもの。

 著者らが提案するタイプSエラー率と誇大比(タイプMエラー率の期待値)というのは、要するに検定力のわかりやすい言い換えなのではないかしらん? デザイン評価のための新しい手法というより、既存の検定の枠組みの下で、検定力が小さい研究の怖ろしさを世に知らしめ、「有意な結果をつまみ食い」するタイプの解釈を抑制するための手段なのではないかしらん。知らんけど。

 ともあれ、Gelman兄貴は標本効果量に基づく事後的な検定力算出に対してはたぶん批判的なんだろうな、というか、ああいうのみたら跳び蹴りとかしちゃいそうだな、と思わせる内容であった。(ずいぶん前だけど、ドヤ顔で有名になった格闘家がいたじゃないですか。兄貴の相貌はあの人と似てると思うんですよね。知らんけど)
 検定の話を離れてもっと大きな教訓として読むと、ベイジアンじゃなくたって事前情報を使うことはできるし、そうすることは大事だ、という話だと思う。