« 読了:Bates & Granger (1969) 2つの予測をどうやって結合するか | メイン | 読了:「翔んで埼玉」「パパと親父のウチご飯」「レベレーション(啓示)」「辺境で」「娘の家出」「アイ・アム・ア・ヒーロー」 »
2016年4月12日 (火)
Kyriacou, D.N. (2016) The Enduring Evolution of P Value. JAMA. 315(11), 1113-1115.
JAMA (The Journal of the American Medical Association) 3月15日号のEditorial。この号には、1990年以降の生物・医学系論文におけるp値の使われ方を片っ端から調べましたというとんでもない論文が載ったのだそうで、この文章はその論文の露払い(?)みたいなものらしい。
いちおうメモをとったけど、別にいらなかったかな... ま、コンパクトにまとまった良い文章であった。(←偉そう)
いわく。
科学文献においてP値の使用が顕著になったのはFisher(1925) "Statistical Methods for Research Workers"にさかのぼる。FisherによればP値とは「仮に帰無仮説が真であるとして、観察された結果ならびにそれより極端な結果が得られる確率」。FisherはP値を統計的推論の柔軟な指標としてとらえていた(意思決定の道具ではなくて)。また、P値の適切な使用は以下の想定と結びついているものであった。(1)いま検討している因果的要因と、関心の対象である結果との間に関連性がない(=帰無仮説が真)。(2)研究デザインと分析に体系的エラーが全くない(=誤分類とか選択バイアスとか交絡とかがない)。(3)適切な統計的検定が選択されている。
こうしてみると、P値についての誤解や誤用など生じなさそうなものだが、実際にはもう生じまくりである。Goodman(2008)はP値についての12の誤解を挙げている。「P値は帰無仮説が真である確率だ」とか、「P値が.05以上だったら帰無仮説は真であり曝露とアウトカムの間に関連がない」とか。
フィッシャー派とネイマン=ピアソン派では哲学は違うが、確率についての頻度主義的解釈をとる点、ある実験を統計的に独立な結果をもたらす無数の実験のひとつとみなす点は共通しており、これが臨床試験・疫学の教育の基礎となっている。
いっぽう、違う点を挙げると...
フィッシャー派の立場では、P値は個別的な研究上の知見について、帰無仮説に反対する証拠として解釈される。有意水準を事前に固定する必要はない。対立仮説もない。仮説を受容するか棄却するかという判断ではなく、仮説に関する推論を行うのが良しとされる。
ネイマン=ピアソン派の立場では、目的は推論じゃなくて決定である。事前に有意水準を決めておき、P値がそれを下回ったら「統計的に有意」という決定を行い、対立仮説を支持する。この過程で生じうるエラーは2種類あることになる(Type IとType II)。ここから検定力という概念が生まれた。また、この考え方は臨床試験における標本サイズ決定の基盤となった。
ネイマン=ピアソン派への主な批判は、決定に柔軟性がなさすぎるんじゃないかという点である。これに対して、確かさの程度を条件つき確率として特徴づけ、因果関係を帰納的に評価しようとするのがベイジアン帰納推論である。事前分布がわからない、ベイズ・ファクターはP値よりも計算が大変、教室であまり教えられてない、というのが難点。とはいえ、P値とベイジアンを融合しようという提案もあるぞ(Greenland & Poole, 2013 Epidemiology)。
突き詰めていえば、P値を使った統計的推論とは、偶然誤差という文脈において説明理論を構築することを数学的に手助けしようという試みである。しかし、P値が提供するのは特定のデータセットの数学的記述に過ぎず、目標母集団における因果関係の科学的説明ではない。
P値の真の意味、強みと限界、そして統計的推論のもっとも適切な適用方法について理解することが重要である。P値そのものは正しく使用されていれば悪いものではないけど、事前に決めた有意水準の下で二値的仮説検証を自動的にやっちゃうのは良くない。効果量の推定値とか信頼区間とかP値そのものとかを使ったもっと複雑な過程を導入しないといかんよ。科学者・統計家・臨床家が自分の推論能力でもって科学的重要性を決められるようにね。
... Greenland & Poole (2013)って面白そうだなあ。時間ができたら探してみよう。
論文:データ解析(2015-) - 読了:Kyriacou (2016) p値を正しく理解しましょう