elsur.jpn.org >

« 読了:「Rによる実証分析」 | メイン | 読了:「JODK 消えたコールサイン」 »

2019年7月 9日 (火)

Amrhein, V., Greenland, S., McShane, B. (2019) Retire statistical significance. Nature, 567, 305-307.
 最近のNatureに載った仮説検定批判のコメンタリー。話題になっているし、たった3pだし、著者にGreenlandさんがいるので、パラパラめくってみた。

 いわく...
 有意差がないことをもって差がないと解釈する誤りが世に溢れておる。嘆かわしい。5つのジャーナルから集めた791本の論文のうち、有意差がないことを正しく解しておる論文は49%であった。けしからん。
 2016年にはASAの声明がありAmerican Statisticianの特集号があった。Hurlbert, Levine, & Utts (2019, J.Am.Stat.)も「統計的に有意」という表現を廃止しようと主張して署名を集めた。
 我々もまた主張する。統計的有意性という概念そのものを捨てるべきだ。というわけで、南極大陸を除く全大陸から署名を集めたぞ。[854人の署名を集めたそうだ]
 P値を禁止しようというわけではない。たとえば生産プロセスがなんらかの品質基準に合致しているかどうかを決めるというような、その場面に特化した意思決定基準を使うということに反対しているわけでもない。弱い証拠も信頼すべきだと主張しているわけでもない。我々はですね、ある科学的仮説を支持するかどうかを決めるために、二値的なやり方でP値を使うことをやめようと云うとるんです。

 問題は統計学というよりも人間の認知の側にある。二分法的な統計手法であれば、頻度主義だろうがベイジアンだろうがなんだろうが同じ問題が起きる。
 事前の登録と出版へのコミットによって事態は少しはましになるだろうけど、事前登録研究だって、分析計画で決められていなかった決定によってバイアスを受けうる。悪気があろうがなかろうが。[ああそうか、事前登録すりゃいいってもんでもないわけね。Gelman & Loken (2014 Am.Sci.)というのが挙げられている]

 「二分法マニア」を避けるべき理由の一つは、P値であれ信頼区間であれ、研究によってびっくりするぐらい変動するのが自然だからだ。[簡単な例が挙げられている]

 我々は不確実性を抱きしめる(embrace)することを学ばなければならない。そのひとつの方法は、信頼区間を「compatibility区間」と呼び換えることだ。著者の皆さんには、区間の内側にあるすべての値について、その実務的示唆を述べていただきたい。さすれば、どの値もデータとcompatibleであることを否応なしに思い起こすことになろう。大事なのは、区間に0が入っているかどうかじゃなくて、すべての値が実務的にみて重要でないといえるかどうかなのだ。
 この「compatibility区間」について語る際の注意点が4つある。
 (1)区間の外側の値がimcompatibleだとはいえない。単にless compatibleなのだ。
 (2)区間の内側が等しくcompatibleなわけじゃない。点推定値の解釈が大事。
 (3)95%というレベルにも意味がない。他のレベルでもよい。
 (4)謙虚であれ。compatibilityの評価は背後にある統計的仮説の正しさに依存しており、それらの仮説にもまた不確実性がある。仮説を明示し、可能な限り検証せよ。

 想像してみよう、統計的有意性が退場した世界を。論文の「手法」の章とデータの表はもっと詳細になる。著者は自分の推定値の不確実性をより強調するようになる。P値はP<.05じゃなくてP=0.13という風に書かれる。もはやホシはつかない。人々は統計ソフトとともに過ごす時間を減らし、その分もっとよく考えるようになるだろう。[←このあたり、ジョン・レノンのイマジンが頭をよぎりますね...]
 云々。

論文:データ解析(2018-) - 読了:Amrhein, Greenland, McShane (2019) 仮説検定よ退場せよ in 2019

rebuilt: 2020年11月16日 22:53
validate this page