elsur.jpn.org >

« 読了:野村 (2016) ヒューマン-エージェント・インタラクションの主観的評価 | メイン | 読了:Buckland, Burnham, & Augustin (1997) 非ベイジアン・モデル平均 »

2016年3月11日 (金)

 ここのところ、全く先の見えない煉獄のような原稿と、蟻地獄のようなデータ分析で、気息奄々というのはこういうことか、という有様である。
 もっとも、こういうことがストレートに書けるのはどちらも副業の案件だからであって(本業の話は書きにくい)、その意味では、好きなことで苦労してるんだから幸せなんだけど.... いやいや、やっぱり辛いものは辛い。シベリアとかに逃げたい。この数ヶ月で、ちょっと寿命が縮んでいるんじゃないかと思う。

Wasserstern, R.L. & Lazar, N.A. (2016) The ASA's statement on p-values: context: process, and purpose. The American Statistician.
このたびASA(米統計学会)が検定についての声明を出したのだそうで、この論文はその声明本文に、経緯を説明する序文と、検定に関する精選文献リストをつけたもの。原稿が公開されてたので、夜中の気分転換に目を通した。
 
 本文は、6つのprincipleにコメントをつける形で書かれている。 まあ声明であるからして、ごくシンプルな文章であり、冒頭で断られているように、新しい話はなにもない。
 いわく。p値とはある特定の統計モデルの下でデータの統計的要約が観察値と同じないしそれより極端になる確率である[←これが超わかりにくいのが、そもそもの元凶なんでしょうね...]。
 (1)p値が示しているのは、データが特定の統計モデルと不整合かどうかだ。
 (2)研究仮説が真である確率でもなければ、データがランダム・チャンスで作られた確率でもない。
 (3)科学的結論やビジネス・政策上の決定を、p値が閾値を超えたかどうかだけで行ってはならない。
 (4)正しい推論のためには完全な報告と透明性が必要だ[と、ここでpハッキングを批判]。
 (5)p値は効果サイズや結果の重要性の指標ではない。 [おっと、効果量の話をするのかな、と思ったけど、そういう話は一切なし。ま、教材じゃないからね]
 (6)p値はモデルなり仮説なりに対する証拠の強さについての良い指標ではない。
 検定を補完・代替するアプローチとして、これまでに、(a)信頼区間とか信用区間とか予測区間とか、(b)ベイズ流の手法とか、(c)尤度比とかベイズ・ファクターとか、(d)決定理論とかFDRとか、が提案されている[←この段落、文面つくるの揉めただろうなあ... 各論となると絶対に紛糾する話題揃いだ]。これらのアプローチもそれはそれで別の想定に依存しているわけだけど、効果のサイズとか仮説の正しさとかについて、より直接に教えてくれる、かもしれない。
 
 文献リストはきっと定評ある教科書ばかりだろうと思ったら、これがそうでもなくて、結構論争的な雰囲気の奴も載っていて、なんだかちょっと楽しい。前に読んだHoening & Heisey (2001)の標本効果量ベース検定力への批判も載っていた。なるべくいろんな分野から選んでいる感じだ。暇なときにいくつか読んでみたいのもある。

 序文の経緯説明で面白かった箇所をメモ:

 オンライン補足資料として、議論に参加した識者によるコメントが添えられている。ちゃんと読む時間も気力もないが、ディスプレイ上でいくつかめくってみた。せっかくなので口語調でメモしておくと...

Altman, N.S.: (無題)
[もっとFDRっぽく考えようよ、というような話だった。メモは省略]

Benjamin, D.J., Berge, J.O.: 「p値の単純な代替案
 素晴らしい声明ですね。でもこういう指摘は大昔からあります。世の中変わらなかったのは、検定にかわる良い代替案がなかったからです。既存の代替案は、ややこしすぎるか、頻度主義者とベイジアンのどっちかに嫌われるものでした。
 そこで私たちは新しい代替案を提案しています。ご紹介しましょう!帰無仮説の「誤った棄却に対する正しい棄却の実験前オッズ」です! [←十分ややこしいよ!]
 実験前オッズとは2つの値の積です。ひとつは帰無仮説に対する対立仮説の事前オッズ。これは非頻度主義的な考え方です。もうひとつは棄却比。これは頻度主義的な考え方で、対立仮説が真のときにそれを棄却する確率を、帰無仮説が真のときにそれを棄却する確率で割った値、すなわち、検定力とType I エラーの比です。
 [熱弁頂いている途中で申し訳ないですが、関心が薄れてきました... いつか暇になったら読みます]

Benjamini, Y.: 「p値に罪はない
 たいていの人が合意できる、よくできた声明だと思います。ベイジアンの人は(1)に合意しないかもしれないし、頻度主義の人は(6)の意味がわかんないかもしれないけど。でも、残念ながらこの声明では、私たちの間違いをp値のせいにしてしまってますね。これじゃ、ASAはp値に対して否定的なのね、で終わっちゃいます。ほんとうはほとんどの統計的ツールの使い方に問題があるのに。
 声明が挙げている代替アプローチだって、p値と同じ問題を抱えています。研究仮説の尤度比がどのくらいあればジャーナルに載るんでしょうか? 科学的発見は事後オッズが特定の閾値を超えていることに支えられないといけないんでしょうか?
 20世紀を通じてp値がこんなに成功したのは、偶然性に騙されないようにする第一防衛線を提供してくれたからです。検定に必要なモデルは他のツールよりシンプル。まともな無作為化実験なら保障されるようなモデルに基づいています。いっぽう尤度比や効果寮や信頼区間やベイジアン手法は、どれも帰無仮説だけでなく、状況についてのもっと幅広いモデルに依存しています。
 もし可能ならば、検定とともに信頼区間や効果量を使うべきです。でも、検定しか使えないような場面も少なくありません。
 声明の(4)に「完全な報告と透明性」とありますが、これだけでは不十分です。大きな問題においてはセレクションが避けられないのです。表のセレクション、モデルのセレクション、図のセレクション。推論におけるセレクションの影響について調べるために、さらなる統計的手法が必要です。[...中略。このビッグデータの時代において、みたいな話が書いてある]
 p値を排除したり、使用しないよう勧めたりするべきではないと思います。問題はp値ではなく、セレクションそのものにあるのですから。

Berry, D.A.: 「p値は世間の人々が思っているようなものではない(P-values are not what they're cracked up to be)」
 過去50年間、p値についてたくさんの批判がなされてきました。それらの批判が及ぼしたインパクトをぜんぶ合計したら、どのくらいになるかというと... ほぼゼロです。統計学者はp値を正しく定義できるけど、本当の問題が理解できていないんです。非統計家の無理解を責めることはできません。統計的有意性についての無知と誤用の広がりはひとえに我々のせいです。もっとコミュニケートしなきゃ。なんなら屋根の上から叫ばなきゃ。ASAがやっているように。
 [という感じの熱弁ののち、声明のいくつかの点を取り上げて補足。読み物として面白そうだけど、パス]

Carlin, J.B.: 「パラダイム・シフトなしの改良は可能か?
 声明を読むにつけ驚かされるのは、誤用と誤解釈に対抗するためにかくも努力が必要か、ということです。これは哲学や科学史で問題にされているんでしょうけど、科学的判断をルール・ベースの活動へとコード化しようという、逆らいがたい衝動があるんでしょうね。
 BASPみたいにp値を禁止するというのは、問題を広く認知させ議論を起こすという点では有意味なんでしょうけど、それで推論の質が高まるのかどうかはわかんないです。必要なのは、推論という課題について、私たちがある種の広い原理に同意することなのではないでしょうか。具体的に言うと、不確実性について語るための言語です。私はベイズ流の確率を受け入れるしかないと思うんですけどね。[...後略。もっと根本的なパラダイムシフトが必要だという話]

Cobb, G.: 「期待される2つの結果
 関係者のみなさん、おつかれさまでした。ASAはこれから毎年こういう声明を出すといいんじゃないでしょうか。これから教育も変えてかないといけないですね。

Gelman A.: 「 p値の問題は単なるp値の問題ではない
 まず指摘しておくと、声明の(4)のところに「どんな分析を何回やったか報告しろ」って書いてあるけど、それだけじゃ足りないのよ? ポイントは、なにをやったかじゃなくて、もしデータが違ってたらどんな分析をやってたか(what analysis would have been done had the data been different)だよ。ベテランのユーザでも、p-ハッキングをせずなにをやったかをきちんと書けばそれでOKだと誤解している人が多いよね。 ここ、文面の修正案送ったんだけどなあ。[←なるほど、序文の「揉めた話題紹介」の多重比較の箇所で、multiple potential comparisonsのpotentialがわざわざイタリックになっているのはそういう事情か]
 突き詰めていうと、問題はp値じゃなくて帰無仮説の有意性検定そのものなのよ。好きな人形を支持する証拠にするために藁人形を倒すという、 こういう反証主義のパロディみたいなことをやっている限り、問題は解決しないと見たね。信頼区間でも信用区間でもベイズ・ファクターでも交差妥当化でもその他なんでも、証拠がないところに強い証拠があるようにみせかけちゃえるもんよ、わざとかどうかは別にして。
 声明の最後の段落はいいね。デザインも理解も文脈も大事だっていうところ。俺なら測定も大事だっていうのを入れるけどね。だってさ、デザインもデータ収集も文脈に照らした解釈も大事だってみんな知っているのに、結局p値の誤用とかが起きてるわけでしょ? これはやっぱ統計教育のせいだと思うわけですよ。ひとつには、これは自分も含めてだけど、講義とか教科書とかって、データセットとモデルが天下りに降ってくるところから始まるじゃない。せいぜい、サンプルサイズはどうやって決めましょうか、なんていう話をするくらいで。測定のこと、全然教えてないよね。それにさ、統計学ってなんか錬金術みたいに教えられてるよね。偶然性を確実性に変えるのだ、なあんてさ。話をデータからはじめて、有意差が出たら成功、みたいな。綺麗な結論のついたパッケージになっちゃってるのよ。自分でいってて耳が痛いけど。
 まあそんなわけで、ASAの声明ね、いいと思いますよ、大部分はね。でも問題はもっと深刻だと思う。p値を再構築したり他の何かと置き換えたりしても解決にならない。目指すべきは、不確実性を受け入れること。変動を抱きしめること。これですよ。

Greenland, S.: 「ASAガイドライン、そして現在の教育・実践におけるナル・バイアス
 まずは声明を称賛したいと思います。でも、たくさんの対立点についての妥協案だから、どこかの部分に不満を持つ人も多いと思います。私の不満は... [声明における「帰無仮説」という言葉の使い方がおかしい、こういう用法のせいで混乱が起きている。検定のせいで効果がないという仮説だけが検討されるバイアスが生じている。実は客観的ベイジアンもこの罠に落ちていて...とかなんとか。面倒くさいのでパス]

Greenland, S., et al.「統計的検定、p値、信頼区間、検定力:誤った解釈ガイド
[これはコメントではなくて、7名の共著による、本文だけで20pに及ぶ解説。さすがに読む気力ないです]

Ioannideis, J.P.A. 「目的合致的な推論手法とは: p値を放棄/変更するか、研究を放棄/変更するか
[未読]

Johnson, V.E.: 「声明へのコメント、ならびにmarginally significant なp値について
[なんか超めんどくさそうなのでパス]

Lavine, M., Horowitz, J. : (無題)
[未読]

Lew, M.: 「推論をめぐる3つの問い、そしてp値の2つのタイプ
[面白そうだけど、未読]

Little, R.J.: (無題)
 良い声明だと思いますけど、もっと注目しないといけないのは、p値をひとつの孤立した統計的指標として使っている、ということだと思います。効果の大きさと、推定した効果がシグナルかノイズかという問題とは別で、ひとつの指標では答えられないです。信頼区間や信用区間を使ったほうがいいと思います。
 公衆衛生の学生に生物統計を教えていて思うのは、信頼区間は簡単に教えられるけど、仮説検定はすごく難しいということです。仮説検定という概念そのものがゴマカシを含んでいて(The basic artifice of hypothesis testing as a concept)、それが諸悪の根源だと思うんですよね。ASA声明のような慎重な声明で、問題が解決するのかどうか、疑問です。

Mayo, D.G.: 「誤った統計学という産湯は捨てても、エラー・コントロールという赤子は捨てるな
[未読]

Miller, A.M.:「教育に関するいくつかの含意
[未読]

Rothman, K.J.:「統計的有意性に別れを告げよう
 検定は科学的結果という市場の通貨のようなものでした。本物の通貨がそうであるように、その価値はそれ自体にはなく、その背後にある、広く受け入れられている想定や期待から生まれたものでした。検定への依存は怪しい紙幣への信頼に似ています。悪貨が良貨を駆逐してきたわけです。
 検定に依存することの根本的な問題は、まず、すべての結果を二分法的に分類してしまうことです。また、有意かどうかという二分法そのものも恣意的に決まっており、p値に比べて情報が足りません。さらにp値それ自体も、信頼区間とはちがい、効果量と推定精度がコミになっているという解釈上のハンディキャップを負っています。[←なるほど、代替として信頼区間を買っているわけだ。前にも思ったんだけど、ロスマン先生って言い方が過激な割に発想は保守的だよね]
 有意性と真の重要性の間にはとても距離があります。人々が有意性を追求し、その結果として重要な効果を無視してきたせいで、たくさんの人々が傷ついたり、亡くなったりしてきたといってよいでしょう。
 では、どうすればよいのでしょう? 統計的有意性はすでに社会システムに深く組み込まれてしまっています。でも私たちにできることはあります。統計学を学ぶ学生に、検定を使うな、推定を使えと教えるのです。それは簡単なことではありませんが、疫学では、新しいトレンドが確かに生まれています。検定ではなく信頼区間を使いって効果量と推定精度をそれぞれ把握し、有意でない結果にも証拠との価値を認めるというトレンドです。
 さらに、私たち専門家は力を合わせて、科学者、ジャーナリスト、編集者、そして世の人々を啓蒙していきましょう。統計的有意性は有害な概念であり、効果の推定のほうが有用であると。ASAの声明はこの目標には遠く及びませんが、期待できる出発点だと思います。

Senn, S.: 「p値は問題なのか?
[未読]

Stangle, D.: (無題)
 問題の責任は私たち統計教育者にもあります。これを機に、統計教育の世界でp値についての議論が起きて、ベイジアン決定理論とかについても教えるようになるといいなと思います。

Stark, P.B.: 「p値の価値
 ASAの声明の精神には同意するけど、中身には同意できない。(1)声明冒頭のp値の定義があいまい。(2)声明は「帰無仮説」と「p値の背後にある想定」を区別しているけど、帰無仮説というのはp値の背後にある想定の完全なセットのことだ。(3)代替アプローチのなかにp値と似たようなものが入っている。FDRとか。(4)仮説検定がつかわれる状況のなかには、パラメータとか「効果」といった概念がない場合もあることを見落としている[←???]。(5)頻度主義とベイズ主義の違いを無視している。
 [以下、この先生が考えるところの、p値についての解説。うーん...ASA声明の説明が気に入らないということなんだろうけど、本質的な対立点はどこなのか、そもそも本質的な対立点があるのか、私には読み取れない]

Ziliak, S.: 「ASA声明の重大性(significance)
[こういう声明っていろんな人が鵜の目鷹の目で叩くのに、書いた人えらいよね、尊敬するわ、というような話の後で、声明の逐条解説みたいなのがついている。パス]

 読んだ中では、ゲルマン先生のが面白かった。「やったことを報告するだけじゃだめだ」というのは、まあ確かにそうだ。
 それにしても... この話題って、結局のところ、ずいぶん前から話の構図が変わっていないと思う。どこまで遡れるのかわかんないけど、私が院生のころにも、おんなじように悲憤慷慨してたような気がするんですよね。専門家の方にとっては大事な話だろうけど、いちユーザとしては、正直付き合いきれないな、と思う部分もある。

論文:データ解析(2015-) - 読了:Wasserstern & Lazar (2016) p値に関するASAの声明について