読書日記: 読了: Bender, R. & Lange, S. (2001) いつどうやって多重比較するか; Perneger (1998) Bonferroni法は使うな; Goodman (1998) 多重比較論争の真の対立点

« 読了：「信徒内村鑑三」 | メイン | 読了：「プロモーション効果分析」 »

2012年2月22日 (水)

　初級の教科書に書いてある簡単な話であって、よく知っているつもりで暮らしているのだが、よくよく考えてみると全然簡単な話ではない... という事柄が、世の中には多々ある。統計学の教科書もまた，そうした話題にあふれていると思う。もっとも、それをうかつに口にすると、思ってもみない人に予想もできない形でバカにされることがあるので、ほんとうは黙っていたほうが面倒がないのだけれど。
　統計的多重比較法というのもそういう話題の一つであって(少なくとも私にとっては)、教科書を勉強しているぶんには平和なのだけれど，現実のデータ解析の文脈に当てはめて考えると、これが非常に難しい(少なくとも私にとっては)。先日もそう思い知らされる出来事があった。仕事の関係で、「いったい多重比較はどんなときに行うべきなんですか？」と真正面から問われ、言葉に詰まってしまったのである。「なぜ」とか「どうやって」ではなくて、いつ、と問われているところが厄介である。
　もし木で鼻を括ったようなお返事でよろしければ、とりあえずは「(maximum) Type I familywise error rateをコントロールすべきとき」と答え、戸惑う相手にType I FWEとはなにかをくどくどと説明して，相手がうんざりするのを待てばよい。しかし、相手が本当に知りたいこと、私たち統計手法ユーザが本当に知りたいことは、「私たちが (maximum) Type I FWEをコントロールすべきなのはいかなる状況においてか」なのである。これはものすごく難しい... 少なくとも私にとっては。

Bender, R. & Lange, S. (2001) Adjusting for multiple testing - When and how? Journal of Clinical Epidemiology, 54, 343-349.
　多重比較全般に関する臨床疫学者向けの啓蒙論文。類似の文献は山ほどあるのだが、とりあえずタイトルが魅力的なものから読んでみた。先生方、タイトルは大事ですよ。
　「多重比較はいつ必要か」という問いに対して、著者らは比較的に穏健な、悪く言えば煮え切らない立場をとっていて、「そもそも多重比較に調整なんて要らねえよ」というロスマン流の極左的(?)批判は採らないが、多重性の調整は常にいつでもぜったい必要だという極右的(?)主張にも組しない。検証研究の場合は必要だけど、探索研究の場合にはそうでもない、とのこと。なぜなら、探索研究では仮説がデータ依存的で、仮説検定は意思決定ではなく記述のための道具にすぎないだろうから、との仰せである。ううむ...
　そもそも記述のために検定なんか使うなという反論がありそうだが、それはまた別の話になるので置いておくとしても、検証と探索というのは理念型であって、たいていのデータ解析はその両極の間をうろうろしているのだから、そうやって彷徨っている哀れなユーザ向けに、課題状況と多重性調整との関係をどう捉えればよいのか、もう少しアドバイスを頂けるとうれしかったです。適応分野をある程度狭めたうえで、きちんと理詰めで考えていけば、検証-探索というラフな場合分けではなく、もう少し踏み込んだ処方箋がありうるのではないかしらん。ま、自分で考えろってことですね。
　ちらっと紹介されていた、長期臨床試験の中間解析の話題が興味深かった。P値がどうだったら試験を中断するか、という話。なるほどー、そういう話題があるんですね。

Perneger, T.V. (1998) What's wrong with Bonferroni adjustments. British Medical Journal, 316, 1236-1238.
　多重比較についての議論の際によく引用されているようなので、ついでにざっと目を通してみた。Bonferroni調整はよくない、なぜなら(1)ユニバーサルな帰無仮説にはふつう関心がないから、(2)Type II エラーが増えるから、(3)ファミリーに含めるべき比較の定義が恣意的だから。そもそも多重比較法のロジックはNeyman-Pearson的意思決定支援の枠組みのなかで考案されたものであって、エビデンス評価のためには推定とか尤度比とかベイズ流の手法とかを使うべきだ。云々。
　Bonferroni調整の話がまっすぐ多重比較全般の話につながっちゃうので、アレレ？という感じだが、やはり後の号でそういうコメントが載った模様。
この記事，google scholarでは1939件引用されていることになっている。BMJであることを考慮しても，これはかなり多いほうだと思う。ソーシャルメディアでは短くて乱暴な発言のほうが拡散されやすかったりするけど、学術論文にもちょっとそういう面があるかもしれない。

Goodman, S. N. (1998) Multiple comparisons, explained. American Journal of Epidemiology, 147(9), 807-812.
この雑誌上で多重比較の意義について論争があったようで(Savitz & Olshan,1995, Thumpson, 1997)、その2論文に対するコメント。元論文を読んでいないので文脈がわからない箇所があるし，書き方がちょっとくどすぎるようにも思うのだが，それでも大変面白かった。
　著者いわく、多重比較をめぐる論争は、科学的方法とはなにかという大問題に関わっている(おっと，大きく出ましたね)。Fisherにとってp値とは、観察データと単一の帰無仮説との間の統計的な距離であり、統計的な証拠の強さの指標であった。いっぽうNeyman-Pearsonにとっては、p値は単なるerror rateである。彼らにいわせれば、科学が演繹的・客観的確率のみに基づく推論システムに基づく限り、証拠の強さを測る方法はないし、特定の仮説の真偽の判定は許されない。純粋に演繹的な推論システムはデータから仮説へという帰納的なはたらきを持たないからである。しかし、科学を推論の営みではなく、固定されたルール群に従う「帰納的行動」の営みとして扱うことならできる。このように科学のスコープを狭く限定する見方は、ポパー、カルナップ、ヘンペルといった同時代の科学哲学者たちと通じるものであった。
　Neyman-Pearsonの枠組みのなかでは、仮説検定が現在のように普及する理由はない。にもかかわらずp値がこんなに広まってしまったのは、それがあたかも証拠の強さを測っているような顔をしているから、証拠によって事後的に測られたType I error rateであるようにみえるからである。p値は証拠とエラーのふたまたをかけている。そのごまかしを露呈させるのが、たとえば多重比較の状況なのである。
　ある研究の中で500個の比較について検定したとしよう。有意水準5%なら、ほんとはどこにも差がなくたって、平均25個の有意差が得られる。いま20個得られたとしよう。これは偶然によるものだと「説明」できる。500個の比較のいずこにも差がないという帰無仮説をANOVAで検定すれば、総体としての結果はこの帰無仮説から離れていないということになろう。これに対して、いやいや、ひとつひとつの比較は認識論的にみて質的に違うものなのだから、依然として個別の比較のp値なり尤度比なりを求めることには意義がある、という見方もできる。この2つの立場の対立の根底にある本当の問題は、証拠の強さの評価の方法としてp値が良いかどうかとか、いや尤度比やベイズファクターを使ったほうがいいんだとか、そうということではない。むしろ、我々がいろいろな比較を認識論的に区別できると信じるかどうか、すなわち、ある差についての科学的説明の良さを判断する能力が我々にあると信じるかどうか、がキーポイントなのである。
　な・る・ほ・ど... 探索か検証かという区別よりも、こっちのほうがはるかに腑に落ちる。大変勉強になった。

論文：データ解析(-2014) - 読了: Bender, R. & Lange, S. (2001) いつどうやって多重比較するか; Perneger (1998) Bonferroni法は使うな; Goodman (1998) 多重比較論争の真の対立点

読書日記

読んだ本を淡々と記録します

2012年2月22日 (水)