« 読了:中田(2018) 機械学習のクラウドサービス in 2018 | メイン | 読了:Jain, Murty, Flynn (1999) クラスタリング手法レビュー »
2018年5月 5日 (土)
Hanley, J.A., Lippman-Hand, A. (1983) If nothing goes wrong, is everything all right? Interpreting zero numerator. Journal of the American Medical Association. 249(13), 1743-1745.
「いずれ読む」フォルダにPDFが入っていたんだけど、なぜ入れたんだか思い出せない。時々こういうことがあって、結局読まないままになっちゃうんだけど、これはたったの3pなのでざっと目を通した。
タイトルの通り、割合の推定において分子が0だったらどうするのかという啓蒙論文であった。誌名に見覚えがないな...と思ったのだが、よく見たら現在でいうJAMAである。
いわく。医師は患者に特定のアウトカムが生じる確率についての推定値を示さなければならない。そのアウトカムが一般的なものでない場合、正確な推定は難しくなる。特に、ある研究においてそのアウトカムの事例が一件もない場合には、一件以上ある場合と比べて質的にも量的にも異なる事態となる...と考えられている。
本論文では以下を強調したい。(1)分子が0であることは「リスクなし」を意味しない。(2)分子が0だからといってリスクのサイズについて推測できないわけじゃない。(3)分子が非ゼロのとき適用できる推測統計の諸原理は、分子がゼロの時にも適用できる。
いま、標準的な造影剤があって、深刻なリアクションを示す人が10000人中15人であることがわかっているとする。新しい造影剤を167人に試したところ、深刻なリアクションを示した人はいなかった。リスクはどちらが高いか。
まずはふたつの造影剤のあいだでリスクが同一(10000人中15人)だとしよう。167人試して出現数0となる確率は、(1-0.0015)^167 = 0.78。ごくありうる事柄である。
では、新造影剤のリスクが100人中1人だったら? 167人試して出現数0となる確率は、(1-0.01)^167 = 0.19。まだまだ、驚くような値ではない。
今度は、新造影剤のリスクが25人中1人だったら? 167人試して出現数0となる確率は、(1-0.04)^167 = 0.01。この場合は驚く。真のリスクはもっと低いに違いないという話になる。
ここで慣例に従い、我々の「驚きたい程度」を5%とし、これを下回ったら「真のリスクはもっと低いに違いない」と考えることにしよう。[←というわけで、途中でやっと気が付いたんだけど、著者らは95%信頼区間についてわかりやすく説明しているわけである]
さて、観察された割合が$0/n$であるとき、真のリスクは0からある値までの間にある。それと整合するような真のリスクの最大値(=95%信頼区間の上限)をMaximum Riskと呼ぼう。すると
$(1-Maximum Risk)^n = 0.05$
$Maximum Risk = 1-0.05^{1/n}$
これは$3/n$で近似できる。なお、ポワソン分布から直接算出しても同じことがいえる。
[数学の勉強をしてこなかったせいで、こういう話には途中でついていけなくなる。自分向けにゆっくり書くと、
$0.05^{1/n} = \exp(\log(0.05^{1/n})) = \exp(\log(0.05)/n)$
さて指数関数というものは
$\exp(x) = \sum_i \frac{x^i}{i!} = 1+x+\frac{x^2}{2}+\frac{x^3}{6}+\cdots$
と展開できる。$x=\log(0.05)/n$と代入して
$\exp(\log(0.05)/n) = 1 + \frac{\log(0.05)}{n} + \frac{\log(0.05)^2}{2n^2} + \frac{\log(0.05)^3}{6n^3} \cdots$
第二項の$\log(0.05)$はおよそ-3。第三項以降は分母が$2n^2, 6n^3, \ldots$と大きくなっていくので無視できる。というわけで
$0.05^{1/n} \approx 1 - 3/n$
$1- 0.05^{1/n} \approx 3/n$
ということであろうかと思う]
手っ取り早くいうとこういうことだ、観察された割合が$0/n$だったら、真の割合は$3/n$以下である。100人観察して0人だったら、真の割合は3%より以下である。これが"The rule of three"だ、諸君、覚えておきなさい。
。。。というわけで、なぜ読もうと思ったんだか結局最後まで思い出せなかったんだけど、面白い文章であった。The rule of threeね。こんどセミナーとかやることがあったらネタにしよう。
途中で余談として出てくるんだけど、かつてラプラスは、過去5000年間にわたって日が昇らなかった日はない、この日数を$n$として、今後日が昇るオッズは$n:1$だ、と述べているそうである。へええ。
論文:データ解析(2018-) - 読了:Hanley & Lippman-Hand (1983) 調べたい事柄の発生率が0で困っているあなたのための「ルール・オブ・スリー」