読了:Janssens & Martens (2020) ROC曲線下面積に対するご批判にお応えしよう

Janssens, A.C.J.W, Martens, F.K (2020) Reflection on modern methods: Revising the area under the ROC curve. International Journal of Epidemiology, 1-7.

 ちょっと都合で読んだ奴。今年出た記事で、タイトルの通り、ROC曲線下面積(AUC)についての解説。
 題名に添えて Education Corner と書いてあるから、この雑誌にはそういう啓蒙コーナーがあるのだろう。American StatisticianのTeacher’s Cornerみたいなもんかな。

 いわく。
 医学分野にROCを導入したのはLusted(1971), 診断の正確性の指標としてROC曲線下面積(AUC)を導入したのはHanley &McNeil(1982)。[←まじか… ROC自体は第二次大戦中からありませんでしたっけ? 心理学では50年代の信号検出理論で使われていた。このタイムラグってなんなの]
 ご存じのとおり、AUCは疾患の予測・診断能力の評価指標として最もよく使われている指標である。
 そのいっぽうでAUCは批判も受けてきた。AUCはふつう「罹患者と非罹患者をランダムに選んでペアをつくったとき、どっちが罹患者かを正しく予測する確率」だと説明されるが、そんなペアは診察室にこねえよ、とか。医者が関心を持つのはROC曲線のある特定の閾値だけだろうよ、とか。医者は閾値の異なる複数のリスクカテゴリを区別したいことが多いよ、とか。すでに良い判別能を持っているベースラインモデルに実質的なリスク因子を追加したとき、AUCはほんの少ししか上がらないことがある、つまりAUCは敏感性が低いのだ、とか。
 本稿は、ROC曲線の従来とは異なる捉え方について説明し、AUCの解釈について再考します。

 ある予測モデルについて、

  • (a)横軸に予測されたリスク、縦軸に頻度をとったリスク分布を考えることができる。罹患者/非罹患者別の分布を重ねて描いたとき、重なっていない部分の面積が判別能の高さを表す。
  • (b)今度は累積リスク分布を考えてみよう[予測されたリスクを\(p\)として、\(y = Prob(p < x | Diseased)\)ないし\(y = Prob(p < x | NotDiseased)\)ってことね]。罹患者/非罹患者別の分布を重ねて描いたとき、非罹患者の分布のほうが左にずれる。ずれている部分の面積が判別能の高さを表す。この図の縦軸は累積割合だけど、横軸を閾値とみるならば、罹患者の曲線は感度, 非罹患者の曲線は1-特異度を表す。
  • (b)の横軸を、リスクの予測値ではなく、(そのリスク予測値を閾値としたときの)非罹患者の累積割合にする[つまり\(0 \leq c \leq 1\)について\(x = Prob(p < c|NotDiseased)\)]。非罹患者の曲線は当然ながら傾き45度の直線になる。罹患者の曲線[\(y = Prob(p < c|Diseased)\)]はその下側に位置する。2本の線に挟まれた部分が判別能の高さを表す。
  • (d) (c)の縦軸と横軸を反転する。縦軸[\(y = Prob(p > c|Diseased)\)]は感度、横軸[\(x = Prob(p > c|NotDiseased)\)]は1-特異度である。

 では、ROC曲線とリスク分布はどう対応するか。[…いろいろ書いてある。図なしでは辛い内容なのでメモ省略]

 このように、ROC曲線はリスク分布の図示である。45度線は全く弁別できていないことを表す参照線だというだけでなく、非罹患者のリスク分布そのものを表している。
 ROC曲線は、たしかに「あるリスク閾値の下での敏感度と特異性」を表してはいるけど、閾値のことは忘れて、単にふたつのリスク分布を表していると捉えてもよい。

 AUCの解釈において「いま罹患者と非罹患者のペアがいて…」と考えてもよいけど、そう考えなければいけないわけじゃない。
 AUCが予測子追加による改善に対して鈍感だという批判はあたらない。AUCはビッグ・ピクチャーの指標なので、たとえば強い効果を持つレアな予測子を追加しても値はあまりかわらない。リスクの予測値そのものに関心があるなら、integrated discrimination improvement(IDI)とかBrierスコアとかを使いなさい。
 AUCは偽陽性と偽陰性のコストを無視しているという批判は、AUCの使い方への批判であって、AUCは悪くない。AUCは効用の指標じゃないんだってば。ある臨床場面ではAUC=0.65で十分高いし、別の場面ではAUC=0.90でも低すぎるだろう。ちなみにROC曲線の最適閾値(Youden指標)も同じことだからね。
 そもそも医学的意思決定においてある予測モデルが有用かどうかは判別能だけでは決まらない。有病率、予測の価値、決定に与えるインパクト、偽陽性や偽陰性の含意、などなどすべてが関連する。
 云々。

 … 生意気なことをいうようだが… 結論はなんか当たり前の話だった… 「ROC曲線というのは要は二群のリスク分布の図示なんだ」というのはちょっと面白かったけど…