読了: Christodoulou, et al. (2019) 機械学習による臨床リスク予測はロジスティック回帰より優れているかというと、これがそうでもない

Christodoulou, E., Ma, J., Collins, G.S., Steyerberg, E.W., Verbakel, J.Y., Calster, B.V. (2019) A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models. J. Clinical Epidemiology, 110, 12-22.

 仕事の資料をまとめて読んでいる途中でつい読んじゃった奴。タイトル通り、医療分野の予測において機械学習は古典的なロジスティック回帰よか優れているわけではない、というレビュー。はっはっは。

 いわく。
 機械学習(ML)と統計的モデリングとのちがいはいまいちはっきりしないけど[Breiman(2001 StatSci), Moons et al.(2014 PLoS Med)というのをreferしている。どちらも面白そう]、MLはデータから直接・自動的に学習することに焦点をおき、回帰モデルはモデル指定において人間の介入や主観的知識を重んじる。
 MLのほうが柔軟で性能もよいと主張されることも多いけど、大データが必要だし、AUCみたいな判別性能で評価され、リスク予測の信頼性についての評価はされないことが多い。
 というわけで、回帰モデル(LR)とMLのパフォーマンスを比べてみましょう。
 なお、lassoやリッジとかの罰則付きLRはMLじゃなくてLRとして扱う。

 本研究は事前登録ありのシステマティック・レビューでございます。
 まずはMedlineで2016-2017の研究を検索し、個別のヒトの診断ないし予後を複数の予測子で予測するLRモデルとMLモデルを比べている実証研究を集めた。新手法提案は除外、予測じゃなくてリスク要因評価が主眼の奴も除外。[… 社会科学で同じ選び方をしたら本数が激減するだろうな]
 そんなこんなで71本の研究について分析します。分野は腫瘍と循環器が多い。
 CHARMSチェックリストとQUADASバイアスリスクツールをつかって、研究の特徴とかの項目を抽出した。潜在的バイアスのシグナルとして次の5つの項目を選んだ:(1)性能の妥当化が不明確ないし歪んでいる、(2)LRとMLの一方だけでデータ駆動的な変数選択をやっている、(3)LRとMLのあいだで連続変数の扱いが異なる、(4)LRとMLのあいだで予測子が異なる、(5)アウトカムの不均衡の修正をどっちかだけでやっている。[CHARMSとかQUADASとかってコクラン共同計画で作っている奴だろうか。このへん疎いので、いつか勉強したいと思っているんだけど… 自分の仕事とはかなり距離があるしなあ…]

 さて、使われている手法は… LRとしては、標準的LR(ML推定)、罰則付きLR(lasso, リッジ, elastic net)があった。boosted LRも一本だけあった。MLは{分類木、RF、ANN、SVM、その他}に分類した。[表を見ると、その他の内訳はとても多様。ナイーブベイズやベイジアンネットワークとか、BARTとかMARSとか、はたまたKNNとか… RF+SVMなんてえのもある。さすがは医学系だなあ]
 [モデル開発プロセスでコレコレをちゃんと書いてないのが何割あって… という話がひとしきり続く。メモ省略]
 妥当化で一番使われているのは単一のランダム分割(41%)、次いでリサンプリング(31%)。68%の論文でなんらかの問題があった。リサンプリングでステップを省いているとか、パラメータチューニングや変数選択のときに全データを使っちゃってるとか。

 お待ちかね、LR vs. MLの性能比較です。
 AUCを報告してない奴とかを抜くと研究は58本に減る。ある研究のなかでの比較を1件とすると282件の比較ができる。logit(AUC)の平均は、単純にみるとMLのほうが高いんだけど、潜在的バイアスが低い研究に絞ると差がない。

 考察。
 研究者のみなさん… 聞こえますか… すべてのモデリングのステップをちゃんと書くのです… TRIPODガイドラインに従うのです…
 リサンプリングやるときは全ステップをふくめてリサンプリングしろ。学習時の成績とテスト時の成績の両方を書け。モデル性能の評価の際には、リスク推定値が正確か、意思決定において有用かを考えろ。いきなりHosmer-Lemeshow検定すんな、キャリブレーション曲線を描け。50%カットオフでの分類成績ばっかり気にして、クラス不均衡をダウンサンプリングとかでむやみに調整している君たち、それって臨床的リスクの予測としてはどうなのよ。[うける… 本題から離れて説教タイムになっている…]
 MLとLRでAUCはどっちがよいか? それはバイアスのリスクをどう定義するか、そしてMLをどう定義するかによる[ちゃぶ台をひっくり返しにきたね…]。むしろ今後の課題は、どういう予測問題でどういうアルゴリズムがよいかである。たとえば、SN比が高いときにMLが有利だ、とか。
 本研究の限界: 標本サイズなどの要因の影響(これは同一データで比較した方がよいでしょう)。予測子の数の影響(よく予測子が多いときにML有利というけれど、ためしに予測子の数がめっちゃ多い研究にに絞ってみてもやっぱりMLは勝てなかった)。
 云々。

 … はっはっは。楽しいっすね。
 思うに、「伝統的手法よりもMLのほうが優秀なんです」と留保事項なしに主張する人はあんましいないんじゃなかろうか(いやまて…どうかなあ…)。そういう意味では、「MLとLRに性能の差なし」というのはたいして示唆的じゃないわけで、こないだマキリダキスさんたちの時系列予測レビューを読んだときにも思ったけど、大事なのは「どの手法がよいか」ではなく、「どういうときにどの手法がよいか」であろう。