elsur.jpn.org >

« 読了:Rothman(1990) 多重比較法は使うな | メイン | 読了:「あさひなぐ」「アヴァール戦記」「ひなまつり」「しろくまカフェ」「岳」 »

2012年3月13日 (火)

Mittlbock, M., & Schemper, M. (1996) Explained variation for logistic regression. Statistics in Medicine, 15, 1987-1997.
 ロジスティック回帰分析のアウトプットには,なんか変な$R^2$がいろいろはいっているんだけど,あれっていったいなんなんだろうなあ,と前から不思議に思っていた。このたび関連する話題についてちょっと考える機会があったので,適当に論文を見繕って読んでみた。12種類の$R^2$指標を比較しました,という論文。そんなにあるのか。

 12種類の$R^2$指標は,大きくいえば3グループにわかれる。ええと,個体$i$が持つ従属変数の値を$y_i (=\{0,1\})$とする。$y_i = 1$を仮に成功と呼ぶとして,全体における成功率を$\bar{p}$とする。また,独立変数の値を$x_i$とし、ロジスティック回帰モデルで推定された各個体の成功率を$\hat{p}_i$とする。

 最初のグループは,$y_i$と$\hat{p}_i$の相関の二乗に基づく指標。

 順位相関係数を手当たり次第に集めてきて二乗しました、という感じですね。3番目以降はまあどれも似たような指標である(いずれも計算式の分子は同じ)。

 第二のグループは,yの分散の縮減率に基づく指標。一般化していうと,conditionalな残差を表すなんらかの指標 $D(y_i|x_i)$の合計と、unconditionalな残差を表すなんらかの指標$D(y_i)$の合計を出して、比をとって1から引くタイプの指標である。

 最後のグループは,モデルの尤度に基づく指標。

いま調べたら、SAS 9.22のproc logisticでは、$R^2_{LR}$が"RSquare"というラベルで、$R^2_{CU}$が"Max-rescaled RSquare"というラベルで出力されるらしい。

 なんだかもうお腹一杯だが,論文のほうはここからが本番で,いろいろデータをつくっては12種類の$R^2$を求め,挙動を比較している。著者らいわく,

  1. 直観的にわかりやすいか
  2. ロジスティック回帰の性質とつじつまがあうか
  3. 0から1まで動くか
  4. ふつうの線形回帰モデルがうまく当てはまるようなデータでは線形回帰モデルの$R^2$と同じような値になるか

という4つの基準で検討すると,

  1. $R^2_E, R^2_{LR}, R^2_{CU}$は直観的に理解しにくい。
  2. $R^2_{CER}$や順位相関係数系の方法はロジスティック回帰とつじつまがあわない。
  3. $r^2_S$, $\tau$系, $R^2_{LR}$は完全にフィットしても1にならない。
  4. たいていの手法は線形回帰の$R^2$とずれる。

 というわけで,消去法で結局$r^2, R^2_{SS}, R^2_{G}$が残ることになる。結局のところ,$y_i$が二値変数であることを無視しちゃった方がいいね,という,ちょっと奇妙な結論である。

 勉強にはなったけど。。。ロジスティック回帰モデルのときも,慣れ親しんだ$R^2$のような奴が欲しいよ欲しいよ欲しいよ,というのがこの論文の前提になっているところがポイントだと思う。この前提そのものが,なんだかちょっとワガママなような気がしてならない。なんというかその,海外旅行先で味噌汁飲みたい,といっているように聞こえる。いや,それは飲みたいですけどね,私も。
 それはまあいいや。ともかく,Negelkerkeの$R^2$というのが意外に無茶な発想で作られている,という点を学んだのが収穫であった。私の知る狭い範囲の話だが,Negelkerkeの指標はよくみかけるような気がする。SPSSが出力するせいかもしれない。

論文:データ解析(-2014) - 読了:Mittlbock & Schemper (1996) ロジスティック回帰の説明率指標を品定め

rebuilt: 2020年4月20日 18:59
validate this page