« 読了:「リチャード三世」「シンベリン」 | メイン | 読了: Clark & Muthen (2009) 潜在クラスと他の変数との関係を調べる方法 »
2012年3月23日 (金)
DeMaris, A. (2002) Explained variance in logistic regression: A monte carlo study of proposed measures. Sciological Methods & Research, 31(1), 27-74.
ロジスティック回帰のいろんな説明率指標をシミュレーションで比較する研究。先日読んだMittlbock & Schemper (1996) と同趣旨だが、もっときちんとやりました、という主旨。
著者によると、ロジスティック回帰における説明率には、「分散の説明率」という考え方と「リスクの説明率」という考え方があるのだそうだ。前者は、従属変数の分散と、モデルの誤差分散との比に注目する考え方。いっぽう後者は、 平均 \pi のベルヌーイ分布の分散は \pi(1-\pi) にきまってんだから、(全体の生起率)x(1-全体の生起率)と、(予測された生起率)x(1-予測された生起率)の平均との比をみればいいんだ、という考え方。この二つは、従属変数をどう捉えるかというちがいであって、たとえば「医者が患者の抑うつの有無を診断した」場合は前者が自然だし(従属変数はたまたま二値になっているだけで、抑うつの程度という連続的な潜在変数の代理変数だから)、「未成年者が妊娠した」場合は後者のほうが自然である由(従属変数は本質的に二値だから)。ふうん...
で、次の8つの指標のふるまいをシミュレーションで比較する。
- 委細構わず、二値従属変数とロジスティック回帰モデルで予測した生起確率との相関をとって二乗する。Mittlbock & Schemperでいうr^2。
- McKelvey & Zavoina(1975)の指標。ロジスティック回帰モデルで求めた各個体のロジットの分散を、(ロジットの分散)+(誤差分散の推定値)で割る。誤差分散の推定値は(全体における生起率の二乗/3)。
- 尤度比指標。たぶん、McFaddenのpseudo R^2のこと。
- Aldrich & Nelson(1984)の指標。モデルのカイ二乗値(つまり、モデルの尤度とナルモデルの尤度の比を-2倍したもの)を、(モデルのカイ二乗値)+(サンプルサイズ) で割る。最大値は1にならない。
- 上の指標を最大値で割ったやつ。
- 一般化R二乗。Mittlbock & Schemperでいう尤度比R^2のこと。最大値は1にならない。
- 上の指標を最大値で割ったやつ。NegelkerkeのR^2のこと。
- 「リスクの説明率」の標本推定量。たぶんMittlbock & Schemperに出てきたGiniのconcentration measureと同じなんじゃないかと思う。
シミュレーションのところから面倒になっちゃって飛ばし読み。「分散の説明率」の観点からはMcKelvey & Zavoinaが、「リスクの説明率」の観点からはリスクの説明率の標本推定量なり単純な相関なりがよかったそうだ。ふうん。
きちんと読んでいないのになんだけど、「リスクの説明率」という考え方がどうもよくわからない。事象が生じる周辺確率を\pi, モデルによる予測確率を (\pi | x) としたとき、リスクの説明率とは 1 - E[\pi(1-\pi)|x] / \pi(1-\pi) だ。当たり外れは一切気にせずに、どんな個体に関しても予測確率1(ないし0)を吐き出し続ければ、説明率100%の予測モデルが作れたことになるわけで、それはさすがに頽廃的なのではないかと... まあ、背景についてもうちょっと勉強しろってことでしょうね。Korn&Simon(1991, American Statistician)というのが引用されている。
論文:データ解析(-2014) - 読了:Demaris(2002) ロジスティック回帰の説明率指標をもっときちんと品定め