elsur.jpn.org >

« 読了:「リチャード三世」「シンベリン」 | メイン | 読了: Clark & Muthen (2009) 潜在クラスと他の変数との関係を調べる方法 »

2012年3月23日 (金)

DeMaris, A. (2002) Explained variance in logistic regression: A monte carlo study of proposed measures. Sciological Methods & Research, 31(1), 27-74.
 ロジスティック回帰のいろんな説明率指標をシミュレーションで比較する研究。先日読んだMittlbock & Schemper (1996) と同趣旨だが、もっときちんとやりました、という主旨。
 著者によると、ロジスティック回帰における説明率には、「分散の説明率」という考え方と「リスクの説明率」という考え方があるのだそうだ。前者は、従属変数の分散と、モデルの誤差分散との比に注目する考え方。いっぽう後者は、 平均 \pi のベルヌーイ分布の分散は \pi(1-\pi) にきまってんだから、(全体の生起率)x(1-全体の生起率)と、(予測された生起率)x(1-予測された生起率)の平均との比をみればいいんだ、という考え方。この二つは、従属変数をどう捉えるかというちがいであって、たとえば「医者が患者の抑うつの有無を診断した」場合は前者が自然だし(従属変数はたまたま二値になっているだけで、抑うつの程度という連続的な潜在変数の代理変数だから)、「未成年者が妊娠した」場合は後者のほうが自然である由(従属変数は本質的に二値だから)。ふうん...
 で、次の8つの指標のふるまいをシミュレーションで比較する。

 シミュレーションのところから面倒になっちゃって飛ばし読み。「分散の説明率」の観点からはMcKelvey & Zavoinaが、「リスクの説明率」の観点からはリスクの説明率の標本推定量なり単純な相関なりがよかったそうだ。ふうん。

 きちんと読んでいないのになんだけど、「リスクの説明率」という考え方がどうもよくわからない。事象が生じる周辺確率を\pi, モデルによる予測確率を (\pi | x) としたとき、リスクの説明率とは 1 - E[\pi(1-\pi)|x] / \pi(1-\pi) だ。当たり外れは一切気にせずに、どんな個体に関しても予測確率1(ないし0)を吐き出し続ければ、説明率100%の予測モデルが作れたことになるわけで、それはさすがに頽廃的なのではないかと... まあ、背景についてもうちょっと勉強しろってことでしょうね。Korn&Simon(1991, American Statistician)というのが引用されている。

論文:データ解析(-2014) - 読了:Demaris(2002) ロジスティック回帰の説明率指標をもっときちんと品定め