elsur.jpn.org >

« 読了:Royston, Ambler, Sauerbrei (1999) fractional polynomialsによる非線形回帰への招待 | メイン | 読了:Cannon, Leckenby, Abernethy (2002) 有効フリークエンシーを超えて:フリークエンシー価値によるメディア・プランニング »

2016年6月10日 (金)

 仕事の都合で必要になって書いたメモなんだけど、ブログに載せておこう。

 二値変数を従属変数とする回帰モデルについて考える。よく使われているのはロジスティック回帰モデル
 $\log(\frac{\pi(x)}{1-\pi(x)}) = \beta_0 + \beta_1 x$
だけど($\pi(x)$は生起確率ね)、リンク関数はほかにもある。諸君、視野を広く持ちたまえ。

 どういうときにどのモデルを使うといいのか?
 まず、分析の主な目的が確率の推定で、共変量の効果の推定はその次だ、という場合。こういうときは、ロジスティック回帰のかわりにプロビットやcloglogやloglogを使うのも悪くない。
 分析の目的は共変量の効果の推定なんだけど、ロジスティック回帰だとオッズ比で表現されちゃうのがいやだ、という場合には、logリンクか線形モデル。

 以上にあげた6つのモデルを比べる際には、とりあえずロジスティック回帰の確率推定値でケースを10群にわけ、適合を比べるのがよろしかろう。
 左右対称なロジットやプロビットを使うのがよいか、非対称なcloglogやloglogを使うのがよいかを調べる方法がある。Stukel検定という、共変量を追加すべきかどうかの検定手法の応用である。残念ながらこの手法が載っているソフトはないので、手でやること。
 まずロジスティック回帰をやって、ロジット推定値$\hat{g}(x)$と確率推定値$\hat{\pi}(x)$を得る。次に、次のふたつの人工的な共変量をつくる。
 $z_1 = 0.5 \times [\hat{g}(x)^2] \times I[\hat{\pi}(x) \geq 0.5]$
 $z_2 = -0.5 \times [\hat{g}(x)^2] \times I[\hat{\pi}(x) < 0.5]$
すべての確率推定値が0.5よりも右なり左なりだったら片方だけつくればよろしい。
 で、これを追加してもう一度ロジスティック回帰モデルを推定し、係数の信頼区間を求める。もし両方の信頼区間に0.165がはいったらプロビットがよろしい。もし$z_1$の信頼区間に-0.037, $z_2$の信頼区間に0.620がはいったらloglog、逆になったらcloglogがよろしい。[←へええええええ!]

 以上、Hosmer, Lemeshow, Sturdivant (2013) "Applied Logistic Regression", Third Edition, Section 10.3 より。

 このメモは、amazonから届いた箱をあけて本をパラパラ捲っているときにこの章に引き込まれ、なるほどー!cloglogやloglogという選択肢も頭に置いておこう!と感心して書いたんだけど、読み返してみて思うに、自分にとっては、cloglogやloglogを使う場面ってやはりそんなにはなさそうだ。もし係数の解釈に関心がなく単に予測したいだけで、かつロジスティック回帰の予測精度が悪かったら、きっと機械学習系の手法を試すと思う。

 いっぽう、ロジスティック回帰はもうイヤ!説明変数の効果はリスク差で示したいの!ああもう加法モデルにしちゃいたい!誰かボクをここから連れ出して!海辺の町に連れてって!と切実に思うことなら、それは頻繁にある。そういう哀れな分析者のためのガイドラインが欲しいんだけどなあ。加法モデルを使う際の注意点でもいいし、誤魔化しながらロジスティック回帰を使い続けるコツでもいいから。

雑記:データ解析 - ロジスティック回帰に飽きたときのための個人的な覚え書き

rebuilt: 2020年11月16日 22:55
validate this page