« 読了:Royston, Ambler, Sauerbrei (1999) fractional polynomialsによる非線形回帰への招待 | メイン | 読了:Cannon, Leckenby, Abernethy (2002) 有効フリークエンシーを超えて:フリークエンシー価値によるメディア・プランニング »
2016年6月10日 (金)
仕事の都合で必要になって書いたメモなんだけど、ブログに載せておこう。
二値変数を従属変数とする回帰モデルについて考える。よく使われているのはロジスティック回帰モデル
$\log(\frac{\pi(x)}{1-\pi(x)}) = \beta_0 + \beta_1 x$
だけど($\pi(x)$は生起確率ね)、リンク関数はほかにもある。諸君、視野を広く持ちたまえ。
- プロビットモデル。こいつの歴史は結構古い。係数が閉形式で表現できないのが欠点。標準正規分布関数を$\Phi$と書いて、
$\Phi^{-1}[\pi(x)] = \beta_0 + \beta_1 x$ - cloglogモデル。左裾が長めになる。
$\log[-\log(1-\pi(x))] = \beta_0 + \beta_1 x$ - loglogモデル。右裾が長めになる。
$-\log[-\log(\pi(x))] = \beta_0 + \beta_1 x$ - ログリンク関数を使っちゃう。疫学者に好まれる(係数がそのまま相対リスクになるから)。欠点としては、確率が1を超える、ML推定が収束しないことがある。お勧めはしないけど、もし使うんならポワソン回帰のプログラムを使うこと(Zou, 2004 Am.J.Epi. をみよ)。
$\log(\pi(x)) = \beta_0 + \beta_1 x$ - 線形モデルを使っちゃう。係数はリスク差になる。確率が0-1の範囲を超えるので、あんまし使われていない。お勧めはしないけど、もし使うんなら推定の際にちょっと工夫すること[重みを付けて反復推定せよとのこと。へぇー]。
$\pi(x) = \beta_0 + \beta_1 x$
どういうときにどのモデルを使うといいのか?
まず、分析の主な目的が確率の推定で、共変量の効果の推定はその次だ、という場合。こういうときは、ロジスティック回帰のかわりにプロビットやcloglogやloglogを使うのも悪くない。
分析の目的は共変量の効果の推定なんだけど、ロジスティック回帰だとオッズ比で表現されちゃうのがいやだ、という場合には、logリンクか線形モデル。
以上にあげた6つのモデルを比べる際には、とりあえずロジスティック回帰の確率推定値でケースを10群にわけ、適合を比べるのがよろしかろう。
左右対称なロジットやプロビットを使うのがよいか、非対称なcloglogやloglogを使うのがよいかを調べる方法がある。Stukel検定という、共変量を追加すべきかどうかの検定手法の応用である。残念ながらこの手法が載っているソフトはないので、手でやること。
まずロジスティック回帰をやって、ロジット推定値$\hat{g}(x)$と確率推定値$\hat{\pi}(x)$を得る。次に、次のふたつの人工的な共変量をつくる。
$z_1 = 0.5 \times [\hat{g}(x)^2] \times I[\hat{\pi}(x) \geq 0.5]$
$z_2 = -0.5 \times [\hat{g}(x)^2] \times I[\hat{\pi}(x) < 0.5]$
すべての確率推定値が0.5よりも右なり左なりだったら片方だけつくればよろしい。
で、これを追加してもう一度ロジスティック回帰モデルを推定し、係数の信頼区間を求める。もし両方の信頼区間に0.165がはいったらプロビットがよろしい。もし$z_1$の信頼区間に-0.037, $z_2$の信頼区間に0.620がはいったらloglog、逆になったらcloglogがよろしい。[←へええええええ!]
以上、Hosmer, Lemeshow, Sturdivant (2013) "Applied Logistic Regression", Third Edition, Section 10.3 より。
このメモは、amazonから届いた箱をあけて本をパラパラ捲っているときにこの章に引き込まれ、なるほどー!cloglogやloglogという選択肢も頭に置いておこう!と感心して書いたんだけど、読み返してみて思うに、自分にとっては、cloglogやloglogを使う場面ってやはりそんなにはなさそうだ。もし係数の解釈に関心がなく単に予測したいだけで、かつロジスティック回帰の予測精度が悪かったら、きっと機械学習系の手法を試すと思う。
いっぽう、ロジスティック回帰はもうイヤ!説明変数の効果はリスク差で示したいの!ああもう加法モデルにしちゃいたい!誰かボクをここから連れ出して!海辺の町に連れてって!と切実に思うことなら、それは頻繁にある。そういう哀れな分析者のためのガイドラインが欲しいんだけどなあ。加法モデルを使う際の注意点でもいいし、誤魔化しながらロジスティック回帰を使い続けるコツでもいいから。
雑記:データ解析 - ロジスティック回帰に飽きたときのための個人的な覚え書き