« 読了:Flora & Curran (2004) カテゴリカルCFAで潜在反応変数に二変量正規性がなかったときにどうなるか、WLS推定とWLSMV推定を比べてみた | メイン | ロジスティック回帰に飽きたときのための個人的な覚え書き »
2016年6月 8日 (水)
仕事の都合で大慌てで読んだ奴。
Royston, P., Ambler, G., Sauerbrei, W. (1999) The use of fractional polynomials to model continuous risk variables in epidemiology. International Journal of Epidemiology, 28, 964-974.
非線形的関係があるときの回帰で用いる変数変換法のひとつ、fractional polynomial についての解説。Hosmer-Lemeshowのロジスティック回帰の教科書に書いてあるらしいのだが、注文した本が届くのが待てなかったので。
まずは一番簡単な事例の紹介。
アウトカムはひとつ(10年間の死亡)。連続変数か順序変数のリスク因子$x$がひとつ(一日当たり喫煙本数)。$x$とアウトカムの間の関係は単調である。
最初に思いつくのは線形モデル
$b_0 + b_1 x$
である。さて、非線形性が疑われるので、1次のfractional polynomialを当てはめることにする。
$b_0 + b_1 x^p$
$p$の候補として、-2, -1, -0.5, 0, 0.5, 1, 2, 3を想定する($x^0$は$\log(x)$だということにする)。もっと考えてもいいんだけど、モデルはあんまり改善しないことが多い。特に、大きな負のべき(-3とか)はいれないほうがよい。
すべての候補を当てはめてモデルを比較する。比較の際には、$p=1$との間のデビアンスの差をカイ二乗検定して、有意に良いやつを探す。なお、事例ではあらかじめ $x$に最小増分である1を足している($\log(0)$を避けるため)。
結果、$p=0$すなわち
$b_0 + b_1 \log(x)$
が採用された。なお、(ここでは紹介しないけど) Hosmer-LemeshowのC統計量とかで適合度を調べておくように。また残差のプロットもみるように。
結果の示しかた。ここでは疫学でふつう求められる用量反応の推定値を示す方法を考えよう。タバコの本数を階級にわけ、各階級の中央を参照点として、その参照点におけるORと信頼区間を表にするとわかりやすい[信頼区間の求め方を説明しているが、省略]。ついでにその階級のリスク集団と死亡者数を示すのも忘れないように。[←ああ、なるほどね... 説明変数のカットポイントを決めていくつかの水準にわけて分析した場合の表と外見を似せておくということね]
以下、2次fractional polynomialとか、リスク因子だけじゃなくて共変量を入れる場合とか(ここ、予備知識不足でちょっと理解できなかった)、他の手法との比較とか、注意点とかが懇切丁寧に説明されていた。時間がないのでメモは省略。
論文:データ解析(2015-) - 読了:Royston, Ambler, Sauerbrei (1999) fractional polynomialsによる非線形回帰への招待