« 読了:Agresti & Min (2003) 対応のある二条件間で割合を比べるとき、「両方1」「両方0」の事例を無視してよいのか | メイン | 覚え書き: Rのdplyrパッケージのhogehoge_{all, if, at} 動詞の使い方 »
2018年5月 5日 (土)
Richardson, D.B., Kinlaw, A.C., Keil, A.P., Naimi, A.I., Kaufman, J.S., Cole, S.R. (2018) Inverse Probability Weights for the Analysis of Polytomous Outcomes. American Journal of Epidemiology.
多項回帰モデルは共変量が多いと推定が大変なので、ウェイティングでなんとかしましょう、という話。
いずれ読もうと思い、「いずれ読む」という名のフォルダ(実質的には墓場)にPDFを放り込みかけたんだけど、行間の広いdraftなのに10pしかないことに気づき、そんならさっさと目を通しておこう、と仕事を中断して目を通した。要するに現実逃避である。
アウトカムを$D$, そのカテゴリを$0, \ldots, G$とする。曝露変数を$E$とし、話を簡単にするために二値とする。共変量を$\mathbf{Z}=\{Z_1, \ldots, Z_k\}$とする。
研究者は、$Z$を調整しつつ、曝露ありとなしの間で$D$の分布を比べたい。多項回帰なら、参照レベルを$D=0$として
$\displaystyle \log\frac{P(D=g|E=e, \mathbf{Z}=z)}{P(D=0|E=e, \mathbf{Z}=z)} = \alpha_g + \beta_g E + \mathbf{Z} \gamma_g$
とするところだ。するってえと、$\alpha$を$G$個、$\beta$を$G$個、長さ$k$の$\gamma$を$G$個、推定する羽目になるわね。そんなん推定してられっか、と思いません? そんなあなたのための新手法!名付けて「inverse-probability-of-exposure weighted多項ロジスティック回帰モデル」です!
[正直言って、名前をみただけでなにすんのか見当が付いちゃうわけで、すごい出落ち感がある...まあ最後まで読みますけど...]
ここからは実例でご覧いただきましょう。
子宮内膜がん患者の横断調査(n=288)。知りたいのはがんの組織学的下位タイプと年齢の関連性。説明変数は年齢のみ、二値とする(64歳まで, 65歳以上)。アウトカムは3タイプある。共変量は喫煙有無など3つ、すべて二値。
まず共変量で年齢の確率を予測するモデルを推定します。次に、この確率の逆数(に、年齢の周辺確率を掛けた値)を重みにし、年齢だけを説明変数にして、重みつきの多項回帰を推定します。
シミュレーションしてみると、ふつうの多項モデルが収束しない時にもこの方法なら収束する。パラメータ数が多すぎる多項モデルをどうにかする方法としては、ほかに縮小推定なんかもあるけれど、多くの場合こっちのほうが簡単なのではないでしょうか。
なお、この手法は要するに曝露の傾向スコアと関連しておりましてですね、本命の多項モデルが一致性を持つためには、その前の曝露予測モデルの指定が正しいことが必要であります。
云々。
。。。という、ごく短い報告であった。ま、気分転換っていうことで、ひとつ。
詳細は付録をみよとのことだが、入手できない。なんだかなあ。
論文:データ解析(2018-) - 読了:Richarson, et al. (2018) 共変量のある多項回帰モデルを、共変量で予測した曝露確率の逆数でウェイティングして共変量なしで済ませる