読書日記: 読了：Hellevik (2009) 二値の従属変数に対してロジスティック回帰とかじゃなくて線形回帰をやって、いったい何が悪いんだよ

« 読了：King, Tomz, & Wittenberg (2000) 統計モデルから得られる知見について人々にわかりやすく伝えるためのシミュレーションの手引き | メイン | 読了: Leibovici (2001) 過去についての祈りが過去に及ぼす効果 »

2016年6月25日 (土)

　二値の従属変数に対して線形回帰をかけて何が悪い、という論文。
　実のところこういう論文を探していたのであった。だって、説明変数が生起確率そのものと線形な関係を持つという実質的知見がある状況だって、ありうるじゃないですか。そんなときにロジスティック回帰やプロビット回帰を掛けるのっておかしいじゃないですか。本来、モデルは世界についての我々の信念に整合させるべきじゃあぁりませんか。人はッ！自らの信じる道を進むべきだッ！ ...まあ美しい建前ですけど。
　というわけで読み始めてみたら、思っていたのとはちょっと違う内容で... 途中で頭のなかがハテナマークでいっぱいになり、途中から適当に読み飛ばしてしまった。

Hellevik, O. (2009) Linear versus logistic regression when the dependent variable is a dichotomy. Quality & Quantity, 43, 59-74.
　二値の従属変数に対して線形回帰すると、予測値が0-1の外側に出てしまう。確かに。でもそれの何が悪い。そんなことが起きるのは独立変数群の値が極端なときだけだ。そんなときは予測値を理論的な最小値・最大値に丸めてしまえばよい。回帰の目的が予測でなくて因果的な分解なのであれば、予測値が0-1の外側に出ても別に困らない。むしろ、直接効果と間接効果と疑似効果の和が二変量連関に一致しているぶん、線形回帰のほうがよいくらいである。
　二値の従属変数に対して線形回帰すると、分散等質性(homoscedasticity)の想定が破られる。それは回帰係数自体に影響しないがその不確実性の推定に影響する。確かに。じゃあ実験してみよう。同じデータに対してロジスティック回帰と線形回帰を行い、係数のp値を並べてみる。ごらん、結果はほぼ同じだ。
　[ここからリスク差とリスク比とオッズ比がいろんな場面でどうちがってくるという説明が延々つづく。結局ロジスティック回帰をいろいろとディスっているみたいなのだが、話のポイントがいまいちつかめない]
　というわけで、予測ではなくて因果的分析のために回帰分析を使うのならば、ロジスティック回帰じゃなくて線形回帰のほうがおすすめだ。

　。。。きちんと読んでないのにこんなことを書くのは良くないんだけど、正直、容易に納得しがたい話だ。
　拝察するに、議論のポイントは次の通りであろう。二値の従属変数に対する線形回帰は、(1)予測値が0-1の外に出るけど別に困らない、(2)誤差分散に異質性が生じるけど実害はない、(3)むしろわかりやすくていいじゃん。
　(3)に関していえば、解析の良し悪しとコミュニケーションの良し悪しってのは本来別のものだ(Walterさんの受け売り)。それに、著者も触れているようにロジスティック回帰と線形回帰では交互作用の捉え方がちがってくるけど、どっちがよいかは一概にいえないわけで(VanderWeeleさんの受け売り)、ロジスティック回帰が因果分析に適さないのだといわれても、きっとそうなんだろう、先生の分野では... という感想しか持てない。
　結局、クリティカルな論点は(2)じゃないかと思う。でも、もっと広範なシミュレーションをすれば、誤差分散の異質性が係数の標準誤差の推定を大きく歪める場合も出現するほうに、100ペリカくらいなら賭けてもいい...
　うーん、この論文、プロの意見を聞いてみたいものだ。どうなんすか、これ。

論文：データ解析(2015-) - 読了：Hellevik (2009) 二値の従属変数に対してロジスティック回帰とかじゃなくて線形回帰をやって、いったい何が悪いんだよ

読書日記

読んだ本を淡々と記録します

2016年6月25日 (土)