« 読了:劉(2009) モデル平均理論レビュー | メイン | 読了:「美しの首」「めしばな刑事タチバナ」「リバーズ・エッジ 大川端探偵社」「仲能健児作品集 アジア夜話」「シュトヘル」 »
2016年2月10日 (水)
Dormann, C.F, et al. (2012) Collinearity: a review of methods to deal with it and a simulation study evaluating their performance. Ecography, 36, 27-46.
環境研究の分野における、説明変数間の共線性とその対処に関する解説。すごく引用されているようだし、なにかの足しになるかと思って手に取った。ぱらぱらめくっただけだけど、整理の都合上、読了にしておく。
共線性の診断について、こんな早見表がついていたのでメモ。いろいろ批判がありそうだけど...
- 説明変数間の相関の絶対値。0.7以上が危険。
- 相関行列の行列式。0に近いときに危険。
- condition index。相関行列の固有値の最大値を他の固有値で割ったとき、30以上だったら危険。
- condition number。condition indexの一番大きい奴。
- Kappa。condition numberの二乗。
- VD(variance-decomposition proportions)。ある変数の分散がある固有値で表される割合。0.5以上は危険。
- VIF(variance inflation factor)。10以上は危険。
- Tolerance。1/VIF。
後半はモデリング手法の紹介とシミュレーション。聞いたこともないような手法がいっぱいあった。latent root regressionとか(要するにPLS回帰みたいなものらしいがよくわからん)、OSCARとか(要するに正則化らしいがよくわからん)。シミュレーションはめんどくさいので読み飛ばした。
回帰の文脈で、いつもストレスに感じていることがあるんだけど...
説明変数間に共線性があるとどう困るのか、その理由をきちんと整理しないといけないんじゃないかと思うのである。ひとつの理由は「解が不安定になるのが困る」だけど、もうひとつの理由として、説明変数間の関係について十分な知識がないとき(Pearlさん風にいうと「DAGが描けないとき」)、偏回帰係数の実質科学的解釈がとてつもなく難しくなるのが困る、という点が挙げられると思う。
前者と後者では問題のレベルが異なる。前者はいうなればテクニカルな話であって、サンプルサイズや測定誤差と密接な関連があるし、完璧とは言えないにせよ検出方法もある(VIFとか)。いっぽう、後者はもっと原理的な話、大袈裟に言えば「私たちは偏回帰係数を実質的に解釈するだけの能力を持っているのか」という話だ。
この2つがごっちゃにされているせいでいろんな混乱が起きているように思う。たとえば「偏回帰係数の符号が常識的な因果関係と逆だったらその変数は取り除きなさい」なんていうアドバイスがそうだ。このように信じている人はとても多い。私は静かに暮らしたいだけで、他人を説教する気はないので、そういう人がいると、率直に申し上げてかなり困る。
研究者のみなさま、ぜひ分かりやすい説明を...と願っているのだけれど、研究分野によってはそもそも後者のような問題が起きないだろうから、見境なく期待するわけにもいかない。この論文にしても、共線性についての説明がいきなりVIFの説明に移っちゃうわけで、やっぱ環境科学とかだとそうだよね、うぐぐぐ...と呻きながら読んでいた。
混乱の原因のひとつは、それぞれの現象に良い名前がないという点だと思う。上の2つの問題のうち後者の問題は、伝統的な教科書では抑制(suppression)という見出しの下で解説されていると思うが、なにをもって抑制と呼ぶかも実は相当あいまいらしい。小島隆也さんという先生の一般向け解説書では、前者を「マルチコ」、後者を「マルチコもどき」と呼んでいて、我が意を得たりと思ったのだけれど、考えてみるとマルチコ(multicollinearity; collinearity)という用語自体も、「説明変数間の高い相関のせいで解が不安定になる」現象を指して用いられる場合もあれば、(この論文のように)独立変数間の相関の存在そのものを指して用いられる場合もあるわけで、ここにも混乱の種があると思う。
論文:データ解析(2015-) - 読了:Dormann, et al. (2012) 共線性とその対処