« 読了:Bell, Iyer, & Padmanabhan (2002) 値引きが買い置きやカテゴリ消費増大をもたらすような商品カテゴリにおける価格競争 | メイン | 読了:「午前3時の危険地帯」 »
2011年6月 8日 (水)
Friedman, L. & Wall, M. (2005) Graphical views of suppression and multicollinearity in multiple linear regression. The American Statistician, 59(2), 127-136.
机に積んである資料の山にちょっと飽き飽きしてきたので、息抜きとしてぜんぜん関係ないやつに目を通した。以前読みかけて途中で放置していた論文。たしか、講義だか社内研修だかの準備で、抑制変数という言葉の定義について調べているときに見つけた論文だったと思う。
重回帰における抑制と多重共線性についてわかりやすく説明する図示手法をご提案します、という内容。知っている人はみんな知っている抑制という概念だが(そりゃそうか),これが案外あいまいなものであって、著者らの整理によれば:
- 抑制についての最初のフォーマルな議論は Horst(1941) という文献なのだそうで、そこでは(1)従属変数と相関がなく、(2)他の独立変数と相関し、(3)重回帰に投入するとR^2が増える、ような変数のことを抑制変数と呼んでいる。これが古典的な定義らしい。Cohen&Cohenの重回帰の教科書(2003, 3rd ed.) もだいたいそんな感じ。
- Darlington(1968, Psych. Bull.)は、独立変数と従属変数との相関はすべて非負なのに偏回帰係数が負になる場合を指して抑制と呼んだ。Conger(1974)はこれを拡張し、相関の正負を問わず、「それを重回帰式に含めることで他の変数(群)の予測的妥当性が高くなる」ような変数を指して抑制変数と呼んだ。Tzelgov & Stern (1978, Edu. Psych. Measurement) もこのラインで、「すべての独立変数において、従属変数との相関の絶対値よりも偏回帰係数の絶対値のほうが大きい」場合を指して抑制と呼んでいる。
- いっぽうVelicer(1978)はもっと限定的に、「独立変数と従属変数との単相関の二乗の和より、重回帰のR^2のほうが大きい」場合のみを指して抑制と呼んでいる。
著者らはVelicerのいうところの抑制を「拡張」、拡張ではないがTzelgov & Sternのいうところの抑制であることを「抑制」、他の場合を「冗長」と呼ぶ。で、X1, X2, Y の3変数を考え、YとX1, YとX2の相関を固定し、X1とX2の相関を横軸、R^2や標準偏回帰係数を縦軸にとったグラフを描き、抑制・拡張・冗長がいつ起きるのかを図示する。
なんというか、頭の体操としては面白かったのだけれど。。。この論文の視点は、所与の相関行列のもとで重回帰式の振る舞いを調べる、というものである。たとえば、X1とYの相関を+0.8, X2とYの相関を0に固定し、X1とX2の相関を動かしたら、重回帰のR^2はどうなるか? X2とYとの相関が+0.4だったら? という風に考えていくのである。正解は「X1とX2の相関が0から離れるほど高くなる」「+0.6から離れるほど高くなる」。納得するために、コーヒー片手にしばしベランダで外を眺めなければならなかった。
いやはや、こういう考え方ってかえってわかりにくくないですか? 所与のパスモデルのもとでの相関行列と重回帰式の振る舞いについて考えるほうが、どうみてもわかりやすいと思うんだけど。そんなことないっすかね。単に俺の修行不足だろうか。
論文:データ解析(-2014) - 読了:Friedman & Wall (2005) 重回帰における抑制と多重共線性の図示