岩崎学(2021) 統計的因果推論の視点による重回帰分析. 日本統計学会誌, 50(2), 363-379.
ファイル整理の途中で目を通した(仕事からの逃避ともいう)。日本統計学会賞の受賞記念論文。重回帰分析を教える人向けの啓蒙論文である。
いくつかメモ。
回帰係数の解釈について。回帰係数\(\beta\)の推定値を\(b\), \(Y\)の予測値を\(\hat{Y}\)とする。$$b = (X’X)^{-1} X’Y$$ $$ V[b] = \sigma^2 (X’X)^{-1}$$ は\(X\)の個々の列ベクトルそのものに依存し、かつ\(X’X\)の固有値(\(X\)の特異値の二乗)に依存する。いっぽう$$\hat{Y} = Xb = X(X’X)^{-1}X’Y = P_x Y$$ $$ V[\hat{Y}] = \sigma^2 X(X’X)^{-1} X’ = \sigma^2 P_x$$と書ける。\(P_x = X(X’X)^{-1} X’\)は\(X\)の列ベクトルが生成する部分空間\(S(X)\)への直交射影行列で、\(X\)のSVDを\(X = L \Delta H’\)とすれば\(P_x = LL’\)と書ける。\(S(X)\)に依存するだけで、\(X\)の個々の列ベクトルとか\(X\)の特異値とかには依存しない。
さて、回帰分析の目的を(1)記述、(2)予測、(3)制御・介入にわけよう。
- (2)予測の観点からは、個々の回帰係数の解釈は大した問題でない。変数選択も、列空間\(S(X)\)を与える基底ベクトルの取り方は任意であって、多重共線性があってもよい。むしろ重要な変数を入れ損なって\(S(X)\)が適切でなくなるほうが怖いので、変数は多めにしておくという戦略が考えられる。
- (3)制御・介入の観点からは、制御可能な変量は少数だろうから、変数選択が必要。回帰係数も重要(変数間の相関を考慮する必要があるが)。
- (1)記述の観点からは、\(X\)の選択はできないことが多い。もはや回帰係数は「他の変量を一定にしたときに、その変数を1単位変化させたときの目的変数の平均的な変化量」というより、「目的変数をその変数以外の変数が説明した残りのなかでその変数が説明できる度合い」だと考えた方がよい[←なるほど]。
回帰にまつわるパラドクスの紹介。
- 逆回帰のパラドクス。労働時間\(x\)と賃金\(y\)の関係を性別に調べたとき、\(y\)の平均/\(x\)の平均 (つまり平均時給ね)は男女で等しいが、\(x\)から\(y\)を予測すると切片は男で大きく、\(y\)から\(x\)を予測すると切片は男で(!)大きくなるという話。[恥ずかしながらこれ知らなかった… 面白いなあ。Dempster(1988 Stat.Sci.)というのを読むといいらしい]
- Loadのパラドクス。事前事後比較で、単に差をみた場合と、事前の値を共変量にとった回帰モデルの結果が違うという話。[←うんうん。これは自分の仕事でも地雷になるところだ]
- 中間変数をモデルに入れちゃってしくじるという話。
- 抑制suppressionとenhancementの話。著者いわく、実質的解釈の前に部分空間\(S(X)\)の幾何的な性質を吟味すべきである。[そうは仰いますけど先生、アウトプットを一目みたらたちまち実質的解釈に走るのが人情というものでして…]
ところで、図1のダイアグラムが理解できない。これ、図のラベルが入れ替わっていないでしょうか。嗚呼、聞こえる、混迷の渦に叩き落とされた人々の叫びが…
2021/06/23追記: ご指摘いただき、\(V[b]\)の式 (原文(3.4)式) にある誤植をそのまま書き写していたのを修正しました。ありがとうございました。