読書日記: 読了：Butler & Denham (2000) PLS回帰の偏回帰係数は奇妙な縮小特性を示す

« 読了：Abdi & Valentin (2007) 多重対応分析における寄与をどのように求めるか | メイン | 覚え書き：単位根検定のためのRパッケージ »

2020年1月 8日 (水)

Butler, N.A., & Denham, M.C. (2000) The peculiar shrinkage properties of partial least squares regression. J. R. Statist. Soc. B., 62(3), 585-593.

　タイトルの通り、PLS回帰を偏回帰係数の縮小推定量として捉えた時、その挙動はかなり変だぜ、と指摘する論文。

　イントロはとばして...

　$p$個の説明変数$x_1, x_2, \ldots, x_p$に対する、単変量反応変数$y$の線形回帰について考える。
　標本サイズを$n$とする。反応変数のベクトルを$Y$, $n \times p$計画行列を$X$とする。切片項を入れるのが面倒なので、$Y$と$X$は中心化済みとする。よって$X$のランクは$m \leq min(n-1, p)$である。
　線形回帰モデルは
　$Y = X\beta + \epsilon$
と書ける。$\beta$は$p$個の未知パラメータのベクトル。$\epsilon$は$N(0, \sigma^2)$にiidに従うものとする。

　$\beta$の推定方法にはいろいろある。たとえば、OLS, リッジ回帰(RR)、主成分回帰(PCR)、そしてPLS回帰である。
　$n < p$のとき、OLS推定量は一意に定義できないが、minimum length least squares推定量[←なにこれ?! なんて訳すの？]を使えば一意に決まる。
　どんな手法であれ、推定量$\hat{\beta}$は、スペクトル分解を使って以下の一般的形式で表現できるだろう：
　$X'X = \sum_j^m \lambda_j u_j u'_j$
ただし$\lambda_1, \ldots, \lambda_m$は$X'X$の正の固有値を大きい順に並べたもの、$u_j$は対応する固有ベクトルである。で、
　$\hat{\beta} = \sum_j^m f(\lambda_j) \hat{\alpha}_j u_j$
　$\hat{\alpha}_j = (1/\lambda_j) z_j$
　$z_j = u'_j X' Y$
ここで$f(\lambda_j)$は縮小ファクター。$\hat{\alpha}_j$は主成分方向$u_j$におけるOLS推定量の係数で、互いに直交しており独立である。$z_j$は正準共分散である。
　[ぶひー。$X'X$の固有値分解じゃなくて$X$の特異値分解で説明してほしいよ... まあいいや、なんだかよくわからんが、$\hat{\alpha_j} u_j = (1/\lambda_j) u'_j X' Y u_j$が、主成分回帰でいうところの$X$の第$j$主成分得点とそれに対応する偏回帰係数の積になっているのではないかと思う]

　$f(\lambda_j)$を1以外のなにかにするとバイアスが生じる。しかし$f(\lambda_j) < 1$とすることで、$\hat{\beta}$の分散が縮小できるので、結局MSEは小さくできるかもしれない。いっぽう$f(\lambda_j) > 1$だと、バイアスは生じるわ分散は拡大するわで、MSEは大きくなる。
　OLSの場合$f(\lambda) = 1$である。RRではなんらかの定数$k > 0$について$f(\lambda) = \lambda / (\lambda + k)$である。PCRでは採用した固有ベクトルについて$f(\lambda_j)=1$、残りは$f(\lambda_j)=0$である。
　ではPLS回帰はどうか。$|\hat{\beta}_{PLS}| \leq |\hat{\beta}_{OLS}|$という意味では縮小推定量であることが知られている。しかし、ああなんということでしょう、$f(\lambda_j) > 1$となることがあるのだ。その説明をこれからご覧いただきましょう。

　PLS回帰では、まず$k$個の因子$t_1, \ldots, t_k$を決める。$t_i = X c_i$は、$|c_i|=1$かつ$t_i$が互いに直交という制約のもとで、$t'_i Y$が最小になるように決める。[えーと、$c_i$ってのは第$i$因子の因子負荷ベクトルね]
　次に、$Y$を$t_1, \ldots, t_k$に回帰する。つまり、
　$\left( Y - \sum_i^k b_i t_i \right)' \left( Y - \sum_i^k b_i t_i \right)$
を最小にする$b_i$を決める。[$b_i$ってのは第$i$因子の偏回帰係数ね]
　$\beta_{PLS} = \sum_i^k b_i c_i$と書くと、これは
　$( Y - X \beta_{PLS})' ( Y - X \beta_{PLS})$
を最小にしていることになる。

　以上を別の書き方で表現する。
　PLS回帰では、
　$span\{c_1, \ldots, c_k\} = span\{X'Y, (X'Y)X'Y, \ldots, (X'X)^{k-1} X'Y \}$
が成り立つ。[←なんで?! ねえなんでよ?! さっぱりわからない！ Helland(1988, Communs Statist. Simuln Computn)というのが引用されているけどさ... 読むわけないじゃんか...せめて手がかりくらい教えてよ...]
　ということは、
　$\hat{\beta}_{PLS} = \sum_i^l \hat{\gamma}_i (X'X)^{i-1} X'Y$
と書ける。$X'X$のスペクトル分解を使うと
　$f(\lambda) = \sum_i^k \hat{\gamma}_i \lambda^i$
となる。[...ついていけないけど... 写経して先に進もう]

　さらにさらに別の書き方で表現する。
　$(Y-X\beta_{PLS})'(Y-X\beta_{PLS})$
　$=(Y-X\beta_{OLS})'(Y-X\beta_{OLS}) + (\hat{\beta}_{OLS}-\beta_{PLS})' X'X (\hat{\beta}_{OLS}-\beta_{PLS})$
ともかけるので、上の式の第二項を最小化しているのだということもできる。$X'X$のスペクトル分解を使うと、上の式は
　$\sum_j^m (z_j^2/\lambda_j) (1-\sum_i^k \gamma_i \lambda_j^i)^2$
ともかける。これを$\gamma_q \ (q = 1, \ldots, k)$で微分すると[...話についていけなくなったので数行飛ばす...]、$k$次以下の任意の多項式$p(\lambda)$について
　$\sum_j^m p(\lambda_j)(1-f(\lambda_j)) = 0$
が成り立つことが必要であることが分かる。

　ここからは、$z_j \neq 0$であり、$\lambda_j$はすべて異なると仮定する。また$k < m$とする(もし$k=m$なら$\hat{\beta}_{PLS} = \hat{\beta}_{OLS}$だから)。
　固有値$\lambda_1, \ldots, \lambda_m$のうち、$f(\lambda_j) < 1$となる奴の集合を$S$、$f(\lambda_j) > 1$となる奴の集合を$E$とする。
　連続する固有値の集合を$R$と書く。つまりなんらかの整数$a \leq b$について$R=\{\lambda_j: a \leq j \leq b \}$である。
　$R_1$の最大の要素が$R_2$の最小の要素より小さい時、$R_1 < R_2$と書く。

　定理1. $k < m$因子のPLS回帰においては以下が成り立つ。連続する固有値の空でないdisjointな集合を$R_1 < R_2 < \ldots R_{k+1}$として、
　$S = \bigcup_{i \ odd}{R_i}, \ \ E = \bigcup_{i \ even}{R_i} $
[かみ砕くとこういうことだろう。固有値$\lambda_1, \ldots, \lambda_m$について、$f(\lambda_j)$が縮小か拡大かに注目し、連続する縮小の並び、連続する拡大の並びをグループと呼ぶ。すると、縮小グループと拡大グループが交互に並ぶことになる。この定理がいっていることは、まず、グループの数が因子数+1になるということ。そして、一番右側のグループは常に縮小だということ。]
　[証明はさっぱりわからんので読み飛ばした]

　定理1から次のことがわかる。
　$\lambda_m$は$S$に入る。因子数$k$が偶数なら$\lambda_1$は$S$に入り、$k$が奇数なら$\lambda_1$は$E$に入る。
　$k=1$の場合、$\lambda_1, \ldots, \lambda_m$は左側が$E$になり右側が$S$になる。

　定理2. $k = m- 1$のとき、$m-j$が偶数である$\lambda_j$は$S$に、奇数である$\lambda_j$は$E$に入る。さらに、なんらかの正の定数を$C$として下式が成り立つ.
　$f(\lambda_j) = 1 - C\{z_j^2 \prod_{i=1,i \neq j}^{k+1} (\lambda_i - \lambda_j)\}^{-1}$
　[証明は読み飛ばした]

　定理3. $R_1$が$m-k$個の要素を持つとき、残りの$R_2, \ldots, R_{k+1}$はそれぞれ1要素となり、下式が成り立つ。
　$f(\lambda_j) = 1 - C_j\{z_j^2 \prod_{i=1,i \neq j}^{k+1} (\lambda_i - \lambda_j)\}^{-1}$
ただし$C_j > 0$は$j$の減少関数, $C_j / (1-\lambda_{k+1}/\lambda_j)$は$j$の増大関数。
　[証明は読み飛ばした]

　この定理が示しているのは、小さい固有値ほど拡大や縮小が派手になるということである。

　事例 [...疲れたので読み飛ばした]

　結論。PLS回帰の縮小特性は奇妙である。PLS回帰を、多重共線性への対処としてオートマティックに使ってはならない。ユーザは最低限でも、PLSの係数をOLSと比べ、著しい拡大が起きていないかどうかを検討すべきである。

　...途中からほぼ写経になっちゃったけど、PLS回帰から得られる偏回帰係数というのはなんだかよくわからん代物であるということがよくわかった。この論文のおかげで、「PLS回帰を線形回帰モデルの縮小推定量として捉えて偏回帰係数を解釈するのはヤメロヤメロヤメロ」と、かなりの自信をもっていえるようになった...

論文：データ解析(2018-) - 読了：Butler & Denham (2000) PLS回帰の偏回帰係数は奇妙な縮小特性を示す

読書日記

読んだ本を淡々と記録します

2020年1月 8日 (水)