« 読了:Dekimpe & Hanssens (2000) マーケティングにおける時系列モデルレビュー | メイン | 読了:Pauwels, et al. (2005) マーケティングにおける時系列モデルレビュー in 2005 »
2015年8月10日 (月)
Willet, J.B., & Singer, J.D. (1988) Another cautionary note about R^2: Its use in weighted least-squrares regression analysis. The American Statistician, 42(3), 236-238.
著者があのWillet & Singerなので(縦断データ分析の名教科書の著者である)、資料整理のついでに目を通した。
えーと、かつてこの雑誌に Kvalseth (1985) "Cautionary Note about R2"というのが載った。OLS回帰におけるR二乗の定義にはいろいろあるんだよ、という話。Kvalsethさんいわく、切片項を抜いたり非線形だったりするような回帰モデルでは、R二乗は 全変動における残差平方和以外の変動の割合だということにしたほうがいいよ、とのこと。 [←式を見てパッとメモっているので誤解しているかも]
この論文はその話をOLSからWLSに拡張する。
WLS回帰では、
$Y = X \beta + \epsilon, \ \ \epsilon \sim (0, \sigma^2 W)$
というモデルを考える。Wは事前のOLSかなんかで得ることが多い。両辺に $W^{-1/2}$を掛けて
$W^{-1/2} Y = W^{-1/2} X \beta + W^{-1/2} \epsilon$
とすれば、$W^{-1/2} \epsilon$の分散は$\sigma^2 I$となり、OLSで推定できる。これを
$Y_* = X_* \beta + \epsilon_*$
と書くことにしよう。
さて、OLSの場合、Kvalsethさんお勧めのR二乗は
$R^2_{OLS} = 1 - \left[ \frac{(Y-X \hat\beta)' (Y-X \hat\beta)}{Y'Y - n\bar{Y}^2} \right]$
である。これをWLSにすると、パラメータのWLS推定値を$\hat\beta_*$として
$R^2_{WLS} = 1 - \left[ \frac{(Y_*-X_* \hat\beta_*)' (Y_*-X_* \hat\beta_*)}{Y'_* Y_* - n\bar{Y}_*^2} \right]$
ソフトが出力するR^2は普通これだ。往々にして$R^2_{OLS}$より高くなる。
でもこれは、$Y$そのものについての分散説明率ではなく、$Y$を変換した変数$Y_*$についての分散説明率である。そんなのヘンじゃないですか。ユーザにとっての残差はあくまで$Y - X \hat\beta_*$でしょ。
というわけで、WLSにおけるあるべき決定係数はこれだ:
$pseudo R^2_{WLS} = 1 - \left[ \frac{(Y-X \hat\beta_*)' (Y-X \hat\beta_*)}{Y' Y - n\bar{Y}^2} \right]$
これは$R^2_{OLS}$とそんなに変わらない。じゃどっちでもいいじゃん? とお考えの皆さん。わたくし云いたいのはですね、ソフトが出す$R^2_{WLS}$は高くなりすぎちゃって、素人はぬか喜びしちゃうんだ、ということです。云々。
WLSなんてあんまり使わないもんで、はぁさいですか、としかいえないんだけど...
先生方は、個々のデータ点がどんなウェイトを持っていようが、一旦出来上がったモデルの評価においてはそのことを無視して、すべてのデータ点を平等に扱うべきだ、と考えておられるのでしょうね。それはそれでひとつの見方だが、結局、それはウェイトがなにに由来しているかによって見方が変わってくるんじゃないかと思う。
たとえば、ウェイトが個々のデータ点の不均一分散性を表しているようなWLS回帰もあるだろう。そのときは先生方仰せのとおりかと。いっぽう、ウェイトがSAS的な分析ウェイト(「このデータ点は何人分のデータの集約値か」)を表しているようなWLS回帰もあるだろう。このとき、ウェイトが大きいデータ点とは、(単に分散が小さいというだけではなく)人数の多いデータ点なんだから、「ウェイトが小さいデータ点はうまく説明できなくてもいいや」的な発想に立った決定係数がほしいという立場もありうるのではないか。その立場からは$R^2_{WLS}$でオッケーなんじゃないかしらん?
論文:データ解析(2015-) - 読了:Willet & Singer (1988) 決定係数かくあれかし:WLSの巻