elsur.jpn.org >

« 読了:Lewis-Beck, & Skalaban (1990) R二乗について率直に語ろう | メイン | 読了:Reyes, Francisco-Fernandez, & Cao (2016) ヒストグラムから元の確率密度を推定します、階級の幅が不均等でも大丈夫です »

2018年10月13日 (土)

King, G. (1990) Stochastic variation: A comment on Lewis-Beck and Slakaban's "The R-Square". Political Analysis 2(1), 185-200.
 先に読んだLewis-Beck & Skalaban (1990) に対する、政治学者King先生の反論というかコメントがあったので(というか「いつか読む」箱に入っていたので)。ついでに目を通した。ほんとはそれどころじゃないんだけど、つい...

 いわく。
 いま回帰をやって、効果パラメータ$b$, その分散行列$\hat{V}(b)$、誤差項の分散$\hat{\sigma}^2$を手に入れ、オリジナルのデータは捨てたとしよう。ここに$R^2$を付け加えたら、実質的リサーチ・クエスチョンに関してなにか新しいことがわかるのか? Noだ。というのが86年の論文における私の主張であった。
 変数$z$について
 $S(z) = \sum_i^n(z_i - \bar{z})^2 / n$
として($n-1$で割ってないのは簡略のため):
 $R^2 = S(\hat{y}) / S(y)$
 $\hat{\sigma}^2 = S(y) - S(\hat{y})$
 $\hat{V}(b) = [S(y) - S(\hat{y})] (X'X)^{-1}$
だよね。違いは、$S(y)$と$S(\hat{y})$の比をみるか、差をみるか、差を重みづけるか、にすぎない。$R^2$は新情報を付け加えない。
 なお、Lewis-Beck & Skalabanは$R^2$を母集団パラメータの推定値だと捉えているけれど、本当だろうか? 回帰モデルの式をみてみよう。どこにも$R^2$にあたるパラメータはないぞ。
 話を戻すと、$R^2$と$\hat{\sigma}^2$(ないし$\hat{V}(b)$)の両方はいらない、どちらかでよい。どちらをとるべきかはほぼ趣味の問題だが、研究者をミスリードしないのはどっちだ、という議論はできる。私は$\hat{\sigma}^2$のほうがいいと思う。理由は次の3つ。

 [ここからはR二乗の是非というより、回帰モデルについての啓蒙的解説になるので、メモ省略]

 ... あーあ、この人たち、絶対友達だよな... 双方とも面白がって書いている...
 まあとにかく、整理しておくと、実質的関心がパラメータ推定値に向かっている場合に$R^2$が無意味だ、という点については合意がある。実質的関心が予測に向かっているとき、予測の良さの指標のひとつが回帰の標準誤差(SER)だという点についても合意がある。
 意見が分かれているのは、SERを目的変数のSDで標準化するのは回帰分析ユーザにとって手助けになるのか、という点に尽きると思う($R^2$は標本特性か母集団特性の推定値かという話はポイントではない)。King先生も触れていたけど、これ、標準化回帰係数に意味があるのかという論争とパラレルなんでしょうね。

 いましらべたら、なんと、同一号にAchenさんのコメントもあるようだ。読みたいような、読みたくないような... 前にAchenさんの本を読んだら、華麗なレトリックのつるべ打ちで、英文読解そのものに消耗したのである。

論文:データ解析(2018-) - 読了:King (1990) R二乗? だから要らないってば、そんなの

rebuilt: 2020年11月16日 22:53
validate this page