« 読了:Boone & Boone (2012) リッカート型項目とリッカート尺度 | メイン | 読了:King (1990) R二乗? だから要らないってば、そんなの »
2018年10月13日 (土)
都合によりcitizen forecastingについて調べていて(そういう話題があるのです)、主要研究者のひとりである政治学者M. Lewis-Beckを辿っていたら、この先生による全く別の方面の論文が「いずれ読む」箱に叩き込まれていたことに気が付いた。世界は狭い。
というわけで、整理の都合で読んでしまった。面白かったけど、別にいま読むこたあなかったな...
Lewis-Beck, M.S, & Skalaban, A. (1990) The R-Squared: Some Straight Talk. Political Analysis, 2, 153-171.
いわく。
政治学ではR二乗は時代遅れだ。人々は口々にR二乗の悪口を言う。もっとも有名なのはAchen(1982)で、かの大先生に言わせれば、R二乗なんてものにたいした意味はない。King(1986, Am.J.Polit.Sci.)も同趣旨を述べている。分散説明率?政治の分析においてそれになんの意味があるんだい? というわけである。[←このKing先生のエッセイ?は面白そう]
なるほど。確かに我々の心のなかには冷酷な「R二乗マクシマイザー」が住んでおり、無闇に変数を増やしたがる。上述の批判で質の低い分析が防止されるってんなら、拍手するのにやぶさかでない。しかぁし。悪いのはR二乗の誤用である。R二乗そのものは悪くありません。本稿では、回帰分析においてR二乗が価値ある統計量となることがあるということをお示しするぞ。
いま母集団について
$ Y = \alpha + \beta_1 X_1 + \ldots + \beta_k X_k + \epsilon$
というモデルがあるとする。政治学者はこれを観察データにあてはめ、$a, b_1, \ldots, b_k$をOLS推定し、$\hat{Y}$を得る。
このとき、研究者は回帰モデルの諸想定への合致を達成しようと尽力する。合致している程度に応じて、研究者はOLS推定値がBLUEだと信じ、係数からなにかを推論しようとする。ときには信頼区間を出したり検定したりもするだろう。
ここでふつうの実務家は、R二乗、すなわち$RSS=\sum (\hat{y}_i -\bar{y})^2$と$TSS = \sum(y_i - \bar{y})^2$の比によって、「あてはまりのよさ」を評価しようとする。
いっぽうAchen先生いわく、正しい「あてはまりのよさ」指標はYの推定値の標準誤差
$SEE = \sqrt{ \sum(y_i - \hat{y}_i)^2 / (n-k)}$
だ。
というわけで、もうちょっと賢い実務家は、$a, b_1, \ldots, b_k, N, R^2$に加えて、$SE_{b_1}, \ldots, SE_{b_k}, SEE$をチェックする。使い方としては、(1)独立変数の効果を知りたいときは$b$と$SE_b$をみる。(2)予測したい場合は$\hat{Y}$とともに、$R^2$か$SEE$かその両方をみる。
実例で考えてみましょう。
政治学者Brooms氏はUSにおける市長選のモデルというのを作った。$Y$は現職候補の得票率、$X_1$は犯罪率の変化, $X_2$は予算に占める道路予算の割合、$X_3$は貧困層の税率の変化, $X_4$は予算に占める教育予算の割合で、
$\hat{Y} = 22.39 - 1.15X_1 + 0.56X_2 - 0.33X_3 + 0.47X_4$
$R^2 = 0.52, \ \ SEE = 7.7, \ \ N=70$
である[係数のSEと検定結果は省略]。
さて、(1)Broom 氏は独立変数の効果を知りたいとしよう。$X_2$の係数は有意。どうやら、道路予算の1パーセントの増大は得票率の0.56パーセントの増加をもたらすようだ。という風に、Broom先生は$b$と$SE_b$から知りたいことを知ることができる。
おそらくKing先生ならここでストップである。King先生にとって、回帰分析の目的とは母集団パラメータの推測だ。しかしBroom氏もそうかどうかは別の問題である。
(2)Broom氏は予測の良さを知りたいとしよう。SEEは7.7。直観的に言えば、これは「絶対予測誤差」のようなものがだいたい8パーセントポイントだということを表している。しかしこれだけでは物足りない。Broom氏は他の情報も必要とする。現職候補の平均得票率は?(Yの平均は51.1)。現職がどこまで大勝ち・大負けするのか?(Yの範囲は30-79)。得票率はどのくらいばらつくか?(YのSDは10.8)。カッコ内の答えによって、SEEはさらに有意味となる。
なぜカッコ内の答えを必要としたのか。それは、SEEが予測能の絶対指標だったからだ。それ単独で評価できるような相対指標があれば便利じゃないですか。それがR二乗である。R二乗とは、独立変数について知ったことによって$Y$の予測誤差がどれだけ減ったかを表している。
R二乗をこのように使うのはナイーブすぎるという人もいる。R二乗は予測$\hat{Y}$をベースライン予測$\bar{Y}$と比べていることになるけど、 $\bar{Y}$がベースラインだというのはナイーブだ、という意見である。そうだろうか。Broom先生にとって、$Y$しか知らないときの予測は$\bar{Y}$ではないか、もっと良い代替案があるとは思えない。[...中略...]
絶対指標SEEと相対指標R二乗の間には
$\sqrt{1- adj.R^2} = SEE / SD_y$
という関係がある。これをcoefficent of alienationと呼ぶ人もいる[うーん... 「説明されてない度係数」という感じだろうか]。これはいわば標準化されたSEEである。
別の政治学者Brush氏は、Broom氏に対抗してこういうモデルをつくった。[係数のSEと検定結果は省略]
$\hat{Y} = 40.04 - 1.12X_1 + 0.46X_2$
$R^2 = 0.46, \ \ SEE = 8.04, \ \ N=70$
R二乗はBroom氏のモデルのほうが高い。これを根拠に、Broom氏はBrush氏のモデルよりも自分のモデルの方が良いと主張できるか(King先生にいわせると不可である)。
どっちのモデルの予測能が高いかと云えば... 修正R二乗で比較すると、Broom氏のモデルのほうが良い。しかしこれは標本についての話である。F検定してみると、$X_3, X_4$を加えた方がR二乗が高くなっている(Broomモデルで$X_3, X_4$の係数は有意じゃなかったけど、それは別の話である)。やはりBroomモデルのほうが良い。
なお、ここでBrush氏は反論するかもしれない。R二乗の増大は統計的に有意かもしれないけど、でも実質的にはどうよ?と。 ここから先はもはや実質的議論である。
さて、上記の議論では、R二乗は母集団パラメータとみなされている。統計学者はそう考える傾向がある。いっぽう計量経済学者はR二乗を標本特性と捉える傾向がある。King先生は後者である。
この論争に決着をつけることはできないけど、整理しておくと、まず回帰モデルは母集団について固定されたR二乗を生成するし、無作為標本のR二乗はその一致推定量になっている。検定に際してはふつう、標本がMVNに従うと仮定する。この仮定は守られていないかも知れないけどしかし頑健性があって...[面倒くさいのでこのくだりは省略]
要するに、R二乗を評価するってこと自体がトレードオフを伴う。相対的予測能の指標としては有益である反面、実はMVN仮定が成り立たっておらず有意性検定は有害かもしれない。
[ここから今度はPan氏という政治学者が出てきて、Broom氏のモデルを別のデータにあてはめようとする。SEEは下がったけどR二乗も下がった、どう評価する?というような話。面倒なのでメモは省略するけど面白い説明であった]
というわけで、R二乗は、Xの効果の理解という観点からはあまり意味がないが、Yの予測という観点からは有益な道具である。
どう解釈するかはデザインによって変わる。単一の無作為標本に対する単一のモデルであれば、標本におけるモデルの性能の記述とみることもできるし、母集団パラメータの一致推定量とみることもできる。いっぽう、多母集団の比較の場合はそれほどファンダメンタルな統計量とはいえない。分散の違いも考慮しないといけないわけだから。
云々。
論文:データ解析(2018-) - 読了:Lewis-Beck, & Skalaban (1990) R二乗について率直に語ろう