« 読了:Gayo-Avello (2012) twitterによる選挙結果予測はくだらない(いまのところ) | メイン | 読了:Christodoulides, G. & de Chernatony, L. (2010) 消費者ベースのブランド価値測定 »
2012年6月14日 (木)
Interpreting and Using Regression[a]
Christopher H. Achen / Sage Publications, Inc / 1982-11-24
仕事の都合で、前職で書きかけて途中で放置していた原稿を引っ張り出したら、その準備の際にAchenの本の最終章をめくって感銘を受けたことを思い出した。いまさら82年刊の本を読んでどうするんだという気もするけど、温故知新、これを機にひとつあの本を全部読んでおこう、と思った次第である。
大学図書館などに行くと必ず並んでいる緑色の薄っぺらい本のシリーズ(QASS)の一冊。回帰分析そのものではなく、社会科学において回帰分析を用いることの意義と注意点について述べる本である。著者はUCBの政治学者。決して長い内容ではないんだけど(本文は79頁)、昔風の美文調なので、ちょっとめんどくさい。
社会科学がおおむねその名に値するものであるかどうかと、社会科学の現状が称賛に値するものであるかはどうかは別の話である。あらゆる社会的領域において、多かれ少なかれ、無意味な統計の売り子たちが蔓延している。理論と称する空虚な駄弁の書き手たち。論理的に擁護可能な理論と証拠の誠実な使用を目指す長い行軍などそれ自体不道徳、ないしもともと絶望的だ、などという生気論的な(vitalist)教義を声高に唱える信徒たち。経済学という比較的に狭い領域の外側には、真剣な社会理論はほとんどないし、経済学においてさえ、その正確性は怪しいところだ。しかしこうした現象は、自然科学史をみればありふれたものであり、大事なポイントはいささかも変わらない。社会的思考の主たる目的、それは科学的説明を目指すことなのである。
この主張はしかし、ある責務を伴う。よしんば科学的思考の多くがその精神において科学的であるとしても、実際に科学的であることは決して多くない。社会科学者はアカデミアの良き市民であるという宣言は、もしそのことばが「我々は悔い改めねばなりません」という敬虔な望み以上のものでないならば、限られた価値しか持たない。善行なき信仰は死ぬのだ。
。。。なあんてね。この無闇な格調高さときたら。単語がわからんので大変面倒だが、ちょっと楽しい面もある。
面白かったところをメモ:
- 社会科学において、理論構築はふつう、関数的関係を特定しない(non-functionally-specific)仮説から始まる。たとえば、Eric Veblenという人の投票と新聞記事の関係についての研究では、報道の偏向が投票に影響しているという仮説を、回帰分析で手を代え品を代えて示しているが、それはどこまでいっても統計的記述であって、真の関数的関係を推定しようというつもりはない。(Chap.2) ←なるほど、いわれてみればその通り。これは統計学の教科書にはなかなか出てきにくい話だ。
- 回帰分析について、最小二乗推定量が不偏であるとか、線形不偏推定量のなかで分散最小であるとか、そういう話は社会科学者にとってはどうでもよい。ポイントは、回帰係数が一致推定量である、ということだ。そのために必要な前提は、独立変数間に共線性がないこと、fixed-in-repeated-samples samplingであること、モデルが正しいこと(=誤差項の期待値が0であること)、の3つだけだ。誤差の正規性も、独立変数間の独立性も、誤差の独立性も等質性も、モデルの因果的な正しさも仮定されていないことに注意。(Chap.3)
- いっぽう係数の標準誤差の推定のほうは非現実的な前提を必要とする。だから、「信頼区間や有意性検定といった、回帰の慣用的な計算につきものの、確率分布に基づくあの豪勢な諸手法は、その本質において決定的というより例示的なものだ。それらの基盤にある諸想定は現実のデータにおいては全くあり得ないものである。仮に想定が正しいとしてもそれはたまたまだ」「標準誤差はたいてい間違っている。ふつうそれは狭すぎる」(Chep.4) ... というわけで、話はジャックナイフ推定や検定批判に進んでいく。
- 統計的な変数選択手法への批判。係数が有意でない独立変数をモデルから削除するというような「有意性検定は、関数として正しいモデルを指定するという望みのない探索へとエネルギーを振り向けてしまい、データについての管理可能な記述を定式化し競合する記述を排除するという真の課題から注意をそらしてしまう。仮説の検証と対立仮説の除去というプロセスは、決まりきったやり方に落とし込むことができない微妙なスキルなのだ」(Chap.5)
- 「R二乗は回帰によって『説明された分散の割合』を表す。たいていの社会科学者にとって、この表現の意味するところは疑わしいが、修辞的な価値は高い。この数字が大きかったら、その回帰の適合度は良く、さらに変数をさがす必要はあまりない、などと云われている。また、異なるデータセット間で回帰式を比べ、R二乗が低いときにはその回帰式にはあまり満足がいかない、あまり強力でない、などと云われている。こんな主張は全く支持できない。R二乗はせいぜい、回帰における点の幾何的形状の特徴づけであり、それ以上のものではない。[...] R二乗が低いとき、点が形作る雲は短くて太く、オリバー・ハーディよりもスタン・ローレルに似ている、ということなのだ。(←戦前のコメディアンですね。調べてみると、ハーディがデブでローレルが細いらしいので、逆のような気がするのだが) [...] R二乗は [...]独立変数の恣意的な分散に劇的に影響される。社会科学者が最も頻繁に問うのは、この関係は因果的に強いものだろうか、ということだが、R二乗はその答として信用できない」(Chap.5) ← ああ、そうか、相関係数であれ決定係数であれ、標準化偏回帰係数であれ変数追加時の決定係数の増分であれ、とにかく標準化している指標はダメだと云っているのだ。なるほどー。
- というわけで、モデルの評価のためにはSERやCp統計量を使うように、との仰せである(Cp統計量は予測のMSEの推定量だから)。しかし、もちろん変数選択は機械的であってはならない。「政治的、社会的、伝統上の理由により、その由来があまり立派でないような変数もモデルに含めなければならないことがある。たとえば、ある人の知見がその分野の伝統的知識と対立するような場合、仮に一般に受け入れられている考え方がろくな証拠を持っていないとしても、標準的な反論や他の研究者による知見などなどに対処する必要が生じるだろう。そのせいで、推定された予測誤差を減少させるためのなんらかの変数を含める必要が生じることはよくあることだ」(Chap 5.) ←これもなかなか他では読めない話だ...
この本の白眉はなんといってもChap 6、独立変数の重要性という概念を整理するくだりで、このたった8頁のおかげでどれだけ視野が広がったかわからない。こういうことがあるから、本というのは恐ろしい。内容のメモは省略するが、この恩恵はどうにかして形にしたいと思う。
Chap.7 (結論) における先生の名台詞。「経験のない人は、統計的研究をすべて信じたり、全く信じなかったりしがちである。それよりも賢くなること、それが実証的社会科学者の課題である」「方法論がどれだけ洗練されても問題の本質は変わらない。社会科学は、厳密な理論、経験に基づく判断、そしてひらめきに満ちた推量の、 驚くべき混合物でありつづける。そして結局のところ、それが社会科学の魅力である」ひゃー、かっこいいー。
データ解析 - 読了: Interpreting and Using Regression