« 読了:「勝てないアメリカ」「中世のパン」 | メイン | 読了:Unlu, A. et al. (2009) 「フェヒナリアン尺度構成」をやりたい人にとっては夢のようなRパッケージ »
2012年10月11日 (木)
Theil, H. (1987) How many bits of information does an independent variable yield in a multiple regression?, Statistics & Probability Letters, 6, 107-108.
重要性についての研究をあれこれ調べていると、統計学方面では重回帰の決定係数を独立変数へと分配するというタイプの提案が脈々と続いているのだが(それにどんな意味があるのかは別にして)、この論文もそのひとつ。
よく引用されているようなので、国会図書館に籠って資料探しした際についでに手に入れてみたら、たった2pのノートであった。別にいま読むことはないのだが、積読リストが1行でも短くなるとうれしいので、さっさと読了。
重回帰モデルの重相関係数をR、従属変数 X_0 と 独立変数X_1, X_2, ..., X_p との相関係数をそれぞれ r_{01}, r_{02}, ..., r_{0p}、X_2を取り除いた X_0とX_1の偏相関係数を r_{01|2}とする("|"は原文では\cdotだが、読みにくいので略記する)。ここで下式が成り立つ:
1 - R^2 = (1 - r^2_{01}) (1 - r^2_{02|1}) \cdots (1 - r^2_{0p|12\cdots(p-1)})
両辺について2を底にした対数をとる。I(x) = -log_2 (1-x) と略記することにして、
I(R^2) = I(r^2_{01}) + I(r^2_{02|1}) + \cdots + I(r^2_{0p|12\cdots(p-1)})
I(R^2)は, 独立変数群によって与えられた X_0 のふるまいについての情報の量を、ビットを単位として表したものであるといえる。上式はこれを独立変数に分配している。つまり、重回帰式における独立変数の重要性を求めたことになる。
実際には、独立変数にはふつう順序がないので、Kruskal(1987)にならって、独立変数のすべての順列をつかったp!本の式をつくり、結果を平均すると良いでしょう、とのこと。
このアイデアの特長は:
- Kruskal流のアプローチを、情報理論における情報量の加法性という性質で自然にサポートしている。
- Kruskalのアプローチでは、すべての順列について平均してはじめて重要性が決まるのだが(えーと、そうだっけ?)、このアプローチでは各順列について決まる。
- この重要性は相対的な指標ではなく、ビット単位で表現される絶対的な指標だ。
- R^2より I(R^2)のほうが自然だ。R^2=0.98, 0.99, 0.999というのはほとんど同じだが、I(R^2)=5.64, 6.64, 9.97 というのはずいぶん違うでしょ?
う・う・む。。。
論文:データ解析(-2014) - 読了:Theil(1987):決定係数を分配する方法(情報量バージョン)