読書日記: 読了：Tonidandel & LeBreton (2011) 重回帰やったら変数重要性を調べましょう

« 読了：岡本(2011) Qソート法レビュー | メイン | 読了：丸山(2006), 萩原(2012) »

2015年3月26日 (木)

Tonidandel, S., LeBreton, J.M. (2011) Relative importance analysis: A useful supplement to regression analysis. Journal of Business and Psychology, 26, 1-9.
　「重要性についての論文をがんばって読む会」(会員数1名)、本年度第1回。当該分野の大物LeBretonさんらによる啓蒙論文。Journal of Business and Psychology なんてジャーナル、はじめて聞いたけど、シュプリンガーだしIFは1.5 だし、泡沫誌ってわけじゃなさそうだ。

　著者らがここでいう重要性(importance) とは、”the contribution a variable makes to the prediction of a criterion variable by itself and in combination with other predictor variables”。具体的には、予測の分散を説明変数に配分して相対的に評価するという枠組みで考えている。たとえばR^2=0.8の回帰式があるとして、0.4はX1のせい、0.3はX2のせい、0.1はX3のせい... なんて配分するわけである。
　それがどう有用なのかというと... いわく：たとえば、指導者の効果性を予測する際に、ある個人差変数が他の変数よりもより問題になるか (matter)、知りたいでしょ？その個人差変数が有意味な予測子になるか、知りたいでしょ？相対的重要性なんて非理論的だという批判もあるけど、とんでもない、理論構築ってのは探索と検証の繰り返しであり、相対的重要性は探索をお手伝いするのです。云々。

　では、予測の分散をどうやって分割するか。伝統的にはYとの単相関とか、標準化偏回帰係数の二乗とか、標準化偏回帰係数と相関係数の積とか、変数投入によるR^2の変化とかを使うことが多いが、これはよろしくない(...簡単な数値例...)。Budescuのgeneral dominanceを使いなさい。ないしJohnsonのrelative weightを使いなさい(...それぞれについて簡単な説明...)。前者の長所はほかにcomplete dominanceやconditional dominanceが出せること。後者の長所は変数の数が多くても計算できること。

　相対的重要性の限界。

測定誤差の影響を受ける。
正しい回帰モデルが同定できているのが前提。
説明変数間の相関が高すぎるとき。これは統計的な話というより理論的な話で、共線性が異なる概念間の類似性を表しているのなら相関が高くても問題ないけど、同じ概念の指標が複数含まれているせいで共線性が生じている場合は、それらの指標に予測の分散を分割しちゃうとミスリーディングな結果になる。
予測のウェイトでもなければ因果的な指標でもない。あくまで分散の分割という観点からの補足情報に過ぎない。

　推奨事項。

相対的重要性を調べる目的を決めよう。いくつかのパターンの重要性について調べたいならdominance analysisがお勧め。単に分散を説明変数に配分したいだけならrelative weightでよい。
その場で最も適切な相対的重要性を求めよう。単なる重回帰か、ロジスティック回帰か、多変量重回帰か、多項回帰か。
まずは生のウェイトをみて解釈しよう。
なんなら統計的有意性も調べよう。(←偏回帰係数の有意性検定とは別に、相対的重要性の有意性検定ができる由)
なんなら信頼区間も求めよう。(←なんと、その方法がある由)
仮説を検証しよう。ここでいう仮説とは、たとえば「X1よりX2のほうが重要性が高い」とか、「X1の重要性は群Aより群Bで高い」とか。

　最後に、ユーザのみなさんからのよくあるご質問をご紹介します。

必要なサンプルサイズは？→相対的重要性の検定における検定力は、単回帰の検定における検定力よりもやや弱いが、偏回帰係数の検定における検定力よりは強い。
有意じゃなかったら解釈できないの？→んなこたあない。(説明略)
相対的重要性の強さは、効果量についてのCohenの基準で解釈できる？→そもそもCohenの基準を振りかざすのはお勧めできない。相対的重要性であれ、効果量であれ、その解釈は状況による。
偏回帰係数は有意なのに相対的重要性は有意じゃなかったら？→そんなことはまずない。
理論的に重要な変数は、有意じゃなくても入れるべき？→イエス。

　いやぁ... この著者らのチームには、以前問い合わせに親切にご対応いただいたこともあり、多大なる敬意を抱いておりますですが...
　この分野の議論で一番肝になるはずの論点は、(a)なぜ重回帰の文脈で変数の"重要性"を定量化したいのか、(b)定量化したいとしてR^2を配分する必要があるのか、という二点だと思う。
　Yに対するX1の"重要性"なるものを、もし因果的な概念として捉えるならば、それは要するにX1の総合効果であり、X2, X3, ... との因果関係次第で決まるものであって、つまりは重回帰の枠組みから離れ、DAGを描くのが先決であろう(aへの反論)。もし因果的なニュアンス抜きで、単に回帰式でYを予測する際の有用性として捉えるならば、X1を出し入れしたときのR^2の変化をみればいいのであって、R^2をきれいに配分する必要はないのではないか(bへの反論)。いやいや、これはモデル構築の手前の変数スクリーニング手法なのですと一歩引き下がるんなら、それはそれで納得するけど、著者らの主張はそうではなくて、変数選択が終わって回帰モデルが完成してから、そのモデルのなかの変数の"重要性"を評価しましょう、という話なのである。
　どちらかというと、こういうソモソモ論に関心があるのだけれど、きちんとした議論がなかなか見つからない。

　引用文献についてのメモ:

この話の手前に位置する、回帰モデルの同定の話については、Hocking(1976,Biometrics), Miller(1990,書籍), Thall et al.(1997,J.Comp.GraphicalStat.)を見よ、とのこと。いずれも変数選択の話らしい。
Fabbris(1980, Quality&Quantity): Johnsonのrelative weightの先行研究。
Krasikova, LeBreton, & Tonidandel(2011,Chap.): 相対的重要性の使い方。
O'Boyle,Humphrey,Pollack,&Hawver(2010,J.Org.Beh.): 潜在変数の相対的重要性。メタ分析で使ったらしい。

論文：データ解析(2015-) - 読了：Tonidandel & LeBreton (2011) 重回帰やったら変数重要性を調べましょう

読書日記

読んだ本を淡々と記録します

2015年3月26日 (木)