elsur.jpn.org >

« 読了:岡本(2011) Qソート法レビュー | メイン | 読了:丸山(2006), 萩原(2012) »

2015年3月26日 (木)

Tonidandel, S., LeBreton, J.M. (2011) Relative importance analysis: A useful supplement to regression analysis. Journal of Business and Psychology, 26, 1-9.
 「重要性についての論文をがんばって読む会」(会員数1名)、本年度第1回。当該分野の大物LeBretonさんらによる啓蒙論文。Journal of Business and Psychology なんてジャーナル、はじめて聞いたけど、シュプリンガーだしIFは1.5 だし、泡沫誌ってわけじゃなさそうだ。

 著者らがここでいう重要性(importance) とは、”the contribution a variable makes to the prediction of a criterion variable by itself and in combination with other predictor variables”。具体的には、予測の分散を説明変数に配分して相対的に評価するという枠組みで考えている。たとえばR^2=0.8の回帰式があるとして、0.4はX1のせい、0.3はX2のせい、0.1はX3のせい... なんて配分するわけである。
 それがどう有用なのかというと... いわく:たとえば、指導者の効果性を予測する際に、ある個人差変数が他の変数よりもより問題になるか (matter)、知りたいでしょ? その個人差変数が有意味な予測子になるか、知りたいでしょ? 相対的重要性なんて非理論的だという批判もあるけど、とんでもない、理論構築ってのは探索と検証の繰り返しであり、相対的重要性は探索をお手伝いするのです。云々。

 では、予測の分散をどうやって分割するか。伝統的にはYとの単相関とか、標準化偏回帰係数の二乗とか、標準化偏回帰係数と相関係数の積とか、変数投入によるR^2の変化とかを使うことが多いが、これはよろしくない(...簡単な数値例...)。Budescuのgeneral dominanceを使いなさい。ないしJohnsonのrelative weightを使いなさい(...それぞれについて簡単な説明...)。前者の長所はほかにcomplete dominanceやconditional dominanceが出せること。後者の長所は変数の数が多くても計算できること。

 相対的重要性の限界。

 推奨事項。

 最後に、ユーザのみなさんからのよくあるご質問をご紹介します。

 いやぁ... この著者らのチームには、以前問い合わせに親切にご対応いただいたこともあり、多大なる敬意を抱いておりますですが...
 この分野の議論で一番肝になるはずの論点は、(a)なぜ重回帰の文脈で変数の"重要性"を定量化したいのか、(b)定量化したいとしてR^2を配分する必要があるのか、という二点だと思う。
 Yに対するX1の"重要性"なるものを、もし因果的な概念として捉えるならば、それは要するにX1の総合効果であり、X2, X3, ... との因果関係次第で決まるものであって、つまりは重回帰の枠組みから離れ、DAGを描くのが先決であろう(aへの反論)。もし因果的なニュアンス抜きで、単に回帰式でYを予測する際の有用性として捉えるならば、X1を出し入れしたときのR^2の変化をみればいいのであって、R^2をきれいに配分する必要はないのではないか(bへの反論)。いやいや、これはモデル構築の手前の変数スクリーニング手法なのですと一歩引き下がるんなら、それはそれで納得するけど、著者らの主張はそうではなくて、変数選択が終わって回帰モデルが完成してから、そのモデルのなかの変数の"重要性"を評価しましょう、という話なのである。
 どちらかというと、こういうソモソモ論に関心があるのだけれど、きちんとした議論がなかなか見つからない。

 引用文献についてのメモ:

論文:データ解析 - 読了:Tonidandel & LeBreton (2011) 重回帰やったら変数重要性を調べましょう