読書日記: 読了：Enders & Tofighi (2007) 階層線形モデルで説明変数をセンタリングする正しいやり方

« MSIが選ぶマーケティング論文：2016年秋 | メイン | 読了：Pan, et al. (2014) 標本ウェイティングの下で中央値や分位数について群間の差を検定する方法 »

2017年1月 7日 (土)

Enders, C.K., Tofighi, D. (2007) Centering Predictor Variables in Cross-Sectional Multilevel Models: A New Look at an Old Issue. Psychological Methods, 12(2), 121-128.
　仕事の都合で目を通した奴。階層線形モデルを組むとき、センタリングをどうするか、正直なところいまいち自信が持てず、毎回ちょっと迷う。気分が悪いので、一度まとまった解説を読んでみたいものだと思って手に取った次第。
　世間のみなさまが！ディープラーニングだ、人工知能だと騒いでおられるこのときにですね！私は「全平均引いたほうがいいのかな、群平均引いたほうがいいのかな」なんてささやかなことで悩んでおるわけですよ。取り残されてますね！

　著者いわく。階層線形モデルのレベル1説明変数のセンタリングについて、みんなよくわかってない。心理学のトップジャーナルにさえ誤用が頻発しておる。おまえらな、センタリングってのはデータで決まるもんじゃないんだよ、何に関心があるかで決まるんだよ。わかってんのかこら。[とは書いてないけど、まあそういうニュアンス]

　まずは説明用の例題から。
　レベル1を従業員、レベル2を組織とする。組織$j$の従業員$i$の幸福感$W_{ij}$と労働時間$H_{ij}$の関係について階層線形モデルを組むとしよう。幸福感と労働時間の関係は、どの組織内でみても負の相関、各組織について平均をとって組織間でみても負の相関だとする。
　レベル1のモデルを
　$W_{ij} = \beta_{0j} + \beta_{1j} H_{ij} + r_{ij}$
とする。$r_{ij}$の分散を$\sigma^2$とする。レベル2のモデルを
　$\beta_{0j} = \gamma_{00} + u_{0j}$
　$\beta_{1j} = \gamma_{10} + u_{1j}$
とする。一緒にして書けば
　$W_{ij} = \gamma_{00} + \gamma_{10} H_{ij} + u_{0j} + u_{1j} H_{ij} + r_{ij}$
である。$u_{0j}, u_{1j}$の分散と共分散をそれぞれ$\tau_{00}, \tau_{11}, \tau_{10}$とする。推定するパラメータは$\gamma$が2つ、$\tau$が3つ、$\sigma^2$、計6個ね。
　
　$H$を全平均センタリング(CGM)すると何が起きるか。
　当然ながら、$W$との相関はセンタリングしない場合と変わらない。$H$は群間の分散を持っている。$H$はレベル2の説明変数とも相関しうる(たとえば組織サイズ$S$が大きいと幸福度が低いとすると、労働時間が長いほうが幸福度が低いから、つまり労働時間が長いと組織サイズが大きいことになる)。
　切片$\gamma_{00}$はなにを表すか。レベル1のモデルは
　$W_{ij} = \beta_{0j} + \beta_{1j} (H_{ij} -\bar{x}_{H})+ r_{ij}$
変数を各組織の期待値に置き換えて
　$\mu_{W_j} = \beta_{0j} + \beta_{1j} (\bar{x}_{H_j} - \bar{x}_{H})$
つまり$\beta_{0j}$は、組織$j$の幸福感の平均を労働時間で調整した値になっている。$\gamma_{00}$はその平均だ。
　では、傾き$\gamma_{10}$はなにを表すか。$H$は群間の分散を持っているから、$\gamma_{10}$は組織内の幸福感-労働時間の相関と、組織間の幸福感-労働時間の相関の両方を反映する[←んんんん？あとでよく考えてみよう]。つまり、$\gamma_{10}$はレベル1の効果の推定量になっていない。組織を無視して回帰モデルを推定したときの回帰係数と同じで、群内の回帰直線をプールした奴と群間の回帰直線の両方を反映し、解釈しにくい。
　分散$\tau_{00}, \tau_{11}$も解釈しにくい。というのは、上の式からわかるように、$\beta_{1j}$が大きいと$\beta_{0j}$は小さくなるわけで、$\tau_{00}, \tau_{11}$をそれぞれ単独では解釈できないし、[...よくわかんなかったので中略するけど...] $\tau_{00}$はゼロに向かってシュリンケージし、$\tau_{11}$は負の方向にバイアスがかかる。
　
　$H$をクラスタ内センタリング(CWC)すると何が起きるか。
　もはや$H$は群間の分散を持たない。$W$との相関はがらっと変わり、レベル2の説明変数とは相関しなくなる。
　切片$\gamma_{00}$はなにを表すか。レベル1のモデルは
　$W_{ij} = \beta_{0j} + \beta_{1j} (H_{ij} -\bar{x}_{H_j})+ r_{ij}$
$\beta_{0j}$は、組織$j$における幸福感の無調整な平均である。$\gamma_{00}$はそのまた平均、$\tau_{00}$はその分散である。$H$は群間の分散を持っていないから、$\gamma_{10}$はレベル1の効果の推定量になる。傾きと切片は切り離され、分散$\tau_{11}$はバイアスを受けない。

　CGMとCWCをどう使い分けるか。典型的な４つのケースについて考えよう。

ケース１、レベル1の説明変数の効果に関心があるとき(ある人の労働時間が幸福感に及ぼす影響に関心があるとき)。上述のように、この場合はCWCがよい。
ケース２、レベル2の説明変数の効果に関心があるとき(組織サイズが幸福感に及ぼす影響に関心があるとき)。モデルは
　$W_{ij} = \gamma_{00} + \gamma_{01} S_j + \gamma_{10} H_{ij} + \ldots$
となる。こういう場合はCGMがいいんです。$\gamma_{10}$は解釈できないけど、$\gamma_{00}$は解釈できるから。これがCWCだと、$H$は$S$と直交することになり、入れた意味がなくなる。[ここで数値例による実験。パス]
ケース３、ある説明変数がレベル1とレベル2で同じように効いているかに関心があるとき(個人の労働時間が幸福感に与える効果は、組織の平均労働時間が幸福感に与える効果と同じかどうかに関心があるとき)。モデルは
　$W_{ij} = \gamma_{00} + \gamma_{01} \bar{x}_{H_j} + \gamma_{10} H_{ij} + \ldots$
となる。この場合はCGMでもCWCでもどっちでもいい。なぜなら$\gamma_{01}^{CGM} = \gamma_{01}^{CWC} - \gamma_{10}^{CWC}$となるから。まあCGMのほうが楽でしょうね、なぜなら$\gamma_{01}$が有意かどうかみれば、レベル1の傾きとレベル2の傾きに差があるかどうかわかるわけだから。[...めんどくさくなってきたので中略。この辺の話はKreft, et al.(1995 MBR)というのをみるといいらしい]
ケース４、レベル1の説明変数とレベル2の説明変数の交互作用に関心があるとき(組織サイズは労働時間が幸福感に与える効果のモデレータになっているか？)。モデルは
　$W_{ij} = \gamma_{00} + \gamma_{01} S_j + \gamma_{10} H_{ij} + \gamma_{11} S_j H_{ij} + \ldots$
となる。このときはCWCがよい。CGMだと$H$に群間分散がはいり、つまり$\gamma_{11}$にレベル1の交互作用とレベル2の交互作用の両方がはいっちゃうから。もっとも、モデルに$\bar{x}_{H_j}$の項、ならびにそれと$S$との交互作用項を投入するという手もあって、そうなるとCGMでもいいんだけど... [め、めんどくさい... 中略だ！]

　もしレベル1の説明変数が二値だったらどうするか。なんか変な気がするかもしれないけど、この場合も話は全く同じで、適切なセンタリングをすべきである。ダミーコーディング(0,1)でもイフェクトコーディング(-1,+1)でも全くおなじこと。

　... 自分の能力不足を棚に上げていいますけど... この論文の説明って、ちょっとわかりにくくないですかね？そんなことないですかね？
　勉強にはなったが、それと同じくらいに疑問も増えた。他の解説も読んでみよう。

論文：データ解析(2015-) - 読了：Enders & Tofighi (2007) 階層線形モデルで説明変数をセンタリングする正しいやり方

読書日記

読んだ本を淡々と記録します

2017年1月 7日 (土)