« 読了:Peters, et al. (2007) 逐次凸パリ・ミュチュエル・メカニズム | メイン | 読了:Skiera & Spann (2011) 新製品開発のための予測市場 »
2015年11月25日 (水)
ここんところ市場メカニズムに関する資料ばかり読んでいて、なんだか殺伐とした気持ちになってしまったので、気分転換に目を通した。
Gelman先生2009年の論文、うっかり2007年のdraftで読んじゃったけど、中身は同じだと思う。
Gelman, A., Park, D.K. (2009) Splitting a predictor at the upper quarter or third and the lower quarter or third. American Statistician, 63(1).
回帰分析は素人には難しい。そこで、Xで高群と低群にわけ、群間でYの平均の差をみる、という方法が広く行われている。でもどうせなら高中低の3群に分けたほうがいいよ。という論文。
(ここで感涙... ああ、なんて親しみやすい話題でしょう。心温まるね)
まずは数値例。
例1. 過去のUS大統領選における、各州の平均所得とその週の共和党得票率の関係を回帰分析で調べると、1980年頃以降の選挙では回帰係数がどんどん負の方向に変化している(平均所得が低い週で共和党が勝ちやすい)。
例2. 過去のUS大統領選における、個々の投票者の所得と共和党への投票の有無の関係をロジスティック回帰分析で調べると、1980年頃から、係数が正になっている(所得が高い人は共和党に投票しやすい)。
なぜこうなるのか、というのはここでの関心ではない。 問題は、こういう結果を一般人にどうやって説明するかだ。
相関だ、回帰係数だ、なんていわれても素人にはわからない。単純な要約統計量ならわかってもらえるけど(各週の共和党の得票率を色で表すとかね)、上記のような2変量間関係を表すのは難しい。散布図をみせるのはいいけど、関係の強さの変化を時系列でみせるためには、やっぱりなんらかの要約が必要だ。
以下では、回帰モデル $y_i = \alpha + \beta x_i + e_i$を真とする。誤差項は正規分布、等分散、$x$から独立だとする。回帰係数の最小二乗推定値を$\hat{\beta}^{ls}$とする。
話はそれるけど、この回帰係数ってやつも、結局は比較なのである。なぜなら
$\displaystyle \hat{\beta}^{ls} = \frac{ \sum_i (y_i - \bar{y})(x_i - \bar{x}) }{ \sum_i (x_i - \bar{x}) }$
$\displaystyle = \frac{ \sum_{i,j} (y_i-y_j)(x_i-x_j) }{ \sum_{i,j} (x_i - x_j)^2 }$
$\displaystyle = \frac{ \sum_{i,j} \frac{y_i-y_j}{x_i-x_j} (x_i - x_j)^2 }{ \sum_{i,j} (x_i - x_j)^2 }$
つまり、回帰係数とは、2つのケースの差の比$\displaystyle \frac{y_i-y_j}{x_i-x_j} $を、すべてのペアを通じて$(x_i - x_j)^2$で加重平均した値なのだ。
[うおおおおお... そんな風に考えたことはなかった!恥ずかしながら目からうろこが]
この$\hat{\beta}^{ls}$を近似できる、もっとわかりやすい指標について考えましょう。
閾値$x^{lower}, x^{upper}$を定め、これでデータを高中低の3群に分ける。高群と低群の割合はともに$f$とし、$0 \lt f \leq 0.5$とする。変数$z$をつくり、高群を$z=0.5$, 中群を$z=0$, 低群を$z=-0.5$とする。
で、$\bar{y}_{z=0.5} - \bar{y}_{z=-0.5}$を求める、というのでもよろしいのだが、$\hat{\beta}$と比較できないので、次の指標を考えよう:
$\displaystyle \hat{\beta}^{simple} = \frac{ \bar{y}_{z=0.5} - \bar{y}_{z=-0.5} }{ \bar{x}_{z=0.5} - \bar{x}_{z=-0.5} } $
では、分散を比べてみよう。
$\displaystyle var(\hat{\beta}^{ls}) = \frac{\sigma}{n} \frac{1}{var(x)}$
いっぽう [...途中省略...]
$\displaystyle var(\hat{\beta}^{simple} ) = \frac{\sigma}{n} \frac{2}{( E(x|x \geq x^{upper}) - E(x| x \leq x^{lower}) )^2f}$
である。
これを最小化する$f$は [...途中省略...] 結局、以下の方法で数値的に求めることができる。[以下、原文を離れてレシピ風に]
- 十分に大きい偶数$m$を決めましょう。たとえば10000。
- $x$の分布$p(x)$から$m$回ランダムドローし、小さい順に並べましょう。これを$x_{(1)}, x_{(2)}, \ldots, x_{(m)}$とします。
- $f = 1/m, 2/m, \ldots, 1/2$と、少しずつ$f$を増やしながら、次の作業をしましょう。
- 低群と高群がそれぞれ割合$f$になるように閾値を決めなさい。その閾値を$x_{(lower)}, x_{(upper)}$とします。
- 高群の$x$の平均 $(1/fm) \sum_{i=upper}^{m} x(i)$を求めなさい。
- 低群の$x$の平均 $(1/fm) \sum_{i=1}^{lower} x(i)$を求めなさい。
- 閾値の差 $x_{(upper)} - x_{(lower)}$を求めなさい。
- 2.と3.の差を4.の2倍で割りなさい。
- 上で求めた値が1にもっとも近くなる$f$を探しなさい。それが最適な$f$です。
さて。最適な$f$は$p(x)$次第なのだが、一様分布とか正規分布とか、いろんな実データとかで試してみると、だいたい最適な$f$は0.25とか、0.33とか、まあそのくらいの値になる。つまり、高低の2群に折半して比べるよりも、高中低の3群に分け、中を捨てて高と低を比べるほうが、気が利いているわけだ。
[以下、話はちょっと駆け足になって...]
説明変数が離散的な場合でも同様。高い方の1/4~1/3くらいと、低い方の1/4~1/3くらいを取ってきて比べるのがお勧め。
目的変数が二値の場合でも同様。群間で割合を比較すればよろしい。ただし、ロジスティック回帰係数の分散と群間の割合差の分散を単純に比較するのは難しい。云々。
順序ロジットの場合はどうか。関係が単調じゃないかもしれないので、順序ロジットを群間比較に置き換えちゃうのはお勧めできない。云々。
重回帰の場合はどうか。もし説明変数が二つなら、3x3=9群に分けて、片方を固定してもう片方の高群と低群を比較しよう。もっと多かったら、各変数を高中低の3群に分け、0.5, 0, -0.5とコード化して重回帰なさい。
最後に数値例。冒頭の例を、回帰じゃなくて群間比較で調べ、似たような結果が得られることを示したりしている[略]。
結論。長い人生、ほんとは回帰のほうがいいんだけど、周りの素人たちのためには群間比較のほうがいい、ってこともあるだろう[←こんな書き方ではないけど、まあそういう意味のことが書いてある]。そのときは、Xで二等分するんじゃなくて、三等分か四等分して両端の群を比較なさい。云々。
いやー、面白かった!
この話、どこでどう役立てるかは、ちょっと慎重に考えたほうがいいと思う。実際のデータ解析では、変数間関係の要約のために量的変数を離散化するとき、分布じゃなくて実質的知識に基づいて区切ったほうが良い場合が、非常に多いと思うからだ。卑近な例でいえば、「製品パッケージへの好意度(5件法)と購入意向の関係を知りたい、好意度Top2Boxの対象者とBottom3Boxの対象者のあいだの購入意向の差を調べるのと、好意度TopBoxの対象者とBottom4Boxの対象者のあいだの購入意向の差を調べるのと、どっちがいいでしょうか」と尋ねられたらどうするか。ここで最初の返事は、「Top2Boxの対象者に注目するということのビジネス上の意義は? TopBoxの対象者に注目することの意義は?」でなければいけないと思う。「分布が等分になるようにわけるのがいいんじゃないですか」などと答える人を、私はあまり信用しない。
でも、いざ分布に基づいて分けるときには、これはもうエイヤッと分けるしかないだろうと思っていた。まさか、群間の差の分散という観点から「High/LowじゃなくてHigh/Middle/Lowにわけましょう」というような示唆が出てくるとは思わなかった。頭がちょっぴり良くなったような気分だ。
論文:データ解析(2015-) - 読了:Gelman & Park (2009) Xで高群と低群に分けてYを比べているあなた、どうせなら高中低の3群に分けなさい