« 読了:Koenker (2015) 分位点回帰パッケージ quantreg | メイン | 読了:Allenby, Bakken, Rossi(2004) HB革命とは何か »
2016年4月26日 (火)
Koenker, R., & Hallock, K. (2001) Quantile regression. Journal of Economic Perspectives, 15 (4), 143-156.
分位点回帰についての素人向け解説。こりゃ基礎から復習しないとだめだと気づき、あわてて読んだ。Koenkerって、やっぱ偉い人だったんだ...
いわく。
みんな知ってると思うけど、平均は残差平方和
$\min_{\mu} \sum(y_i - \mu)^2$
を最小化するという問題の解だよね。同様に、中央値は絶対誤差の合計を最小化するという問題の解だよね。他の分位点に一般化すると、それらは次の解だ:
$\min_{\xi} \sum \rho_t (y_i - \xi)$
ここで$\rho_t (\dots)$は左右で異なる傾きを付けた絶対誤差の関数。[←ここ、理解できなくて混乱したんだけど、"Mostly Harmless Econometrics"によれば、厳密な定義はおいといておおまかにいうと、$u$が正のときに$\rho_\tau = \tau u$, 負のときに$\rho_\tau = (\tau-u) u$となる関数らしい。$\tau=0.5$なら$\rho_\tau = 0.5|u|$。なるほどね]
これを条件つき平均に拡張しよう。$\mu$をあるパラメトリックな関数$\mu(x_i, \beta)$に置き換える。条件付き期待値関数$E(Y|x)$は
$\min_{\beta} \sum (y_i - \mu(x_i, \beta))^2$
の解だ。同様に、$\xi$をあるパラメトリックな関数$\xi(x_i, \beta)$に置き換える。条件付き分位点関数(CQF)とは
$\min_{\beta} \sum \rho_\tau(y_i - \xi(x_i, \beta))$
の解だ。
これ、線形計画法で簡単にとけるのです。
よくある誤解は、分位点回帰なんかしなくても、反応変数で層別して、それぞれに最小二乗フィッティングすりゃいいじゃん、というもの。これは従属変数によるトランケーションであって、悲惨な結果を招く。いっぽう、共変量の側で条件づけるのはオッケー。それこそが局所フィッティング、すべてのノンパラ分位点回帰の基礎となるアイデアである。
一番極端な場合として、共変量ベクトルでデータを$p$個のセルにわけ、それぞれのセルの中でふつうに分位点を計算しちゃう、という手もある。別の極端なアプローチとして、なんらかカットオフをきめて、反応変数がそれを超える確率について二項反応モデルを推定する、という手もある。
分位点回帰推定量の漸近特性については研究がいっぱいある。推定手法はいろいろあるが、たいして変わらないことがわかってます。
云々。
論文:データ解析(2015-) - 読了:Koenker & Hallock (2001) 分位点回帰入門