elsur.jpn.org >

« 読了:Koenker (2015) 分位点回帰パッケージ quantreg | メイン | 読了:Allenby, Bakken, Rossi(2004) HB革命とは何か »

2016年4月26日 (火)

Koenker, R., & Hallock, K. (2001) Quantile regression. Journal of Economic Perspectives, 15 (4), 143-156.
 分位点回帰についての素人向け解説。こりゃ基礎から復習しないとだめだと気づき、あわてて読んだ。Koenkerって、やっぱ偉い人だったんだ...

 いわく。
 みんな知ってると思うけど、平均は残差平方和
 $\min_{\mu} \sum(y_i - \mu)^2$
を最小化するという問題の解だよね。同様に、中央値は絶対誤差の合計を最小化するという問題の解だよね。他の分位点に一般化すると、それらは次の解だ:
 $\min_{\xi} \sum \rho_t (y_i - \xi)$
ここで$\rho_t (\dots)$は左右で異なる傾きを付けた絶対誤差の関数。[←ここ、理解できなくて混乱したんだけど、"Mostly Harmless Econometrics"によれば、厳密な定義はおいといておおまかにいうと、$u$が正のときに$\rho_\tau = \tau u$, 負のときに$\rho_\tau = (\tau-u) u$となる関数らしい。$\tau=0.5$なら$\rho_\tau = 0.5|u|$。なるほどね]

 これを条件つき平均に拡張しよう。$\mu$をあるパラメトリックな関数$\mu(x_i, \beta)$に置き換える。条件付き期待値関数$E(Y|x)$は
 $\min_{\beta} \sum (y_i - \mu(x_i, \beta))^2$
の解だ。同様に、$\xi$をあるパラメトリックな関数$\xi(x_i, \beta)$に置き換える。条件付き分位点関数(CQF)とは
 $\min_{\beta} \sum \rho_\tau(y_i - \xi(x_i, \beta))$
の解だ。
 これ、線形計画法で簡単にとけるのです。

 よくある誤解は、分位点回帰なんかしなくても、反応変数で層別して、それぞれに最小二乗フィッティングすりゃいいじゃん、というもの。これは従属変数によるトランケーションであって、悲惨な結果を招く。いっぽう、共変量の側で条件づけるのはオッケー。それこそが局所フィッティング、すべてのノンパラ分位点回帰の基礎となるアイデアである。
 一番極端な場合として、共変量ベクトルでデータを$p$個のセルにわけ、それぞれのセルの中でふつうに分位点を計算しちゃう、という手もある。別の極端なアプローチとして、なんらかカットオフをきめて、反応変数がそれを超える確率について二項反応モデルを推定する、という手もある。
 分位点回帰推定量の漸近特性については研究がいっぱいある。推定手法はいろいろあるが、たいして変わらないことがわかってます。
 云々。

論文:データ解析 - 読了:Koenker & Hallock (2001) 分位点回帰入門