« 読了:King (1990) R二乗? だから要らないってば、そんなの | メイン | 読了:Rizzi et al. (2016) ヒストグラムから元の確率分布をノンパラメトリックに推定する方法コンテスト »
2018年10月15日 (月)
Reyes, M., Francisco-Fernandez, M., Cao, R. (2016) Nonparametric kernel density estimation for general grouped data. J. Nonparametric Statistics. 28(2), 235-249
仕事の都合で読んだ。
ヒストグラムから密度関数を推定したい(ヒストグラムの元データから推定するんじゃなくて)、しかもノンパラメトリックに...というのを、誰かが必ずやっているはずだ、と半日かけて探し続け、疲れ切って投げ出す寸前になって、ついに見つけた論文。
著者らはRのbinnednpパッケージの中の人。どうやらbinned kernel density estimationというキーワードで探すのが正解だったらしい。そうして探してみると、Rのパッケージが山ほどみつかる。なんだかなあ、もう...
いわく、
元の値を$(X_1, \ldots, X_n)$とする。間隔$[y_{j-1}, y_j) \ (j=1,\ldots, k)$が定義されていて、この間隔に落ちた個数が$(n_1, \ldots, n_k)$、割合が$(w_1, \ldots, w_k)$だとする。
仮に$(X_1, \ldots, X_n)$が観察できたら、密度推定には標準的なカーネル密度推定量(sKE)が使えるよね。
$(n_1, \ldots, n_k)$から密度推定する方法としては[...中略...]、ビンのサイズが均等なときについて、Scott & Sheather (1985)の binned kernel density estimator (BKE)というのがある。
本論文は、ビンのサイズが不均等の場合にも一般化して、$(w_1, \ldots, w_k)$から密度推定する方法(gBKE)を提案する。
どうやるかというと... [以下、すごく端折る。どうせわかんないもん]
ふつうのsKEってのはだね、カーネルを$K$, バンド幅を$h$として、
$\hat{f}^s_n(x) = \frac{1}{n} \sum_i^n \frac{1}{h} K \left(\frac{x-X_i}{h} \right)$
この漸近的MSEはわかっていて[...中略...] 最適なバンド幅というのも簡単に求められる。
これがBKEだと、各ビンの中央値を$t_i$として、
$\hat{f}^b_n(x) = \frac{1}{n} \sum_i^n \frac{n_i}{h} K \left(\frac{x-t_i}{h} \right)$
さて我々がご提案するgBKEは、
$\hat{f}^g_n(x) = \frac{1}{h} \sum_i^n w_i K \left(\frac{x-t_i}{h} \right)$
そのMSEは[...読んでない...]。最適なバンド幅は[...読んでない...]。
シミュレーションしました[...もちろんパス...]。
応用事例[...パス...]。
結論。gBKEは、漸近的に不偏な推定量です。標本サイズや分布にもよるのですが、大雑把な目安としては、ビンの幅の平均が標本の範囲の6%位までであればうまくいきます[ってことは、17カテゴリくらいはないといかんということか...]。
... すいません、肝心の内容は全然理解してないんですけど、雰囲気はわかったということでひとつご容赦いただきたい。
論文:データ解析(2018-) - 読了:Reyes, Francisco-Fernandez, & Cao (2016) ヒストグラムから元の確率密度を推定します、階級の幅が不均等でも大丈夫です