elsur.jpn.org >

« 読了:Allenby, Bakken, Rossi(2004) HB革命とは何か | メイン | 読了:Bowling et al. (2016) 調査にいいかげんに回答する人のパーソナリティ »

2016年5月 6日 (金)

Diderrich, G.T. (1985) The Kalman filter from the perspective of Goldberger-Theil estimators. American Statistician, 39(3), 193-198.
 題名の通り、Goldberger-Theil推定量とカルマン・フィルタとの関係をあきらかにしましょう、というマニアックな論文。先日の原稿準備の途中で疑問に思って、試しに読んでみた奴。
 難しくてわからんことは覚悟の上である。たまに理解を超える論文を無理やり読むことによって、人の精神は鍛えられ、深い絶望に耐え抜く力を身につけることができるのだ、と自分に言い聞かせつつ。

 内容を一応メモしておくと...
 まずは準備から。
 $y = X b + e$
の$b$のBLUEな推定量$\hat{b}$について考えよう。BLUEってことはunbiasedかつbest、すなわち$E(b-\hat{b})=0$かつ$cov(\hat{b}-b)$がトレース最小である。$\hat{b}$は下式で与えられる:
 $\hat{b} = P X' W^{-1} y$
ここで$W$は$e$の共分散。$P$は推定誤差の共分散行列$cov(\hat{b}-b)$であり、具体的には
 $P = (X' W^{-1} X)^{-1}$
である。
 これをGauss-Markov-Aitken定理という[←へえええ?知らなかった。ガウス-マルコフ定理という言い方は聞いたことがあったけど]。最小二乗法の入門書では、この定理は
 $(y-Xb)^{-1} W^{-1} (y-Xb)$
を最小化する問題として紹介されている。確率的・分布的な仮定がないところにご注目。

 こんどは、いわゆる逆行列の補助定理(matrix inversion lemma)について。以下、行列は必要なときに逆行列を持つものとする。
 $P_1^{-1} = P_0^{-1} + X' W^{-1} X$
が成り立つのは、以下のすべてが成り立つとき、そのときに限る:
 $P_1 = (I-KX) P_0$
 $P_1 P_0^{-1} = (I-KX)$
 $K = P_0 X' [W + X P_0 X']^{-1}$
 $P_1 X' W^{-1} = K$
[証明略。文系の私としては、わざわざ変な記号を使っておまえは何を言っているんだという感じだが、あとで意味がわかると信じて先に進もう]

 では、いよいよ本題です。
 $\hat{b}_0 = b + e_0$
を$b$の事前推定値とする。$e_0$の分散を$P_0$とする。当面$b$は定数とする。
 これを上の
 $y = X b + e$
とどう結合するか。ひとつの路線は、以下の式を最小化するという路線である:
 $(b-\hat{b}_0)' P_0^{-1} (b-\hat{b}_0) + (y-Xb)^{-1} W^{-1} (y-Xb)$
もうひとつの路線はこうだ。ベクトル$y$と$\hat{b}$を縦積みし$y_1$とする。行列$X$と$I$を縦積みし$X_1$とする。ベクトル$e$と$e_0$を縦積みし$e_1$とする。すると上の2本の式は
 $y_1 = X_1 b + e_1$
これにGauss-Markov-Aitken定理を適用し、BLUEな推定量
 $\hat{b_1} = P_1 X_1' W_1^{-1} y_1$
を得る。これをばらしていくと、
 $\hat{b_1} = P_1 X' W^{-1} y + P_1 P_0^{-1} \hat{b}_0$
となる。これをGoldberger-Theil推定量という。
 さて、この式に逆行列の補助定理を適用すると[...中略。なるほど、このときのために変な記号を使っていたのね...]
 $\hat{b}_1 = \hat{b}_0 + K (y - X \hat{b}_0) $
が得られる。なんと、古い推定量にイノベーション$y - X \hat{b}_0$を足しているぞ。これはカルマン・フィルタではないか。

 $b$が確率変数であっても、$e_0$, $e$と独立であればこの関係が成り立つ[説明を大幅に略]。

 さらにだ。事前推定値$\hat{b}_0$を0とし、$P_0=I(1/k)$, $W=I$とすると、
 $\hat{b} = [kI + X'X]^{-1} y$
となる。なんと、これはリッジ推定量ではないか。このようにリッジ推定量とは、事前情報$\hat{b}$は使わないが$P_0$は使う、「半」カルマン・フィルタなのである。

 [最後に、この結果を使って一般化カルマンフィルタを導出しよう...という話。力尽きたのでパス]

 というわけで、カルマン・フィルタ理論と線形最小二乗理論のつながりがあきらかになった。
 60年代初頭、工学ではカルマン・フィルタが登場し、統計学ではGoldberger-Theil推定量が登場した。多くの人々が同じときに違う場所で同じことを考えていたわけだ。

 。。。やれやれ。最後の一般化カルマンフィルタの話がよくわかんなかったけど、いいのよ! 文系だから! 次にいこう次に。

論文:データ解析 - 読了:Diderrich (1985) Goldberger-Theil推定量からみたカルマン・フィルタ