読了: Wang, Yue, Faraway (2023) INLAで学ぶ時系列モデリング(準備編)

Wang, X., Yue, Y.R., Faraway, J. (2023) Dynamic Time Series Models using R-INLA: An Applied Perspective. Chapter 1. Bayesian Analysis.

 長く個人的懸案のひとつであったINLA(積分段階的ラプラス近似)について学ぶべく、このたびRue, Martino, Chopin(2019)にチャレンジし、学力不足により涙を飲んで撤退した次第だが、いきなり原典における一般的記述を読もうとしたのがいかんかったよな、というのが反省点であった。気を取り直し、今度は領域を絞った解説書をあたってみた。
 R-INLAについての解説本のうち、特に時系列モデルについての本。本の評判については知らないが、なんだかわかりやすそうだし、きちんとした感じだし、なにより全文が公開されている。ありがたい。

 INLAについて解説している第2章を読みたいのだが、いきなりめくるとたぶん挫折するので(臆病になっている)、表記の理解も兼ね、第1章からメモをとって読んでみることにした。

1.1 イントロダクション
 [略]

1.2 ベイジアン・フレームワーク
 \(Y\)を観察可能なランダムな量とし\(y\)をその実現値とする。\(\Theta\)を未知パラメータとする(スカラーでもベクトルでもよい)。
 確率モデルをPDF \(p(y|\Theta)\)とする。事前分布を\(\pi(\Theta)\)とする。
 \(\mathbf{y}^n = (y_1, \ldots, y_n)^\top\)を観察したのち、ベイズの定理によって\(\Theta\)についての信念を更新する。尤度関数を\(L(\Theta; \mathbf{y}^n)\)として、事後分布は$$ \pi(\Theta | \mathbf{y}^n) \propto \pi(\Theta) L(\Theta; \mathbf{y}^n) $$ である。\(\mathbf{y}^n\)によって提供される\(\Theta\)についてのすべての情報は尤度関数に含まれる(尤度原理)。なお対数尤度関数を\(\ell\) と書く。
 上式の積分の定数 $$ m(\mathbf{y}^n) = \int L(\Theta; \mathbf{y}^n) \pi(\Theta) d\Theta $$ を周辺尤度という。また $$ p(\mathbf{y}^n) = \int p(\mathbf{y}^n | \Theta) \pi(\Theta) d\Theta $$を事前予測分布という。将来の観察\(\mathbf{y}^*\)の事後予測分布は $$ p(\mathbf{y}^* | \mathbf{y}^n) = \int p(\mathbf{y}^* | \Theta) \pi(\Theta | \mathbf{y}^n) d\Theta$$ となる。

1.2.1 ベイジアン・モデル比較
 周辺尤度について。
 データ\(\mathbf{y}^n\)のもとでの、\(\Theta\)についてのモデル\(M_k\)の対数尤度を\(\ell(\Theta; \mathbf{y}^n, M_k)\)とする。事前分布を\(\pi(\Theta|M_k)\)とする。モデル\(M_k\)の周辺尤度は$$ m(\mathbf{y}^n | M_k) = \int L(\Theta; \mathbf{y}^n, M_k) \pi(\Theta | M_k) d\Theta $$ である。
 たいていの場合、\(p(\mathbf{y}^n | M_k)\)なんか解析的には手に入らない。そこで提案されたのが、ラプラス近似だったり、調和平均推定量だったり、MCMCだったり、近似ベイジアン計算だったり、変分法だったり、そしてINLAだったりするわけである。

 [ここから、ベイズファクター、情報量基準、モデル平均についての話が続く。たぶん第2章とは関係ないので、パス]

1.3 時系列のベイジアン分析
 観察\(\mathbf{y}^n = (y_1, \ldots, y_n)^\top\)の添字は離散時点を指すとする[単変量時系列を想定している模様]。\(\mathbf{y}^n\)は離散時間確率過程\(\{Y_t\}\)の実現値とする。
 時系列のもっとも重要な特徴は系列相関である。その記述には観察駆動方略とパラメータ駆動方略がある。前者はARMA過程とかマルコフ連鎖とかでモデル化する方略、後者は状態空間モデルみたいな潜在構造モデルを使う方略である。後者は非定常的挙動も捉えられる。
 ここでは両方のアプローチについて、ベイジアンな分析を考える。

 \(\Theta\)を静的パラメータ\(\theta\)と動的パラメータ\(\mathbf{x}^n\)に分ける。
 時点\(t\)に利用できるデータを\(\mathbf{y}^t = (y_1, \ldots, y_t)^\top\)とする。パラメータの事後分布は$$ \pi(\Theta|\mathbf{y}^t) \propto \pi(\Theta |\mathbf{y}^{t-1}) L (\Theta; y_t, \mathbf{y}^{t-1}) $$ と書ける。尤度\(L (\Theta; y_t, \mathbf{y}^{t-1})\)は\(p(y_t | \Theta, \mathbf{y}^{t-1})\)の評価で得られる。ここで肝心なのは、観察駆動モデルでは \(p(y_t | \Theta, \mathbf{y}^{t-1}) \neq p(y_t|\Theta)\)だという点である。[??? パラメータ駆動でもそうじゃないの?]
 \(Y_{t+1}\)の予測分布は$$ p(y_{t+1}|\mathbf{y}^t) = \int p(y^{t+1}|\Theta, \mathbf{y}^t) \pi(\Theta|\mathbf{y}^t) d\Theta$$ である。

 潜在変数全体のベクトル\(\mathbf{x}^n\)の周辺事後分布は、\(\Theta\)の事後分布を周辺化して得られる[\(\theta\)の事後分布でしょ?]: $$ \pi(\mathbf{x}^n | \mathbf{y}^t) = \int \pi(\mathbf{x}^n, \theta | \mathbf{y}^t) d\theta$$ 潜在要素の現在の分布\(\pi(x_t|\mathbf{y}^t)\)をフィルタリング分布、\(\tau \gt t\)の\(x_\tau\)の周辺分布を平滑化分布、\(\tau \lt t\)の\(x_\tau\)の周辺分布を予測分布という。

 逐次的分析では、\(x_t, \theta\)を逐次的に更新して得られるフィルタリング分布$$ \pi(x_t, \theta | \mathbf{y}^t) \propto \pi(x_t, \theta|\mathbf{y}^{t-1}) L(x_t, \theta; y_t, \mathbf{y}^{t-1}) $$ に関心が持たれる。またこれを周辺化して得られる予測分布\(\pi(x_t | \mathbf{y}^{t-1})\)にも関心が持たれる。

1.4 ガウシアン動的線形モデル(DLMs)
 本節では単変量時系列のガウシアンDLMをご紹介しよう。閉形式で書けるので、こういうモデルで済むならそれに越したことはない。3章ではこいつらをR-INLAで推定する。

1.4.1 定数レベル+ノイズモデル
[パス]

1.4.2 ローカルレベルモデル
[パス]

1.4.3 単変量時系列のためのガウシアンDLMフレームワーク
 DLMは以下の観察方程式と状態方程式からなる。$$ y_t = \alpha + F_t x_t + v_t, \ \ v_t \sim N(0, \sigma^2_v)$$ $$ x_t = G_t x_{t-1} + w_t, \ \ w_t \sim N(0, \sigma^2_w) $$ \(F_t\)は既知。状態遷移\(G_t\)は既知ないし未知、時変ないし定数。初期状態もガウシアンと仮定し \(x_0 \sim N(m_0, C_0)\)とする。
 \(\theta = (\alpha, \sigma^2_v, \sigma^2_w, m_0, C_0)^\top\)としハイパーパラメータと呼ぶ。

 DLMでふつう関心が持たれるパラメータは潜在過程\(x_t\)である。なおこれはマルコフ連鎖になっている。

1.4.4 AR(1)+ノイズモデル
[パス]

1.4.5 ベクトル値時系列のためのDLM
[パス]

1.4.6 カルマン・フィルタリングと平滑化
[パス]

1.5 ガウシアンDLMを超えて
[階層DLM(パネル時系列)を6章で、ガンマ・ワイブル・ベータ分布に従う時系列を7章で、二値・カテゴリカル時系列を8章で、カウント時系列を9章で、動的ボラタリティモデルを10章で、時空間モデルを11章で、多変量時系列を12-13章でやりますよという話。パス]
—————-
 2章に向けての表記の確認と心の準備が目的だったので、後半はかなり飛ばしたけど、でもわかりやすい説明であったように思う。なかなかいいっすね、この本。(偉そう)