読了: Bourazas, Kiagias, & Tsiamyrtzis (2002) ベイジアンな管理図

 仕事の都合で時系列のオンライン監視のことを考えているんだけど、データ生成過程とかはもうどうでもよくて、なんかこう、折れ線が点線を超えたらブザーが鳴るというか… なんていうんですかそういうの… 管理図… そう、管理図みたいなものがあればいいんじゃないかと… そう思えてきました… (ずいぶん弱気になってきた)

Bourazas, K., Kiagias, D., Tsiamyrtzis, P. (2002) Predictive Control Charts (PCC): A Bayesian approach in online monitoring of short runs. Journal of Quality Technology, 54(4), 367-391.

 というわけで、なんだかそれっぽいのをみつけたのでめくってみた次第である。google様的には被引用件数12件だが、CRANのbayespmパッケージの元論文だというのが読みどころである。

1. イントロダクション
 統計的プロセス制御/監視の分野では頻度主義者のパラメトリックな方法が山のように提案されてきた。シューハート型管理図とかCUSUMとかEWMAとか。ふつうそこでのout-of-control(OOC)状態というのは、未知パラメータにおける大きなtransient shiftsか小さなpersistent shiftsである。シューハート管理図は前者を得意とし、CUSUMやEWMAは後者もいける。
 まあとにかく、これらの手法はin-control(IC)過程のパラメータについての知識を必要とする。だから、事前にオフライン・カリブレーション(フェイズ1)をやって、それからオンライン監視(フェイズ2)に進むことになる。フェイズ1にはわりかし長めなiidデータ点が必要になる。そこに外れ値とかがあったらまずいわけです。

 では、そもそも短い時系列しか手に入っていなかったらどうするか。データを取り始めたときから監視したかったらどうするか。頻度主義アプローチでは:

  • Quesenberry(1991): 自動スタート型のシューハート管理図を提案している(Q-chartという)。
  • Hawkins & Olwell(1998): 自動スタート型CUSUM
  • Qiu(2014): 自動スタート型EWMA
  • Shen et al.(2016 Technometrics): ポアソン計数データの、ブートストラップに基づく自動スタート型EMWA監視スキーマ [←これ面白そうだな]
  • Capizzi & Msarotto(2013): recursive segmentation and permutation [?]
  • Madrid Padilla et al.(2019): sequential non-parametric test

このうち大きなtransientシフトの検出を意図しているのはQ-chartで、ほかは小さなpersistendシフトの検出を意図している。

 ベイジアンアプローチはあまり多くない。[以下、1段落使って5本くらいの論文を紹介している。メモ省略]
 本研究では、外れ値検出に注目し、短い時系列のオンライン監視のための効率的なベイジアンな方法を提案する。その名はpredictive control chart (PCC)。

2. predictive control chart
 \(\mathbf{X} = (x_1, \ldots, x_n)\)を系列的に得ていて、これが\(X_j | \theta\)からの無作為標本だと仮定する。
 単変量の\(k\)パラメータregular指数型分布族(k-PREF)を仮定する。[おさらいすると、指数型分布族の確率密度関数は、パラメータがスカラーなら$$ f_X(x | \theta) = h(x) g(\theta) \exp (\eta(\theta) T(x))$$ である。さあ深呼吸!] $$ f(\mathbf{X} | \theta) \left[ \prod_{j=1}^n c(\theta)^n \right] \exp \left\{ \sum_{i=1}^k \eta_i (\theta) \sum_{j=1}^n h_i(x_j) \right\} $$ ここで\(g(x_j) \geq 0\)は単変量観察\(x_j\)の関数で\(\theta\)に依存しない。\(h_1(x_j), \ldots, h_k(x_j)\)も同様。\(c(\theta) \geq 0\)は\(\mathbf{X}\)に依存しない。\(\eta_1(\theta), \ldots, \eta_k(\theta)\)も同様。[\(\theta\)がベクトルであることを許容しているせいでえらい目にあっている]
 事前分布を与える。過去の類似データ\(\mathbf{Y} = (y_1, \ldots, y_{n_0})\)を使ったpower事前分布がお勧め。$$ \pi(\theta | \mathbf{Y}, \alpha_0, \tau) \propto f(\mathbf{Y} | \theta)^{\alpha_0} \pi_0 (\theta | \tau)$$ \(\alpha_0\)は\(0 \leq \alpha_0 \leq 1\)なスカラーパラメータで、過去データを無視するか考慮するかを表す。典型的には\(1 / n_0\)。\(\pi_0(\theta | \tau)\)は初期事前分布で\(\tau\)がハイパーパラメータ。客観ベイジアンの観点からは弱情報分布とか一様分布とかJeffreys事前分布とかが使える。解を閉形式で書くためには共役事前分布にするのがお勧めで…[式省略。これのために指数型分布族だと仮定していたのであろう]
 
 [ああああ、なんか筋が見えてきた。要するに、可能なかぎりなるはやで予測分布を構成しちゃって、それを毎期更新していくという話なのだ。やっていることは外れ値検出である。なるほどね。急速に関心が薄れてしまった… 以下は見出しのみメモする]

2.1 \(\alpha\)の選択
2.2 fast initial response (FIR) PCC
[最初のほうだけ厳しめに調整するという話]

3. PCC ベースの意思決定
[フローチャートが載っている。わかりやすいね]

4. 競合する手法と敏感性分析
[Qチャートというのと比べている]

5. 頑健性

6. 実データへの適用

7. 結論
—————-
 申し訳ないけど途中で関心をなくして読むのをやめてしまった。でもこれは私の当座の関心の問題で、役に立つ人にとってはきっと役に立つ話だろうと思う。
 俺が欲しいのはやっぱ管理図じゃねえな。。。というのが個人的な収穫であった。大変失礼いたしました。