読了: Geyer (2011) MCMC入門 (前編)

 仕事の都合でMCMCについて考えていて、マルコフ連鎖が目標分布に収束する理由がやっぱりわかんなくなってしまった。説明を読んだときには「よし理解した」と思うんだけど、いざちょっと応用的な問題になると、実は本当はよく理解できていないということに否応なしに気づかされるのである。

Gayer, C.J. (2011) Introduction to Markov Chain Monte Carlo. in Brooks, S., et al. (eds) “Handbook of Markov Chain Monte Carlo“, CRC Press.

 諦めてはなるまい、というので、MCMCについての分厚い論文集の最初に載っている解説の章を読んでみた。
 全17節。さあ深呼吸。

1. 歴史
[パス]

2. マルコフ連鎖
 なんらかの集合(状態空間)のランダムな要素の系列\(X_1, X_2, \ldots\)について、\(X_1, \ldots, X_n\)のもとでの\(X_{n+1}\)の条件つき分布が\(X_n\)のみに依存しているとき、これをマルコフ連鎖という。
 \(X_n\)のもとでの\(X_{n+1}\)の条件つき分布が\(n\)に依存していないとき、これを「定常な遷移確率を持つ」という。
 以下では定常な遷移確率を持つマルコフ連鎖について考える。

 マルコフ連鎖の同時分布は、初期分布(\(X_1\)の周辺分布)と、遷移確率分布(\(X_n\)のもとでの\(X_{n+1}\)の条件付き分布)によって決まる。
 状態空間が有限なら、\(\{x_1, \ldots, x_n\}\)として[おっと、添字は時点でないので注意!]、初期分布は要素\(\lambda_i = Pr(X_1 = x_i)\)を持つベクトル\(\lambda = (\lambda_1, \ldots, \lambda_n)\)として書ける。遷移確率は要素\(p_{ij} = Pr(X_{n+1} = x_j | X_n = x_i)\)を持つ行列\(P\)として書ける。
 状態空間が可算無限なら、長さ無限のベクトルとサイズ無限の行列を考えればよい。
 状態空間が不可算だとそうはいかなくなる。初期分布は無条件確率分布、遷移確率分布は条件つき確率分布として考えないといけない。

3. プログラムとマルコフ連鎖
[略]

4. 定常性
 なんらかの集合のランダムな要素の系列\(X_1, X_2, \ldots\)のことを確率過程という。マルコフ連鎖はその特殊例である。
 確率過程は、あらゆる正の整数\(k\)について\(k\)個のタプル\( (X_{n+1}, \ldots, X_{n+k}) \)の分布が\(n\)に依存しないとき、定常であるという。
 マルコフ連鎖の場合、\(X_n\)の周辺分布が\(n\)に依存しないとき・そのときに限り、定常である。

 ある初期分布と遷移確率分布で特定されたマルコフ連鎖が定常であるとき、初期分布はその遷移確率分布に関して定常であるとか、不変であるとか、均衡であるという。またその遷移確率分布は初期分布を保存するという。

5. 可逆性
 マルコフ連鎖\(X_1, X_2, \ldots\)の遷移確率分布について、ペア\((X_i, X_{i+1})\)の分布が交換可能なとき、その遷移確率分布は可逆であるという。またそのマルコフ連鎖はその初期分布について可逆であるという。[わ、わかりにくい… \(X_i\)と\(X_{i+1}\)の周辺分布が同じだということではなくて、同時分布を書いたとき(行列なり2次元の等高線図なりで)、縦横をひっくり返しても同じだ、ということだと思う。\(\lambda_i P_{ij} = \lambda_j P_{ji}\)と説明してもらった方がわかりやすいなあ…]
 可逆なマルコフ連鎖は定常である。その逆はいえない。

 マルコフ連鎖の理論において、可逆性はふたつの役割を持つ。

  1. あとで述べるように、指定された均衡分布を持つような遷移確率分布をつくる手法は、よほどのトイ・プロブレムででもないかぎり、みんなMHGアルゴリズムの特殊ケースである。そしてMHGアルゴリズムによるelementary updateはすべて可逆である。他のメカニズムと組み合わせて、更新が可逆でなくなることはあるけれど、可逆性が重要であることには変わりない。
  2. あとでマルコフ連鎖中心極限定理が出てくるけど[分散推定の話のときに出てくるのだろう。パスする気マンマンです]、可逆性のもとでこの定理はよりシャープになり、条件はより単純になる。

6. 汎関数
 [ほんの10行ほどだが、難しいのでパス]

7. Ordinary Monte Carlo
 OMC, すなわち、古き良き時代のモンテカルロ法であるiidモンテカルロを紹介しよう。マルコフ連鎖はiidであり、よって定常で可逆である。
 \(g\)は状態空間の実数値関数で、期待値$$ \mu = E[g(X)] $$ を計算したいのだができない、としよう。\(X\)にiidに従う\(X_1, X_2, \ldots\)をシミュレートできるとしよう。\(Y_i = g(X_i)\)は平均\(\mu\), 分散\(\sigma^2 = Var[g(X)]\)を持つ分布にiidに従う。標本平均を$$ \hat{\mu}_n = \frac{1}{n} \sum_i^n g(X_i)$$ として、CLTによれば$$ \hat{\mu}_n \approx N \left( \mu, \frac{\sigma^2}{n} \right) $$ であり、分散の推定量は$$ \hat{\sigma}^2_n = \frac{1}{n} \sum_i^n (g(X_i) – \hat{\mu})^2 $$ である。[あれ? 自由度はこれでいいの?]
 OMCはただの初等統計学である。唯一のトリックは、ランダムネスが実世界現象のランダムネスではなくてコンピュータ上の擬似ランダムネスだという点である。なので、\(\hat{\mu}_n\)のことは点推定値でなくてモンテカルロ近似、\(n\)は標本サイズではなくてモンテカルロ標本サイズ、\(\hat{\sigma}/\sqrt{n}\)はSEではなくてモンテカルロSEと呼ぶことにしたい。いいか、混乱すんなよ。[親切な先生だな]

8. MCMCの理論
 MCMCの理論はOMCの理論に似ているが、マルコフ連鎖における確率的従属性のせいでSEが変わるという点が異なる。
 定常マルコフ連鎖の場合、CLTが成り立つ条件は難しい。成り立つとして、$$ \sigma^2 = Var[g(X_i)] + 2 \sum_k^\infty Cov[g(X_i), g(X_{i+1})] $$ となる。
 [ここ、なんだか面白い話なので逐語訳]

ここでちょっとややこしい問題に直面する。我々はMCMCにおいて定常なマルコフ連鎖を用いるわけではない。もし不変分布を持つ\(X_1\)をシミュレートできるのなら、同じやり方で\(X_2, X_3, \ldots\)もシミュレートできるわけで、それはつまりOMCである。
 しかし、CLTよりも検証しやすいある定理(ハリス再帰)によれば、もしある初期分布と遷移確率についてCLTが成り立つなら、同じ遷移確率とすべての初期分布についてCLTが成り立つ。そして漸近分散は初期分布を問わず等しい。
 上で示した、理論的な漸近分散の公式には、定常マルコフ連鎖の分散と共分散が含まれている。しかし、(初期分布がちがっていても)遷移確率分布が同じなら、それが非定常マルコフ連載であっても、その漸近分散は上の式となる。
 もっとも、どうでもよい話ではある。我々は分散をシミュレーションで推定するのであって、この式を使って計算することはない。

 [多変量マルコフ連鎖への拡張、自己共分散関数の導入。パス]

9. AR(1)
 [面白そうなんだけど、時間の関係でパス。どうやらこの著者はRのmcmcパッケージの中の人らしく、この章の分析例もパッケージに載っているのだそうだ]

10. 分散推定
 [パス]

11. MCMCの実際
 [連鎖の本数とか、バーンインとか、収束診断とかの話。パス。でもこの説明、コンパクトでわかりやすそうだなあ。文章にもユーモアがある。誰かにMCMCについて説明する羽目になったらこの章を参考にしよう]
—————–
メモが長くなりすぎるので、いったんここまでにする。続きは別のエントリで。