読了: Hitchcock (2003) MCMCの歴史

Hitchcock, D.B. (2003) A History of the Metropolis-Hastings Algorithm. American Statistician, 57(4), 254-257.

 仕事の都合で柄にもなくMCMCについて調べているのだけれど、なにしろ数学の知識がないので到底歯が立たない。いったいボレル測度ってなによ!? どれだけ短期間に値上げできるかってことですか!? (それはぼれる速度だ)

 ついつい現実逃避で、こんなのを読んじゃったりして、メモまでとっちゃったりなんかして…

  • MCMCアルゴリズムのもとになるアイデアは1949年に遡るが、手法としてのはじまりはMetropolis, Rothenbluth, Rosenbluth, Teller, Teller (1953)。著者らは水爆の開発に携わっていた。ちなみに第2著者以降は夫婦チーム。
    [調べたところ、第2著者は物理学者Arianna Rosenbluthで、51年に結婚しこの姓となる。職場結婚だったんでしょうか。78年に離婚、2020年にCOVID-19によって亡くなっている(93歳)。第4著者Augusta Tellerは科学者・プログラマーとして知られる人で、ハンガリー出身。幼馴染であるところのEdward Teller(のちの大物理学者)と34年に結婚、アメリカに移住。2000年に亡くなっている(91歳)。この論文のコードはまずAugustaさんが書いてAriannaさんが完成させたんだそうだ。言語ってなんだったんだろう? FORTRANもない時代ですよね]。
  • これとは別に、オーストラリアのBarker(1965)が似たアイデアの論文を書いている。MetropolisとBarkerでは、\(x_i\)から\(x_j\)への移動の受容確率がちょっとちがう。Metropolisだと$$\min \left( 1, \frac{\pi(x_j)q(x_i|x_j)}{\pi(x_i)q(x_j|x_i)} \right)$$Barkerだと$$ \frac{\pi(x_j)q(x_i|x_j)}{\pi(x_i)q(x_j|x_i) + \pi(x_j)q(x_i|x_j)}$$[なるほど、Sanborn&Griffith(2007)はここまでさかのぼって考えたのか。歴史を知ることは大事だ…]
  • Metropolis/Barkerは物理学の問題に焦点をあてていた。これをを高次元の確率分布からの抽出の問題として一般的に捉えたのがHastings(1970)。Metropolis法の鍵になるのはマルコフ連鎖の遷移行列だと指摘し、目標分布をマルコフ連鎖の不偏分布\(\pi(x)\)として定式化した(それまでは物理学的な目的関数だと定式化されていた)。HastingsはMetropolisとBarkerを比較し、どっちかといえばMetropolisのほうがうまくサンプリングできるんじゃないか、と述べている。
  • Metropolis/BarkerとHastingsでは道具分布\(q(x_j|x_i)\)についての発想がちょっとちがう[instrumental distribution. 提案分布のことだと思う]。Metropolis/Barkerにとっては\(q(x_j|x_i)=q(x_i|x_j)\)。ところがHastingsは別にそうでなくてもいいじゃんと考えた。このアイデアでMetropolisの方法を改訂するとMetroplis-Hastings法になるわけだ。
  • Hastingsの弟子のPeskunは博論でM-H法とBarker法を比較し、師匠の方法が漸近的に最も正確であることを示した(Peskun, 1973)。ところが、ここからM-H法が統計学分野で普及したのかというと、これが全然そうじゃない。
  • 話は変わって、Geman & Geman (1984)がGibbsサンプリングを提案する。しかしこれもまた、統計物理学における最適化に焦点をあてていた。これが一般的なベイジアンの分析に使えると例示したのがGelfand & Smith (1990)で、ここからGibbsサンプリングが広まった。よく考えてみるとGibbsサンプリングはM-Hアルゴリズムの特殊ケースなんだけど(Gelman(1992)がそのことを示している)、M-Hよりちょっぴりとっつきやすかった。
  • で、Chib & Greenberg (1995)がAmerican Statisticianにレビューを書いて、ついにM-H法が主流となった。もちろん、流行の背後にはコンピュータ・パワーの増大があるわけだけど。