覚え書き: BDA3 1.3 BDA3を読もうとするおまえらが知っておくべき確率論の基礎知識

 仕事の都合で、先日からベイズ統計学の有名な解説書BDA3をちまちまと読んでるんだけど、痛感するのは基礎学力のなさである。ほんとにね、私がこんな本読まなきゃいけない社会はどうかしていると思う。適材は適所に置くべきだ。私は寝るのに向いている。
 BDA3自体はなかなか親切な本で、大事なことはなんども説明してくれるし、それほど高レベルな知識を要求しているわけでもない。むしろ、必要な知識を前半部分でおさらいしてくれているからこそ、分厚い本になっているのである。従って、途中の章をいきなり読むと、私のように途方にくれることになる。

 というわけで、以下の節よりメモ。原文は2頁ちょっとしかない。
 Gelman, A. et al.(2014) Bayesian Data Analysis, Third Edition. Section 1.8 Some usefull results from probability theory.

—————-
 我々は、読者が確率と確率分布についての初歩的な操作に慣れていると仮定している[←ごめんなさい、ごめんなさい…]。ここでおさらいしておこう。

 ふたつの量(スカラーないしベクトル)\(u, v\) の同時分布を\(p(u,v)\), 条件付き分布を\(p(u | v)\), 周辺分布を\(p(u) = \int p(u, v) dv\)と書く。本によっては、パラメータの分布ごとに違う記号を使っていることがあるけれど(\(\pi(\theta), f(y|\theta)\)というように)、本書ではそうしない。ベイジアン推論では、すべての確率分布は論理的には同じ身分をもっているからだ。

 いまどういう条件づけがされているかに気をつけること。仮説に条件付けられているということはいちいち明記しないことがある。たとえば、\(p(\theta, y) = p(\theta) p(y|\theta)\)と書いているとき、それはモデルを定義する際に用いている仮説\(H\)に条件付けられているかもしれない。すなわち\( p(\theta, y|H) = p(\theta|H) p(y|\theta, H)\)の略記かもしれない。

 平均と分散を定義しておこう。$$ E(u) = \int u p(u) du $$ $$ var(u) = \int (u-E(u))^2 p(u) du $$ \(u\)がスカラーではなくて列ベクトルだったら、$$ var(u) = \int (u-E(u))(u-E(u))^\top p(u)du $$
 この書き方はほんとは少し不正確である。\(E(u), var(u)\)は変数\(u\)の関数ではなく、分布関数\(p(u)\)の関数だからだ。[なるほど]

 条件付け変数が期待値記号のなかに書いてなかったら、その変数は積分消去されていると考えてほしい。たとえば\(E(u|v)\)は\(v\)を固定したもとでの\(u\)の条件付き期待値で、\(v\)の関数である。いっぽう\(E(u)\)は\(u\)だけでなく\(v\)の上でも平均をとっている。
 [たとえばここの原文は”E(u) is the expectation of u, averaging over v (as well as u)”なんだけど、こういう”average over v”ってなんて訳せばいいんだろうか。仕方なく「vの上で平均」とか「vを通して平均」と訳すことが多いんだけど、なんだかしっくりこない。なにか定訳はないのだろうか]

条件付き確率を用いたモデリング
 有用な確率モデルは、観察変数の分布を複雑な無条件分布で表す代わりに、条件付きの(ないし階層的な)分布として表現していることが多い。
 確率変数\(u\)の平均・分散を、関連する量\(v\)のもとでの条件付き平均・分散として表現すると $$ E(u) = E(E(u|v)) $$ $$ var(u) = E(var(u|v)) + var(E(u|v)) $$ 一本目、内側の期待値は\(v\)に条件付けられたもとで\(u\)を通して平均しており、外側の期待値は\(v\)を通して平均している。丁寧に導出すると$$ E(u) = \int \int u \ p(u,v) \ du \ dv $$ $$ = \int \int u \ p(u|v) \ du \ p(v) \ dv$$ $$ = \int E(u|v) p(v) dv $$
 二本目、右辺第一項は[\(var(X) = E(X^2) – E(X)^2\)より] $$ E(var(u|v)) = E(E(u^2|v) – E(u|v)^2) = E(u^2) – E(E(u|v)^2) $$ 第二項は $$ var(E(u|v)) = E(E(u|v)^2) – E(E(u|v))^2 = E(u)^2 $$ よって $$ E(var(u|v)) + var(E(u|v)) = E(u^2) – E(u)^2 = var(u)$$

変数の変換
 確率分布をあるパラメータ化から別のパラメータ化へと変換することはよくある。変換後の空間における確率密度についての基礎的な結果を概観しておこう。
 混乱を避けるため、ここではベクトル\(u\)の確率密度を\(p_u(u)\)と書く。\(v=f(u)\)と変換したとしよう(\(v\)は\(u\)と同じ長さのベクトル)。

 \(p_u\)が離散分布の場合。\(f\)が一対一の関数なら、変換後の密度は$$ p_v(v) = p_u(f^{-1} (v)) $$ である。\(f\)が多対一の関数なら、右辺には総和記号がでてくる。

 \(p_v\)が連続分布の場合。\(f\)が一対一の関数なら、$$ p_v(v) = |J| p_u (f^{-1} (v)) $$ となる。\(J\)は変換\(u = f^{-1}(v)\)のヤコビアンで、偏導関数の正方行列であり、要素\((i,j)\)に\(\partial u_i / \partial v_j\)がはいっている。
 [そうでした、そうでした。いま1変数関数なら、\(y = f(x), x = g(t)\)として $$ \int f(x) d(x) = \int f(g(t)) g'(t) dt $$ なんだけど、2変数関数なら、\(y = f(x, y), x = \phi(s,t), y = \psi(s,t) \)として$$ \int \int dx dy = \int \int f(\phi(s,t), \psi(s,t)) |J| ds dt$$ $$ J = \left| \begin{array}{cc} \frac{\partial x}{\partial s} & \frac{\partial x}{\partial t} \\ \frac{\partial y}{\partial s} & \frac{\partial y}{\partial t} \end{array} \right| $$ ってなるんでした。あれ? ヤコビアン\(J\)とは行列というより行列式のことで、\(|J|\)はその絶対値じゃなかったっけ? まあいいけどさ]

 パラメータ空間を\( (0, \infty)\)から\( (-\infty, \infty) \)に変換したいときは、対数変換を使うことが多い。
 パラメータ空間を\( (0, 1) \)から\( (-\infty, \infty) \)に変換したいときは、ロジット変換 \( logit(u) = \log \left( \frac{u}{1-u} \right) \) とか、プロビット変換 (正規累積分布関数を\(\Phi\)として\(\Phi^{-1}(u)\)) を使う。 
—————-
 BDA3の12章を読んでて、ヤコビアンが出てきたところでパニックになって急遽1章に戻ったのだが、別にここまで戻ることはなかったな… まあいいけどさ。