読了: Ly, et al.(2017) 頻度主義・ベイジアン・MDLからみたフィッシャー情報量

Ly, A., Marsman, M., Verhagen, J., Grasman, R.P.P.P, Wagenmakers, E.J. (2017) A Tutorial on Fisher information. Journal of Mathematical Psychology, 80, 40-55.

 仕事の都合で選択課題の最適実験計画について調べていて、学力不足を痛感して読んでみた論文。題名のとおり、フィッシャー情報量だけに焦点をしぼったチュートリアルである。
 著者にWagenmakersさんが入っているから、頻度主義だけでなくベイジアンな話が出てくるのは予想がつくが、その2つに並ぶもう一つのパラダイムとしてMDLが出てくるところが、へええ? という感じである。

(イントロダクション)

 数理心理学者が開発するモデルはいろいろある。そのモデルをデータに当てはめる際の統計的パラダイムもいろいろある。しかしいずれにおいてもフィッシャー情報量は大事だ。なのに、フィッシャー情報量についての入門は少ない。
 本論文は、頻度主義パラダイム、ベイジアンパラダイム、MDL(最小記述長)パラダイムにおけるフィッシャー情報量の使い方についての、院生・研究者向けチュートリアルである。

1. 表記と鍵概念
 ふつう統計モデルとは、確率変数\(X_i\)の潜在的アウトカム\(x_i\)と、パラメータ\(\theta\)との関数関係を表現する関数\(f(x_i|\theta)\)を通じて定義される。話を簡単にするため、\(\theta\)はスカラーだということにしよう。たとえばコイン投げの実験なら、\(x_i \in \mathcal{X} = \{0,1\}\)で、$$ f(x_i|\theta) = \theta^{x_i} (1-\theta)^{1-x_i}$$ だ、とか。
 もし\(\theta\)が既知なら、\(p_\theta(x_i) = f(x_i | \theta)\)が手に入る。\(p_\theta(x_i)\)は\(X_i\)が連続なら確率密度関数(pdf)、離散なら確率質量関数(pmf)という。以下では区別せず、単にpmfと呼ぶ。
 \(n\)試行の実験を考えよう。確率ベクトル\(X^n = (X_1, \ldots, X_n)\)から得られる潜在的在アウトカムを\(x^n = (x_1, \ldots, x_n)\)とする。ふつうは確率変数たちはiidだと仮定する。このとき$$ f(x^n | \theta) = \prod_{i=1}^n f(x_i|\theta)$$となる。

1.1 フィッシャー情報量の定義
 実際には\(\theta\)は観察データから推測するしかない。
 \(n\)試行のコイン投げを考えよう。たとえば、\(x^n_{obs} = (1,0,0,1,1,1,1,0,1,1)\)が観察されたとしよう。オモテが出た数\(Y=\sum_i^n X_i\)に注目し、\(y_{obs} = Y(x^n_{obs}) = 7\)を求めた。ここで、\(X^n\)は\(2n\)通りあるのに対して\(Y\)は\(n+1\)通りしかないことに注目してほしい。
 \(\theta\)との関係について考えると、$$ f(y | \theta) = C(n,y) \theta^y (1-\theta)^{n-y} $$である。\(X^n\)も\(Y\)も\(\theta\)に依存している。しかし、\(y\)が観察されたもとでは、$$ P(X^n | Y=y, \theta) = \frac{1}{C(n,y)}$$ であり、\(X^n\)の条件付き確率は\(\theta\)に依存しない。つまり、\(X^n\)はもう\(\theta\)についての追加情報を持っていない。
 \(T = t(X^n)\)を統計量という。\(P(X^n | T = t, \theta)\)が\(\theta\)に依存しないとき、\(T\)を十分統計量と呼ぶ。

 では、十分統計量\(T\)とローデータ\(X^n\)は、\(\theta\)についてどれだけの量の情報を持っているか。
 そこでFisherが提案したのがフィッシャー情報量である。確率変数\(X\)の、\(\theta\)についてのフィッシャー情報量\(I_X(\theta)\)は次のように定義される。
 まず、\( \frac{d}{d\theta} \log f(x|\theta) \)をスコア関数と呼ぶ。\(\theta\)が変わったときの\(f(x | \theta)\)の感受性を表す。で、これをすべての\(x\)について、\(p_\theta(x)\)で重みづけながら測る(期待値をとるといってもよい)。\(X\)が離散なら$$ I_X(\theta) = \sum_{x \in \mathcal{X}} \left( \frac{d}{d\theta} \log f(x|\theta) \right)^2 p_\theta(x) $$ \(X\)が連続なら $$ I_X(\theta) = \int_{\mathcal{X}} \left( \frac{d}{d\theta} \log f(x|\theta) \right)^2 p_\theta(x) dx $$
 \(X_n\)のフィッシャー情報量は、この式の\(x\)を\(x^n\)に書き換えればよい。確率ベクトル\(X^n\)がiidであれば\(I_{X^n}(\theta) = n I_X(\theta)\)となる(ここから\(I_X(\theta)\)のことをユニット・フィッシャー情報量ともいう)。
 統計量\(T\)の情報量は、直感的にいって、$$ I_{X^n} (\theta) \geq I_T(\theta)$$ となるはずである。この統合が成り立つ場合のことを十分情報量というわけである。

 コイン投げの場合について練習してみよう。
 [本文中には書いてないけど、ある試行のスコア関数は $$ \frac{d}{d\theta} \log f(x|\theta) = \frac{d}{d\theta} \log \theta^{x} (1-\theta)^{1-x} = \frac{1}{\theta^x (1-\theta)^{1-x}} $$ ユニット・フィッシャー情報量は $$ I_X(\theta) = \left( \frac{1}{ 1-\theta} \right)^2 (1-\theta) + \left( \frac{1}{\theta} \right)^2 \theta = \frac{1}{1-\theta} + \frac{1}{\theta} = \frac{\theta + (1-\theta)}{(1-\theta)\theta} = \frac{1}{\theta(1-\theta)} $$ となるので、] $$ I_{X^n}(\theta )= n I_X(\theta) = n\frac{1}{\theta(1-\theta)} $$ \(I_Y(\theta)\)も同じになることを示せる。[本文中には書いてないけど、スコア関数は $$ \frac{d}{d\theta} \log f(y|\theta) = \frac{d}{d\theta} \log C(n,y) \theta^y (1-\theta)^{1-y} = \frac{1}{ C(n,y) \theta^y (1-\theta)^{y-1} }$$ フィッシャー情報量は $$ I_Y(\theta) = \sum_{y=0}^n \left( \frac{1}{ C(n,y) \theta^y (1-\theta)^{n-y} } \right)^2 C(n,y) \theta^y (1-\theta)^{n-y} = \sum_{y=0}^n \frac{1}{ C(n,y) \theta^y (1-\theta)^{n-y} }$$ 体力がないのでこの先は展開しないけど、きっと\(n \frac{1}{\theta (1-\theta)} \)になるんでしょうね]

2. 頻度主義統計学におけるフィッシャー情報量の役割
 モデル\(f(x^n|\theta)\)と\(\theta\)が所与のとき、pmf \(p_\theta(x^n)\)は、\(X^n\)が潜在的アウトカム\(x^n\)となるチャンスが\(\theta\)によってどう定義されているかを示している。このようなデータ生成的な見方が、Fisherの最尤推定量という概念の中心にある。
 コイン投げの場合でいうと最尤推定量は\(\hat{\theta} = \frac{1}{n} \sum_{i=1}^n X_i = \frac{1}{n} Y \)、すなわち標本平均である。これはどういうことかというと、たとえば\(n=10\)の試行で、\(\theta = 0.5\)のときに\(y=7\)となる確率は11.7%であり、\(\theta = 0.7\)のときに\(y=7\)となる確率は26.7%である。横軸に\(\theta\)、縦軸に尤度 \(f(y_{obs}=7, n=10 | \theta)\)をとったとき、尤度が最大になるのは\(\theta = 0.7\)のときなのである。

2.1 フィッシャー情報量を実験の計画に使う
 最尤推定量\(\hat{\theta}\)の潜在的アウトカムの分布を、推定量の標本分布\(f(\hat{\theta}_{obs}|\theta)\)という。パラメータ\(\theta\)とその最尤推定量\(\hat{\theta}\)の潜在的アウトカムとの関係を記述するのは、ふつう難しい。しかし\(n\)が十分に大きければ、フィッシャー情報量で記述できる。
 データがiidなとき(正確にいうと、ほかにいくつか一般的条件が必要なのだけれど省略)、\(\theta\)の真値を\(\theta^*\)として、$$ \sqrt{n} (\hat{\theta} – \theta^*) \rightarrow N(0, I_X^{-1}(\theta^*)) \ \mathrm{as} \ n \rightarrow \infty$$ が成り立つ[左側の矢印は上にDがつく、つまり分布収束ってことね]。従って、\(n\)が大きければ$$ (\hat{\theta} – \theta) \approx N(0, 1/nI_X(\theta^*))) $$ が成り立つ[近似記号の上にDがつく]。
 つまりこういうことだ。最尤推定量\(\hat{\theta}\)はその潜在的な推定値\(\hat{\theta}_{obs}\)を生成するが、その値は真値\(\theta^*\)の周りにあり、標準誤差は、\(n\)が大きければ、真値\(\hat{\theta}^*\)におけるフィッシャー情報量の平方根の逆数\(1/\sqrt{nI_X(\theta^*)}\)となる。ユニット情報量\(I_X(\theta^*)\)が小さいほど、また\(n\)が大きいほど、標準誤差は小さい。
 [コイン投げで、目標とする標準誤差を達成するための標本サイズを求める話。メモ省略]

2.2 帰無仮説検定の構築にフィッシャー情報量を使う
 最尤推定量の標本分布への(漸近)正規近似を使って帰無仮説検定を構築できる。
 \(\hat{\theta}^* = \theta_0\)という帰無仮説があるとしよう。\(n\)が十分に大きく、\(x^n\)が\(p_{\theta^*}(x^n)\)に従って生成されるならば、帰無仮説のもとで、\(\hat{\theta}_{obs}\)は95%の確率で$$ \left( \theta^* – 1.96 \sqrt{\frac{1}{n} I_X^{-1} (\theta^*)}, \ \theta^* + 1.96 \sqrt{\frac{1}{n} I_X^{-1} (\theta^*)} \right) $$ に落ちる。
 [コイン投げの場合の計算例。メモ省略]

 最尤推定量の正確な標本分布が若くても使える。たとえば、\(x_i\)がラプラス分布からのiid標本だとしよう。$$ f(x_i | \theta) = \frac{1}{2b} \exp \left( – \frac{|x_i – \theta|}{b} \right) $$ 母平均は\(\theta\), 簿分散は\(b^2\)である。最尤推定量はやはり標本平均であり、ユニット・フィッシャー情報量は\(I_X(\theta) = b^{-2}\)であることを示せる。しかし最尤推定量の正確な標本分布はすごくややこしい。こんなときにも上の式なら使える。正規分布の分散は\(b^2/n\)になる。

2.3 信頼区間の算出にフィッシャー情報量を使う
 \(\theta^*\)のかわりに\(\hat{\theta}_{obs}\)をつかって信頼区間を出すこともできる。
 [コイン投げの場合の計算例。メモ省略]

… とこのように、\(n\)が十分に大きければ、フィッシャー情報量をつかって最尤推定量の標本分布を近似し、\(n\)をきめたり、検定したり信頼区間を出したりできるのである。

[ここまではいわばおさらいである。本題はここからだ。さあ深呼吸]

3. ベイジアン統計学におけるフィッシャー情報量の役割
3.1 ベイジアン更新
 ベイジアン分析の中心になるのは観察\(x^n_{obs}\)である。\(x^n_{obs}\)と未観察パラメータ\(\theta\)を関連付けるのが生成モデル\(f\)である。\(x^n_{obs}\)が得られたら\(f\)をひっくり返して\(\theta\)の値の相対的なもっともらしさを推論する。
 \(\theta\)の可能な値の集合のことをパラメータ空間\(\Theta\)と呼ぶ。我々の\(\theta\)についての知識はパラメータ区間上の分布として表現される。
 データが観察される前の分布\(g(\theta)\)を事前分布という。事後分布は (尤度)x(事前分布) / (周辺尤度) である。つまり$$ g(\theta | X^n = x^n_{obs}) = \frac{f(x^n_{obs} | \theta ) g(\theta)}{\int_\Theta f(x^n_{obs} | \theta) g(\theta) d\theta} $$

3.1 パラメータの無情報事前分布として一様分布を使うとうまくいかない
 \(\theta\)についての知識がないとき、\(g(\theta)\)として一様分布を使えばいい、と思いがちですよね。ほんとうだろうか。コイン投げの場合について考えてみよう。

 \(g(\theta) = 1/V_\Theta\)とする(\(V_\Theta =1\)となる)。\(n\)回の試行で\x^n_{obs}\)を得た。\(y_{obs} = 7\)である。さて、\(f(x^n|\theta)\)の\(x^n\)を観察にいれかえて、尤度関数は\( f(x^n_{obs} | \theta) = \theta^7 (1-\theta)^3 \)である。
 ベイズの定理を使ってもとめた事前分布がこちらである[図が描いてある]。

 一様分布はパラメータ空間の長さ(より一般的には、volume)を持つ。今回の場合は\(\Theta = (0,1)\)の長さと同じ長さである。さらに、一様事前分布は長さの等しいすべての下位区間について等しい確率を与える。従って、真値\(\theta^*\)が下位区間\(J_\theta = (\theta_a, \theta_b)\)に落ちる事前確率は、パラメータ空間の長さに対する\(J_\theta\)の相対的な長さとなる。式で書くと$$ P(\theta^* \in J_\theta) = \int_{J_\theta} g(\theta) d\theta = \frac{1}{V_\Theta} \int_{\theta_a}^{\theta_b} 1d\theta = \frac{\theta_a – \theta_b}{V_\Theta} $$ つまりこの事前分布は、たとえば\(J_\theta = (0.6, 0.8)\)に真値がおちる確率は0.2だという信念を表現しているわけである。
 \(y_{obs} = 7\)である\(x^n_{obs}\)でこれを更新すると、\(P(\theta^* \in J_\theta | x^n_{obs}) = 0.54\)となる。

 この値は、モデルをどうパラメータ化するかに強く依存してしまう。例を示そう。
 コインがオモテとなる確率は、コインが歪んでいる角度\(\phi\)と関連する。いま\(\theta = h(\phi) = \frac{1}{2} + \frac{1}{2}(\frac{\phi}{\pi})^3 \)であるとしよう。さっきは\(\theta\)で定式化したけどこんどは\(\phi\)で定式化しただけだともいえる。
 \([-\pi, \pi]\)上で一様事前分布\(\tilde{g}(\phi)\)を定義する。こんどは\(\tilde{g}(\phi) = 1/V_\Phi, V_\Phi = 2\pi\)となる。
 計算してみると、\(J_\theta = (0.6, 0.8)\)に\(\theta^*\)が落ちる確率は0.13となる。なんと\(\tilde{P}(\theta^* \in J_\theta | x^n_{obs}) = 0.29\)。さっきと全然違う。
 このように、一様事前分布というのは情報的なのである。歴史を足ると、ラプラスが主導した19世紀のベイジアン統計学(一様事前分布に基づく)がピアソン、フィッシャー、ネイマンらに拒否されたのこれが原因だった。

3.3 ジェフリーズ・ルールによるデフォルト事前分布
 いっぽうハロルド・ジェフリーズはこう提案した。事前分布をフィッシャー情報量に基づいて定義しよう。$$ g_j(\theta) = \frac{1}{V} \sqrt{I_X(\theta)}$$ ここで\( V=\int_\Theta \sqrt{I_X(\theta)} d\theta\)である。この事前分布はモデルのパラメータ化とは無関係に決まる。
 たとえば上の例では、$$ g_j(\theta) = \frac{1}{V \sqrt{\theta(1-\theta)}} $$ $$ g_j(\phi) = \frac{3\phi^2}{V\sqrt{\pi^6 – \phi^6}} $$ となる(いずれも\(V = \pi\))。事前確率も事後確率も等しくなる。

3.4 フィッシャー情報量の幾何的な特性
 [いよいよ未知の話題に突入。ほとんど逐語訳になるぞ]
 本節の残りの部分では、ジェフリーズ事前分布が実のところモデル空間では一様であるということを直観的にわかるように示す。

 まず、モデル空間\(\mathcal{M}\)について。
 pdfは潜在的アウトカム(0か1)が得られる確率を指定しており、\(X\)というデータの生成装置であると考えられる。それぞれのpmfは以下の条件を満たす:

  1. 確率は非負である。つまり、\(0 \leq p(x) = P(X = x)\)。
  2. \(w = 2\)個のアウトカムだけが存在するということを明示する。つまり、\(p(0)+p(1) =1\)。

この2点を満たすpmfの完全な集合を\(\mathcal{P}\)としよう。[ああああ… 話の展開が読めるような気がする…]

 あるpmfは\(w\)次元空間上のベクトルとして表現できる。いま、\(w\)個の確率を同時に表すベクトルを\(p(X)\)としよう。コイン投げなら \(p(X) = [p(0), p(1)]\)である。つまり、任意のpdfは(真の奴もそうじゃないやつも)、\(p(0)\)と\(p(1)\)で張った空間上の、\([1,0]\)と\([0,1]\)を結ぶ線分上のどこかへのベクトルとなる。
 この表現の良くないところは、ベクトルの長さが(ユークリディアンノームでみると) pmfによって変わるという点である。むしろ、それぞれのpmfに何かを掛けた\(m(X)\)を求め、\([1,0]\)と\([0,1]\)を結ぶ円弧上のどこかへのベクトルとしてあげるとわかりやすい。なにを掛けたらいいかというと、なんでもいいけど、たとえば\(m(X)= 2\sqrt{p(X)} = [2\sqrt{p(0)}, 2\sqrt{p(1)}]\)とすれば\(||m(X)||_2 = 2\)となる。
 というわけで、すべてのpmfが円弧上に乗った。

 \(f(x|\theta)\)が決まると、それぞれの\(\theta\)についてpmf \(p_\theta(X)\)が決まり、そのベクトル\(m_\theta(X) = 2 \sqrt{p_\theta(X)} \)が決まる。
 作られるベクトル\(m_\theta(X)\)の集合を\(\mathcal{M}_\Theta\)と書こう。たとえばコイン投げモデル\(f(x|\theta) = \theta^x(1-\theta)^{1-x}\)なら\(p_\theta(X) = [1-\theta, \theta], m_\theta(X) = [2\sqrt{1-\theta}, 2\sqrt{\theta}]\)であり、これをパラメータ空間におけるすべての\(\theta\)について考えたのが\(\mathcal{M}_\Theta\)である。今回の場合は飽和モデル\(\mathcal{M}_\Theta = \mathcal{M}\)だけれども。
 同じことを\(\phi\)についてやっても、やはり\(\mathcal{M}_\Phi = \mathcal{M}\)である。つまり、2つのモデルは同一のpmf集合を定義している。
 しかし。\(\theta\)を\(0\)から\(0.1\)ずつ増やして円弧上に\(m_\theta(X)\)をプロットしてみよう。また、\(\phi\)を\(\pi\)から\(0.2\pi\)ずつ増やして円弧上に\(m_\phi(X)\)をプロットしてみよう。全然違うのがわかりますか?

 ジェフリーズ事前分布だとこうはならない。ジェフリーズ事前分布は、フィッシャー情報量を使って、モデルのジオメトリをパラメータ空間に変換しているのだ。[へええええええ]
 空間\(S\)上の事前分布が一様であるということは、次の2つの特徴を持つということだ。(1)事前確率が1に比例する。(2)正規化定数\(V_S = \int_S 1ds\)が\(S\)の長さ(volume)にひとしい。
 たとえば、\(s\)が\(\phi\)、\(S\)が\(\Phi = (-\pi, \pi)\)だとしますね。角度上の一様事前分布の正規化定数は\(V_\phi = \int_\Phi 1d\phi = 2\pi\)となる。
 では、\(s\)が[\(\phi\)でも\(\theta\)でもなく] \(m_\theta(X)\)、\(S\)が\(\mathcal{M}_\Theta\)だったら、一様事前分布の正規化定数はどうなるか?
 証明はappendixに回すけど、$$ V = \int_{M_\Theta} 1 d m_\theta(X) = \int_\Theta \sqrt{I_X(\theta)} d\theta $$ となる。つまり、\(\Theta\)上の距離\(d\theta\)にフィッシャー情報量の平方根を掛けて求めることができる。いいかえると、フィッシャー情報量の平方根は、モデル空間\(\mathcal{M}_\Theta\)上の距離\(d m_\theta(X)\)を、パラメータ空間\(\Theta\)上の距離\(\sqrt{I_X(\theta)} d\theta\)に変換しているのである。
 […]

 まとめよう。ジェフェリーズ事前分布は、我々が問題をパラメータ化する際のやり方とは無関係に同一の結論を導いてくれる事前分布である。このパラメータ化不変性という特性は、パラメータ空間のなかで真のパラメータ値を探すという考え方をやめ、モデル空間\(\mathcal{M}_\Theta\)のなかで、真のデータ生成pmf \( m_{\theta^*} (X) = 2 \sqrt{p_{\theta^*}(X)} \)を探すという問題を考え、我々の無知をこのモデル空間のなかでの一様分布という形で表現したことによって得られたものである。

4. 最小記述長におけるフィッシャー情報量の役割
 本節では、フィッシャー情報量がMDL(最小記述長)フレームワークにおけるモデル選択において果たす役割を示す。

 モデル選択にはいろんな手続きがあるけれど、一番人気があるのは、罰則付き最大尤度を使うやり方であろう。3つ例を示す。モデルを\(\mathcal{M}_j\)、パラメータを\(\theta_j\)、潜在的アウトカムとパラメータとの関数関係を\(f_j\)、ユニット・フィッシャー情報量を\(I_{\mathcal{M}_j}(\theta_j)\)、最尤推定量を\(\hat{\theta}_j\)、自由パラメータ数を\(d_j\)、標本サイズを\(n\)とする。FIAってのはフィッシャー情報量近似の略ね。$$ AIC = -2 \log f_j( x^n_{obs} | \hat{\theta}_j (x^n_{obs})) + 2d_j $$ $$ BIC = -2 \log f_j( x^n_{obs} | \hat{\theta}_j (x^n_{obs})) + d_j \log(n) $$ $$ FIC = – \log f_j( x^n_{obs} | \hat{\theta}_j (x^n_{obs})) + \frac{d_j}{2} \log \frac{n}{2\pi} + \log \left( \int_\Theta \sqrt{\mathrm{det} I_{\mathcal{M}_j} (\theta_j) } d \theta_j \right) $$ 第1項が適合度、第2項以降はモデルの複雑性を表す。FIAの場合、第2項が次元、第3項が幾何的複雑性である。以下ではFIAに注目する。

 まず、モデルの基準化最大尤度(NML)コードというのをご紹介しよう。$$ p_{NML} (x^n_obs | \mathcal{M}_j) = \frac{f_j(x^n_{obs} | \hat{\theta}_j( x^n_{obs} ) ) }{ \sum_{x^n \in \mathcal{X}^n} f_j (x^n | \hat{\theta}_j (x^n)) } $$ つまり、観察データの適合度と、ありうるすべてのデータを通じた適合度の和との比である。0から1までの値をとる。
 負の対数をとって正の値に変換しよう。$$ -\log p_{NML}(x^n_{obs} | \mathcal{M}_j) = -\log f_j(x^n_{obs} | \hat{\theta}_j (x^n_{obs})) + \log \sum f_j(x^n | \hat{\theta}_j (x^n)) $$ これをモデルの記述長という。
 こんなん計算できねえよ、と思うかもしれないけれど、実は簡単に近似できる。それがさっき示したFIAなのである。第3項にdetなんてのがはいっているけど、\(d_j\)が1なら単に絶対値である。よくみると、第3項の積分記号はジェフリーズ事前分布の正規化定数、つまりモデルのvolumeである。

4.1 新しい例と、\(w=3\)個のアウトカムを持つ確率変数のジオメトリ
4.2 individual-word戦略とonly-mixed戦略
4.3 モデルの諸特性
4.4 最小記述長原理に基づくモデル選択
4.5 フィッシャー情報量と一般化可能性
[すごく面白そうなんだけど、スタミナ切れと時間切れによりスキップ。嗚呼…]

5. 結び
 おわかりいただけただろうか。頻度主義においては、\(\theta\)を\(\theta_0\)に固定してpmf \(f(\cdot | \theta_0)\)を得る。ベイジアンでは、\(x\)を\(x_{obs}\)に固定して\(f(x_{obs} | \cdot)\)を得る。情報幾何の考え方では、どちらも自由、すなわち\(f(\cdot | \cdot)\)であって、ここに観察データとML推定値を挿入する。

 本論文ではパラメータが1次元の場合についてのみのべた。多次元の場合についてはAppendixに示したけれど、もっと幅広く知りたかったら、論文じゃななくてぜひ本をよみなさい。Friaden(2004)”Science from Fisher information: A unification”とか。
————
 統計ユーザ向けに書かれた内容で、非常にわかりやすかった。パラメータがひとつの場合に焦点をしぼり、ベルヌーイ試行の実験での母比率の推定というような超・簡単な例題を用いて懇切丁寧に説明する。フィッシャー情報量の導出そのものはやらない(だって微分が必要になるもんね)。まさにチュートリアルの鏡。フィッシャー情報量、完全に理解した、というとてもさわやかな気持ちだ。現実場面で使える知識かどうかは別にして。

 もっとも勉強になったのは、ジェフリーズ事前分布がモデル空間における一様分布だ、という点。不勉強にして、そんな風に考えたことがなかったよ。感動したんだけど、でもジェフリーズ事前分布なんて仕事で使わないよなあ、全然。

 残念ながらMDLのパートは飛ばしちゃったけど、いずれヒマになったら読みなおそう、ということで… (そんなこと云っているからだめなんだ、という気もするけれど)