覚え書き: ヤコビアンとかヘシアンとかコシアンとかもうわけがわかんない

 もう一万回くらい書いていると思うけど、私はきちんとした教育をうけていないので数学が全然わからない。しかし仕事上わかりませんでは洒落にならないので、いいトシこいて机に向かって練習問題を解いたりして貴重な休日を費やしたりしているのである。ほんとに辛い。
 いま仕事の都合で読んでいる資料にも、なんの前置きもなくヘシアンがどうたらこうたらと書いてあり、少しでも理解しようと思って机の横にある教科書をめくると、さらにヤコビアンだのナントカアンだのというのが乱舞していて、ほんとにもう、頭の良い奴はみんな死ねばいいのにと思う。

 以下はヤコビアン、ヘシアン、ナントカアンについての自分のための覚え書きである。誰も読む人はいないだろうけど、うっかり読んでしまうと、さみしい中年男の悪あがきに涙が止まらなくなるだろう。

準備1. 1変数の合成関数の微分 (志賀本pp.88-91)
 \(y = f(x)\)とする。\(x\)が\(x\)から\(x+h\)まで変動したぶんを\(\Delta x = (x + h) – x\)とする。\( \Delta x \)に対応する\(y\)の差分を\(\Delta y = f(x+ \Delta x) – f(x)\)とする。\(f\)が連続関数なら、\(\Delta x \rightarrow 0\)のとき\(\Delta y \rightarrow 0\)であり、$$ \lim_{\Delta x \rightarrow 0} \frac{\Delta y}{\Delta x} = f'(x)$$ である。これを式(1)としよう。
 (細かいところがよくわからないんだけど、「\(f\)が連続関数なら」式(1)まで成り立つんだろうか? さらに微分可能であることが必要かなと思うんだけど)

 \(z = g(y)\)とする。\(\Delta y\)に対応する\(z\)の差分を\(\Delta z = g(y + \Delta y) – g(y)\)とする。\(g\)が連続関数なら、\(\Delta y \rightarrow 0\)のとき\(\Delta z \rightarrow 0\)であり、$$ \lim_{\Delta y \rightarrow 0} \frac{\Delta z}{\Delta y} = g'(y)$$ である。
 (厳密に言うと\(\Delta y\)が0になる場合を考慮する必要があるのだけれど、省略する… のだそうである)

 では、合成関数\(g(f(x))\)の、\(\Delta x\)に関する差分\(\Delta z\)はどうなるか。$$ \Delta z = g(f(x + \Delta x)) – g(f(x))$$ \(\Delta y\)の定義より\(f(x + \Delta x) = f(x) +\Delta y\)だから、$$ = g(f(x)+\Delta y) – g(f(x))$$ である。ということは、微分の定義より$$ \lim_{\Delta y \rightarrow 0} \frac{\Delta z}{\Delta y} = g'(f(x)) $$ である。これを式(2)としよう。

 以上を合わせると… \(z = g(f(x))\)の\(x\)についての微分、つまり\(x\)の微少な変動に対する\(z\)の変動の倍率は、\(x\)の微少な変動に対する\(y\)の変動の倍率と、\(y\)の微少な変動に対する\(z\)の変動の倍率との積だから、$$ \{g(f(x)) \}’ = \lim_{\Delta x \rightarrow 0} \frac{\Delta z}{\Delta x} = \lim_{\Delta y \rightarrow 0} \frac{\Delta z}{\Delta y} \lim_{\Delta x \rightarrow 0} \frac{\Delta y}{\Delta x}$$ 式(1)(2)より$$ = g'(f(x)) f'(x)$$ である。
 要するに、合成関数の微分は、内側の関数の微分と外側の関数の微分の積である。

ところで、ここが腑に落ちない
 こうしてメモしていて思うのだけれど、一番最後の式がどうも腑に落ちない。そもそも、xさんがごくわずかに動いたらzさんはどのくらい動く? というのがお題なんだから、0に接近していくべきは\(\Delta x\)であり、本来は$$ \lim_{\Delta x \rightarrow 0} \frac{\Delta z}{\Delta x} = \lim_{\Delta x \rightarrow 0} \frac{\Delta z}{\Delta y} \lim_{\Delta x \rightarrow 0} \frac{\Delta y}{\Delta x} $$ なのではないだろうか。つまり、右辺の最初の\(\lim\)でどんどん小さくなるべきは\(\Delta y\)ではなくて\(\Delta x\)なのではないだろうか。
 いや\(\Delta x \rightarrow 0\)のとき\(\Delta y \rightarrow 0\)だから同じなんだ、って云われちゃいそうだけど、でも、\(\lim_{\Delta x \rightarrow 0} \frac{\Delta y}{\Delta x}\)が砂粒に対する太陽系くらいに大きかったらどうするの。\(\Delta x\)ががんばって0に接近しても\(\Delta y\)はなっかなか小さくなれないのよ? それでも\(\lim_{\Delta y \rightarrow 0} \frac{\Delta z}{\Delta y}\)と\(\lim_{\Delta x \rightarrow 0} \frac{\Delta z}{\Delta y}\)は同じことなの?
 こういう疑問を積み残してきたせいで、私は数学ができなくなっちゃったんだろうなあ…

準備2. 1変数関数の置換積分 (永田本8.2節)
 \(F(x) = \int f(x) dx \)としよう。実は\(x = g(t)\)だとする。\(F(x)\)を\(t\)で微分したい。
 これは合成関数\(F(g(t))\)の微分だから、準備1より、内側の関数の微分と内側の関数の微分を掛けて$$ F'(g(t)) g'(t) = f(g(t)) g'(t)$$ である。これを\(t\)で積分したら元の\(F(x)\)に戻る。というわけで、$$ \int f(x) dx = \int f(g(t)) g'(t) dt$$ である。

 どういうことかというと、\(f(x)\)を\(x\)で積分する際、実は\(x = g(t)\)です!と宣言し、\(t\)で積分しちゃうことができるということである。その際は、被積分関数のなかの\(x\)を\(g(t)\)に書き換え、それに\(g'(t)\)を掛けたやつを\(t\)で積分すればよい。
 なぜ\(g'(t)\)を掛けるのかというと、もともとは「\(x\)の積分」だったのをこのたび「\(t\)の積分」に置き換えるにあたって、\(x\)の微少区間の微少さと、\(t\)の微少区間の微少さが違うからである。だから、\(t\)が微少区間を動くときの\(x = g(t)\)の変化量を被積分関数に掛けて調整しているわけである。

置換積分の使い道
 話は逸れるが、置換積分はたとえばこういう使い方ができる。統計学っぽい例題が出てくるとちょっぴり心が和むのでそうする。
 確率変数\(x\)が、母成功率\(P\), 試行数\(n\)の二項分布に従うとする。推定量\(\hat{P} = x/n\)の期待値は\(E(\hat{P})=P\)、分散は\(V(\hat{P}) = P(1-P)/n\)である。分散が\(P\)と関係するので\(\hat{P}\)はちょっと使いにくい。分散と関係なくなるように\(\hat{P}\)を変換できないだろうか。
 目指す変換を\(h(\hat{P})\)とする。\(P\)のまわりでテイラー展開して$$ h(\hat{P}) \approx h(P) + h'(P)(\hat{P}-P)$$ である。これ、\(\hat{P}\)の線形変換になっていることに注目しよう。一般に、\(x\)の線形変換\(ax + b\)の分散は、もとの\(x\)の分散に\(a^2\)をかけたものである。ってことは、目指す変換を掛けたあとの分散は$$ V(h(\hat{P})) \approx (h'(P))^2 P(1-P)/n $$ だということになる。
 これが\(P\)と関係しないようにしたい。よし、定数\(A\)について\((h'(P))^2 P(1-P)/n = A\)が成り立つようにしよう。つまり、\(h'(P) = \sqrt{ \frac{An}{P(1-P)} } \)としよう。
 両辺を積分するぞ。$$ h(P) = \sqrt{An} \int \frac{1}{\sqrt{P(1-P)}} dP $$ ああ、なんだかややこしい。どうやって解くの?
 おまたせしました、置換積分の登場です。実は\(P = t^2\)です!と主張し、\(t\)の積分に切り替えてしまうのである。その手順は、被積分関数のなかの\(P\)を\(t^2\)に書き換えて(つまり\(x\)を\(g(t)\)に書き換えて)、その後ろから\(2t\) (つまり\(g'(t)\))をかけてやるだけである。$$ = \sqrt{An} \int \frac{1}{t\sqrt{1-t^2}} 2t dt = 2\sqrt{An} \int \frac{1}{\sqrt{1-t^2}} dt$$ 覚えてますか、\(-1 \lt x \lt 1\)のとき \((\sin^{-1} x)’ = \frac{1}{\sqrt{1-x^2}} \)であることを。私はもちろん覚えてません。\(t = \sqrt{P}\)だから条件をみたし、$$ = 2\sqrt{An} \sin^{-1} t + C = 2\sqrt{An} \sin^{-1} \sqrt{P} + C$$ である。
 これがご存じ、比率の逆正弦変換 \(\sin^{-1} \sqrt{\hat{P}}\)の由来である。へええええ。知らなかった。

準備3. 1変数関数の変数変換を用いた定積分 (永田本10.2節)
 定積分\(\int^b_a f(x) dx\)について、置換積分(準備2)のような変数変換をして解くことを考える。つまり、実は\(x = g(t)\)です!と宣言し、\(t\)上の積分に書き換えてしまうのである。どうすればよいか。
 \(g(t)\)として、積分区間で単調な関数を選ぶ(増加でも減少でもよい)。\(g'(t)\)を求めておく。単調関数だから逆関数\(g^{-1}\)が存在するので、\(\alpha = g^{-1}(a), \beta = g^{-1}(b)\)も求めておく。
 準備ができたら、実は\(x = g(t)\)です!と宣言する。被積分関数を置換積分のときと同様に書き換え、積分区間も書き換える。$$ \int^b_a f(x) dx = \int^\beta_\alpha f(g(t)) g'(t) dt$$ なんなら、\(dx = g'(t)dt\)を代入すると考えても良い。

変数変換を用いた定積分の使い道
 話は逸れるが、たとえばこういう使い方ができる。統計学っぽい例題がいいですね。
 確率変数\(x\)が\((0,1)\)上の一様分布に従うとする。その対数に負の定数を掛けた \(y = – \frac{1}{\lambda} \log x\) (ただし\(\lambda \gt 0\))の確率密度関数\(f_y(y)\)はどうなるか?
 \(y\)は単調減少である。そこで搦め手から考える。もとの確率密度関数は\(f_x(x) = 1 \ (0 \gt x \gt 1)\)であった。確率密度関数の定積分として書くと、$$ 1 = \int^1_0 1dx $$ だったのである。これを\(f_y(y)\)の\(y\)上での定積分として書いても、やっぱり1のままでないとおかしい。
 \(y = – \frac{1}{\lambda} \log x\)より、\(g(y) = \exp(-\lambda y)\)とする。\(g'(y) = -\lambda \exp(-\lambda y)\)である。行き先は、\(x = 0\)のとき\(y = \infty\), \(x = 1\)のとき\(y = 0\)。では宣言しましょう。\(x = g(y) = \exp(-\lambda y)\)です! $$ =\int^0_\infty 1 g'(y) dy = \int^\infty_0 \lambda \exp(-\lambda y) dy$$ 従って\(f_y(y) = \lambda \exp(-\lambda y)\)である。ちなみにこれ、指数分布の密度関数ですね。

準備4. 2変数関数の合成関数の微分 (チェーン・ルール) (永田本26.1節)
 2変数関数の合成関数 \( f(\phi(s,t), \psi(s,t)) \)の微分について考える。
 \(z = f(x,y)\)は微分可能で偏導関数は連続とする。偏微分の定義$$ \frac{\partial f}{\partial x} (x,y) = \lim_{\Delta x \rightarrow} \frac{f(x + \Delta x, y) – f(x, y)}{\Delta x} $$ $$ \frac{\partial f}{\partial y} (x,y) = \lim_{\Delta x \rightarrow} \frac{f(x, y+ \Delta y) – f(x, y)}{\Delta y} $$ からおおまかに書いちゃうと、$$ f(x + \Delta x, y + \Delta y) – f(x,y) \approx \frac{\partial f}{\partial x} (x,y) \Delta x + \frac{\partial f}{\partial y} (x,y) \Delta y$$ である。
 さて、\(x = \phi(s,t), y = \psi(s,t)\)は微分可能で偏導関数は連続とする。\(s\)の微小な変化に伴う変化について考える。\(x, y\)をすべて\(\phi(s,t), \psi(s,t)\)に書き換えるのではなく、一部はあえて残す。$$ f(\phi(s + \Delta s, t), \psi(s + \Delta s, t)) – f(x, y)$$ $$ \approx \frac{\partial f}{\partial x}(x, y)\{\phi(s+\Delta s, t) – \phi(s, t)\} + \frac{\partial f}{\partial y}(x, y)\{\psi(s+\Delta s, t) – \psi(s, t)\} $$ $$ = \frac{\partial f}{\partial x}(x, y) \frac{\partial \phi}{\partial s}(s,t) \Delta s + \frac{\partial f}{\partial y}(x, y) \frac{\partial \psi}{\partial s}(s,t) \Delta s $$ 両辺を\(\Delta s\)で割って\(\Delta s \rightarrow 0\)とすると次の式が得られる。うーん、証明にはなってないけど、まあいいことにしましょう。$$ \frac{\partial f}{\partial s}(\phi(s,t), \psi(s,t)) = \frac{\partial f}{\partial x}(x,y) \frac{\partial \phi}{\partial s}(s,t) + \frac{\partial f}{\partial y}(x,y) \frac{\partial \psi}{\partial s}(s,t)$$ 要するに、\( f(\phi(s,t), \psi(s,t)) \) を\(s\)について偏微分するということは、\(\phi(s,t)\)を\(s\)について偏微分したのに\(f(x,y)\)を\(x\)について偏微分したのを掛け、\(\psi(s,t)\)を\(s\)について偏微分したのに\(f(x,y)\)を\(y\)について偏微分したのを掛け、両者を足す、ということなわけね。
 同様に $$ \frac{\partial f}{\partial t}(\phi(s,t), \psi(s,t)) = \frac{\partial f}{\partial x}(x,y) \frac{\partial \phi}{\partial t}(s,t) + \frac{\partial f}{\partial y}(x,y) \frac{\partial \psi}{\partial t}(s,t)$$ である。
 では、実は\(\phi, \psi\)が1変数関数だったらどうだろうか? \(t\)の関数だとすればこうなる。$$ \frac{d f}{d t}(\phi(t), \psi(t)) = \frac{\partial f}{\partial x}(x,y) \frac{d \phi}{d t}(t) + \frac{\partial f}{\partial y}(x,y) \frac{d \psi}{d t}(t)$$

2回微分のチェーンルール
 ついでに、\(\phi, \psi\)が\(t\)の1変数関数で、\(t\)で2回微分したらどうなるかも考えておこう。$$ \frac{d^2 f}{d t^2}(\phi(t), \psi(t)) = \frac{d}{dt} \left( \frac{\partial f}{\partial x}(x,y) \frac{d \phi}{d t}(t) \right) + \frac{d}{dt} \left( \frac{\partial f}{\partial y}(x,y) \frac{d \psi}{d t}(t) \right) $$ 各項について考えると、これって要するに積の微分だから、\(\{f(x)g(x)\}’ = f'(x)g(x) + f(x)g'(x)\)という教えに従って分解できる。よって4つの項になる。 $$ = \frac{d}{dt} \left( \frac{\partial f}{\partial x}(x,y) \right) \times \frac{d \phi}{d t}(t) $$ $$ + \frac{\partial f}{\partial x}(x,y) \times \frac{d}{d t} \left( \frac{d \phi}{d t}(t) \right) $$ $$ + \frac{d}{dt} \left( \frac{\partial f}{\partial y}(x,y) \right) \times \frac{d \psi}{d t}(t) $$ $$ + \frac{\partial f}{\partial y}(x,y) \times \frac{d}{dt} \left(\frac{d \psi}{d t}(t)\right) $$ 第1項の左側についてみると、\(t\)で偏微分しようとしている関数\(\frac{\partial f}{\partial x}(x, y)\)とは、要は\(x, y\)の関数なわけだ。目がちらちらしないように\(g(x,y)\)と書こう。やりたいことは、\(g(x, y) =g(\phi(t), \psi(t))\)を\(t\)で微分することだ。チェーンルールを使えば、\(\frac{\partial}{\partial x}g(x,y) \frac{d \phi}{d t} (t) + \frac{\partial}{\partial y}g(x,y) \frac{d \psi}{d t}(t)\)となる。第3項の左側についても同様。よって、$$ = \left\{ \frac{\partial}{\partial x} \frac{\partial f}{\partial x}(x, y) \frac{d \phi}{d t} (t) + \frac{\partial}{\partial y}\frac{\partial f}{\partial x}(x, y) \frac{d \psi}{d t}(t) \right\} \times \frac{d \phi}{d t}(t) $$ $$ + \frac{\partial f}{\partial x}(x,y) \times \frac{d}{d t} \left( \frac{d \phi}{d t}(t) \right) $$ $$ + \left\{ \frac{\partial}{\partial x} \frac{\partial f}{\partial y}(x, y) \frac{d \phi}{d t} (t) + \frac{\partial}{\partial y}\frac{\partial f}{\partial y}(x, y) \frac{d \psi}{d t}(t) \right\} \times \frac{d \psi}{d t}(t) $$ $$ + \frac{\partial f}{\partial y}(x,y) \times \frac{d}{dt} \left(\frac{d \psi}{d t}(t)\right) $$ 整理すると $$ = \frac{\partial^2 f}{\partial x^2} (x, y) \left( \frac{d \phi}{d t} (t) \right)^2 + \frac{\partial^2 f}{\partial y \partial x}(x, y) \frac{d \psi}{d t}(t) \frac{d \phi}{d t}(t) $$ $$ + \frac{\partial f}{\partial x}(x,y) \frac{d^2 \phi}{d t^2} (t) $$ $$ + \frac{\partial^2 f}{\partial x \partial y}(x, y) \frac{d \phi}{d t} (t) \frac{d \psi}{d t}(t) + \frac{\partial^2 f}{\partial y^2}(x, y) \left( \frac{d \psi}{d t}(t) \right)^2 $$ $$ + \frac{\partial f}{\partial y}(x,y) \frac{d^2 \psi}{dt^2} (t) $$ 全部で6項だけど、偏導関数が連続なので、第2項の偏微分の順序を入れ替えて第4項に揃えることができる。よって、結局5項になる。$$ = \frac{\partial^2 f}{\partial x^2} (x, y) \left( \frac{d \phi}{d t} (t) \right)^2 $$ $$ + 2 \frac{\partial^2 f}{\partial y \partial x}(x, y) \frac{d \psi}{d t}(t) \frac{d \phi}{d t}(t) $$ $$ + \frac{\partial^2 f}{\partial y^2}(x, y) \left( \frac{d \psi}{d t}(t) \right)^2 $$ $$ + \frac{\partial f}{\partial x}(x,y) \frac{d^2 \phi}{d t^2} (t) $$ $$ + \frac{\partial f}{\partial y}(x,y) \frac{d^2 \psi}{dt^2} (t) $$

ヤコビアンとは
 \(n\)次元ベクトル \(\mathbf{x} = (x_1, \ldots, x_n)^\top\)を受け取って、\(m\)次元ベクトル\((y_1, \ldots, y_m)^\top\)の各要素を返してくれる関数\(f_1, \ldots, f_m\)があるとき、\(f_i\)の\(x_j\)についての偏微分 \(\frac{\partial f_i}{\partial x_j} (\mathbf{x})\)を並べて\(m \times n\)行列にしたのを、ヤコビ行列(Jacobi matrix; Jacobian matrix)というのだそうである。
 また、ヤコビ行列が正方行列のとき、その行列式をヤコビ行列式(Jacobian determinant)というのだそうである。
 ヤコビ行列式のことを単に「ヤコビアン」というらしい。また、ヤコビ行列のことを「ヤコビアン」ということがある、という説明も見かけた。数学者のみなさん、あなたたちのそういうとこ良くないと思うよ。

 ヤコビ行列とヤコビ行列式は、19世紀ドイツの数学者 Carl Gustav Jacob Jacobi の名に因む。
Carl Jacobi
 こちらのサイトによれば、ヤコビは1804年、ポツダム生まれ。ケーニヒスベルク大学の評判の良い先生だった。もとは裕福な家の人なんだけど、不況で破産してしまい、さらに1842年に糖尿病で体調を崩してしまう。医者に静養に行けと云われたが金がない。で、友人のディリクレがアレクサンダー・フォン・フンボルト(地理学者のほう。言語学者のフンボルトのお兄さん)に手紙を書き、無事プロイセン王ヴィルヘルム4世からの援助を得る。ローマでしばし静養して健康を取り戻し、気候の厳しいケーニヒスベルク(現在のカリーニングラード)には戻らずにベルリン大学の講師になった。さて、激動の1848年、三月革命がやってくる。ヤコビはベルリンの社交クラブで政治的な演説をして、王政派と共和派の両方を怒らせてしまう(なんだか親近感が湧きますね)。おかげでベルリン大の正教員になりそこない、給料も下がり、仕方がないのでウィーン大に移った。1851年、天然痘で死去。

 … といわれても困るので、ここからは、ヤコビ行列・ヤコビ行列式が初学者向けの教科書に出てくるくだりについてメモする。

例: 重積分での変数変換 (永田本29.1節)
 2変数関数 \( f(x, y) \)の重積分について考える。積分領域を\(D\)として、\(\int \int_D f(x,y) dxdy \)ですね。
 これをうまいこと解くために、\(x = \phi(s, t), y = \psi(s, t)\)と変数変換して、積分領域 \( D’ = \{(s, t): x = \phi(s,t), y = \phi(s,t), (x,y) \in D\}\) 上での積分に書き換えるとしよう。変換は1対1で、\(\phi, \psi\)は微分可能で、偏導関数は連続だとする。
 このとき、こういう公式がなりたつ。$$ \int\int_D f(x,y) dxdy = \int\int_{D’} f(\phi(s,t),\psi(s,t)) |J| dsdt$$ $$ J = \frac{\partial \phi}{\partial x}(s,t) \frac{\partial \psi}{\partial t}(s,t) – \frac{\partial \phi}{\partial t}(s,t) \frac{\partial \psi}{\partial s}(s,t) $$ 1変数の場合の変数変換を用いた定積分(準備3)と同様に、積分領域の行き先を見定めておき、\(x = \phi(s, t), y = \psi(s, t)\)です!と宣言し、積分領域を書き換え、被積分関数を書き換え、後ろから(さっきは\(g'(t)\)だったけど今度は) \(J\)の絶対値を掛けて、\(s, t\)で積分すれば良いのである。さっきと違って「絶対値」といっているのは、さっきは\(g'(t)\)が負だったら積分区間も左右が逆転していたので相殺していたけれど、今回は\(J\)の符号によって\(D’\)がひっくりかえらないからである。

 1変数の時に\(g'(t)\)を掛けたのは、\(t\)の微少区間に対応する\(x\)の変化量を掛けて調整するためであった。同様に2変数の場合にも、\(s, t\)の微小領域に対応する\(x, y\)の変化の倍率を掛けて調整してやりたい。この倍率が\(|J|\)なのである。
 なぜか。

 \((x_0, y_0)\)が\((s_0, t_0)\)に対応しているとしよう。\(x = \phi(s, t), y = \psi(s,t) \)の、点\(s_0, t_0\)での1次の項までのテイラー展開を考える。おさらいすると、\(f(x,y)\)の点\((a,b)\)における1次の項までのテイラー展開は、$$ f(x,y) = f(a,b) + \frac{1}{1!} \left( (x-a)\frac{\partial f}{\partial x}(a,b) + (y-b) \frac{\partial f}{\partial x}(a,b) \right) + \cdots$$ ですね。書き換えると$$ \phi(s,t) = \phi(s_0, t_0) + \left( (s – s_0) \frac{\partial \phi}{\partial s}(s_0, t_0) + (t- t_0) \frac{\partial \phi}{\partial t}(s_0, t_0) \right) + \cdots$$ $$ \psi(s,t) = \psi(s_0, t_0) + \left( (s – s_0) \frac{\partial \psi}{\partial s}(s_0, t_0) + (t- t_0) \frac{\partial \psi}{\partial t}(s_0, t_0) \right) + \cdots$$ \(x = \phi(s,t), x_0 = \phi(s_0, t_0), y = \psi(s,t), y_0 = \psi(s_0,t_0)\)である。行列で書くと $$ \left( \begin{array}{c} x-x_0 \\ y-y_0 \end{array} \right) \approx \left( \begin{array}{cc} \frac{\partial \phi}{\partial s}(s_0, t_0) & \frac{\partial \phi}{\partial t}(s_0, t_0) \\ \frac{\partial \psi}{\partial s}(s_0, t_0) & \frac{\partial \psi}{\partial t}(s_0, t_0) \end{array} \right) \left( \begin{array}{c} s-s_0 \\ t-t_0 \end{array} \right) $$ おおお。右辺の行列は、点\((s_0, t_0)\)における関数\((\phi, \psi)\)のヤコビ行列ではありませんか。

 これを $$ \left( \begin{array}{c} x’ \\ y’ \end{array} \right) = \left( \begin{array}{cc} a & b \\ c & d \end{array} \right) \left( \begin{array}{c} s’ \\ t’ \end{array} \right) $$ と見立てよう。\((s’, t’)\)の空間上で、右上から時計回りに\((1,1)\)、\((1,0)\), \((0,0)\), \((0,1)\)を結ぶ正方形があったら(その面積は1)、それは\((x’, y’)\)の空間上では、右上から時計回りに、\( ( a+b, c+d ), (a,c), (0,0), (b,d) \)を結ぶ平行四辺形になる。その面積は\(ad-bc\)、つまり、係数行列の行列式となる。この例では行列式が正だったけれど、負となる場合も考慮すれば、面積は係数行列の行列式の絶対値になる。
 ということは、\((s,t)\)の微少領域に対応する\((x, y)\)の微少領域の面積は、もとの面積の「ヤコビ行列式の絶対値」倍になる。
 というわけで、調整のための変化の倍率は「ヤコビ行列式の絶対値」\(|J|\)となるわけだ。

ヘシアンとは
 \(n\)次元ベクトル \(\mathbf{x} = (x_1, \ldots, x_n)^\top\)を受け取って、\(m\)次元ベクトル\((y_1, \ldots, y_m)^\top\)を返してくれる関数\(f\)があるとき、\(f\)の\(x_i, x_j\)についての2階の偏微分 \(\frac{\partial^2 f}{\partial x_i \partial x_j} (\mathbf{x})\)を並べて\(n \times n\)行列にしたのを、ヘッセ行列(Hassian matrix)というのだそうである。
 なお、ヘッセ行列のことを単に「ヘシアン」と呼ぶという説明も、ヘッセ行列の行列式のことを「ヘシアン」と呼ぶという説明もみかけた。数学者たちよ、そういうとこだぞ。

 ヘッセ行列の名は、19世紀ドイツの数学者Ludwig Otto Hesseに因む。
Ludwig Otto Hesse
 Hesseは1911年、ケーニヒスベルク生まれ。ケーニヒスベルグ大学に入学、ヤコビ先生のもとで数学を志す。1845年からケーニヒスベルグ大学の員外教授となり、1956年にハイデルベルク大学に移った。三月革命期に調子に乗って演説したりすることもなく、たくさんの優秀な数学者を育て、幸せな家庭を築き、名声と共に生き、要は略歴を読んでて面白い人ではない。
 1874年ミュンヘンで亡くなったが、彼が愛したハイデルベルクで埋葬されたのだそうである。ケーニヒスベルグじゃないんだ… 人気のない街なんですね…

 ここからは、ヘッセ行列が初学者向けの教科書に出てくるくだりについてメモする。

例: 2変数関数のテイラーの公式 (永田本26.2節)
 2変数関数 \( f(x,y) \) のテイラーの公式を導く。ここでヘッセ行列が出てくるのだ。

 まずは、2変数関数ではなくて $$ F(t) = f(a + th, b + tk) $$ について考えよう。テイラーの公式を0のまわりで3次まで適用して、$$ F(t) = F(0) + \frac{1}{1!} F'(0) t + \frac{1}{2!} F^{\prime\prime}(0) t^2 + \frac{1}{3!} F^{\prime\prime\prime} (\theta t) t^3$$ 第三項は剰余項である。\(\theta\)がなんなのかはこの際気にしない。これを式(1)としよう。

 次に、チェーン・ルール(準備4) $$ \frac{d f}{d t}(\phi(t), \psi(t)) = \frac{\partial f}{\partial x}(x,y) \frac{d \phi}{d t}(t) + \frac{\partial f}{\partial y}(x,y) \frac{d \psi}{d t}(t)$$ $$ \frac{d^2 f}{d t^2}(\phi(t), \psi(t)) = \frac{\partial^2 f}{\partial x^2} (x, y) \left( \frac{d \phi}{d t} (t) \right)^2 + 2 \frac{\partial^2 f}{\partial y \partial x}(x, y) \frac{d \psi}{d t}(t) \frac{d \phi}{d t}(t) + \frac{\partial^2 f}{\partial y^2}(x, y) \left( \frac{d \psi}{d t}(t) \right)^2 $$ $$ + \frac{\partial f}{\partial x}(x,y) \frac{d^2 \phi}{d t^2} (t) + \frac{\partial f}{\partial y}(x,y) \frac{d^2 \psi}{dt^2} (t)$$ をつかって、\( F(t)\)を\(t\)について微分する。\(a+th\)を微分したら\(h\), \(b+tk\)を微分したら\(k\)だから、$$ F'(t) = \frac{\partial f}{\partial x}(x,y) h + \frac{\partial f}{\partial y}(x,y) k $$ $$ F^{\prime\prime}(t) = \frac{\partial^2 f}{\partial x^2} (x,y) h^2 + 2 \frac{\partial^2 f}{\partial x \partial y}(x,y) hk + \frac{\partial^2 f}{\partial y^2} (x,y) k^2$$ \(t = 0\)と置くと、\(x = a, y = b\)。$$ F'(0) = \frac{\partial f}{\partial x}(a,b) h + \frac{\partial f}{\partial y}(a,b) k $$ $$ F^{\prime\prime}(0) = \frac{\partial^2 f}{\partial x^2} (a,b) h^2 + 2 \frac{\partial^2 f}{\partial x \partial y}(a,b) hk + \frac{\partial^2 f}{\partial y^2} (a,b) k^2$$

 さて、式(1)に戻ろう。\(t=1\)と置く。$$ F(1) = F(0) + F'(0) + \frac{1}{2} F^{\prime\prime}(0) + \frac{1}{3!} F^{\prime\prime\prime} (\theta) $$ 左辺の\(F(1)\)とはつまり\(f(a + h, b + k)\)である。右辺の\(F(0)\)は\(f(a, b)\)。\(F'(0), F^{\prime\prime}(0)\)を代入して$$ f(a+h, b+k) = f(a,b) + \frac{\partial f}{\partial x}(a,b) h + \frac{\partial f}{\partial y}(a,b) k $$ $$ + \frac{1}{2}\frac{\partial^2 f}{\partial x^2} (a,b) h^2 + \frac{\partial^2 f}{\partial x \partial y}(a,b) hk + \frac{1}{2} \frac{\partial^2 f}{\partial y^2} (a,b) k^2 + \frac{1}{3!} F^{\prime\prime\prime} (\theta)$$ \(x = a+h, y = b+k\)を代入して $$ f(x, y) = f(a,b) + \frac{\partial f}{\partial x}(a,b) (x-a) + \frac{\partial f}{\partial y}(a,b) (y-b) $$ $$ + \frac{1}{2}\frac{\partial^2 f}{\partial x^2} (a,b) (x-a)^2 + \frac{\partial^2 f}{\partial x \partial y}(a,b) (x-a)(y-b) + \frac{1}{2} \frac{\partial^2 f}{\partial y^2} (a,b) (y-b)^2 + \frac{1}{3!} F^{\prime\prime\prime} (\theta)$$

 やれやれ、テイラーの公式を導出できた。
 さて、これを行列で書いてみよう。剰余項は簡単に\(R_3(x,y)\)と書く。$$ f(x,y) = f(a,b) + \left( \begin{array}{cc} \frac{\partial f}{\partial x}(a,b) & \frac{\partial f}{\partial y}(a,b) \end{array} \right) \left( \begin{array}{c} x-a \\ y-b \end{array} \right) $$ $$ + \frac{1}{2} \left( \begin{array}{cc} x-a & y – b \end{array} \right) \left( \begin{array}{cc} \frac{\partial^2 f}{\partial x^2}(a,b) & \frac{\partial^2 f}{\partial x \partial y}(a,b) \\ \frac{\partial^2 f}{\partial x \partial y}(a,b) & \frac{\partial^2 f}{\partial y^2}(a,b) \end{array} \right) \left( \begin{array}{c} x-a \\ y-b \end{array} \right) + R_3(x,y) $$ おお、ヘッセ行列が現れた。
 このように、2変数関数のテイラーの公式の2次の項は、ヘッセ行列を挟んだ形の二次形式となるのだ。

 なお、このヘッセ行列をつかって、\(f(x, y)\)の極値が極大か極小か鞍点かを判定することができるんだけど、疲れたのでパス。 

コシアンとは
 小豆などの豆類を煮て砂糖を加え練り混ぜたものを餡という。そのうち、豆の粒を潰して裏ごしし、皮を取り除いたものをこしあん (Koshian) という。これに対し、豆の粒をなるべく潰さないように炊きあげたものを粒あん (Tsubuan) という。
 オフィスに出勤して夕方にお腹がすくと、私はコンビニに出かけてなにか小腹を満たすものを買ってしまうのだが、カロリーが気になるときはこしあんのあんパンを買う。なぜなら、小豆の粒を潰すプロセスにおいて、きっとカロリーも潰れているにちがいないからである。