« 読了:矢島・平野(2012) 大規模空間データの統計モデリング | メイン | 読了:Rabiee, F. (2004) グループ・インタビューの逐語録をどうやって分析するか »
2017年9月14日 (木)
調べ物をしていて偶然知ったんだけど、厚生労働省が発表している市区町村別生命表にはベイズ推定の考え方が入っているのだそうだ。これ、いわゆる小地域推定という奴で、ほんとに市区町村別に標本統計量をとっちゃうと、さすがに死亡者数が足りない、という事情であろう。
ううむ。別に生命表を作る用事はないけれど、私の仕事とも通じる、ちょっと切実な話だ...
府川哲夫, 清水時彦 (1990) 小地域生命表のベイジアン・アプローチ. 人口学研究, 13, 37-49.
というわけで、なにをどうやっているのか調べてみた。著者らの肩書は厚生省大臣官房統計情報部となっている。いまでもこの論文の方法で市区町村別生命表を作っているのかどうかわからないけど、仕事の参考になるかなと思って。
市区町村x性x年齢階級別に考える。人口$p$は既知。死亡数$d$を$Bin(p, \theta)$の実現値とみる。$\theta$の事前分布を$Beta(\alpha,\beta)$とする。[...途中を端折って...] $\theta$の事後分布は$Beta(\alpha+d, \beta+p-d)$となりますわね。
さて、問題は事前分布なんだけど...
以下、使うデータは昭和62年まで5年間の人口動態統計の死亡数、そして昭和60年国勢調査の総人口である。人口はあらかじめ5倍する。
都道府県を市部と郡部に二分する。ある市区町村の親地域[←そう書いてはいないが簡略のためにこうメモする]は、市区ならば当該都道府県の市部、町村ならば当該都道府県の郡部とする。
注目している市区町村を$i$、その親地域を$K$とする。ある性x年代について、$i$の人口を$p(i)$、租中央死亡率を$q(i)$とする。
$K$に属する子地域の租中央死亡率の平均$Q$と分散$V$を求める。重みを$w(i)=p(i)/\sum p(i)$として
$Q = \sum w(i) q(i)$
$V = \sum w(i) (q(i) - Q)^2$
で、$i$の事前分布パラメータ$\alpha, \beta$を、ベータ分布の平均と分散が$Q, V$になるように決めちゃうのである。[←うおおおおお... なんというか、実に素朴なアプローチだ...]
著者らいわく、要するにこういうことだ。生命表をつくるとき、中央死亡率を$d/p$とするのが伝統的統計学。$(\alpha+d)/(\alpha+\beta+p)$とするのがベイズ統計学。それだけの違いだ。[←いやいやいや、それは母比率の事前分布をベータ分布とみればそうなるでしょうけど... 問題は事前分布のパラメータ$\alpha, \beta$をどう決めるかでしょう...]
後半は推定された市区町村別生命表の観察。パス。
...いやあ、ものすごーくシンプルな経験ベイズ・アプローチというか... 正直、わたくし、びびりました。まじですか。そんな簡単な話でいいんすか。
著者らも最後に触れているけど、親地域の決め方はこれでいいのか。人の生存曲線ってのはどの都道府県の市部/群部かで決まるわけ? それってあまりに行政区分に依存していないか...?
いや、しかし、公的統計というのはこのくらいシンプルでないといかんのかもしれない。ついでにいうと、私の仕事もこのくらいカンタンに考えたほうがいいのかもしれない...少なくともそういう局面はありうる...
などなど、終電車の酔っ払いたちに揉まれながら論文に目を通し、あれこれ考えさせられました。
論文:データ解析(2015-) - 読了:府川, 清水 (1990) 厚労省による市区町村別生命表はベイズ推定されている