« Rのdplyrパッケージでプログラミングするときの注意点 | メイン | 読了:Tappin, et al.(2017) 確証バイアスと望ましさバイアス、どちらが深刻か?(あるいは:トランプ勝利を予測できなかったのは頭のせいかハートのせいか?) »
2017年8月20日 (日)
Little, R.J.A., Wu, M.M. (1991) Models for contingency tables with known margins when target and sample population differ. Journal of the American Statistical Association. 86(413)
仕事の都合で読んだ奴。
ここにサーベイ調査から得たA, Bのクロス表がある。また、センサスから得たA, Bそれぞれの分布がある(クロス表は手に入らない)。サーベイ調査から得たクロス表の周辺分布は、センサスから得た分布と比べて少しずれている。
以上に基づき、AとBの同時分布を推定したい。ただし、それはセンサスから得た分布と一致していないと困る。
フォーマルに書くとこうだ。目標母集団において$A=i$かつ$B=j$である確率を$\pi_{ij}$とする。$\pi_{i+}, \pi_{+j}$を既知の周辺分布とする。サーベイ調査におけるセル割合を$p_{ij} = n_{ij}/n$とする。セル割合の推定量$\hat{\pi}_{ij}$が欲しいんだけど、$\sum_j \hat{\pi}_{ij} = \pi_{i+}, \sum_i \hat{\pi}_{ij} = \pi_{+j}$でないと困る。どうすればよいか。
この問題はDeming&Stephan(1940)に遡り、たくさんの解が提案されておる。4つの解をご紹介しよう。
その1, raking推定量(以下RAKEと略記)。デミングらの提案である。
彼らの発想は、重みつき最小二乗
$\sum_i \sum_j (p_{ij}-\hat{\pi}_{ij})^2 / p_{ij}$
を最小にしようというものであった。そこでデミングらが考えたのが、ご存じIPF(iterative proportional fitting)法、またの名をDeming-Stephanアルゴリズムである。なお、クロス表にIPFを掛けることをrakingということもあるので、ここではそう呼びます。
これはどういうのかというと...[以下、表記を大幅に簡略化する]
(1)$\hat{\pi}_{ij}=p_{ij}$とする。当然、周辺割合は既知の周辺分布と比べてずれている。(2)各セルに$\pi_{i+}/\hat{\pi}_{i+}$を掛け、行側の周辺割合を既知の周辺分布に無理やり合わせる。列側はずれたまま。(3)各セルに$\pi_{+j}/\hat{\pi}_{+j}$を掛け、列側の周辺割合を既知の周辺分布に無理やり合わせる。今度は行側がちょっぴりずれる。(4)気が済むまで繰り返す。
のちにStephan(1942) 自身が指摘したんだけど、raking推定量は実は重みつき最小二乗推定量になっていない。なお、raking推定量は次の形式になっている:
$\ln(\hat{\pi}_{ij} / p_{ij}) = \hat{\mu} + \hat{\alpha}_i + \hat{\beta}_j$
その2、重みつき最小二乗推定量(LSQ)。Stephan(1942)が改めて提案したもの。これは
$\hat{\pi}_{ij} / p_{ij} = \hat{\mu} + \hat{\alpha}_i + \hat{\beta}_j$
の形をとる[←へー。標本セル割合に対する倍率が、全体パラメータ, 列パラメータ, 行パラメータの和になるわけだ]。
その3、無作為抽出下の最尤推定量(MLRS)。無作為抽出を仮定すれば、対数尤度は
$l(\hat{\pi}) = \sum_i \sum_j p_{ij} \ln(\hat{\pi}_{ij})$
となるわけで、これを最大化する。この推定量は
$(\hat{\pi}_{ij} / p_{ij})^{-1} = \hat{\mu} + \hat{\alpha}_i + \hat{\beta}_j$
という形式となる。
その4、最小カイ二乗推定量(MCSQ)。
$\sum_i \sum_j (\hat{\pi}_{ij} - p_{ij})^2 / \hat{\pi}_{ij}$
を最小化する。結局
$(\hat{\pi}_{ij} / p_{ij})^{-2} = \hat{\mu} + \hat{\alpha}_i + \hat{\beta}_j$
という形式となる[←へえええ。そういうもんすか...]
この4つの推定量は、無作為抽出の下では漸近的に等しいし、大した差はない。
しかあし。この問題が生じるのは、往々にして、クロス表の元になったデータは無作為標本ですと胸を張って言えない状況においてある(だからこそ、既知の周辺分布に合わせたいなんて思うわけである)。
目標母集団と抽出母集団が異なるとき、優れている推定量はどれだろうか? これが本論文の本題であります。
この話、目標母集団と抽出母集団がどう異なるのかによって話が変わってくる。
目標母集団のセル割合を$\pi_{ij}$、抽出母集団のセル割合を$\tau_{ij}$としよう。いま、標本が抽出母集団からの単純無作為抽出であり、かつ
$\ln(\pi_{ij}/\tau_{ij}) = \mu + \alpha_i+ \beta_j$
という関係があるならば(ただし$\sum a_i = \sum b_j = 0$)、RAKE推定量は$\{\pi_{ij}\}$の最尤推定量となる[←証明がついているんだけど読み飛ばした]。同様に、
$\pi_{ij}/\tau_{ij} = \mu + \alpha_i+ \beta_j$
という関係があるならばLSQ推定量が、
$(\pi_{ij}/\tau_{ij})^{-1} = \mu + \alpha_i+ \beta_j$
という関係があるならばMLRS推定量が、
$(\pi_{ij}/\tau_{ij})^{-2} = \mu + \alpha_i+ \beta_j$
という関係があるならばMCSQ推定量が、$\{\pi_{ij}\}$の最尤推定量となるのである[←あー、なるほどねー!]。
なお、ここから次の教訓が得られる。もし標本抽出においてAB交互作用があったら、どの推定量もうまくいかない。[←ああ、なるほど...これは直感的にもわかる気がする。いくらAとBの母周辺分布がわかっていても、標本抽出バイアスにAB交互作用があったら、それはお手上げだろうね]
4つの推定量の分散はどうなっておるかというと... [パス]
... 後半は事例とシミュレーション。このシミュレーションがこの論文の本題なんだけど、すいません、読み飛ばしました。いろんな標本抽出モデルで試した結果、RAKEとMLRSの成績が良かった由。
著者ら曰く、確たる根拠があるわけじゃないけど、標本抽出モデルについての知識がない場合は、RAKE推定量がよさそうだ、とのことであった。
なるほどねえ... とても勉強になりましたです。一見全然ちがう基準を持つ4つの推定方式が、実は統一的な枠組みで説明できるというところに痺れました。
ほんというと... 同一母集団から得た2つの標本に、同一の選択肢を異なる状況下で選択させ、それぞれの状況での選択分布を得た。ここから、2つの状況を通じた同時分布(遷移行列というか混同行列というか)を推定したい。という問題に関心があるのである。仕事の話だから抽象的にしか書けないけど、そういう問題があるんです。
この場合も、この論文のタイトルと同じくModels for contingency tables with known marginsが欲しいわけなんだけど、この論文で言うところのABクロス表(rakingの文脈で言うところのseed)は観察できないわけで、なんらかの事前知識からseedを構成することになる。たとえば、状況が選択に与える影響を最小限に評価したい、よってseedは対角行列だ、とか。
この論文で取り上げられている4つの推定量はそれぞれの発想でなにかを最小化しているわけだけど、結果的には、セル割合の推定値とseedとの比をなんらか変換した $(\pi_{ij}/\tau_{ij})^{\lambda} $が全効果・行効果・列効果の線形和となるという制約をかけていることになるわけだ。これはこの論文から得た大きな学びでございました。私が考える問題では、seedの側に実質的な想定を置くかわり、seedと推定値とのずれについてはなにも想定したくないんだけど...? ううむ...
論文:データ解析(2015-) - 読了:Little & Wu (1991) 標本から得たAxBクロス表を既知の周辺分布に合わせたい、標本にはバイアスがあることがわかっている、さあどうするか