読書日記: 読了: Bethal (1989) 目的変数が複数ある調査の標本抽出設計における最適割当法

« 読了：堤・瀬谷(2012) 空間統計学と空間計量経済学 | メイン | 覚え書き：差の集計としての共分散 »

2018年7月26日 (木)

Bethel, J. (1989) Sample allocation in multivariate surveys. Survey Methodology, 15(1), 47-57.
　仕事の都合で読んだ。題名の通り、標本抽出設計における最適割当法(層とかクラスタとかに割り当てる標本サイズを、単に母集団サイズに比例させるんじゃなくて、コストまで考慮してもっとゴリゴリ考える奴) についての論文。
　著者はWestatの人。掲載誌はカナダ統計局の機関誌だと思う。

　いわく。
　多目的的な調査における標本の最適割当問題について最初に論じたのはNeyman(1934)であった。以来、この問題へのアプローチは次の2つに大別される。

層の分散の加重平均が最適になるようにする。Kish(1976)はこの路線。計算がシンプル、直観的にわかりやすい。いっぽうウェイトの選択が恣意的で、なにを最適とするかが不透明。
それぞれの分散が不等性制約を満たしていることを前提として、コストを最小にする凸最適化問題を解く。予算制約を満たした最適解を見つける必要がある。

　本論文では線形不等性制約のもとでの最適割り当てを閉形式で与える。本研究の利点は...[略]

　層別無作為抽出について考える。層の数を$I$, 変数の数を$J$とする。層$i$における$j$番目の変数の分散を$S^2_{ij}$, 層の標本サイズを$n_i$, 母集団に占める層の割合を$W_i$とする[原文では$W^2_i$となっているがミスプリであろう]。有限母集団修正は無視できるものとする。
　いま、次の制約が課せられているとする。任意の正の定数$v_j$について、
　$Var(\bar{y}_j) \approx \sum_i W^2_i S^2_{ij} / n_i \leq v^2_j$
以下では
　$a_{ij} = W^2_i S^2_{ij} / v^2_j$
と定義し[原文では$W$は小文字だが直した]、これを「標準化精度単位」と呼ぶ。$a_{ij} \geq 0$である。$\mathbf{a}_j = (a_{1j}, \ldots, a_{Ij})^T$とする。

　コスト関数を定義しよう。$x_i = 1/n_i$($n_i$が0なら無限大)として
　$g(\mathbf{x}) = \sum_i c_i / x_i, \ \ c_i > 0$
とする[要するに票単価を$c_i$としますってことね]。固定コストをいれてもいいけど以下の話には影響しない。

　この最適割当問題は以下のように定式化できる。
　Minimize $g(\mathbf{x})$
　subject to
　　$\mathbf{a}_j^T \mathbf{x} \leq 1, \ \ j=1,\ldots, J$
　　$\mathbf{x} > 0$

　さて、単一変数の最適割当についてはすでに良く知られている。$J=1$のときの上の問題の解$\mathbf{x}^*$は, すべての$i$について$a_{i1} > 0$のときにのみ有限となり
　$x^*_i = \sqrt{c_i} / \left( \sqrt{a_{1i}} \sum_k \sqrt{c_k a_{k1}} \right)$
である。
　これを$J > 1$へと拡張すると... [省略するけど、拡張できるんだそうです]

　$v_i$をちょっぴり動かしたらコストがどう変わるか...[これをシャドー・プライスと呼ぶ由。へー。内容のメモは、まあいいや、省略]
　最適化プログラミングにおける注意点 ... [パス]
　考察...[パス]

　。。。というわけで、こりゃあ私の能力を超える内容だ、と早々に見切ってしまったのだが、最適割当という問題に対する土地勘を養いたかっただけなので、この論文はこれでよし、ってことにしましょー。

論文：データ解析(2018-) - 読了: Bethal (1989) 目的変数が複数ある調査の標本抽出設計における最適割当法

読書日記

読んだ本を淡々と記録します

2018年7月26日 (木)