読書日記: 読了：01/15 (A)

2008年1月15日 (火)

Potter, F.J. (1990). "A study of procedures to identify and trim extreme sampling weights." Proceedings of the Section on Survey Research Methods, American Statistical Association, 225-230.
仕事の空き時間に読んだ。
　層別抽出とか事後層化とかで，各ケースを抽出確率の逆数でウェイティングして集計するとき，不幸にして抽出確率が小さい層があったりすると，ウェイトがすごく大きくなっちゃって困る。そこで，ある基準を上回ったウェイト値はトリミングしちゃおうという発想が出てくる。その基準を決める方法として，
- 既存の方法を2つ紹介します(MSEの推定値を最小にする方法，NAEPで使われている方法)。
- さらに新手法を二つご提案します(テイラー級数を使う方法，ウェイトの理論分布を使う方法)。
4つの手法をARFデータに適用して結果を比較してみました。という内容。

　ARF(Area Resource File)というのは米保健社会福祉省による大規模データベースらしい。実データに適用したところで優劣はいまいちはっきりしないわけだが(そりゃそうだよな)，論文の主旨はむしろ4つの手法を並べてみせるところにあるようだ。
　テイラー級数を使う方法とMSEを最小化する方法は，ターゲットになる調査変数が同定されているときの話である。調査データにウェイティングするとき，なにが主要な調査変数かは決まっていないのが普通だろうし，もし決まっているのならマルチレベルモデルをつくればいいんじゃないかと思う。というわけで，適用範囲がかなり狭いような気がする。いっぽう，ウェイト分布を使うやり方は魅力的だけど，あいにく難解なもので(ウェイト値はベータ分布に従うと仮定すると...云々。降参)，実装しているソフトがないことにはお手上げである。それにNAEP方式でやってもさほど変わらないそうだから，だったらNAEP方式でやればいいやね。
　NAEP(全米の学力テスト)で使っている方式とは：ウェイト値はすべて二乗する。その平均のc倍を基準と定める(cは分布をみて決めればよい。NAEPでは10)。基準を上回っているウェイト値は基準まで切り詰め，その分ほかのウェイト値を底上げして(平均が変わらないように)，やおら基準を再計算する。これを繰り返す。んだそうな。案外ローテクだなあ。
　PotterというのはRTI internatinalというところのひとで，ここはSUDAANという複雑な調査データの分析に特化したソフトをつくっているから，きっとその開発関係者なのであろう。それにしても，延々と検索してもこの種の議論が公的調査の文脈でしかみつからないのが不思議である。マーケティングリサーチでも同じ事が起きるだろうに。みなさんどうしておられるんですかね。想像するに，こんな勉強をしている暇があったら，もっとお金儲けに直結したことを考えた方が良いのであろう。いくら勉強しても統計学者になれるわけではなし。。。

SUDAANをgoogleで検索すると，日本語で言及しているページもあることはあるのだが，最初に出てくるのは大洗町の割烹「寿多庵」である。アンコウ鍋か，いいなあ。。。

論文：データ解析(-2014) - 読了：01/15 (A)

読書日記

読んだ本を淡々と記録します

2008年1月15日 (火)