elsur.jpn.org >

« 読了:03/09まで (F) | メイン | 読了:04/06まで (C) »

2008年3月 9日 (日)

Little, R.J.A., Vartivarian, S. (2005) Does weighting for nonresponse increase the variance of survey means? Survey Methodology, 31(2), 161-168.
 いま手元にないのであいまいなのだが。。。無回答の補正のためになんらかの補助変数をつかってウェイトバックしたとき,統計量の偏りは減るが分散は大きくなる,と一般に考えられているが,一概にそうとはいえません,という内容であった。偏りが除去できるかどうかは補助変数と無回答との関連性によって決まり,分散がどうなるかは補助変数と集計対象の変数との関連性によって決まる,とのことである。なるほど,そうだろうなあという話だが,きちんと数式とシミュレーションで示してくれているので,勉強になった。

 ここ数ヶ月,ずうっと調査データのウェイティングのことについて考えていた。あれこれ読みかじって改めて痛感したのは,俺には数学のスキルが圧倒的に足りない,ということであった。正直,これではいくら勉強したって埒があかない。これからどうやって生きていけばいいんでしょうかねえ。
 いくら文献を読み漁ってもきりがないので,もうこれはこの辺にして別のことを考えよう,と金曜夜に決意した。散乱した資料を整理するついでに,あとで読むつもりだったこの論文に目を通した。雑誌はカナダの学会誌で,マイナー誌なので後回しにしていたのである。これを先に読んでおけばよかったなあ。
 ウェイティングは偏りの除去のためにある,というのが直観的な理解だが,「集計対象の変数と強く関連しているが無回答とは関連しない」補助変数でウェイティングすると,無回答による偏りは除去できないが統計量の分散を小さくすることができるわけだ。実際の調査では,非回収誤差はしょうがないけど分散は小さくしたい,という不思議な状況も少なくない(トラッキング調査とか。とにかく経年で不安定なのが困る)。そんなとき,「ウェイティングによって非回収誤差を取り除きましょう」などと云いつつ,良さそうなデモグラフィック属性でツルッと事後層化ウェイティングを掛けてしまう,という方法も可能なわけだな。

 この論文も含め,このたびウェイティングをめぐる議論を読んでいて不思議だったのは,みんな特定の調査変数の統計量を真値に近づけることばかり考えているという点だ。実際の集計では,ウェイト値はいったん決めたらすべての変数に対して用いるわけで,どの変数でもMSEがそこそこ小さい,というようなウェイト値が望ましいのではないかと思うのだが。。。まあそれは,俺の視野がそういう多目的的な調査に向いているからかもしれない。

論文:データ解析(-2014) - 読了:03/09まで (A)