読書日記: 読了: Gelman (2007) ウェイティングと回帰モデリングを巡る悪戦苦闘

« 読了: Reise, Widaman, Pugh (1993) 測定不変性の検討：CFA vs IRT | メイン | 読了: Barrett (2007) 私はSEMの適合度指標を禁止したい »

2014年2月25日 (火)

Gelman, A. (2007) Struggles with survey weighting and regression modeling. Statistical Science. 22(2), 153-164. (with commentaries)
　調査ウェイティング(確率ウェイティング)に関する論文。これまでに三回ほどトライし、そのたびに途中で挫折した、いわくつきの難敵。このたび細かくメモを取りながら読んで、ようやく読了。疲れた。

　Gelman先生いわく。
　調査ウェイティング、それはゴミ屋敷だ("Survey weighting is a mess")。単純な平均や割合の推定を別にすれば、ウェイトをどう使えばいいのかはっきりしないことが多い。平均の標準誤差さえややこしい。魅力的な代替案として、ウェイティングのかわりに回帰モデリングをするという手があるが、膨大な交互作用をどう扱うかによって結果はどうにでも変わってしまう。本論文は、標本と母集団の間の差を調整するひとつの戦略として、事後層別と階層回帰の併用を提案する。

　通常、モデルに基づく推測というものは、データ収集時のデザインが「無視可能」だと暗黙のうちに想定している。つまり、回帰の文脈からいえば、標本抽出なり無回答なりに影響するすべての変数が含まれているという想定であり、標本抽出の文脈でいえば、事後層別セルのなかで抽出確率が等しいという想定である。

　ここで、ウェイティングと事後層別を統一的に扱う枠組みを導入しておこう。
　まず事後層別について。$X$が離散的だとして、その可能なカテゴリを事後層別セルとよび、$j$ 番目のセルの母集団サイズを$N_j$, 標本サイズを$n_j$とする。どの事後層別セルでもデータは単純無作為抽出 (SRS) だと考える。標本サイズの割り当て方はこの話とは無関係である (古典的な層別抽出も事後層別の一種と考えるわけだ)。$N_j$ は既知だとしよう (未知な場合も多いが、その推定の話は脇に置いておく)。
　任意の変数の母平均
　$\theta = (\sum N_j \theta_j) / (\sum N_j)$
の推定値は
　$\hat\theta^{PS} = (\sum N_j \hat\theta_j) / (\sum N_j) $
である。

　次にウェイティングについて。
　個体ウェイトを $w_i$ として、
　$\bar{y} = (\sum w_i y_i) / (\sum w_i)$
　ここでややこしいのは、事後層別でないウェイティングがあるという点だ。たとえば、電話調査で世帯当たり電話回線数の逆数をウェイトにするような場合がそれだ(ウェイト値はデータと無関係に決まる)。でも、こういう固定ウェイトを使っていると、世帯当たり電話回線数と無回答の間に関係があったときにバイアスが生じる。本論文ではそういうのもみんな事後層別に組み込んだ場合を考える(つまり、固定ウェイトを使わず、世帯当たり電話回線数で事後層別する場合について考える)。

　さて。
　サーヴェイ・データからの母平均の推定のためにウェイトつき平均を用いるのは標準的だが、回帰のような複雑な分析の場合にどうすべきかは明確でない(※レビューとして以下が挙げられている: DuMouchel & Duncan, 1983 JASA; Kish, 1992; Pfeffermann ,1993 Int.Stat.Rev.)。

　抽出確率が$X$に依存しており、$y$は$X$と$z$に依存しているとしよう。$y$の$z$への回帰を正しく推定するためには、$y$を$X$と$z$に回帰すればよい。ところが$z$も$X$と関係しているかもしれない。とすると、交互作用項をいれないといけないかもしれない。
　たとえば、標本における男女の割合が母集団における割合に一致させてある調査を考えよう。$y$を収入の対数、$z$を身長とする。
　まず、収入の身長への回帰係数に関心がある場合。我々はかつて以下の推定式を得た(※$male$ってのは男性である時に1, 女性である時に0となる変数):
　$y = 8.4 + 0.017 z - 0.079 male + 0.007 z \times male + error$
身長$z$が与えられた時、年収の対数の期待値は
　$E(y | z) = 8.4 + 0.017 z - 0.079 E(male|身長=z) + 0.007 z \times E(male|身長=z)$
　今度は、白人と非白人のあいだの年収の平均的な違いに関心がある場合。推定された回帰式は
　$y = 9.5 - 0.02 white + 0.20 male + 0.41 white \times male + error$
年収の対数の期待値の差は
　$E(y | white = 1) - E(y | white = 0)$
　$= -0.02 + 0.20 {(E(male|white=1) - E(male|white=0)} + 0.41 E(male|white=1)$
　このように、交互作用項をいれたが最後、$z$なり$white$なりの係数だけみているわけにはいかないのである。(←長い説明だったわりには単純な話だ... それともなにか見落としているのだろうか？)

　いよいよ本題。
　New York City Social Indicators Surveyを例に挙げよう。「ニューヨークの成人は健康な状態にあると思う」という回答の割合に注目する。電話回線数、家族構成、エスニシティ、年齢、教育の分布が母集団に合うようにウェイティングして集計すると、1999年の割合は75%, 2001年の割合は78%。ちょっと増えているようだ。では、どのくらい増えているのか。ふたつの答えがある。

単純に差をとる。差は3.4%。
2年分のローデータを縦に積む。1999年データで0, 2001年データで1となるダミー変数をつける。で、この変数、ならびにウェイティングに用いた変数群 (電話線の数, 家族構成, ...) を独立変数にした回帰式を推定する。年度ダミー変数の係数は6.6%。

　どちらが正しいのか？この例に限って言えば、諸事情により前者のほうが正しいと思う。でも一般には後者の方法のほうが好まれるだろう。以下では事後層別の下で正しい答えを与えてくれて、より複雑な推定対象にもスムーズに一般化できるアプローチについて考えよう。

まず、古典的なモデル。

もっとも単純な考え方は完全な事後層別である。つまり、セル推定値 $\hat\theta_j$ としてセル平均 $\bar{y}_j$ を使って
　$\displaystyle \hat\theta^{PS} = \frac{\sum N_j \bar{y}_j}{\sum N_j}$
これは、すべての事後層化セルを表すインジケータを含めた回帰だとみることができる。
全然ウェイティングしないという考え方もある。これは、定数項のみの回帰だと考えることができる。
この2つの中間地点にあるのが、層別変数群をいれるが交互作用項はいれない回帰である。

　三番目の路線について。層別変数がk個あり、そのデータ行列がXであるとしよう。回帰モデルは
　$y \sim N(X \beta, \sigma^2_y I) $
　$\hat\beta = (X' X)^{-1} X' y $
J個の事後層化セルの母集団サイズのベクトルを $N^{POP}$, 層別変数の行列を $X^{POP}$とする。セル平均の推定値は $X^{POP} \hat\beta$ だ。では母平均の推定値はどうなるか。それはセル平均の推定値の加重平均であるから
　$\displaystyle \hat\theta^{PS} = \frac{1}{N} \sum N_j (X^{POP} \hat\beta)$
$\hat\beta$を代入して
　$\displaystyle \hat\theta^{PS} = \frac{1}{N} (N^{POP})' X^{POP} (X'X)^{-1} X' y$
これを $\displaystyle \hat\theta^{POP} = \frac{1}{n} \sum w_i y_i$ と書きなおそう。$w$ は
　$\displaystyle w = (\frac{n}{N} (N^{POP})' X^{POP} (X'X)^{-1} X') '$
$w$の合計は $n$ になる。つまり、これもウェイティングだと捉えることができる。なお、$w$はデータとモデルに依存しているが$y$には依存していない点に注意。(←おおおー。なるほど...)

　次に、著者が提案する階層モデル。セル平均 $\hat\theta_j$ を階層モデルで推定する。モデルは
　$y \sim N(X \beta, \Sigma_y)$
$\beta$の事前分布は
　$\beta \sim N(0, \Sigma_\beta)$
　とすると (...中略...) とまあこのように、母平均の推定値は、これこれの式で求めた $w$ によってウェイティングした集計値になる。この方法なら、層別変数間の交互作用項もがんがん叩き込める。
　ここで $w$ は $y$ の分布にも依存している点に注意 ($y$の層内分散と層間分散に依存する由)。従って、注目している変数が変われば $w$ も変わる。(←なるほど...)

　考察。
　もともとウェイティングには次の欠点がある。(1)回帰係数のような複雑な推定対象に対してどうウェイティングすればいいのかわからない。(2)標準誤差の推定が困難。(3)ウェイト値をつくるのが大変。層別変数を選んだり、交互作用をどこまでいれるかきめたり、セルをプールしたりウェイト値を切り詰めたり。
　いっぽうモデリング路線ににも欠点がある。ちょっとした調査でも、層別変数をいれたモデルはえらく複雑になる。
　本論文で提案したような、信頼がおけてかつ簡単な統合的アプローチの開発が求められている。云々。

　いやー、疲れた。
　もともとこの論文を読もうとしていたのは、平均や割合のウェイティングと、もっと複雑な統計量のウェイティングを統一的に扱う枠組みに関心があったからであった。そうした具体的な展開はなかったので、その点では期待通りではなかったけれど、勉強になったので良しとしよう。特に、回帰モデルによる共変量調整とウェイティングによる調整の関係を整理するところが大変勉強になった。これまで誤解していた点に気が付いた。

　この論文、5人の研究者によるコメントと返答がついているのだが(Bell & Cohen, Breidt & Opsomer, Little, Lohr, Pfeffermann)、力尽きたのでパラパラめくっただけ。返答のほうにはこんなことが書いてあった: 私はウェイティング路線やモデリング路線に対していささか悲観的すぎたかもしれない。優秀なリサーチャーなら適切なウェイトを決められるかもしれないし、標準誤差だってジャックナイフ法とかでうまく求められるかもしれませんわね。またモデリングの際にはブートストラップ法などが助けになるかもしれませんわね。云々。

2022/08/13 追記: 再読し、メモを取り直しました。

論文：データ解析(-2014) - 読了: Gelman (2007) ウェイティングと回帰モデリングを巡る悪戦苦闘

読書日記

読んだ本を淡々と記録します

2014年2月25日 (火)