読書日記: 読了：DuMouchel & Duncan (1983) 回帰分析も「ウェイト・バック」すべきでしょうか

« 読了： van de Schoot, et al. (2015) 測定不変性の最前線 | メイン | 読了：Rossi, Gilura, Allenby (2001) k 件法項目で高いほうにばかり答える人や低いほうにばかり答える人がいるのをなんとかする »

2016年5月21日 (土)

仕事も副業もうまくいかないことばかり、たまにスマホの画面でSNSを開くと、あの人もこの人もみんな立派で有意義な人生を送っておられるので、あわてて目をそらし、沼の泥を掬うような地味な仕事のことを考えるのであった...

DuMouchel, W.H., Duncan, G.J. (1983) Using sample survey weights in multiple regression analysis of stratified samples. Journal of the American Statistical Association, 78(383), 535-543.
　調査データの分析の際、標本をウェイティングしている場面(いわゆるウェイト・バック集計をしている場面)で、その標本を使って回帰分析するときはどうすんのさ、という論文。仕事の都合で読んだ。またまた、古い論文を...

　シンプルな回帰分析について考えよう。サンプルサイズ$n$、目的変数1個、説明変数$p$個とする。回帰係数の最小二乗推定量は
　$\hat{\beta} = (X' X)^{-1} X' Y$
だ。
　さてここで、標本の抽出確率が均等でなかったらどうするか。ここでは層別抽出に絞って考える(かつ、$Y$による層別ではないとする)。
　ひとつの考え方は、層を無視して上の推定量をしれっと使うというもの。
　もうひとつは、多くの教科書に書いてあるんだけど、WLS推定量を使うというもの。層別変数を$\tilde{J}$、層数$k$、母集団における割合$\{\pi_j\}$は既知とする。水準$j$のサンプルサイズを$n_j$とすると、個体$i$に与えるウェイトはそいつが属する層を$j_i$として
　$w_i \propto \pi_{j_i} / n_{j_i} $
このウェイトを対角にいれた行列を$W$とする。WLS推定量とは
　$\hat{\beta}_W = (X' W X)^{-1} X' W Y$
　さあ、どっちを使うべきか？ [カーン ←ゴングの音]

　この議論、少なくともKlein & Morgan(1951)というのにまで遡るのだそうだ。
　「しれっと」派の言い分はこう。WLS推定ってのは誤差分散が等しくない時に使うんであって、この話と関係ないじゃん[←そうそう、俺もそう思った]。誤差分散が等質であるかぎり$\hat{\beta}$は不偏かつ最小分散なのであって、層のサイズがどうなっていようがどうでも関係ない。
　いっぽうWLS派にいわせると、抽出スキームのせいでバイアスが生じているはずだから、$\hat{\beta}$はもはや最適でないはずである。どうにかしなきゃ。
　著者らいわく。これは結局、母集団についてどう考えるかで決まる問題だ。

　4つのモデルを考えよう。

　その1, 等質な線形モデル。
　$\tilde{Y} = \tilde{X} \beta + \tilde{\epsilon}$
$\tilde{\epsilon}$は平均0, 分散$\sigma^2$の偶然誤差で、$(\tilde{X}, \tilde{J})$とは独立。

　その2, 混合モデル。
　$\tilde{Y} = \tilde{X} \beta(j) + \tilde{\epsilon}$
$\tilde{\epsilon}$は平均0, 分散$\sigma^2$の偶然誤差で、$(\tilde{X}, \tilde{J})$とは独立。
　つまり、$\beta$が層によって違うと思っているわけである。分析者が関心を持つのは、$\beta$の重みづけ平均
　$\bar{\beta} = \sum_{j=1}^k \pi_j \beta(j)$
である。

　その3、omitted-predictorモデル。
　実は、$q$個の変数$\tilde{Z}$があって、
　$\tilde{Y} = \tilde{X} \alpha + \tilde{Z} \gamma + \tilde{\epsilon}$
なのだけれど、我々は不幸にして$\tilde{Z}$を持っていない。で、$\tilde{Z}$のうち$\tilde{X}$に直交する部分を取り出して$\tilde{U}$とすると
　$\tilde{Y} = \tilde{X} \beta + \tilde{U} \gamma + \tilde{\epsilon}$
なのである。分析者はほんとは$\alpha$と$\gamma$が知りたいんだけど、あきらめて$\beta$を調べているのだ。

　その4、一般的な非線形モデル。ないし、モデルなし。
　$\tilde{Y} = \tilde{X} \beta^* + \tilde{\epsilon}^*$
　$E[\tilde{\epsilon}^*] =0$
　$cov(\tilde{X}, \tilde{\epsilon}^*) = 0$
としか想定しない。$(\tilde{X}, \tilde{J})$ で条件づけられた$\tilde{\epsilon}^*$の期待値とか分散とかについてはなあんにも考えてない。
　分析者が関心を持っているのは
　$\beta^* = E(\tilde{X}' \tilde{X})^{-1} E(\tilde{X}' \tilde{Y})$
である。これは有限母集団を全数調査したときの最小二乗推定値、いわば「センサス係数」だと考えてもよいし、$\tilde{X} \beta^*$が$\tilde{Y}$の最良の線形予測となるような係数なんだと考えてもよい。モデル1,3が正しかったらその$\beta$と等しい。しかし、モデル2が正しいときに$\bar{\beta}$と等しいとは限らない。[←ああ、そうかも... 俄然面白くなってきた。センサス係数は混合モデルの係数の加重和じゃないわけだ]
　ところで、モデル3との関係について。$\tilde{U} \gamma + \tilde{\epsilon} = \tilde{\epsilon}^*$だと思えばモデル4と同じことではある。しかしモデル3には、$\tilde{U}$ というか $\tilde{Z}$は本当は観察できたはずの少数の変数なのだ、という含みがある。

　さて、WLS推定量$\hat{\beta}_W$を使うべきなのはどういうときか。

当然ながら、モデル1が正しいときは使うべきでない。
モデル2が正しい場合、$\hat{\beta}$も$\hat{\beta}_W$も、$\bar{\beta}$の良い推定量とはいえない。[←なるほどね！ ]
モデル3が正しい場合には$Z$を探すべき。無理な場合にはモデル4。
モデル4の観点から$\beta^*$に関心があるときは、WLS推定量を使うべき。少なくとも一致推定量ではあるので。

　ここからは、モデル1を支持できるかどうかをデータで決めるやり方について考えよう。調べるのは
　$\hat{\delta} = \hat{\beta}_W - \hat{\beta}$
もしモデル1が正しければ、$\hat{\delta}$の期待値はゼロ。で...
　ここからよく理解できなくなっちゃったんだけど(ちゃんと読んでないからだ、と信じよう)、$Y$の全分散を、{$\hat{\delta}$ で説明できる平方和、ウェイトで説明できる平方和、誤差平方和}に分解するANOVAを考える。結論だけメモしておくと、以下の方法で「ウェイトで説明できる平方和」$SS_W$を求めることができる由。$Z_ij = w_i X_ij$として、$X$と$Z$を説明変数にした$Y$の回帰を求め、ここから$Z$を落としてまた求める。平方和の差が$SS_W$。で、これを$p$で割った値が、帰無仮説のもとで自由度$p$, $n-2p$の$F$分布に従う。
　最後に実例。読み飛ばした。

　。。。モデル2、すなわち層によって回帰係数がちがうんじゃないかと思っていて、その加重和を推定したいと思っている場合には、OLSだろうがWLSだろうが駄目なんだ、というところが勉強になった。いっぽう、これまでに「ウェイティングして回帰してください」と言われた場面で漠然と想定されていたのはモデル4に近いと思う。

　疑問点が２つ。
　その1。モデル4の立場で、俺はセンサス係数を知りんたいんだ、と割り切って考えることができる場面とはどういう場面だろうか。推定した係数に対して、層間の異質性を無視して実質的な解釈を与えるならば(そうなることが多いと思う)、それは途中でモデル1に視点をすり替えたことになる。前から思っているんだけど、「データ生成メカニズムがどうなっているのか知りませんけど、とにかく母集団を全数調査したときに得られるであろう係数を推定しました」っていうのは、なんというか、すごく実査担当者的な発想だと思うんですよね。かつて私の上司様がシニカルに呼んでいた、「コンナンデマシタケド」的データ解析だ。その係数をどう解釈せえというの？という問いに対しては、ごにょごにょと言葉を濁すわけである。胸が痛むので大きな声ではいえないけど、それはちょっと不誠実なんじゃないかしらん。
　もっとも、係数を実質的に解釈するつもりがなく、単に「これから同一母集団から単純無作為抽出する標本に適用できる最良の線形予測式」を求めることに関心があるのだ、ということであれば、それはそれで納得するけど。その場合のWLS推定量とは、学習データ(層別抽出)と検証データ(無作為抽出)で層の割合が違うので学習時に修正しておきたい、という話として捉えられるのではないかと思う。
　その2。層別抽出においてモデル3ないし4の立場をとったとして、WLS推定量が一致性を持つことはわかったけど、それは最良な推定量といえるのだろうか？もっと良い推定量があったりしないのでしょうか。WLSって、誤差分散の不均一性に対処するために、誤差分散が大きそうな個体に小さなウェイトを与える方法だと思うんだけど、層別抽出の際のウェイトとはあくまで抽出確率の逆数であって、誤差分散とは関係ないと思うんですよね。WLSじゃなくて、個体尤度に重みをつけた最尤法を使うってんなら、なんとなく納得するけど... SASのproc surveyregやRのsurveyパッケージはどうなっているんだろうか、ヒマになったら調べてみよう。

論文：データ解析(2015-) - 読了：DuMouchel & Duncan (1983) 回帰分析も「ウェイト・バック」すべきでしょうか

読書日記

読んだ本を淡々と記録します

2016年5月21日 (土)