星野崇宏・前田忠彦(2006) 傾向スコアを用いた補正法の有意抽出による標本調査への応用と共変量の選択法の提案. 統計数理, 54(1), 191-206.
非確率調査の傾向スコア補正について日本語で書かれた代表的な論文。すでに読んでいたが、このたび都合により読み直した。
このたび同趣旨の論文をあれこれ読んでいるのだが、2006年というのは初期に属すると思う。この年、私なにしてたっけ… あれこれあって路頭に迷った末、新聞広告でみた市場調査会社様に拾っていただいたら、これがイケイケの伸び盛りの会社で、思いのほか忙しくて後悔していた時期、かな…
いくつかメモ:
- この論文も、非確率標本では\(y_i\)を測り参照確率標本で測っておらず、しかし共変量\(\mathbf{x}_i\)は共通に測定している、というセッティングを考えている(原文では\(y_i\)も太字だが面倒なので略記する)。2つのデータを縦積みし(サイズを\(N\)とする)、調査1参加インジケータを\(z_i\)とする。強い無視可能性 $$ p(z|y, \mathbf{x}) = p(z|\mathbf{X})$$ を仮定する。傾向スコアを\(w(\mathbf{x}_i, \alpha) = p(z_i = 1 | \mathbf{x}_i, \alpha)\)とする。 $$ y | z=0 \ \sim p(y|\theta_0, z=0) $$として\(\theta_0\)を知りたい(たとえば母平均ね)。
- どうやって傾向スコアを得るのかというと… 5節の分析例では、非確率標本はネット調査(日経リサーチさん)、参照調査はJGSS調査(訪問留置調査)である。単純に縦積みしてロジスティック回帰モデルを最尤推定しているようだ。この研究はJGSSの回答分布を真値とみなして性能を検証しているから、JGSS調査を単純無作為標本とみなしているのだと思う。いずれにせよ、Wu(2022)からみると批判の対象だと思う(Wuさんたちに言わせれば、縦積みしたデータから推定した傾向スコアには一致性がない)。
- 面白いのは、傾向スコアモデルとして、わざわざ4パラメータのロジスティック回帰モデルを使っているという点。その理由は(1)調査への割り当てには共変量によって説明されない要素が存在するはずだから、(2)あまりに小さい傾向スコアは解析を不安定にさせるから。なるほどー。別に傾向スコアモデルの関数形はなんでもいいわけだから、4パラメータ・ロジスティックというのもありだよね。
- 傾向スコアが無事に手に入ったとして、そこから先のアプローチは次の通り。
さあ、\(\theta_0\)の推定量\(\tilde{\theta}_0\)を開発しましょう! それはですね、これから重みつき対数尤度関数\(Q^W_N(\mathbf{y}, \mathbf{x}, \mathbf{z}|\theta_0, \alpha, z=0)\)を定義するんだけど、傾向スコアモデルのパラメータ\(\alpha\)の代わりにその最尤推定量\(\hat{\alpha}\)を放り込んだとして、そいつを最大化してくれるような\(\theta_0\)、つまり$$ \frac{\partial}{\partial \theta_0} Q^W_N(\mathbf{y}, \mathbf{x}, \mathbf{z}|\theta_0, \hat{\alpha}, z=0) = 0 $$ を満たすような\(\theta_0\)なわけ。
それではご紹介しましょう。対数尤度関数はこちら!$$ Q^W_N (\mathbf{y}, \mathbf{x}, \mathbf{z} | \theta_0, \alpha, z=0) = \frac{1}{N} \sum_{i=1}^N \frac{z_i}{w(\mathbf{x}_i, \alpha)} \frac{1-w(\mathbf{x}_i, \alpha)}{p(z_i=0)} \log p(y_i | \theta_0, z_i = 0) $$ えーっと… 総和記号の内側が評価されるのは\(z_i = 1\)の人だけで、\(p(z_i =0)\)は共通の事前確率だから、結局のところ個体対数尤度につけた重みは、傾向スコアを\(w_i = w(\mathbf{x}_i, \alpha)\)として\(\frac{1-w_i}{w_i}\)だ。要するに、どうにかして傾向スコア\(w_i\)が得られたら、あとは非確率標本の個体に重み\(\frac{1-w_i}{w_i}\)を使って\(\theta_0\)を推定しろ、ということであろう。
具体例でいうと、\(y\)が二値変数で $$ y|z=0 \ \sim Bernoulli(\theta_0) $$ として(原文では\(p\)だが勝手に変えた)、母比率の推定量は、\(w’_i = \frac{1-w_i}{w_i}\)として $$ \tilde{\theta}_0(\hat{\alpha}) = \frac{1}{\sum^N z_i w’_i} \sum^N z_i w’_i y_i $$ となる。なるほど。NonProbEstパッケージでいうところのSchonlau-Couperウェイトだ。 - この論文の白眉は、なんといっても共変量選択のくだりだと思う。4節での提案をメモしておく。
- 個人内変動が少なく、かつ両方の調査で継続的に測れそうな奴。
- 調査間で差がある奴。
- 補正したい項目を共変量に回帰させたとき、偏回帰係数がどっちの群でも同じで (あああ、なるほどね)、標準偏回帰係数の絶対値が大きい奴。
- 上記の基準でいったん選択し、\(y\)の期待値の調査間のずれ(二乗誤差)が小さくなるように共変量を減らすがよかろう。