読了: Schonlau & Couper (2017) Web調査虎の巻 in 2017

Schonlau, M., Couper, M.P. (2017) Options for Conducting Web Surveys. Statistical Science. 32(2), 279-292.

 非確率標本の傾向スコア調整の文脈でときどき引用される論文。ついでに目を通しておこうという主旨で手に取ったのだが、正直、この話題にちょっと飽きかけている。
 著者らの名前からもわかるように、この論文は統計学というより調査方法論の論文で、数式はほとんど出てこない。
 → いま気が付いたけど、この雑誌のこの号はComplex Surveys特集号。というか、私はこの特集号の存在にとっくに気づいていて、イントロと収録論文2本にすでに目を通しているではないか。笊で水を汲んでいるようなものだな…

1. イントロダクション
 Web調査はすっかり普及しました。Web調査にもいろいろあるので一概に悪く言うのはよくないです。[…]
 Web調査が最適なのはどういう母集団、どういうリサーチ・クエスチョンに対してでしょうか? Web調査の良し悪しとは、何と比べての良し悪しなのでしょうか? […]

2. 確率ベースのアプローチ
 Web調査で確率標本を得るアプローチは主に3つある。

  • オフラインでリクルートしてオンラインで実査。欠点: (1)コスト。(2)途中でモード(対面, 電話、web, etc.のこと)を変えないといけない。
  • 混合モード。同時混合モード(郵送なんだけどwebでも回答できるとか。ただし郵送-webだと回答率が下がることがわかっている)、系列的混合モードがある。住所ベース抽出が良く用いられている。
  • 確率ベースwebパネル。例として以下がある:
    • オランダ: LISS panel, Dutch Immigrant Panel
    • US: GfK Knowledge Panel, USC’s Understanding America Study, Pew American Trends Panel, NORC’s AmeriSpeak Panel
    • ドイツ: German Internet Panel(GIP), GESIS panel
    • フランス: ELIPSS Panel
    • ノルウェー: Norwegian Citizen panel
    • スウェーデン: Citizen panel

    内部利用のみの奴、学術向けに公開の奴、商用まで可能なやつ、などいろいろある。リクルートは伝統的なやり方でやっている。たとえばドイツGIPは、3段階確率抽出、PSUは250. [台帳はどうなってんですかね? ドイツでは住基台帳のようなのを閲覧させてくれるのだろうか]
    […確率ベースwebパネルの維持の話。中略するけれど、訓練された対象者のほうがsatisficingの傾向が強いという研究があるそうだ。Schonlau &Toepoel(2015 Surv.Res.Methods)]

3. 非確率標本と確率標本を併用する推定量
 非確率標本と確率標本の併用によってMSEは低くなりうる。非確率標本が安上がりで大量でバイアスが小さいときに有効。[…]

4. 非確率的アプローチ
 リクルートの新しい試みとして以下がある:

  • リバー・サンプリング
  • blended panel
  • オンラインでのインターセプト・サンプリング(Google Consumer Surveyとか)
  • ランダム・ドメイン・インターセプト[ああ、ありましたねそういうの! すっかり忘れてた。日本でも積極的に営業しておられた方がいらしたけど、あれってどうなったんだろうか]
  • SNSからのリクルート
  • Amazon Mechanical Turk
  • Xboxでの調査 [Wang et al.(2015)が挙げられているけど、あれしか引用できるのがないんじゃなかろうか]

 […]

5. 対象者駆動型抽出によるweb調査
 対象者駆動型抽出(RDS)とは、対象者に知人を(たとえば)4人紹介してもらうというやり方。US CDCのAIDSサーベイランスで用いられている。Web調査と併用している研究者もいる。ふつうは物理的に紹介してもらうんだけど、最近ではFacebookでやるというのもある。
 分析に当たっては、対象者は紹介者の社会的ネットワークからランダムに抽出され、チェーンは十分に長いという仮定を置くんだけど、現実にはランダムではないし、ネットワークのhomophilyによるバイアスを消せるだけの長いチェーンを得るのは難しい。[どうやら研究があるらしい。へえええ。Gile & Handcock (2010 Sociol.Methods)というのが挙げられている]

6. 非確率標本によるweb調査の調整
 非確率標本の調整について。今号掲載のElliott & Valliant(2017)も読みなさい。

  • 補助変数の母集団分布が既知なら事後層別できる。
    • ウェイトは全変数をクロスしたセルに与える。
    • 補助変数が連続変量ならカテゴリ化が必要。
    • 補助変数の(同時分布じゃなくて)周辺分布しかわかんない場合とか、層が多すぎるときにはレイキングが使える。
    • 母集団分布がわかんなくても高品質の確率標本があればそこから推測することができる。
    • 実務的にはウェイトが大きすぎると困るのでトリミングする(バイアス-分散トレードオフとして捉えることができる)。
    • Villant, Dever, & Kleuter(2013 書籍), Bethlehem & Biffignandi(2011 “Handbook of Web Survey”)をみよ。
  • 参照標本を使った傾向スコアリング。
    • 確率標本としてはRDDが使われることが多い。
    • 傾向スコアリング自体には長い歴史があるが、Web調査の補正ではHarris Interactiveがパイオニア(Taylor et al., 2001 IJMR)。
    • 対象者\(k\)の非確率標本への所属インジケータを\(R_k\)、補助変数を\(X_k\)として、傾向スコアは\(\rho(X_k) = P(R_k = 1|X = X_k)\)。結合標本のロジスティック回帰で推定することが多い。Elliott & Valliant(2017), Lee(2006 J.OfficialStat.), Lee & Valliant(2009 Soc.Methods.Res.), Schonlau et al.(2009 Soc.Methods.Res.)をみよ。[ちょっと待って、これは結合標本における条件付き確率なの、それとも有限母集団における条件付き確率なの? そこんとこはっきりさせてくださいよ]
    • 傾向スコアの目的は補助変数に関して標本をバランスさせることである。
    • 傾向スコア調整の方法はいくつかある。(1)傾向スコアの推定値で5層くらいに層別し、層を\(h\), 参照標本の層サイズを\(n_h\)として、非確率標本で\(\bar{y}_{ps} = \frac{1}{n} \sum_h n_h \bar{y}^{(h)} \)を求める。(2)傾向スコアの推定値を\(\rho(x_i)\)として、\(w_i = (1-\rho(x_i)) / \rho(x_i)\)を重みにしてHajek推定する。いずれによせ、推定値の分散は拡大する。
    • 傾向スコア調整は、補助変数が非確率標本と参照標本の(すべてのアウトカムに関する)違いを適切に捉えているときに成功する。これを強い無視可能性の仮定という。[ずいぶん雑な説明だなあ…]
  • 参照標本を使った標本マッチング。
    • 傾向スコアじゃなくて複数の補助変数でマッチングする。
    • Vevreck & Rivers(2008 J.Elect.Publ.Opin.Part.)はMSEが小さいと主張している。Bethlehem(2016 Soc.Sci.Comput.Rev.)は否定的。
  • 一般化回帰推定量(GREG)。
    • 補助変数の標本平均ベクトルを\(\bar{x}\), 母平均ベクトルを\(\bar{X}\)として、\(\bar{y}_{GR} = \bar{y} + (\bar{X} – \bar{x})^\top b \)とする。\(b\)はOLS回帰で求める(確率不均一な場合はそれも考慮する)。
    • 事後層別もGREGの一種と捉えることができる。
    • 実際にはあまり使われていない。あまり知られていないから、そして多くの非確率標本はそもそも調整を気にしないからだろう[壮大にちゃぶ台をひっくり返すね…]。

 補助変数について。
 補助変数は回答傾向とアウトカムの両方に関連していなければならない。多くの調整スキーマは回答傾向との関係だけに注目している。
 補助変数としては、デモグラフィック変数、いわゆるwebographic変数(オンラインとオフラインの母集団の違いを捉えるための態度変数)が用いられる。一般解はない。Harris Interactiveはwebographic設問のパイオニアだが、公開していない(調査票から見当がつくけれど)。
 我々の知る限り、任意型パネルのベンダーで傾向スコア調整やwebographic変数を使っているところは少ない。メリットがあまり感じられず、クライアントに余計な労力をかけるのを避けたいからだろう。[← この推測はどうなんですかね? たとえば「web調査をやったら、納品された集計表のなかに頼んでもいないウェイティングがかかった集計値があって、なにこれって聞いたらその調査会社が標準的に提供している傾向スコア調整でした」というようなことがあってもいいはずじゃないですか。おそらく業界がそうなっていないのは、寝た子を起こすのが嫌だからだろうと思う]

7. 調整の実際
 確率調査の場合なら、調整の手順は、(1)不均一確率選択を修正するベースウェイトをつけて(2)すべての標本単位がeligibleでない場合はウェイトを修正して(3)無回答のためにウェイトを修正して(3)カバレッジエラーを修正するためにウェイトを修正したり(事後層別とか)、分散を減らしたり(トリミング)する。いっぽう非確率調査ではセンサス、レジスター、確率調査に合わせるだけである。
 調整はどれだけ効くかという実証研究もある。[…メモとってもしょうがねえので省くが、Yeager et al.(2011 POQ), Schonlau et al.(2009 Sociol.MethodsRes.), Schonlau et al.(2004 Soc.Sci.Comput.Rev.) などの紹介…] 要するに、調整のおかげでふつうバイアスは減る。でも分散は増える。
 […]

8. 考察
本論文のキーメッセージ:

  • web調査のための標本抽出にはいろんな方法がある。web調査を一概に良いとか悪いとかいうのは危険である。
  • web調査の目的はいろいろある。方法を使い分けることが大事。
  • 統計的調整は銀の弾丸ではない。
  • 調整のための補助変数について事前に熟考せよ。
  • 情報公開が大事。

—————-
 2017年時点のweb調査をめぐる現状、という感じの論文であった。わたしゃ論文読むときは基本的に素のまま読んでいて、翻訳や生成AIを使うことはあまりないんだけど、さすがにこういうのを読む際は、なにかのツールで要約したいなって思っちゃいますね。