読了:Stier, et al.(2020) サーヴェイ・データとデジタル・トレースデータの統合

Stier, S., Breuer, J., Siegers, P., Thorson, K. (2020) Integrating Survey Data and Digital Trace Data: Key Issues in Developing an Emerging Field. Social Science Computer Review, 38(5), 503-516.

 仕事の都合で読んだ奴。「サーヴェイデータとデジタル・トレース・データの統合」特集号の巻頭論文。

1. 背景
 計量社会科学者はこれまでサーヴェイに頼ってきたが、自己報告の信頼性は限られ、また回答率は低下している。
 いっぽう計算社会科学(CSS)ではデジタルの行動トレースデータを非侵襲的に集める。しかし態度やパーソナリティといった変数はとれない。
 そこで両者を結合しようという話になるのだが、以下の困難がある。(1)どうやってリンクさせるか。(2)手法・倫理問題についてのスタンダードが共有されていない。(3)結合するとどういう利点があるかというメタ・パースペクティブが欠けている。
 そこで特集号を企画した次第です。

2. 2つのパラダイム: サーヴェイ・リサーチとCSS
[略]

3. サーヴェイとデジタル・トレース・データのリンク: その方法と研究上の利点
 リンキングのタイプを分類しよう。注目すべきポイントとして以下がある。

  • 分析の単位。個人レベルか、累積レベルか。
  • 事前か(サーヴェイの対象者にこれから追跡することへの同意をとる場合)、事後か(対象者に過去データを集めることへの同意を取る場合)。

2×2で4分類となる。さらに、公的アクター(政治家とか組織とか)への調査と同時に過去データを集める場合を加えると5つとなる。

(A)累積レベル、事前。すなわち、オンライン・コンテンツ消費の累積レベル研究。たとえば任意型パネルについて、調査とwebサイト訪問を比べるような場合。

  • Mukerjee, et al.(2018 J.Comm.): 人々の注意はメジャーブランドに集中する
  • Nelson & Webster (2017 SocialMedia+Soc.): ニュースwebサイトへの訪問者は、党派的なサイトであってもイデオロギー的に多様。[んんん? まず調査でイデオロギーを聞いておいて、web行動を閲覧者のイデオロギー別に集計するってこと?]

(B)累積レベル、事後。すなわち、調査結果をtwitterとかGoogle Trendsとかと比べる。

  • Pasek, et al.(2019, 本特集号): オバマ支持率とtwitter感情の時系列の比較
  • Beauchamp (2017 J.Polit.Sci.): 世論調査とtwitterを州レベルで比較

(C)公的アクター。

  • Quinlan, et al.(2018 Info.Comm.Soc.): 候補者のキャンペーン予算(調査で調べる)と候補者のtwitter使用の関連性。
  • Karlsen & Enjolras (2016 Int.J.Press/Polit.): 候補者の目標が政党中心的か個人中心的かと候補者のtwitter使用の関連性。

(D)(E)個人レベル、事前ないし事後。

  • Menchen-Trevino (2016 Conf): 事後リンク研究の例
  • Thorson & Wells (2016 Conf): 事後リンク研究の例
  • Jurgens et al.(2019 Soc.Sci.Comp.Rev.): メディア使用の自己報告は正確でない
  • Araujo et al.(2017 Comm.Methods.Measures): ネット使用時間の過大報告
  • Scharkow(2016 Comm.Methods.Measures):): ネット使用時間の過大報告
  • Boase & Ling(2013 J.Comp.Med.Comm.): スマホ使用時間の過大報告
  • Revilla, et al. (2017 Soc.Sci.Comp.Rev.): ウェブサイト訪問の自己報告はあてにならない
  • Guess(2015 Polit.Anal.): ニュースwebサイトへの訪問の過大報告
  • Vraga & Tully (2018 Soc.Sci.Comp.Rev.): ニュース記事閲覧の過大報告; 政治的関心は誤報告が多い
  • Guess et.al.(2018 Polit.Comm.): SNS使用の自己報告は累積レベルでみると意外に正確; 政治的関心は誤報告が多い
  • Haenschen(2019, 本特集号): SNS使用の自己報告は累積レベルでみると意外に正確; 政治的関心は誤報告が多い
  • Kosinski, et al.(2013 PNAS): パーソナリティとFacebook上の行動
  • Wells & Thorson(2015 Soc.Sci.Comp.Rev.): Facebookでのニュース曝露は政治参加につながるが政治知識にはつながらない
  • Stopczynski et al.(2014 PLOS ONE): コペンハーゲン・ネットワーク研究。Facebook利用頻度と外向性の関連
  • [その他、コンテンツ接触と個人特性の関連の研究がいくつか紹介されているが、省略]
  • Munson et al.(2013 Conf): web閲覧行動に介入する実験

サーベイとデジタル・トレース・データの結合における今後の課題

対象者のリクルーティング
[パス]

バイアスの除去
 以下によって選択バイアスが生じる。(1)調査へのユニット無回答, (2)研究しているオンライン・サービスの不使用, (3)トラッキングへの非同意, (4)トラッキングへの無回答。[…]
 YouGovのような会社は行動トラッキングのオンラインパネルを持っているけど、任意型であって、オンライン母集団の代表でさえない。
 [困ったね、という話しか書いてなかった。なあんだ]

デジタル・トレース・データへのアクセスと共有
[パス]

デジタル・トレース・データに基づく指標の構築
 デジタル技術への人々の関与が加速する昨今、デジタル行動についても新しい理論モデルが必要である。Thorson & Wells(2016 Comm.Theory)の”Curated flows”モデルとか(個人の使用パターンが選好だけでなく社会技術的要因に依存するというモデル)。
 [ほかにもいくつか論点があるけどメモ省略]

結論
[略]
—————
最後に出てきたThorson & Wells (2016) って面白そうだな、と思って探してみたが、理論論文らしく、データのデの字も出てこないようだ。ひえー。