« 読了:Forlines, Miller, Guelcher, & Bruzzi (2014) 予測の集約を社会的ネットワークを使って改善する | メイン | 読了:Arnulf, Larsen, Martinsen, Bong (2014) 調査票をみせてよ、結果を当ててやるからさ »
2014年9月11日 (木)
Brynjolfsson, E., Geva, T., & Reichman, S. (2013) Crowd-Squared: A New Method for Improving Predictions by Crowd-sourcing Google Trends Keyword Selection. Workshop on Information Systems and Economics (WISE2013).
ネットで調べものをしていて見つけたもの。あることをwebで調べるときの検索語をクラウドソーシングで決めましょう、という提案。
背景には、Google trendなんかを使って将来予測を試みるとき、どうやって検索語を決めたらいいか、という問題がある。著者らはもともとGoogle trendで不動産価格を予測するというような研究をやっているらしい。
もちろん、Googleの中の人であれば片っ端から調べるという手もあるわけで、たとえばGinsberg et al.(2008, Nature)のインフルエンザ予測は5000万語を調べているそうなのだが、普通の人には望むべくもない。
そこで、検索語を決めるためのオンライン・ゲームをつくり、クラウド・ソーシング(Amazon Mechanical Turk)でデータを集める。ううむ、面白そうではないですか。いったいどんな仕掛けかと、興味深々だったのだが...
たとえばインフルエンザの場合。webページにキュー単語"Flu"を表示し、それを取り巻くように5つのテキストボックスを表示する。で、"Flu"から連想される単語でボックスを埋めさせる。単純に集計して、連想語ベストテンを使う。なお一位は"sick"で出現率53%だそうです。
そ・れ・だ・け。脱力。それ、ネットパネルに「連想する語を5つ挙げてください」という調査を掛けるのと同じことではないか。クラウドって言いたかっただけちゃうんかと。
検証実験。まずインフルエンザの例。上の方法で集めた連想語ベストテンについてGoogleトレンドで検索量を調べ、CDCのインフルエンザ流行データに対する単純な回帰式を組む。Googleの中の人たちがやった研究と遜色のない予測力が得られました。云々。
ほかに、不動産の予測、失業率の予測をやっている。いずれも連想語ベストテンを使うだけで、連想出現率を使うとか、そういう工夫はない模様。面倒なので飛ばし読み。
というわけで、期待が高かった分ガックリしちゃって、後半はパラパラめくった程度。まあ、人の学会発表にケチをつけるのも野暮というものであろうが...
せっかく目を通したのでちょっと前向きに考えると、インフルエンザ予測のための検索語特定という局面でインフルエンザの連想語を使うというアイデアは筋が通っている。これはそれらの検索語のトレンドの背後に単一の潜在トレンド(インフルエンザの流行)があると考えているからだ。いっぽう、Du&Kamakuraのマーケティングにおけるトレンド抽出のように、ある領域に関する多様な語の検索トレンドから複数の潜在トレンドを抽出したい局面では、単一のキーワードからの上位連想語を使うのはおかしいと思う。その領域における典型性の高い語だけを調べていてもしかたがない。むしろ、「100人中2人の人だけが挙げる連想語を考えてください」というような課題が向いているのではないか。そのときこそクラウド・ソーシングの出番であろう。
引用のなかから面白そうな論文をメモ:
- Bayus(2013, Mgmt Sci.): クラウドソーシングで新製品アイデアを開発した例.
- Goel, et al.(2010, PNAS): web検索ログで消費者行動を予測する。Wattsが共著。前に読んだような気もするけど...
- Vosen & Schmidt(2001, J.Forecasting): google trend と調査を比較。
- Choi and Varian (2012, Economic Record): google trendによる将来予測をnowcastingと呼んでいるそうな。
論文:予測市場 - 読了:Brynjolfsson, Geva, & Reichman (2013) クラウドソーシングによって将来予測を改善する超画期的な方法