読書日記: 読了：Hu, Du, & Damangir (2014) 売上への広告の効果をGoogle Trendを使って分解する

« 読了：Brown & Stayman (1992) 広告への態度は何に影響され何に影響するのか | メイン | 読了：Karatzoglou, Meyer, Hornik (2006) サポート・ベクター・マシンのRパッケージ品定め »

2014年7月11日 (金)

Hu, Y., Du., Y., Damangir, S. (2014) Decomposing the impact of advertising: Augumenting sales with online search data. Journal of Marketing Research, 51(3), 300-319.
　先日読んだDu & Kamakuraが勤務先の仕事にジャストミートだったので、関連した論文を探していて見つけた、同じ著者の論文。ここでもGoogle Trendを使って分析してみせているのだが、さらに斜め上というか、なんというか。
　背景・目的をすっとばして内容からいえば(だって著者らの発想からいえば、目的なんか後付けですよきっと)、売上を広告支出で説明する市場反応モデルの中間変数としてGoogle Trendの時系列データを使う、という論文。よくもまあ、そういう変なことを...

　著者ら曰く、売上反応モデルに態度・行動変数を統合しようという提案はすでにある: Srinivasan, Vanhuele, Pauwels (2010, JMR), Bruce, Peters, Naik (2012, JMR)。調査ベースの指標を統合し、購買の手前の思考・感情への広告の影響をモデル化している。これに対し本研究では、購買の手前の情報探索への広告の影響に注目する。だからGoogle Trendを使うのだ、という理屈である。
　Google Trendを使った先行研究:

Ginsberg et al. (2009, Nature), Pelat et al. (2009, Emerging Enfectious Diseases): 疾患発生率の実時間指標として使用。
Choi & Varian (2009, GoogleのTech.Rep.): 消費者需要の予測に使用。
Askitas & Zimmermann(2009, Applied Econometrics Quartary), Choi & Varian(2009, GoogleのTech.Rep.), Wu & Brynjolfsson (2009, Proc.), Vosen & Schmidt (2001, J.Forecasting): 住宅価格、住宅供給量、失業率、家計支出の予測に使用。
Da, Engelberg, & Gao (2001, J.Finance): 株価の予測に使用。
Du & Kamakura (2012, JMR) 新車売上を説明。
Joo et al. (2014, Mgmt Sci.): これはTrendのほうが従属変数で、TV広告の影響を示している。

　モデル。例によって自動車メーカーのGoogle Trendの時系列を使う。
　時期 t においてブランド j を検索した未購入者数を Q_{jt} とする。Q_{jt} のうち当該時期に j を買った人の割合を R_{jt}, 人数を Y_{jt} = Q_{jt} R_{jt} とする。二台買う人はいないと考え、また検索しないまま買っちゃった人 Q'_{jt} も無視すれば、Y_{jt} が売上である。
　Q_{jt}としてGoogle Trend(検索量)を使いたいんだけど、もちろん検索量がすべて購入検討者の検索というわけではない。ではどうするかというと、これが案外人を食っていて、Google Trendで"(ブランド名) -used -parts -recall -repair" と入力した由(ははは)。さらに、"Autos & Vehicles"というカテゴリを選ぶか、もしくは"Vehicle Shopping"というフィルタをかける。前者の結果をG_{jt}, 後者の結果をS_{jt}とする。
　以下、I_{jt} = ln(Q_{jt})とする。つまり、購買と関連した関心の強さを表す潜在変数である。で、以下のモデルを立てる。
　ln(S_{jt}) = I_{jt} + v^S_{jt}, ただし v^S_{jt} \sim N(K^S_j, V^S_j)
　ln(G_{jt}) = I_{jt} + NI_{jt} + v^G_{jt}, ただし v^K_{jt} \sim N(K^K_j, V^K_j)
NI_{jt} というのはまた別の潜在変数で、購買と関係のない関心の強さである。
　さらに、検索から購買へのコンバージョンについて
　ln(R_{jt}) = C_{jt} + \varphi_j I_{jt} + v^Y_{jt}, ただしv^Y_{jt} \sim N(0, V^Y_j)
時系列的に変動するベースラインCから、I_{jt}の何割かが引かれる、という発想である(つまり、\varphi_jは負だと期待されている)。たとえばキャンペーンなんかで関心が高まっても、関心から購買へのコンバージョンは高くならない、むしろ落ちる、と考えているわけである。

　で、I, NI, Cに時系列構造を入れます。
　I_{jt} = \alpha^I_{jt} + \beta^I_j X_{jt}
\alpha^Iがトレンド項。X_{jt}は外生変数ベクトルで、前期売上 Y_{j, t-1} の対数、消費者信頼感係数、ガソリン価格、季節調整項が入っている。ここで前期売上を入れるのは、購入者が検索しそうだから。
　\alpha^I_{jt}
　= \delta^I_{j1} \alpha^I_{j,t-1}
　+ \delta^I_{j2} \sum_{j' \neq j} \alpha^I_{j',t-1}
　+ \delta^I_{j3} ln(A_{jt})
　+ \delta^I_{j4} ln(\tilda{A_{jt}})
　+ w^I_{jt}
さあ、深呼吸して... 第一項は前期の\alpha^Iで、つまり基本的には一次の自己回帰モデルである。第二項は前期の他のブランドの\alpha^Iの総和で、競合への関心からのラグつきのスピルオーバーを表す。第三項のA_{jt}は自社の広告支出。第四項の\tilda{A_{jt}} は他社の広告支出の総和。第5項は攪乱項で、\sim N(0, W^I_j) と書いてあるんだけど、いっぽう競合への関心からのラグなしスピルオーバーは w^I_{jt}とw^I_{j' t} の相関で表すと説明している... 最後に状態空間表現に書き換えたときに共分散を考えているらしい。
　NI_{jt}, C_{jt} についても、I_{jt} と同形のモデルを組む。パラメータの上添字が全部変わるだけ。

　自社広告支出 A_{jt} は、前期の売上や上のモデルと同じ外生変数の影響を受ける。つまり内生性の問題が生じる。しょうがない、A_{jt}もモデルを組もう、というわけで、
　ln(A_{jt}) = \alpha^A_{jt} + \beta^A_j X_{jt} + v^A_{jt}, ただし v^A_{jt} \sim N(0, V^A_j)
\alpha^A_{jt}が広告支出のトレンド項。もう一度深呼吸！
　\alpha^A_{jt}
　= \delta^A_{j1} \alpha^A_{j, t-1}
　+ \delta^A_{j2} ln (Y_{j, t-1})
　+ \delta^A_{j3} ln (\tilda{A_{j,t-1}})
　+ w^A_{jt}
1次の自己回帰に、前期売上と前期の競合広告支出の総和が乗っている。あれれ？前期売上の対数 ln (Y_{j, t-1}) は外生変数ベクトル X_{jt} にも入っているから、\beta^A_j の当該要素か \delta^A_{j2} を固定しないと、これ識別できないんじゃない？なにか誤解しているのだろうか...。

　以上のモデルとは別に、Google Trendを使わない売上モデルもつくる。省略。
　モデルの推定は、状態空間表現に書き換えて、ベイジアン動的線形モデルとみなし、Gibbsサンプラーを用いて... 云々云々。そんなん、いちいち読んでたら死ぬ、悶え死ぬ。パス。

　データ。自動車21ブランド。月次売上はAutomotive Newsというサイトから、月次広告支出はKantor Media様から、検索量はGoogle様から、消費者信頼感係数はミシガン大から、ガソリン価格は役所から、季節調整項はそれぞれの変数の自動車全体についてのデータから、頂いてくる。

　結果。Google Trendを使わないモデルよりも優れている(AICと予測性能を比較)。パラメータを読んでいくと、

購買関連的関心に対する広告の当期効果 \delta^I_{j3} はすべて正。購買非関連的関心に対する当期効果 \delta^{NI}_{j3} よりだいたい大きい(←表をみると、逆になってるブランドもありますけどね...)。
コンバージョンに対する広告の当期効果 \delta^C_{j3} はすべて正で有意。21ブランドを通じた delta^I_{j3} との相関は+0.35 しかない。つまり広告の効果は購買ファネルのステージによって異なる。散布図を描くと、各ブランドにおいて広告が関心に効いているのか、それともコンバージョンに効いているのかがわかる。
関心増大がコンバージョン率に与える効果 \varphi_j は、予想通りすべて負。
関心のキャリーオーバー \delta^I_{j1}, コンバージョンのキャリーオーバー \delta^C_{j1}は、すべて正で、たいてい有意。相関は低い。ここでも、ファネルのステージによって効果が違う。云々。
広告支出における前期売上の効果 \delta^A_{j2} は、SUVで正、セダンで負。利益率が高い車は売れると図に乗るが、利益率の低い車は売れると広告費をけちるのであろう (←ほんまかいな)。云々。
などなど...

　ううむ。正直いって、モデル自体にはあまり魅力を感じない。自分で代替案を出して推定できるわけでもないのに、ハタから好き勝手いうのは、品がないかもしれないけれど...。
　著者らも脚注で触れているけど、モデルのうち G や NI は本質ではなく、なんなら省略できる部分である。さらに広告や外生変数の効果を取り除き、モデルの根幹を見ると、著者らは、あるブランドへの購買関連的関心の高さ (I) と、関心から購買へのコンバージョンしやすさ(C)という2つの潜在変数を考え、「購買関連的検索量は Iが高いと高くなる」「購買関連的関心から購買へのコンバージョンは C が高いと高くなり I が高いと低くなる」と考えているわけである。
　ちょっといやらしいなあ、と思うのは後者の発想である。マクロレベルでの現象としては、確かにそうだろう、キャンペーンなどによる関心者の一時的増大は購買へのコンバージョン率を下げるだろう。でもこのモデル、もはや消費者行動のモデルではなくなってきているように思う。本来は、もともとのブランド･エクイティが高い人ほど、関心も持ちやすくコンバージョンもしやすいはずである。
　こういう奇妙な話になるのは、消費者の異質性を正面からモデル化していないからである。潜在顧客のブランド j に対する事前のエクイティ x_j を確率変数と捉えて分布を考え(たとえばベータ分布とか)、個人の検索確率をその人の x_j と広告効果で説明し、個人において検索が生起した際の購買の条件付き確率をその人のx_j と広告効果で説明する... というモデルを立てて、データからx_j の分布パラメータと広告効果の時系列モデルを推定するほうが、ずっと素直なんじゃなかろうか。

　それはともかく、発想自体はすごく面白いと思った。売上に対する広告効果モデルに、中間変数として調査データの指標を入れようというのならまだしも、Google Trendの時系列を入れちゃおうという発想は、たとえば私などがたまたま口走っても、そんなん誰が検索してんのかわかんないじゃん、と鼻で笑われてしまうだろうと思う。こういう自由な発想を持ちたいものだと思う。

論文：マーケティング - 読了：Hu, Du, & Damangir (2014) 売上への広告の効果をGoogle Trendを使って分解する

読書日記

読んだ本を淡々と記録します

2014年7月11日 (金)