elsur.jpn.org >

« 読了:福元 (2013) フェヒナー先生とその時代・晩年編 | メイン | 読了:「オールラウンダー廻」「辺獄のシュヴェスタ」「ヴィンランド・サガ」「逆流主婦ワイフ」「僕だけがいない街」「スティーブズ」「アイアムアヒーロー」 »

2015年8月14日 (金)

Bass, F.M., Bruce, N., Majumdar, S., Murthi, B.P.S. (2007) Wearout effects of different advertising themes: A dynamic Bayesian model of the advertising-sales relationship. Marketing Science, 26(2), 179-195.
 仕事の都合で状態空間モデルのことを考えていて、分析例がほしくて手に取ったのだけれど、ぱらぱら読み始めたら、これが予想をはるかに超えて大変面白くて...
 読んでる最中に気が付いたんだけど、筆頭著者はあのBassモデルのBassさん。論文出版の前年にお亡くなりになった由。

 著者らいわく。
 世の中には広告反応モデルが山ほどある。それらはみなこう想定している:広告支出はあるメッセージなりテーマなりを伝播させるために使われているのだと。しかし現実には、企業は同時に複数のテーマについての広告を走らせる。異なるテーマの広告を同時に行うことにはどういう効果があるのか。広告効果逓減(wearout)はどう変わる? それをどうやって測る? 異なるテーマのあいだにはどんな相互作用が起きる? どうやって予算配分したらいい? これが本論文のテーマです。

 先行研究レビュー。6項目に分けて整理する。
 1. 反応モデル。初期のレビューとしてはLittle(1979, Op.Res.)が有名。いわく、集計レベルでの広告反応モデルには次の特徴が求められる。(1)広告効果の非線形性を捉えていること。(2)効果逓減・忘却を捉えていること。(3)競合の広告効果を考慮していること。(4)メディアとコピーの変化による広告効果の変化を捉えていること。[←うわあ... 実務で広告効果モデリングに携わっている方、結構耳が痛いんじゃないかしらん]
 初期の反応モデルは広告支出と売上ないしシェアを結びつけた。さらに分散ラグモデルをつかってキャリーオーバーを捉えた[←たぶんKoyckモデルのことを指しているのだろう]。モデルは利益最大化の観点からの広告支出最適化にも用いられた。レビューとしてはVakratsas & Ambler (1999, Mgmt.Sci.)をみよ。これとは別に、反応関数は凹型かS字型かという議論もあった。理論モデル側はインパルスの効果をS字型に捉えているわけで、これは結構大事な話だ。
 2. wearin/wareout。いろんな要因が効くことが分かっている(広告が感情訴求的か理性訴求的か、etc.)。Naik, Mantrala & Sawyer(1998, Mktg.Sci)いわく、wareoutには広告接触の反復によるものとコピー自体によるものがある。
 3. 忘却。もちろんブランド認知率が下がるというネガティブな面もあるが、広告効果を再活性化させるというポジティブな面もある。実証研究もあるぞ。
 4. テーマによるwearoutのちがい。感情的広告はwearoutしにくいという実証研究がある。
 5. 時変係数の必要性。係数が時間とともに変化しちゃうにちがいないという点は昔から問題になっていた。時期ごとに推定するとか、ランダム係数モデルとか。
 6. 交互作用の必要性。広告と他のマーケティングミクス変数(特に価格)との間に相互作用があることは古くから知られている。

 提案モデル。
 まず、Nerlove-Arrowモデルというのがありまして... 時点 $t$ における広告支出を $A(t)$、好意(goodwill)を$G(t)$として、
 $\frac{dG(t)}{dt} = q A(t) - \delta G(t)$
$q$は広告効果で一定。$\delta$は忘却の効果である。

 Naik et al.(1998)はこのモデルを拡張し、$q$を時変させてwearoutを表現できるようにした。こう考える。
 $\frac{dq}{dt} = -a(A) q + (1-I(A)) \delta (1-q)$
ただし$a(A) = c + w A(t)$。$I(A)$は「いま広告中」のときに1。
 [えーと、広告出稿中の$q$の傾きは $ -(c+wA(t))q$。つまり、その時点の広告支出$A(t)$に反復wearout係数$w$を掛け、コピーwearout係数$c$を足した奴が$q$の減衰率。いっぽう出稿期間が終わると、$q$の傾きは$-cq + \delta(1-q)$となる。つまり、直近の$q$に対し、コピーwearout係数$c$を減衰率として減衰がかかる。いっぽう、忘却係数$\delta$に$(1-q)$を掛けた値が毎瞬間に$q$に乗る。最後のがよくわからないな、なんで$(1-q)$だと考えるのだろう? 広告出稿停止後の$q$の回復が$q$が天井に達するまで続く、といいたいんだろうけど、その天井を1に決める理由がわからない]

 我々はこれをさらに一般化する。広告テーマが$m$個あるとします。$t$の添字表記は省略。
 $\frac{dG}{dt} = \sum_{i=1}^m \left( g(A_i) + \lambda_i \sum^m_{j \neq i} h(A_i, A_j) \right) - \delta G$
ここで$g(A_i) = \ln(1+A_i), h(A_i, A_j) = \ln(1+A_i) \ln(1+A_j)$ と仮定します[はい来ましたよ、しれっとすごい仮定が来たよ!]。セミログモデルはこの分野ですごく一般的な仮定です。交互作用係数を結局テーマごとに一つしか推定しない[$\lambda_i$のことね]けど、これは倹約性の問題です。
 広告効果の時間変化は、Naik et al.(1998)と同様に
 $\frac{dq_i}{dt} = -a(A_i) q_i + (1-I(A)) \delta (1-q_i)$
 $a(A_i) = c_i + w_i A(t)$
$\frac{dq_i}{dt}$はテーマ間で独立とします。
 これをDLM(動的線形モデル)として、Gibbsサンプリングで推定します。

 分析例。あるテレコム企業の電話サービスのデータ。この会社は固定電話で独占状態にあり、競合は携帯電話である。
 週次で分析する。従属変数は、固定回線の国際通話を除く総通話時間。共変量は、通話時間あたり平均価格、回線数、競合の広告支出。
 さて、この会社の広告支出を5つのテーマに分ける:{利用促進、製品オファー、価格オファー、リコネクト、リアシュアランス}。すべてGRPで測定。
 
 モデル推定。ここ、ちょっと関心があるので細かくメモをとろう。原文と感想を分けて書くのが面倒になってきたので、ここからは一緒に書く。

 時点$t$における総通話時間$y_t$について、
 $y_t = G_t + \beta' X_t + \epsilon_t$
原文は$\beta$を転置させてないけど、あとの式との整合性を考えると誤植だと思う。
 $G_t$は好意(goodwill)。$X_t$は3つの共変量のベクトル。誤差は$\epsilon_t \sim N(0, \sigma^2_\epsilon)$とするが、著者いわく、ここには内生性があるかも。誤差項にはそこにはたとえば携帯電話サービスの成長といった因子が含まれているだろうし、かつその因子についての企業の知覚が価格に影響しているかもしれない。そこで、操作変数$W$を使ってこう定式化する。小売価格指標、世帯数、消費者センチメント、世帯支出を道具変数として
 $p_t = p_t (W; \alpha) + \eta_t$
うーむ、この表記、理解できない。$\alpha$ってなんだ。操作変数法の特殊な表記なのかしらん...

 状態空間表記に書き直す。
 まずは測定方程式。
 $y_t = F_t \Phi_t + \beta' X_t + \epsilon_t$
これはまあ楽勝ですね。$F_t$は長さ$m+1$の横ベクトルで、最初の要素が1, あとは0。$\Phi_t$は長さ$m+1$の縦ベクトル、要素は上から順に$G_t, q_{1t}, q_{2t}, \ldots, q_{mt}$。$\epsilon_t \sim N(0, \sigma^2_\epsilon)$。

 はい深呼吸。状態方程式は
 $\Phi_t = H_t \Phi_{t-1} + u_t + w_t$
 簡単なところから片付けよう。
 $w_t$は長さ$m+1$のベクトルで、$w_t \sim N(0, W)$。たぶんNじゃなくてMVNと書くべきところだ。Wは対角行列のはず。
 $u_t$は長さ$m+1$のベクトルで、さっき定式化した$q_t$の差分方程式の第二項を表している。$\Phi$の一番上には$G_t$が入っているから、上から順に、$0, \delta(1-I(A_{1t})), ..., \delta(1-I(A_{mt}))$となる。ここ、原文に誤植があると思うので勝手に直した。

 ああ、ついに来てしまった。$H_t$はサイズ$(m+1, m+1)$の遷移行列。しょうがない、ゆっくりみていこう。
 $H_t$の一行目、左から順に、$(1-\delta), \bar{g}(A_{1t}), \ldots, \bar{g}(A_{mt})$。最初の奴は、Nerlove-Arrowモデルの第二項。二番目以降は、
 $\bar{g}(A_{it}) = g(A_{it}) + \lambda_i \sum^m_{j \neq i} h(A_{it}, A_{jt}) $
関数$g(\cdot), h(\cdot)$は上で定義済み。ああそっか、$A_i, A_j$は広告GRPそのもの、データから得る定数で、だから推定するパラメータは$\lambda_i$だけなのか。
 $H_t$の二行目。二列目にしか式が入らず、あとは0。各広告テーマの効果を表す状態変数は、一次の自己回帰はするけど、クロスラグは持ってないわけね。で、二列目にはいっているのは...
 $(1-a (A_{1t})) - \delta(1 - I(A_{1t}))$
上で定義した$q$の差分方程式がそのまま入っているのね。なるほど。
 $H_t$の三行目は三列目にしか式が入らない。以下同様。

 さあここまで来ると、あと決めなきゃいけないことは、

どうにか決めまして(付録参照とのこと)、MCMCで推定しました、とのこと。これ、カルマンフィルタじゃ推定できないのかなあ...
 識別性のチェックとか、内生性の問題をどう処理したかとか、説明があったけど、省略。

 結果。
 提案モデルと、テーマ間交互作用を抜いたやつ、GRPを全テーマで足し挙げて使う奴、GRPの(対数じゃなくて)平方根を取る奴、線形に扱う奴、を推定。ベイズ・ファクター、予測成績(MADとMSE)、予想成績(60週と100週使ってモデル組んだときのMAPE)を比較。いずれも圧勝。
 共変量では、価格と回線数が効いた。競合の広告は効かなかった。まあ固定回線市場じゃ独占状態だからね、とのこと。
 忘却率$\delta$は0.037。コピーwearout効果 $c_i$は0.16から0.57 [でかいなあ]、いずれも有意。反復wearout効果$w_i$はいずれも負になった。この会社は広告を頻繁に変えているので反復wearoutが起きず、むしろwearinになっているのでは、とのこと。
 クリエイティブの中身を押さえたわけじゃないんだけど、価格オファー広告と製品広告は理性訴求っぽく、残りの3つは感情訴求っぽいと思われる。実際、前者はコピーwearoutが大きかった。云々。
 交互作用効果はみな負。つまり、異なるテーマの広告は互いの効果を軽減してしまう模様。

 広告予算最適化という観点からいうと... [全時点・全テーマの$A_{ti}$を動かして$E(y_t | D_{t-1})$の全時点を通じた合計を最大化する、という非線形最適化問題を解いて見せている。さすがにここまでくると数字の遊びだという気がするので、省略]

 考察。このモデルの限界は、広告を外生変数としてみているところ。今後の拡張の方向としては、コピーごとの最適化とか[そうそう、別に$A_{ti}$の最適値を$t$ごとに決めるこたあないだろうと思った]、メディアへの投資配分とか、テーマxメディアの交互作用とか。

 。。。いやー面白かった。マーケティング・ミクス変数間の交互作用が、集計レベルの市場反応時系列モデルからわかるってわけね。それも効果逓減率を変数ごとに推定し、さらに各変数の効果を時変させながら。すごいじゃん。
 それもこれも、広告効果についてかなり強気な制約をかけているからなんだけど。よくよく眺めていると、実際に推定しているパラメータの中に、時変パラメータは実はひとつもないのだ。
 このモデル、ほんとにMCMC使わなきゃだめかしらん。カルマンフィルタで最尤推定できちゃうような気がするんですが、気のせいでしょうか?

 こうしてみると、いやーマーケティング・サイエンスってのもなかなか面白いじゃんか、と思うのだが、しかし教育産業のテスト部門でお世話になっていたときは「うわあ教育評価って面白い!」と思ってたし、その前はその前でそのときやっていたことが面白かったし... それに、いま20代のまっさらな状態にタイムスリップして「さあなにやりたい?」と訊かれたら、やっぱり心理学だか哲学だかを選ぶだろう。宿命ってやつですね。

論文:マーケティング - 読了:Bass, Bruce, Majumdar, Murthi (2007) 異なるタイプの広告を同時に出稿していると何が起きるかを推定する、それも個人データじゃなくて集計データで

rebuilt: 2020年11月16日 22:56
validate this page