読了:Pauwels (2017) マーケティング・ミックス・モデリングのための動的システムアプローチ

Pauwels, K.H. (2017) Modern (Multiple) Time Series Models: The Dynamic System. Leeflang et al.(eds) “Advanced Methods for Modeling Markets“, Chapter 4. Springer.

仕事の都合で共和分システムについて勉強する必要が生じ、積んでおいてあった本の該当章を読んでみた。高い本だったので元を取らねばならん。

イントロダクション
 マーケティング活動の動的効果を分析する際、多方程式時系列モデルによる動的システムによって、こういう現象について究明できる:

  • 長期的な均衡関係を持っているようなマーケティング活動とパフォーマンスについて、双方向の因果性を検討できる
  • 競争的なマーケティング活動を説明し競争的反応を予測できる
  • カギを握るプレイヤー(小売とか)の決定ルールを明らかにできる

多方程式時系列モデルと多変量時系列モデルとの違いに注意。多変量時系列モデルは変数は複数だが方程式としては1本である。[VARモデルだって行列で書けば一本だと思うけど…??? 余計な話ですね]

 多方程式時系列モデルは変数の短期的関係と長期的関係を捉える力を持っており、多変量時系列モデルと比べてパラメータの効率性でも適合度でも予測性能でも優れている。
 本章は頻度主義的なアプローチに焦点をあてる。ベイジアンなアプローチは次の章[状態空間モデルの章]でやる。
 ここからは6つのステップに分けて説明するぞ。

Step 1. グレンジャー因果性検定
 そもそも、パフォーマンスがマーケティング活動によって駆動されているという伝統的な市場反応モデルの仮定は正しいのか。
 さらに、マーケティング活動は過去のパフォーマンスとか競合の活動とか同じ会社の別の部門の活動とか小売とかによって駆動されているのかもしれない。こういう内生性を説明しておかないと誤った結論を招く。
 原理的には、マーケティング変数・パフォーマンス変数の間のありうるすべての相互作用を複雑な同時方程式モデルで指定すればよい。しかし残念ながら、マーケティング理論というのはそこまで頼りにならないし、モデルの識別のために疑わしい制約を課する羽目になる。データに基づき因果性の方向を絞りたい。

 というわけで、グレンジャー因果性検定を使って内生性の存在を確かめよう。
 変数\(x\)が\(y\)に対してグレンジャー因果性を持つとは、過去の\(y\)のみに基づく\(y\)の予測を、過去の\(x\)によって改善できることを指す。平均二乗予測誤差を\(Q\)、\(y\)の最大ラグを\(k\), \(x\)の最大ラグを\(m\)として、$$ Q(y_t | y_{t-1}, \ldots, y_{t-k}, x_{t-1}, \ldots, x_{t-m}) < Q(y_t | y_{t-1}, \ldots, y_{t-k})$$が5%有意水準でいえたなら、\(x\)は\(y\)に対してグレンジャー因果性を持つわけです。
 これは結構タフなテストである。\(y_t\)の予測に\(x_t\)を使えるわけじゃない点に注意。測定頻度が低いときには余計しんどい。そこでグレンジャー同時因果性検定という提案もあるけれど、単に相関が非ゼロかどうかを調べているだけになるので解釈上の問題がある。
 グレンジャー因果性検定はペアワイズの検定である。\(x\)が\(y\)に対してグレンジャー因果性を持っていたとしても実は背後に共通の原因\(z\)があるだけかもしれない。
 検定手続きとして、Granger(1969)の方法, Sims(1972)の方法(yの式とxの式を同時推定する), 二重プレホワイトニング法がある。漸近的には同一だが、有限標本ではGrangerの方法の検定力が高い[←へー]。

 マーケティング分野でのグレンジャー因果性検定の適用例を紹介しよう。

  • どのマーケティング活動がパフォーマンスに効いているか? コカ・コーラは全社でグレンジャー因果性を活用しているそうだぞ。
  • ソーシャルメディア指標はパフォーマンスに効いているか?
  • オフラインマーケティング支出はオンラインマーケティングに効いているか?
  • マーケティング活動を準備するときマーケターはパフォーマンスに反応しているか(フィードバックを受けているか)?
  • 競合は相互に反応するか? どんな時間的パターンで?

Step 2. 単位根検定と共和分検定
 動的相互作用のモデルに変数をどのように入れるかを決めるために、単位根と共和分について調べよう。
 単位根検定は3章で説明したので本章では共和分について説明する。

 複数の進化的な変数の間に共和分があるとは、それらが長期均衡に制約されていることを意味する。共和分があるとき、ある変数のレベルから他の変数のレベルを予測できる。だから、うっかり差分をとってシステムに入れると情報を捨てることになる。
 均衡を表す式を共和分方程式という。\(x, y\)について $$ y_t = a + b x_t + \epsilon_t$$ \(\epsilon\)を均衡誤差という。これは定常でなければならない。

 共和分検定の手続きはいくつかある: Engle & Granger(1987)の方法(共和分方程式をOLS推定), Johansen(1988)の方法(単位根のDF検定の一般化), Johansen et al.(2000)の方法(構造ブレークを許す)。

 関心ある共和分を3つに分けて考えよう。

  • パフォーマンス変数間の共和分。たとえば、工場へのオーダーと消費者需要とか。ある変数を予測するためには他の変数を監視する必要がある。中間変数と最終パフォーマンス変数との共和分がブランドの成長とともにどう変容していくかというのは今後の重要な研究課題だ[どうやら著者の博論のテーマだったらしい]。
  • マーケティング変数間の共和分。たとえば、値上げと共に広告予算を増やすとか、競合同士のマーケティング活動とか。
  • マーケティング変数とパフォーマンス変数の共和分。たとえば、過去の売上で広告予算を決めているとか。供給側から見ると、マーケターが目標と実績の差を減らそうとしていると共和分が生じる。需要側からみると、売上を高く維持しようとすると価格と売上は共和分する。

 Dekimpe & Hanssens (1999 JMR)は、長期的マーケティング効率性について次の4つの戦略シナリオを提示している。

  • Business-as-Usual: 売上は定常、マーケティングも定常。確立された市場・ブランドでは最も典型的なシナリオ。キャンペーンは一時的な効果しか持たない。
  • Evolving business practice: 売上とマーケティングに共和分がある。マーケティング支出を増やすとパフォーマンスは永続的に上がるが、その上昇を維持するには支出を高いまま維持する必要がある。
  • Hysteresis: 売上は進化的だが[←単位根を持つってことですよね]、マーケティングは定常。一発のキャンペーンが永続的な効果を持つ。長期的マーケティング効率の聖杯である。新興市場、新ブランド、小ブランド、外的環境が実質的に変化しているとき、などにおいてみられる。
  • Escalation: 売上は定常だがマーケティングは進化的。競合がマーケティングコストを引き上げているときに生じる。価格競争とか。

[この話、HPS本で読んだときも不思議に思ったんだけど、「両方単位根を持ってるけど共和分はない」というシナリオはないの? 売上もマーケティングミックス変数も差分系列を使った時系列回帰モデルを組むときってってそういう場合ですよね? それって両辺を和分すると結局撹乱項が単位根過程に従っているだけの時系列回帰モデルになり、つまり説明変数のショックのインパクトは一時的だから、Business-as-Usualだということになるのだろうか]

Step 3. 動的システムのモデル化: VARとVEC
[この節が本章のキモであろう。さあ気合入れましょう]

VARMAモデル
まず、単変量の時系列分析を\(n\)本の時系列変数の方程式からなるシステムに拡張します。長さ\(n\)のベクトル\(y_t\)について $$ (I – \Phi_1 B – \Phi_2 B^2 – \cdots – \Phi_p B^p) y_t = \mu + (I -\Theta_1 B – \theta_2 B^2 – \cdots – \Theta_q B^q) \epsilon_t$$ \(\epsilon_t\)はホワイトノイズ。[落ち着け、まだ難しい話はしてない。単なるARMA(p,q)のベクトル版だ]
 VARMAモデルのマーケティングへの適用はなくはないけど少ない。以下の欠点がある: (1)異なる関係が、内生変数間の同じ関係につながる(識別できない)。(2)非線形なMA項を含んでいるので、条件付き尤度か正確尤度が必要になる。(3)パラメータを解釈しにくい。(4)共通の確率的トレンドや共和分を分析するのに不便。

VARモデル
 そこでVARモデルの登場です。MA項を反転してAR項に移す。$$ (I – \Phi_1 B – \Phi_2 B^2 – \cdots – \Phi_p B^p) y_t = \mu + \epsilon_t$$

構造VARモデル
 もっとわかりやすく書き換える。[ここから\(B\)はラグ演算子ではなく\(n \times n\)行列である。ぶひー、不親切] $$ B_0 y_t = c_0 + B_1 y_{t-1} + B_2 y_{t-2} + \cdots + B_p y_{t-p} + \epsilon_t $$ この形式だと制約を掛けやすい。制約の掛け方には大きく4つある。

  • Wold Causal ordering. ある変数群が別の変数群の原因にはなっても結果にはならない、という制約。このとき… [原文をメモ] The imposed block exogeneity restrictions obtain a lower triangular \(B_0\) matrix. [←えっ? \(B_0\) を制約するの? と面食らったが、落ち着いて考えるとこういうことだ。2変量の1次VARモデル$$ A y_t = B y_{t-1} + e_t $$ があるとして(切片は面倒なので省略)、これを行列記号を使わずに書くと $$ \left[ \begin{array}{cc} 1 & a_{12} \\ a_{21} & 1 \end{array} \right] \left[ \begin{array}{c} y_{1t} \\ y_{2t}\end{array} \right] = \left[ \begin{array}{cc} b_{11} & b_{12} \\ b_{21} & b_{22} \end{array} \right] \left[ \begin{array}{c} y_{1,t-1} \\ y_{2,t-1}\end{array} \right] + \left[ \begin{array}{c} e_{1t} \\ e_{2t}\end{array} \right]$$ 単変量の式にばらすと $$ y_{1t} = – a_{12} y_{2t} + b_{11} y_{1,t-1} + b_{12} y_{2,t-1} + e_{1t} $$ $$ y_{2t} = – a_{21} y_{1t} + b_{21} y_{1,t-1} + b_{22} y_{2,t-1} + e_{2t} $$ つまりVARモデルの左辺の行列\(A\)の非対角要素は\(y_t\)の要素間のラグ0のパスを表しているわけだ。だから、もし\(y_t\)の要素が上から順に原因から結果へと並べてあるのなら、\(A\)の上三角の非対角要素はゼロで埋められる。ということですよね先生]
  • K-モデル。式に行列\(K\)をかけ、直交正規誤差ベクトルを生成する[わ、わからん…]
  • C-モデル。直交正規撹乱項をモデル化する。[わからん…]
  • AB-モデル。K-モデルとC-モデルを含む。[わからんーー]

いずれもラグの数や動的効果の正確な形式に制約を掛けているわけではない点に注意。そうした制約に対しては、経済理論というのはラグについてはなにも教えてくれないし、効果の減衰が時間を問わず同じだという仮定は乱暴だという批判がある。むしろVARモデラーは同時関係と誤差共分散行列に制約を掛けることを好むようである。
[ううううう。制約の掛け方については全く理解できなかった。これはまあ、VARモデルの解説書でちゃんと勉強しろってことでしょうね… と床に積み上げられた時系列分析の本をめくったが、どれも難しそう。この論文ではAmisano & Giannini (1997)という本が挙げられていた]
 SVARモデルのマーケティングへの適用例も多くない。理由: (1)ラグ変数間の多重共線性がきついので、係数の解釈がややこしい。(2)適切に制約されたVARモデルであっても、他のパラメータ推定値については依然として欠落変数バイアスがあるかも。制約の仕方を変えたいくつかのモデルを推定して比較すればいいんだけど、すごく精緻な手続きになるし、モデル間で推定値を比較する際の基準がない。

誘導型VARモデル
 別に制約をかける気が無いんなら、次のようにも書き換えられる。こういうモデルを誘導型という。$$ y_i = B^{-1}_1 c_0 + B^{-1}_1 B_1 y_{t-1} + \cdots + B^{-1}_1 B_p y_{t-p} + B^{-1} \epsilon_t$$ さらに書き換えて $$ y_i = c + A_1 y_{t-1} + \cdots + A_p y_{t-p} + e_t$$ \(\epsilon_t\)の共分散行列を\(\Sigma\)として、\(e_t\)の共分散行列は\( \Omega = B_0^{-1} \Sigma (B_0^{-1})^\top \)となる。もはや対角行列ではないことに注意。
 誘導型のよい点は、右辺が\(t\)の時点で決まっていること。誤差に相関があろうがOLS推定量は一致推定量だし、漸近的に有効でもある。パラメータ数も少ない。
 一部の変数を内生変数ではなく外生変数として扱ってもパラメータ数は減る。これをVARXモデルという。ただし外生とみなしてよいかどうかの検定が必要。

内生性と外生性
 動的システムモデルの精神からいえば、すべての変数は外生だとはっきりするまでは内生である。では、\(y\)の\(x\)への回帰で\(x\)が外生であるとはどういうことか。それは分析の目的による。

  • 弱外生性: \(x\)の\(y\)に対する効果の推定値について推論するときの外生性。関心あるパラメータが、条件付き分布のパラメータという観点から一意に表現できると云うこと。
  • 強外生性: \(x\)の下での\(y\)について予測するときの外生性。弱い外生性に加えてグレンジャー因果性がないこと。
  • 超外生性: 回帰係数が\(x\)の周辺分布の変化に対して構造的に不変であるかどうかを検定するときの外生性。推定された効果が市場のプレイヤーの決定ルールが変わっても変わらないことを意味する。

 [そうか… 分析の目的によっては、他の変数からのグランジャー因果性がないとは云えない変数であっても外生変数とみなしちゃっていいのか…]
 マーケティングへの適用では、条件付き予測が大事なので、少なくとも強外生性が求められる。
 強外生性の検討には、弱外生性の検定(Wu-Hausman検定など)とグランジャー因果性検定の両方を使う。

 こういうやり方では、実際には大抵の変数は外生だといえなくなる。あまり重要でない変数はまず外生だということにしておいてとりあえず推定し、ひとつづつ内生にしていくという手もある。[おおお。そういうセキララな話が聞きたかったんですよ、先生ありがとう]

VARにおけるラグ選択
 ラグの数は多いほうが説明力はあがるし残差のホワイトノイズ性も高くなるんだけど、予測力はかえって下がるし外生変数もいれにくくなる。
 いちばん手っ取り早い決め方は、\(p+1\)個めのラグを自由推定した場合のML推定量\(\delta_u\)と0に制約した場合のML推定量\(\delta_r\)を比べることである。$$\lambda(LR) = 2[\log Likelihood(\delta_u) – \log Likelihood(\delta_r)]$$LR統計量は漸近的にカイ二乗分布に従うので簡単に検定できる。\(p\)をひとつづつ増やしながら検定していけばよい。こういうのはソフトが自動でやってくれる。
 問題は、この手法があてにならんし、リサーチャーのやりたいこととも合ってないかもしれないということである(リサーチャーは予測性能だけに関心がある、とか)。

 というわけで、情報量基準のほうがよく用いられている。いろいろあるけど、目的によって使い分けるべし。
 もし予測性能が問題なら1期先MSEを重視すべきである。標本サイズを\(T\), 内生変数の数を\(K\)、残差共分散行列のML推定量の行列式を\(|ML Cov(p)|\)として、Akaikeの最終予測エラー(FPE) $$ FPE(p) = \left[ \frac{T + Kp + 1}{T – Kp – 1} \right]^K |ML Cov(p)|$$が最小となる\(p\)を選べばよい。AIC $$ AIC(p) = \log |ML Cov(p)| + \frac{2}{T} pK^2$$もこっちの観点である。\(T\)が大きければどっちも同じである。[←へええ]
 もしも正しい次数を選びたいのなら、BICかHQがよい。$$ BIC(p) = \log |ML Cov(p)| + \frac{\log(T)}{T} pK^2$$ $$ HQ(p) = \log |ML Cov(p)| + \frac{\log(\log(T))}{T} pK^2$$ AICと比べて罰則が強い。HQよりBICのほうがさらに強いのだが、\(T\)が大きければたいして変わらない。
 現実には漸近特性より小標本特性に気を配るべきである。その意味ではどちらの目的でもBICがおすすめ。いくつかの指標を比べ、いくつかの\(p\)についてVARモデルを比べ、FPE/AIC最小の\(p\)とBIC最小の\(p\)の間で選ぶとよい。

 ほかに、変数の数が多いときに向いている方法としてGelper et al.(2016 J.Retailing)があって…[よくわからんので略するがLASSOだそうな]

ベクトル誤差修正
 変数のなかに進化的なのがありしかし共和分がない場合、進化的変数については差分をとる。
 [恥ずかしながら、この箇所が以前から腑に落ちない。3つ変数があってうち2つが単位根を持っているとき、単位根を持つ変数だけ差分をとってVARモデルを組むのってありなのか? 回帰の場合でいうと、単位根を持つ2変数だけ差分を取ったモデルも組もうと思えば組めるけど、3つ全部差分を取ったモデル(ないし取らなかったモデル)とは意味が全然ちがってくるじゃないですか。VARモデルだってそうなのでは? いや、係数を解釈する気がなくてIRFだけ見ている分には構わないんだろうか?]

 しかし共和分の場合はレベルも差分も大事なので情報を捨てたくない。そこでベクトル誤差修正モデル(VECモデル)を使う。$$ \Delta y_t = C + \sum_k^K \Gamma_k \Delta y_{t-k} + \alpha e_{t-1} + u_t$$ \(C\)は長さ\(n\)のベクトル。\(\Gamma_k\)は\(n \times n\)の係数行列。\(\alpha\)は長さ\(n\)のベクトルで、調整係数という。\(e_{t-1}\)は長期均衡からみた誤差。\(\alpha e_{t-1}\)は市場のプレイヤーによる学習と調整を表す。
 [恥ずかしながらここも以前から腑に落ちていない箇所だ。3つの変数がすべて内生性を持っているとして、うち2つが共和分関係で残りひとつは定常って場合はどうするの? 一気にVECモデルにいれていいんだろうか? また、どこにも共和分関係がないとき、なおかつVECモデルを無理やり使っちゃったらなにがまずいの? \(\alpha\)がゼロに近くなるだけで、パラメータは増える以外の害はないんとちがう?]

VAR/VECモデルにおける季節性
 計量経済学では先に季節調整しちゃうことが多いが、ビジネスでは季節効果にも関心があるし、季節調整後時系列にはいろいろ欠点がある(ショックがより持続的になっちゃうとか)。なので季節ダミーを使うことが多い。[後略]

VAR/VECモデルの拡張
 拡張の提案はたくさんある。

  • 線形・単調な反応という仮定を緩和する。平滑閾値自己回帰(STAR)モデル, 二重非対称SVARモデルなど。
  • 時間独立な反応という仮定を緩和する。インパルス反応関数を時間や履歴に依存させるわけだ。
  • 変数の数が多いときにどうにかする。Factor VARモデルなど。[それって動的因子分析とどうちがうんだろう… 調べてみないとわからんな]

Step 4. 政策シミュレーション: インパルス応答関数
 VARモデルの係数は解釈できない。むしろインパルス応答関数(IRF)に関心がもたれる。
 誘導型モデルの右辺にある内生変数を片っ端から代入していって誤差項に書き換えるとVMA表現になる: $$ y_t = \mu + (I – \Phi_1 B + \Phi_2 B^2 – \cdots – \Phi_p B^p)^{-1} e_t $$ 定常ならば普通はショックはいずれ消えるが、単位根を持っていたら永続的影響があることが多い。

 売上\(s\), 注目しているマーケティングアクション\(fm\), その他のマーケティングアクション\(om\), 競合のマーケティングアクション\(cm\)があるとしよう(すべて対数とする)。現在の実現値を大文字で書く。すべて定常なら、定常状態からの偏差という形で書いて $$ \left[ \begin{array}{c} s_t \\ fm_t \\ om_t \\ cm_t \\ \end{array} \right] = \sum_{k=0}^K \Phi_k \left[ \begin{array}{c} S-\mu_S \\ FM-\mu_{FM} \\ OM-\mu_{OM} \\ CM-\mu_{CM} \\ \end{array} \right]_{t-k} + \left[ \begin{array}{c} u_{S_t} \\ u_{FM_t} \\ u_{OM_t} \\ u_{CM_t} \\ \end{array} \right] $$ [恥かしながらnotationについていけない… sは”log sales”, Sは”stand for the current realizations of […] sales” とあるけど、\(S_t\)と\(s_t\)ってどう違うの? たぶん\(S_t\)が対数系列そのもの、\(s_t\)が\(S_t – E[S_t]\) ということだと思うんだけど、そんなら式のなかのサメーションは\(k=1\)から始まらないと変な感じだ。それとも\(\Phi_0\)の対角成分は0だと思えってこと?]
 \(fm\)の1単位変化(\(u_{FM,t} = 1\)のもとでの売上の条件付き偏差に関心があるとしよう。上のVARシステムから、予測は$$ \hat{s}_{t+p} = \beta^0_{12} fm_{t+p} + \beta^0_{13} om_{t+p} + \beta^0_{14} cm_{t+p} + \beta^1_{11} s_{t+p-1} + \cdots $$ となる[誘導型に書き換えるとこうなるってことでしょうね]。定常状態からスタートすると、売上の偏差は時点\(t\)では $$ \hat{s}_t = \beta^0_{12} fm_t + \beta^0_{13} om_t + \beta^0_{14} cm_t $$ だが、時点\(t+1\)では$$ \hat{s}_{t+1} = \beta^0_{12} fm_{t+1} + \beta^0_{13} om_{t +1} + \beta^0_{14} cm_{t+1} + \beta^1_{11} s_t + \beta^1_{12} fm_t + \beta^1_{13} om_t + \beta^1_{14} cm_t $$ となる。
 もし売上が進化的なら、我々がモデルに含めているのは1階差分だから、IRFはいずれ0になる。この場合はIRFを累積しないといけない。売上の変化に対する即時効果しかない場合(完全ヒステレシスという)、IRFはその時点以外はゼロとなる。もっとよくあるのは売上の変化にネガティブな動的効果がある場合で(部分ヒステレシス)、IRFはその時点で上がって次の時点で下がって元に戻る。ただし、以上は両側対数をとっている場合の話である。片側だと解釈は難しくなる。
 もしマーケティング変数が進化的だったら? 我々がモデルに含めているのは1階差分だから、IRFは永続的変化を表わしていることに注意。
 [なにか読み間違えているのかもしれないけど、ごちゃごちゃとわかりにくい説明だなあ… 要するに、元の変数が対数だったり差分だったりしたら、IRFももとに戻さないと解釈できないよってことですよね?]

 VARに制約をかけるんじゃなくて、VARはほっといてIRFに制約を掛けたほうがいいんじゃね? という見方もある。[たとえばあるアクションが外生であることがわかっているとして、そのアクションに刺さるパスを消すんじゃなくて、モデル上はVARのままで、そのアクションが動かないという仮定の下でシミュレーションすればいいじゃんってことね? 回帰分析とは発想が全然ちがうねえ]
 たとえば、\(p > 0\)について\(fm_{t+p} = 0\), \(p \geq 0\)について\(om_{t+p} = cm_{t+p} = 0\)という制約を掛けると(つまり安定状態のままだとすると)、IRFは$$ \hat{s}_t = \beta^0_{12}$$ $$ \hat{s}_{t+1} = \beta^0_{12} \beta^1_{12} + \beta^1_{12} $$ となる[\(fm_t = 1, fm_{t+1} = 0\)だったらってことだよね?]。これは売上の変化だけを許したシミュレーションである。同様のシミュレーションを、競合の変化を許した場合、自社のサポートを許した場合についても行って比較することができる。
 売上のみを動かしたときの効果と比べて、ネットの効果は5倍ちかくも大きいし長持ちする(競合のせいもあるが、自社のサポートのせいもある)。

 IRFを使う際は同時効果の因果的方向をリサーチャーが決めないといけない。代替案として、残差共分散行列における同時ショックをデータから求めるという手もある(一般化IRF)。最近のマーケティング論文ではよく使われる。

Step 5. パフォーマンスのドライバー: 予測誤差分散の分解
 ある変数(売上)の予測誤差を過去の各変数のショックに分解するのが予測誤差分散分解(FEVD)である。標準的には識別のために因果的順序付けが必要になるが、それを不要な一般化FEVD(GFEVD)というのもある。ラグ\(n\)の変数\(i\)から\(j\)へのEFEVDは、GIRFを\(\psi_{ij}(n)\)として $$ \theta_{ij}(n) = \frac{\sum_{l=0}^n (\psi_{ij}(l))^2 }{ \sum_{l=0}^n \sum_{j=0}^m (\psi_{ij}(l))^2 }$$ このやりかただと、初期ショックがすべての内生変数に即時的に影響しうる(するとは限らないけれど)。
 [マーケティング研究への適用例も紹介されているけど… 重回帰かVARかを問わず、そもそも分散を分解して重要性とみなすというのが本当に役立つ場面があるのか、昔っから腑に落ちないんですよね。まあいいけどさ]

Step 6. 政策の推奨: 現代の時系列モデルとルーカス批判
 研究者のなかには、誘導型モデルのようにエビデンスベースドなモデルはデータの記述に過ぎず、政策への示唆としては信用できないという人もいる。ルーカス曰く、政策の変化は計量経済学モデルの構造を体系的に変える。つまり、エージェントは前向き(forward-looking)なのであり、新しい政策にあわせて期待し行動する。いっぽう本章で述べた時系列モデルは過去の相関パターンの後ろ向きな要約にすぎない。

 ルーカス批判は政策のいかなる変化にもあてはまるのではなくて、大きな変化のみに当てはまる話である。また、大きな変化があるとしても、ルーカス批判は政策分析における予測モデルの価値を下げるものではない。むしろ、モデルの解釈を他のモデルの解釈と比べるべきである。
 他のモデルとして人気があるのは、仮定ベースのモデル、いわゆる構造モデルである(構造VARモデルと混同しないように)。構造モデルとは、いま検討している政策に対して不変であるような、エージェントの「テイストとテクノロジー」を特徴づける目的関数を形式化したモデルである。マーケティングでいえば、構造モデルとは、制約の下で目的関数を最大化する、消費者とマーケターの最適意思決定を形式化したモデルである。政策変化への反応を予測するためには、構造モデルはテイストとテクノロジーのすべての関連する諸側面を反映していなければならない。

 リサーチャーがすべきこと。政策分析に使うモデルは、まずは記述モデルであり予測モデルでなければならない。政策シミュレーションのためのモデルは、さらに政策について、パラメータが定数である式を持たなければならない(それが可能ならばルーカス批判はあてはまらなくなる)。同様に、期待と内生性を明示的に組み込んだ仮定ベースのモデルも作れる。
 結局のところ、モデルの予測妥当性は、大きな政策変化が起きたときにはじめてわかる。市場反応モデルよりゲーム理論的な予測のほうがあたったという報告もある。逆に、計量経済学ではルーカス批判は実証的にはほとんど問題にならないという報告もある。

 まとめると、モデラーは仮説を強く同定すること(ふつう予測性能は下がる)と、合理的消費者・マーケターについての明示的で理論に基づく基本要素を得るというベネフィットとのトレードオフに直面する。最終的にどちらを取るかは、モデルの目的、そして個人の好みの問題である。
————–
 やれやれ、疲れた…

 私の学力不足が邪魔しただけで、解説としては非常にわかりやすかったと思う。特に最後のルーカス批判の節、勉強になりました。研究者諸君、このくらい丁寧に説明してくれたまえ。(態度が大きい)
 構造VARモデルの識別の話が全然理解できなかったけど、これは別に勉強しないと。

 日々のマーケティングリサーチでは、ここでいうところの構造モデル(エージェントの合理的意思決定ルールを明示的に組み込んだモデルのことですよね)を用いることはないと思うんだけど、なぜだろうか。そもそも消費者をその非合理性まで含めて理解しようとしているからですかね?
 いや、ちょっとまてよ。そんならコンジョイント分析は構造モデルだってことにならない? ふつうリサーチャーはコンジョイント分析を「なんだか知らんが当たる手法」として捉え、実際の意思決定との対応についてはあまり深く考えていないと思うけど(それはたぶん正しい)、仮にそうではなく、いま推定しようとしている部分効用関数が消費者において心的に実在し、いま仮定している全体効用関数と選択モデルはその下での合理的意思決定ルールだと真面目に考えているならば、それはそのリサーチャーにとって構造モデルだってことになるの?
 … ま、ここでいう「構造モデル」という言葉は計量経済学の文脈を強く反映していると思うので、他の分野に広げるとだんだん言葉の遊びになっていくような気もするけれど、ちょっと気になるところである。