読書日記: 読了：Du & Kamakura (2012) 多変量時系列のなかに消費者トレンドをみつける

« 読了: Halay & Baldinger (2000) ARF広告プリテスト妥当性プロジェクト | メイン | 読了: Kramer, Guillory, Hancock (2014) Facebook上での感情感染 »

2014年6月28日 (土)

Du, R.Y., Kamakura, W. (2012) Quantitative Trendspotting. Journal of Marketing Research, 49, 514-536.
　我にGoogle Trend かそんな感じのなにかを与えよ。さすれば動的因子分析(DFA)によって消費者トレンドを抽出してごらんにいれよう... という論文。
　魅力的な題名に惹かれてざっと目を通していたのだけど、都合によりきちんと読みなおした。いやあ、これ、面白い。

　まずはDFAを使った研究のレビュー。実用例は少ないという印象があったのだが、やはり少ないっす。

もともとDFAは計量経済学から出てきたのだそうだ。知らなかった。Gweke (1977), Engle & Watson (1981, JASA), Harvey (1989, 書籍), Litkepolh(1991, 書籍"Introduction to Multiple Time Series Analysis") が挙げられている。
計量心理では、Molenaar(1985,Psychometrika)が早い。ある対象者の複数の生理指標の時系列分析に使った由。ほかにMolenaar, Gooijer, Schmitz(1992,Psychometrika).
Zuur, et al.(2003, Environmetrics): 生物・環境系の多変量時系列から、共通の軌跡を見つけるという話だそうだ。
Ludvigson & Ng (2007, J.Financial Econ.): 株式市場の研究。あー、そうか。いかにもありそうな話だ。
Aruoba, Diebold, Scott (2009, J.Business & Econ. Stat.): ビジネス環境についてのaggregateレベルでの多変量時系列をリアルタイムで追いかけて... という話らしい。ほへー。
Doz & Lenglart (2001): これもリアルタイムの話。欧州の産業調査から得た30本の時系列を一因子DFAで追いかけ、周期変動を見つける。

　著者は触れてないけど、社会心理方面ではDFAを使った研究がそこそこあるんじゃないかしらん。前にEmotionに載っているのを読んだことがある。前の前の職場でぼーっとしてた頃だ、懐かしい。
　近年の進展については、Croux, et al.(2004, J. Econometrics), Molenaar & Ram (2009, 論文集)をみよとのこと。後者のほう、面白そう。
　著者らいわく、マーケティング分野で使っているのを見たことがない由。そうなんですか？
　
　著者らいわく、おおざっぱにいってDFAには二種類ある。

ひとつは、状態空間モデルでいうところの観測方程式 (SEMでいう測定モデルね) は普通の因子分析モデルであって、時点 $t$ の観測値は時点 t の因子によって決まるのだが、状態方程式 (SEMでいう構造モデルね)のほうにラグがはいってくる、というもの。Engle & Watson, Zuur, et al. などがそうで、本論文もこのタイプ。
もうひとつは、状態方程式のほうにはラグは入らず、観察方程式のほうにラグがはいるもの。例として、Sargent & Sims(1977), Forni et al(2000, Rev. Econ. Stat.), Stock & Watson(2002, J.Business & Econ. Stat.).

　本研究で、なぜベクトル自己回帰(VAR)とかベクトル自己回帰移動平均(VARMA)を使わないのかというと、時系列の本数がやたらに多くなったときに耐えられないから。最近ではBayesian VARというのがあるけど、事前分布を決めるのが難しいし、本研究では共通のトレンド曲線を抽出するのが目的なのに、そういうのを出力してくれない。
　
　で、著者らが開発したstructural DFA (SDFA) のご紹介。なんでstructuralかというと、構造モデルのほうを単なる自己回帰とかにしないで、計量経済でいうところの構造的時系列分析をやるからだ、との仰せである。あああ、苦手な話になってきた...
　時点 $t$ における、$n$ 個の指標のベクトルを $y_t$ とする。これを次の順に分解する。

$y_t = B + L f_t + u_t$. $f_t$が因子のベクトルである。$u_t$ は平均$0$, 分散$\Sigma_u$の正規分布。以下、誤差項については同様なので省略する。
$f_t = \alpha_t + \gamma_t$. $\alpha_t$はトレンド要因、$\gamma_t$が季節要因。
$\alpha_t = \alpha_{t-1} + \beta_{t-1} + \epsilon_t$. でました、一次ラグの登場です。$\beta_t$ がトレンドの傾きである。
$\beta_t = \beta_{t-1} + \delta_{t-1} + \eta_t$. $\delta_t$ はトレンドの傾きの変化。
$\delta_t = \delta_{t-1} + \zeta_t$. やれやれ、やっとランダムウォークになりました。
$\gamma_t = -\sum_{j=1}^{s-1} \gamma_{t-j} + \xi_t$. 変形すると$\sum_{j=0}^{s-1} \gamma_{t-j} = \xi_t$, つまり任意の$s$期を足しあげると期待値$0$になるわけで、なるほど季節要因である。

いまここで、$\gamma_t$ を取っ払い、3本目を単純化して$\alpha_t = \epsilon_t$ としたら、これは通常の因子分析である。$\alpha_t = \alpha_{t-1} + \epsilon_t$ としたら普通のDFAである。

　分析例。Google Trendで、自動車ブランド38個のUSでの検索数の、約6年間の時系列曲線を取得。推定手続きは付録を読めとのこと、一応めくってみたが、カルマンフィルタとか出てきて頭痛くなりそうなのでパス。BICでもって7因子解を採用。バリマクス回転。
　因子の解釈は順に、

「外国車マス」(ホンダ、ニッサン、トヨタ、VW, Miniなど)、
「米国車マス」(シボレー、フォード、クライスラーなど)、
「欧州車高級」(ポルシェ、MB, BMWなど。ニッサンのインフィニティも負荷が高い)、
「GM車の生き残った奴」(ビュイックなど)、
「レクサス」(レクサスが正の負荷、Ramが負の負荷を持つ)、
「スバル」(スバルが正の負荷、マツダとサターンが負の負荷を持つ)、
「GMの打ち切られた奴といすず」(サーブ、ハマー、いすずなどが正の負荷、ヒュンダイ、キア、スズキが負の負荷を持つ)。

うーむ、負の負荷ってのはなかなか解釈が難しいっすね。
　\alpha_t をみると、経済情勢からみていかにもそれらしい曲線になっている...云々。因子7は低落のトレンドにあって、つまりいすずの検索数が減るのと裏返しに韓国車とスズキの検索数が増えているわけである。$\beta_t, \delta_t$ に分解して観察すると...云々。
　綺麗に分解しているので今後を予測するのも簡単で、ホールドアウトの予測は、ARIMA, VAR(1), Bayesian VAR(1)より良かった由。とはいえ、これは使ったデータがこの手法向きだったということだろう。著者らも、将来予測は主目的ではないし、ARIMAみたいな手法のほうがうまくいくこともあるだろう、と述べている。
　各ブランドの実際の月次売上を説明してみると、そのブランドの検索数で説明するより、7因子を全部使った回帰式で説明したほうが、決定係数が劇的に高い。なるほどねえ、これは面白いなあ。著者らいわく、これは自分たちもちょっとびっくりで、一般化できるか要検討だとのこと。
　トレンドへのショック、すなわち$\epsilon_t$を見てみると、数か所だけ0から大きく離れる箇所がある。たとえば、「米国車マス」と「GM車の生き残った奴」が2005年6月ごろにどーんと正に振れていて、ちょうどこの時期に大規模な割引があったのだそうだ。直後に負に振り戻しており、つまりは売上を先食いしたのでしょう、とのこと。
　さらには、\alpha_tを失業率、ACSI, ガソリン価格などで説明するモデルを組んで、インパルス応答関数を出したりなんかして... ガソリン価格が上がると米国車マスは下がり外国車マスが上がるが、どちらも２か月しか続かない、とか... 個別の検索数の残差項 u_t の曲線の形状も個々の会社の事情でいちいち説明できるとか...
　いやあ、もうお腹一杯です。さすがはアメリカの研究者、肉食ってる人は違うなあ。

　というわけで、ものすごく！面白い論文であった。仕事でこういうものすごく大きなパネルデータを扱うことがあるのだけど、DFAを探索的に使う、というのは不思議なくらいに思いつかなかった。DFAって因子負荷については確認的に制約するのだという気がしていたのだ。
　あれこれ応用を思い浮かべて、読み進めるのに困るくらいだったのだが、あまりに仕事に密着しすぎているので、ちょっとここには書けない。

　文系読者ならではの素朴な疑問としては... もしこういう分析を明日までにやれといわれたら、まず時点xブランド名の行列を素直にEFAにかけ、得られた因子得点についてやおら時系列分析を始めるだろう、と思う。もちろんパラメータ推定や標準誤差の推定にはバイアスがかかるだろうけど、それはいったいどのくらい深刻なのだろうか。直感的には、個々のブランドの独自性が小さく、因子数が正しく、かつ因子数がブランド数に対して十分に少なければ、こういう二段階作戦でもたいして問題なかったりしませんかね... そんなことないですかね？
　さらなる素朴な疑問として... データの性質によるとは思うけど、季節変動の分離は因子分析の前にやった方がよかないか。たとえばメーカーの決算期を反映した季節変動があるかもしれないし。そんなので因子が形成されちゃったらたまんない。
　それから... 著者も最後に述べているけど、因子構造が変わっちゃったことにどうやって気が付くか、という問題は面白いなあ。誰か頭の良い人が考えてくれるといいんだけど。

　論文の内容からは離れるけど、こういう多変量時系列から因子を抽出するのがアリならば、潜在クラスを抽出するのもアリだろう。全然気がつかなかったけど、もっと時点数が少なくて本数が多いパネルデータに、LCGMなりGMMなりを適用する、というのもオオアリだし、 McArdleのLDSMなんてまさにぴったりだ。具体的にはいいにくいけど、そういうデータ、メーカーのマーケターもある種の調査会社のみなさんも、毎日触っているではないか。
　私はある時期、朝から晩まで子どもの学力の成長モデルのことばかり考えて過ごしていたことがあるので、この種の視点には相当アンテナが立っている方だと思っていたけど、恥ずかしながら、この論文は目から鱗であった。いやあ、良い研究というのは素晴らしいものである。

論文：データ解析(-2014) - 読了：Du & Kamakura (2012) 多変量時系列のなかに消費者トレンドをみつける

読書日記

読んだ本を淡々と記録します

2014年6月28日 (土)