elsur.jpn.org >

« 読了:Franses & van Oest (2004) Koyckモデルの注意点 | メイン | 読了: 畑山(1996) 比較広告の実例をみせて印象評定 »

2019年4月28日 (日)

Franses, P.H. (1991) Primary Demand for Beer in The Netherlands: An Application of ARMAX Model Specification. Journal of Marketing Research, 240-245.

 セミナーの都合で読んだ奴。マーケティング・ミックス・モデリングにおけるARMAXモデルの意義について知りたかったので。

 いわく。
 時系列データで市場反応モデルをつくっていて、説明変数が複数あり、ラグもわかんないとき、どうするか。
 Hanssens, Parsons & Schultz(1990)にいわせれば、ラグを突き止めるにはダブル・プレホワイトニングを行う[$x_t$にARMAモデルをあてはめて残差をとり、それと同じARMAモデルを$y_t$にもあてはめて残差を取り、残差同士のCCFを調べるという話だと思う]。
 ところがこのやり方だと、説明変数が複数あるときには困る。Liu & Hanssens(1982)の提案もあるけど、最初の回帰式の残差項が自己相関を持つ可能性がある[読んでないからわかんないけど、たぶん、プレホワイトニングなしでいきなりでっかい分散ラグモデルをOLS推定し、徐々に削っていけという話なのではないかと思う]。また、欠損変数があるとき、ダブル・プレホワイトニングは見せかけの従属性や独立性を引き起こす。
 みなさん、そういうときはARMAXモデルを使いましょう。

 ARMAXモデルとは、一般的に書くと
 $\displaystyle (1 - \sum_{i=1}^p \alpha_i L^i) y_t = \mu + \sum_{i=1}^r \beta_i^{'} L^i x_{t+1} + \left(1+\sum_{i=1}^q \gamma_i L^i \right) \epsilon_t$
 [なるほど、ここでのARMAXモデルという呼称はHyndmanさんの説明にも一致している。$x_{t+1}$というところに面食らったが、よく見ると$L^i x_{t+1}$は$i=1$のときに$Lx_{t+1} = x_t$になるのでこれでよい]
 もし$1+\sum_i^q \gamma_i L^i$が反転可能なら、これはARX($\infty$)に書き換えられる。
 手順は次の通り。(1)$y_t$を適切に変換して定常にし、ARMAモデルを組む。(2)$x$をみな適切に変換し定常にする。(3)ARMAモデルに投入してラグを決める。
 ARMAXモデルの推定は、ARXに変換して非線形最小二乗法でやる。[んんん? 非線形って? ARXに反転できればOLSは一致性を持つんじゃない? BLUEじゃないからFGLSでやるべしってんならわかるけど]
 まずとにかく推定し、パラメータに制約を掛けたりして経済学的な仮説を検定すべし。で、モデルをシンプルにして再推定すべし。
 モデルの診断は、(1)残差のSEと修正したR^2を調べ、(2)残差の正規性を調べ、(3)自己相関がないか調べ、(4)ARCH(k)がないか調べ、(5)ホールドアウトで予測性能を調べる。[←いろいろ書いてあるけど中略した。こ、こまかいね...]

 実例。
 オランダにおけるビールの一次需要(成人人口当たりリットル)、1978-84年の隔月時系列について分析する。対数系列$logQ_t$を目的変数にする。説明変数は、平均気温$TEMP_t$、価格インデクス$PB_t$、総広告支出(成人人口当たり)$AT_t$、そして消費者支出指数$CE_t$。
 82年に酒類の増税があって、需要はその直前に増大し、直後はすごく下がった。そこで、価格インデクスを完全に先読みした$PBEXP_t = PB_{t+1}$という変数もいれた。
 季節効果は、季節ダミーを6個入れるという手と$\Delta_6 logQ_t$を使うという手を考えた。前者の残差$RlogQ_t$と後者$\Delta_6 logQ_t$についてACFを調べたら、$RlogQ_t$が自己相関を持たなかったので、こっちを採用した。$\mu$のかわりに6個の季節ダミーをいれて、(季節ダミーを抜くだけで自己相関が消えたわけだから)$p=6$とするけど$\alpha_i$は1から5まで0とし、$q$は1にした。[ってことは、誤差項はSARIMA(0, 0, 1)(1, 0, 0)ってことだろうか。へぇー、次数はこういう風に決めるのかー。この思い切りの良さ、勉強になる]
 時系列を観察すると84年に落ちているようなので、84年だけ1になるダミー変数$DMEAN$もいれた。
 $TEMP_t$は季節ダミーを入れれば自己相関が消え定常となったので、そのまま入れた。
 $PB_t$は非定常にみえるので、単位根を調べたら...単位根があった[ここ、前後の文脈からいえば単位根検定をやっているはずなのだが、なんだかよくわからん手順が説明されている。なにこれ??? えーと、Hylleberg & Mizon (1989)による方法なのだそうだ]。$PB_t$と$PBEXP_t$は差分をとっていれた。
 $AT_t$は季節効果がありそうなので季節ダミーをいれて残差をとり$RAT_t$とした。単位根はなかった。ラグがあると思うので$AT_{t-1}$もいれた。$CE_t$は単位根がありそうなので差分をとっていれた。
 というわけで、モデルは以下の通り:
 $logQ_t $
 $= \alpha logQ_{t-6}$
 $+ \delta_0 DMEAN_t$
 $+ \sum_i^6 \delta_i D_{it}$
 $+ \beta_1 TEMP_t$
 $+ \beta_2 \Delta_1 PB_t + \beta_3 \Delta_1 PBEXP_t$
 $+ \beta_4 AT_t + \beta_5 AT_{t-1}$
 $+ \beta_6 \Delta_1 CE_t$
 $+ \epsilon_t + \gamma \epsilon_{t-1}$
有意でない項があったりしたので削ったりした[...すごく細かく書いてある。面倒なので中略するけど、参考になります...]。他の期間のデータを使って検証したところ...[略]

 考察。
 ARMAXモデルの限界:変数が多すぎるときに推定に困る。モデルの単純化の段階でしくじることもある。
 モデルの限界:[こんな変数も欲しかったなあ的な話。省略]

 なるほど... いやー、これは大変勉強になりました...
 対数変換とか差分とかのことを全部忘れてしまえば、このモデルは結局
 $Y_t = c + b_1 X_t + b_2 X_{t-1} + \alpha Y_{t-6} + \epsilon_t + \gamma \epsilon_{t-1}$
であろう。書き換えると
 $(1-\alpha L^6) Y_t = \mu + (1- \phi L) b X_t + (1-\gamma L) \epsilon$
伝達関数モデルっぽく書くと
 $\displaystyle Y_t = \mu^{'} + \frac{b(1-\phi L)}{1-\alpha L^6} X_t + \frac{1-\gamma L}{1-\alpha L^6} \epsilon$
なるほどね、説明変数系列にARMA(6,1)フィルタを掛け、撹乱項系列に別のARMA(6,1)フィルタを掛けているが、2つのフィルタのAR部分は同じ、というわけだ。ラグの効果は広告と未知要因の間で異なるからMA部分は説明変数と撹乱項の間で異なる、しかしそれとは別に、あらゆる効果が同じように繰り越されていくのでAR部分は共通...と考えると、実に自然なモデルである。

 疑問点がみっつ。
 その1、パラメータの解釈はどうなんだ。説明変数の効果は、やっぱし分散ラグだけで表現されているほうが解釈しやすいんじゃないか? ...ううむ。
 その2、このモデルだって結局、いきなり分散ラグモデルを組んでいるわけですよね。Hanssenたちの提案のちがいはたぶん、Hanssenたちは最初は撹乱項の自己相関を無視してOLS推定するけど、ここではちゃんと撹乱項の自己相関を考慮する、ということだと思う。では、最初っからARMA誤差つき分散ラグモデルを考える、つまり最初から
 $\displaystyle Y_t = \mu^{'} + \frac{b(1-\phi L)}{1} X_t + \frac{1-\gamma L}{1-\alpha L} \epsilon$
というようなのを最尤推定する、っていう手はどうなんだろう?
 その3、こういうわかりやすい論文を書いておきながら、先日読んだ奴では、著者の先生はこういうモデルじゃなくて
 $(1-\gamma L) Y_t = \mu + (1-\phi L)\beta X_t + (1-\gamma L) \epsilon$
といういまいちよくわからんモデルをお勧めしておられるわけである。先生、それってどういうことすか。

論文:データ解析(2018-) - 読了:Franses (1991) ARMAXモデルで市場反応をモデリングしよう

rebuilt: 2020年11月16日 22:53
validate this page