elsur.jpn.org >

« 読了:Asparouhov, Muthen, Morin. (2015) おまえら全然わかってないな、ベイジアンSEMってのはこうやって使うんだよ | メイン | 読了:Dekimpe & Hanssens (2000) マーケティングにおける時系列モデルレビュー »

2015年8月 4日 (火)

Krider, R.E., Li, T., Liu, Y, Weinberg, C.B. (2005) The lead-lag puzzle of demand and distribution: A graphical method applied to movies. Marketing Science, 24(4), 635-645.
 一見したところ私とは関係ない話だけど、ひょっとしてこれ、仕事で使えるんじゃないか? と気になって目を通した。Google Scholar様的には、メジャー誌にも関わらず、被引用件数46。ううう。選球眼が問われるところですね。

 需要が配荷を生んでいるのか、配荷が需要を生んでいるのか。これをlead-lag問題という。映画でいうと、需要(興収)が上映館数を決める面と上映館数が需要を決める面がある。このダイナミクスについての研究は少ないけど、映画会社にとっては大問題である(消費者にプロモーションすべきか、映画館主にプロモーションすべきか)。また、映画以外でもlead-lag問題は重要だ。
 lead-lag問題の探求は難しい。実験ができれば素晴らしいが、なかなか難しい。最近ではグレンジャー因果性とか外生変数つきベクトル自己回帰(VARX)とかによる研究が出てきているが(Horvath et al. 2002 MktgLetters; Nijs et al. 2001 MktgSci, Pauwels et al. 2002 JMktgRes, Pauwels & Srinivasan 2004 MktgSci, Srinivasan et al., 2004 MgmtSci.)、あいにく映画の時系列は短いし非定常なので、グレンジャー因果性検定がうまくいかない。
 そこで、時系列データをつかってlead-lagパターンを視覚化する方法をご提案します。

 二本の時系列 $X_t$, $Y_t$について考えよう。たとえば広告と売上とか。
 ($X_t$, $Y_t$)を二次元にマップしてみよう(時点を布置して線でつなぐ)。仮にラグなしで完全に正相関してたら、軌跡は正の傾きを持つ直線になる。ラグがあると曲線になって、(正の相関だとして) 反時計回りに回る曲線になる。逆に$Y_t$が$X_t$をリードしているときは時計回りに回る。
 この性質はいつでも成り立つ。
 [著者らはまず単純な正弦波の例を示し、次にフーリエ変換で一般化しているが、どうやら理屈は話のポイントじゃなさそうなので省略。なお、脚注によれば、こういう図のことを物理とか電気工学とかではリサジュー図(Lissajous figures)というのだそうだ。Wikipediaによれば調布の電通大の校章になっている由。知らんがな。googleで引くと岩手県奥州市にリサージュ四季の抄という結婚式場があるらしい。知らんがな]

 実験してみよう。
 一様 iid 乱数系列を三角フィルタでスムージングする。それにリードなりラグなりをつけて第二の系列をつくる。スムーズネス(5点フィルタ, 9点フィルタ)、リードかラグか、リード/ラグのサイズ(1,2,4,6)、時系列の長さ(11点,6点)を操作。各セルで8回試行、計256組の2変量時系列ができる。で、それぞれについて図を作り、協力者に軌跡が時計回りか反時計回りかどちらでもないかを判断してもらった。リードのときに時計回り、ラグのときに反時計回りと判断された割合を正解率と呼ぶ。
 正解率は93%~23%(11時点、5点フィルタ、ラグ4ないし6、というのが一番難しい)。ラグが大きいとき、スムーズネスが低いときに難しくなるが、時系列の長さはそんなに効かない。
 これを2変量時系列のグレンジャー因果性検定と比較してみると、正解率は63%~0%。どの条件でも人間の目にぼろ負けする。[←いやー、それはそうでしょうね、この短さでは...]
 ほかに、映画の上映館数と興収を模した非定常な5点時系列でもシミュレーション。グレンジャー検定よりすぐれている由。

 最後に実データ分析。231本の映画の上映館数と興収の二変量時系列(週次)を使う。長さは平均12週。
 それぞれの映画について、ラグ3までいれたVARXモデルでグレンジャー因果性を検定し、(上映館数←興収が有意か)x(興収←上映館数が有意か)で4通りの分類。前者は180本で有意、後者は106本で有意であった由。なんで全部まとめたランダム係数モデルを組まないかねえと思ったのだが、脚注によれば「どっちもあり」で終わっちゃう由。
 次に、横軸を上映館数、縦軸を興収にとってそれぞれの映画の軌跡を描き、人の目で判断させると、(評定者によるが)180~190本が「時計回り」にみえる。つまり、視覚的には上映館数←興収であると示唆される。

 。。。ううむ。。。これ、どうなのかしらん。。。
 論文のロジックとしてそうせざるを得ないことはよくわかるんだけど、提案手法のベンチマークをグレンジャー因果性検定にするのはちょっと変な感じがする。よくわかんないけど、6時点かそこらの時系列でグレンジャー因果性を検討しようだなんて、ハナから無謀な感じがするんだけど。むしろ、「何も知らない人が図を見たときに、どっちがどっちに先行していると判断できるか」をベンチマークにするのが現実的ではないか。
 で、提案手法は結局こういうことだ。横軸に配荷、縦軸に需要をとると、右が高い単調な曲線状の軌跡になる。それが時計回りだったら需要→配荷、反時計回りだったら配荷→需要と判断しましょう。
 こういうとマジカルに聞こえるけど、もっと具体的に考えると、これは案外あたりまえの話なんじゃないかという気がする。たとえば、映画のようなライフサイクルの短い製品では、軌跡は右上から左下に滑り降りていく。それが下に凸な曲線だったら(時計回りだから)需要→配荷、上に凸な曲線だったら(反時計回りだから)配荷→需要だ、ということになる。でも、そのくらいの推論だったら、なにも知らない人だって思いつくんじゃないですかね? だって、「まず縦軸が落ち、遅れて横軸が落ちる」曲線じゃないですか。チャートを眺めれば、「ううむ、まず配荷が落ちて、すこし遅れて需要が落ちましたね。ということは配荷→需要なんじゃないですか」ぐらいのことは、誰だって思いつくんじゃない?
 さらにいえば、シミュレーション実験での提案手法の正解率は、グランジャー因果性検定よりはましだけど、絶対値として優れているとは言いがたい。結局、現実的なベンチマーク(素人判断)と比べても、はたまた絶対値としてみても、提案手法の優位性は特にない、という切ない話になっちゃいそうだ。

 ま、それはともかくとして、意外な視点の面白い論文ではあった。2変量時系列を散布図上の軌跡として描いて、「ふむ...左回りだ... 横軸が縦軸の原因になってませんかね」なんて呟いたら、ちょっとかっこいいかも。

論文:データ解析 - 読了:Krider, Li, Liu, Weinberg (2005) 需要が先か配荷が先か(ないし、左回りか右回りか)