読了: Chou, Derdenger, Kumar (2019) 耐久消費財の市場レベルデータに基づく動的離散モデルで需要推定

Chou, C., Derdenger, T., Kumar, V. (2019) Linear Estimation of Aggregate Dynamic Discrete Demand for Durable Goods: Overcoming the Curse of Dimesionality. Marketing Science, 38(5), 888-909.

 仕事の都合で読んだ奴。ブランドシェアと製品特性・価格の市場レベル時系列について、個人選択モデルに基づくモデルを組んで、もし製品特性・価格がこうだったら需要はこうだったはずという推論をしますという話。えーと、構造推定っていうんでしょうか??? とにかく非常にいかついモデルである。

1. イントロダクション
 ちかごろ都では動的離散選択モデル(DDC)が流行っておるそうな。企業・消費者の選好の時間的な諸側面と、その結果として生じる時間を通じたトレードオフを捉えることができるからのう。[←論文メモでふざけるのやめます]
 とはいえDDCは追跡できる状態空間を決めるのが難しい。観察されていない状態変数を入れたい場合は特に。
 本研究は、耐久財のDDC需要モデルを識別・推定する新しい方法を提案する。それも、個々の製品ごとの誤差だけではなくて、未観察な連続的・製品特有的状態変数があるモデルを。しかも、市場レベルデータだけで。さらに、次元の呪いを受けない方法で。

 一般的なDDCモデルをご存じの方は、未観察の状態変数の一部が連続で系列相関があり他の状態変数とも相関があるようなモデルだと思ってもらえればよい。従来の手法では識別できない。
 個人レベルデータに焦点をあてた研究は、ふつう持続的な未観察状態変数は無視している。例外:

  • Hu & Shum (2012 J.Econometrics): 連続的未観察状態変数つき二値DDC。識別できるモデル要素が限られている。
  • Noret(2009 Econometrica): 系列相関のある未観察な個人特異的誤差を含めている。いっぽう本研究では製品レベルの誤差を扱える。
  • Arcidiacono & Miller (2011 Econometrica): 持続的未観察変数を含めている。しかし離散変数に限定。

[どういう分野の話なんだろうと思って細かくメモしてみた。やっぱし計量経済学なんでしょうね]

 我々の推定アプローチはDDCの分野では以下の点で新しい。(1)近似手法じゃありません。(2)次元の呪いを受けません。(3)たくさんのモデル要素を推定できます。

 [イントロではあるがもう先行研究概観に突入している。全然しらん分野で見当もつかないのでメモは大幅に省略。途中に出てくる Sun & Ishihara ってNYUの石原昌和先生!?]
 提案する推定量は超シンプルだが、それゆえの限界もある。[素人ながら、イントロでこういうことを言い出すのはきっと凄く大事な話だからだろうと思うので、細かくメモするぞ]

  • 本モデルで、消費者はある最適停止問題に直面する。それは、購入せずに市場に残るか、購入して永遠に市場から離脱するか、という選択問題である。非終端の選択(クルマをリースする)があるような選択はだめ。 選択が反復購買への状態依存性を持つような環境もだめ[買い置きするよな財はダメってことね]。
  • このDDCモデルが扱えるのは、多項ロジット構造、ないし一般化極値(GEV)ネステットロジット構造のみ。未観察の異質性は扱えない。そもそも未観察の異質性を集計データで同定するのは難しいのはよく知られていることだ。
  • 2つの未観察な製品特性の差を識別できるだけ。[←すいませんなにいってんだかわかんないっす先生…まあ先に進もう]
  • 定常性の仮定が必要。未観察特性と観察特性の同時分布は少なくとも2期は時間不変でないといけない。これは線形パネルデータモデルでもそうだ。

2. モデル
 時期\(t\)における消費者\(i\)の選択肢集合を\(\mathscr{J}_t \subseteq \mathscr{J} \equiv \{0,1,\ldots, J\}\)とする。\(0\)は外側の財(outside good)と非購入を、\(1,\ldots,J\)が製品を表す。製品の市場参入・退出により変化する。[ってことは製品のアベラビリティに消費者間異質性はないってことね]
 \(i\)は時点ごとに、まず\(\mathscr{J}_t \backslash \{0\} \)のなかから製品を買うかどうかを考える[書き方が小難しくて辛い… 「\(1,…J\)のなかから」って書けばいいのにさあ]。もし買うことをきめたら、次にどれを買うかを選ぶ。買ったが最後、\(i\)は市場から完全に退出する。

2.1 消費者効用
 状態を\(\Omega_{it} \equiv (x_t, p_t, \xi_t, \epsilon_{it})\)とする。\(p_t\)は製品価格のベクトル。\(x_t\)は他の観察された製品特性のベクトル。\(\xi_t\)は分析者が観察していない製品特性のベクトル。この3つ\(m_t \equiv (x_t, p_t, \xi_t)\)が市場レベルの状態である。
 \(\epsilon_{it}\)は、個人の選択ごとに生じる個人特有的なショックのベクトル。これも分析者には観察できない。
 [4つのベクトルはすべて長さ\(J\)ってこと? このあとを読むとどうやらそうらしく、たとえば\(x_t = (x_{1t}, x_{2t}, \ldots, x_{Jt})^\top\)ということと思う。なお、\(j \notin \mathscr{J}\)であるとき\(j\)番目の要素は定義できないので、この書き方は少しおかしい、と書いてあった。まあいまはそこは気にすんなってことでしょうね]

 ここで次を仮定する。
 仮定1. マルコフ仮定。$$ Pr(\Omega_{i,t+1} | \Omega_{it}, \Omega_{i,t-1}, \ldots) = Pr(\Omega_{i,t+1} | \Omega_{it})$$

 単純のため、外側の財の効用を0とする。つまり\(t\)期で買わなかったらフローの効用[←ある期間に受け取る効用のことらしい]は$$u_{i0t} = 0 + \epsilon_{i0t}$$ とする。製品\(j\)を買ったらその期のフローの効用は $$ u_{ijt} = f(x_{jt}, \xi_{jt}) – \alpha p_{jt} + \epsilon_{ijt}$$ で、その次の期からずっと\(f(x_{jt}, \xi_{jt})\)を受け取るとする。
 製品特性の部分は $$ f(x_{jt}, \xi_{jt}) = x^\top_{jt} \gamma + \delta_{jt}$$ とする。\(\delta_{jt}\)はスカラーで\(E_{jt}=0\)。[IIDだとは書いてない。今後なにが起きるのかわからなくて怖いなー。ところで、\(x_{jt}\)に転置記号がついているところをみると、こいつはベクトルなのね。観察された製品特性が複数あっても不思議じゃないからそうなる理由はわかるけど、でもさっき\(x_t\)はベクトルだって云ってたじゃんか、ひどいよ!]
 未観察製品特性\(\xi_{tj}\)は系列相関を許す。製品品質、広告などを表しうる。[あ、やっぱり\(\delta_{jt}\)はIIDじゃないのね。系列相関を許すことの意義が2段落くらい書かれている。たぶんここが売りの一つなんだろうな]

2.2 動的決定問題
 たとえば、消費者はこれから価格が安くなると思ってたら買わないじゃないですか。だから市場レベル状態\(m_t\)の期待が大事なわけだ。
 状態の価値関数を\(V_t(\Omega_{it})\)として、次のベルマン方程式を考える。[ベルマン方程式ってなに…? 調べてみたところ、えーと、離散時間の最適化問題を解く際に用いられる動的計画法の方程式だそうだ。なんというか… 俺なんでこんな論文読んでんだろう… 人生どこで間違えたんだろう…] $$ V_t(\Omega_{it}) = \max \left( \epsilon_{i0t} + \beta E[V_{t+1} (\Omega_{i,t+1}) | \Omega_{it}], \max_{j \in \mathscr{J} \backslash \{0\}} v_j( \Omega_{it} ) + \epsilon_{ijt} \right) $$ かっこのなかの第1項は買わなかったときの現在割引効用で、割引率\(\beta \in [0,1)\)。第2項は買うことの効用で、\(v_{jt}(\Omega_{it})\)は\(j\)を買うことの価値関数。[なるほど、落ち着いて読んでみるとそんなに複雑でない。第1項のほうで未来について次期しか考えてないことに戸惑ったけど、云われてみりゃそうか、\(V_{t+1}(\Omega_{i,t+1})\)のなかには\(V_{t+2}(\Omega_{i,t+2})\)についての条件付き期待値がはいってるもんね]
 製品別価値関数は以下とする。$$ v_{jt}(\Omega_{it}) = \frac{x^\top_{jt} \gamma + \delta_j + \xi_{jt}}{1-\beta} – \alpha p_{jt}, \ \ j \in \mathscr{J} \backslash \{0\}$$ [はあ??と思ったけど、これはこういうことね。話を簡単にするために第1項の分子を\(z_{jt}\)と書くとして、当期の(価格抜きの)効用は\(z_{jt}\)。効用がずっと変わらないとすると、来期は割り引いて\(\beta z_{jt}\)、そのつぎは\(\beta^2 z_{jt}\)、…という風に幾何分布になり、足し上げると\(z_{jt}/(1-\beta)\)だ]
 なお、$$ v_{0t}(\Omega_{it}) = \beta E[V_{t+1} (\Omega_{i,t+1})]$$ としておく。

 ここで次を仮定する。
 仮定2. 条件付き独立性。すべての\(t\)について、(i)\(\Omega_{i,t+1} \perp\!\!\!\perp \epsilon_{it} | (x_t, p_t, \xi_t)\); (ii) \(\epsilon_{i,t+1} \perp\!\!\!\perp \Omega_{it} | (x_{t+1}, p_{t+1}, \xi_{t+1})\)
 [日本語に書き換えると… すべての期において、(i)今期の市場状態のもとで、来期の全状態と今期の消費者ショックは条件付き独立、(ii)来期の市場状態の下で、来期の消費者ショックと今期の全状態は条件付き独立]

 (ii)が必要な理由はこのあとで。(i)はなにを意味しているかというと、当期の状態の下での来期の状態の価値の条件付き期待値というのは、来期の市場レベル状態のもとでの来期の状態の価値の条件付き期待値を、今期の市場レベル状態のもとで条件付けたものだ、つまり\(\bar{V}_{t+1}(x_{t+1}, p_{t+1}, \xi_{t+1}) \equiv E[V_{t+1}(\Omega_{i,t+1})|x_{t+1}, p_{t+1}, \xi_{t+1}]\)として$$ E[V_{t+1}(\Omega_{i,t+1}|\Omega_{it}] = E[\bar{V}_{t+1}(x_{t+1}, p_{t+1}, \xi_{t+1}) | x_t, p_t, \xi_t]$$ということだ。[悪いけど私の能力を超えたので、ここは深く考えずスルーするぞ]
 仮定2により、市場レベル状態\(m_t\)が決まれば\(v_j\)も決まる、ということになる。

3. 識別
 データからわかるのは、市場シェア\(s_{jt}\), 観察された製品特性\(x_{jt}\), 価格\(p_{jt}\)である。
 構造パラメータは、消費者選好のパラメータ\(\theta_1 = (\alpha, \beta, \gamma^\top, \delta^\top)\), 状態遷移分布関数\(F(\Omega_{i,t+1})\), 初期分布\(F(\Omega_{it})\)である。
 これらがわかれば、初期分布からはじめて、いろんな反実仮想実験のもとでの市場シェアをシミュレーションできる。なぜなら、仮説2により$$ F(\Omega_{it}) = F(m_t)F(\epsilon_{it} | m_t)$$ $$ F(\Omega_{i,t+1}|\Omega_{it}) = F(m_{t+1}|m_t) F(\epsilon_{i,t+1} | m_{t+1})$$ $$ F(m_t) = F(x_t, p_t) F(\xi | x_t, p_t)$$ だからだ。
 [頭の悪い私のために言い換えると… 製品特性・価格\(x_t, p_t\)は既知だから、もし製品レベルの効用ショックの分布\(F(\xi_{t}|x_t, p_t)\)を推測できれば、市場レベル状態の分布\(F(m_t)\)が推測できる。個人レベルの効用ショック\(\epsilon_{it}\)は市場レベル状態\(m_t\)とは独立だと仮定してるから、ここに\(F(\epsilon_{it})\)を掛ければ状態の分布\(F(\Omega_{it})\)が推測できる。で、もし「次期の市場レベル状態の分布を今期の市場レベルの状態の分布から求める関数」\(F(m_{t+1}|m_t)\)がわかれば、そいつに\(F(\epsilon_{it})\)を掛ければ次期の状態の条件付き分布\(F(\Omega_{i,t+1} | x_t, p_t)\)が推測できる。こうして各期の状態が次々と推測できる。もし消費者選好のパラメータもわかってれば各期の市場シェアも次々と推測できる。ってことですよね]

 先に本節のあらすじをご紹介しよう。

  • \(\theta_1\)の識別のためには、\(F(\epsilon_{it} | m_t)\)と、\(\xi_t\)から独立な道具変数があればよい。
  • \(E(\xi_t|x_t, p_t)\)の識別のためには、それが時間不変だと仮定するだけでよい。
  • \(Var(\xi_{it}), Var(\xi_{it}|x_t, p_t)\)の識別のためには、\(x_t, p_t\)の下で\(\xi_{jt}\)が製品間で独立かつ等分散と仮定する必要がある。
  • \(F(\xi_t|x_t, p_t)\)の識別のため、\(\xi_{jt}\)は平均のほかは同分布と仮定する必要がある。
  • \(F(m_{t+1}|m_t)\)の識別のため、\(\xi_{t+1}\)はAR過程に従い、\((x_t, p_t)\)の下で、\(x_{t+1}\)と\((\xi_t, \xi_{t+1})\)は条件付き独立、\((x_{t+1}, p_{t+1})\)と\(\xi_t\)も条件付き独立と仮定する必要がある。

 [なんだか知らんが最初の道具変数ってのが怖い。未知の製品属性にしか効かないと言い切れる原因変数を探して\(x_t\)に入れとけよってこと???]

 [ここから5ページにわたって数式山盛りの説明が続く。読まずにめくった。命がいくらあっても足りない]

4. 推定
 [6ステップにわけて推定するんだってさ。4ページ、読まずにめくった。まだ命が惜しい]

5. 反実分析の実装
 [1ページ。読まずにとばした。すいませんねどーも]

6. 実証的適用
 USの2007-2008年の携帯電話端末市場のデータにあてはめる。10個の州、主要6ブランドに注目する。[iPhoneとBlackberryが戦っていた頃の話ですね。残る4つとはサムソン、LG, ノキア, モトローラ。なお、あるブランドのデータ点は最大で10州x12ヶ月=120となる模様]。製品特性はBluetooth, GPS, QWERTYキーボード, 音楽, Wifi, 重さ, 連続使用時間。

 [パラメータが推測できました、という話。面倒くさいので読まずにとばした]

 では反実分析をやりましょう。
 GPSを全製品について0にすると、Appleのシェアが少し高くなる。Bluetoothを全製品0にすると、Appleのシェアが低くなる。[とかなんとか。ちゃんと読んでない]

結論
 [略]
————-
 なんというか、大砲で戦争やっているところに竹槍で突っ込んだような気分になった。私に読める論文じゃなかった。これ、実は同僚に読んでもらいあとで紹介してもらうつもりだったんだけど、やめといてよかった、そんなのただのパラハラだ…

 ま、世の中にはこういうアプローチがあるんだな、という雰囲気がつかめたのでよしとしよう。
 要するに、製品特性、価格、市場シェアのブランド別時系列に基づき、「もしあのとき価格を下げなかったらどうなっていたかしらん」的なシミュレーションをやりたいので、壮大なモデル(そこにはもうマーケティングアクションで左右されちゃうようなパラメータは一切ない)を組んでパラメータ推定するわけだ。その壮大なモデルは、個人レベルの選択モデルから積み上げていくという壮大さで(←語彙の貧困)、実質的理論に基づく制約をこれでもかこれでもかって突っ込んでいくわけね。よしっ!わかったっ!(←「犬神家の一族」の加藤武風に)

 論文を読み込む力はないもので、そのかわりに、こういうモデル(構造モデルっていうんでしょうか。当該領域の規範的な法則みたいのを組み込みまくったモデル)って、個々のブランドのマーケティング活動評価とはどう関係するんだろう、と考え込むわけである。
 過去のブランドシェア時系列と製品特性・価格の時系列から、あのときあの機能を入れてなかったらどうなってたか、あのとき値下げしてなかったらどうなってたか振り返りたい、というニーズはよくわかる。それってMMMに対するニーズに近いじゃないですか。この論文だと広告は未観察変数なんだけど、繰越効果を無視して、反応関数をブランドで共通な線形関数だと仮定していいんなら、広告支出の変数とかGRPとかを製品特性の変数として入れてもいいわけですよね? そしたらもうMMMそのものじゃん。
 この提案手法の最大の限界は、たぶん「買ったら市場から出て行く」という制約だと思うんだけど、耐久財ならば別に変な制約でないように思う。
 そうやって考えると、このアプローチをもっとデータドリブンなマーケティング活動効果測定(VAR/VECモデルとか)と勝負させたとき、負けちゃう点は話が「先生、話が超難しいっす」という点だと思うけど、勝てる点は何だろう… 胸を張って「これは反事実的枠組みでの因果推論です」と言えるということだろうか。もっと具体的には、なんかこうマーケティング活動の内生性によるバイアスみたいのに強かったりするんだろうか… いや待てよ、このモデルでは\(\xi_t\)はともかく\(x_t, p_t\)はすべて外生だから、その点についてのメリットは別にないのか? よくわからん…