読書日記: 読了：Seetharaman & Chintagunta (2003) 購買タイミングの比例ハザードモデル

« 読了： Ferjani, Jedidi & Jagpal (2009) 消費者ベースのブランド価値はおろか、企業収益上のブランド価値まで、コンジョイント分析一発で調べてみせましょう | メイン | 読了: Asparouhov, Masyn, & Muthen (2006) さあSEMで生存時間をモデリングしようじゃないか »

2013年4月25日 (木)

　あるときある消費者が買い物に行きましたとか、あるカテゴリの商品を買いましたとか、そういう現象を時間軸上で統計的にモデル化しようとするとき、ひとつのアプローチはそれを交通事故のような現象だと捉えることだけれど、買い物は交通事故と違ってその人の前日までの買い物に影響されるので、その履歴を考慮しないのはもったいない。とくに最近ではID-POSやらなんやらで、個人ベースのデータがあふれているので、もう少し工夫しようと欲が出るのが人情である。
　そういうときに用いられるのが、生存時間分析で使われる比例ハザードモデルである。いわば購買を死に見立てた生存モデルだ。マーケティング・サイエンスというと派手派手しいけど、このように道具は医学統計から借りてきたものだったりするので、あまりびびってもいけないと思う。

Seetharaman, P.B., & Chintagunta, P.K. (2003) The propotional hazard model for purchase timing: A comparison of alternative specifications. Journal of Business & Economic Statistics. 21(3), 368-382.
　購買タイミングに対する比例ハザードモデル(PHM)を比較検討。仕事の都合で読んだ。
　実データを使って以下の５点について検証する。

時間が連続的な普通のPHMと、時間を離散的にしたPHMのどっちがいいか。
パラメトリックPHMでベースライン・ハザードとして用いる関数はどれがいいか。指数とかワイブルとか対数ロジスティックとか。
普通のPHMと競合リスクモデルのどっちがいいか。
パラメトリックPHMとノンパラメトリックPHM(ベースライン・ハザードを出成りで決める奴)のどっちがいいか。
ふつうのPHMと対象者間異質性つきPHMのどっちがいいか。

　というわけで、以下のモデルを用意する。時点を t , 共変量を X_t とする。

ふつうのPHM。ハザード関数(つまり瞬間購買確率)は
h(t, X_t) = h(t) * e^{X_t \beta}
ベースライン・ハザード関数 h(t) としてはワイブル分布が用いられることが一番多いのだそうだ。ふうん。
　以降の話のためにちょっと丁寧に追っていくと、時点 t に購買が生じる確率密度関数を f(t, X_t), その累積密度関数を F(t, X_t) として、生存関数は S(t, X_t) = 1- F(t, X_t)。ハザード関数との間には h(t, X_t) = f(t, X_t) / S(t, X_t) という関係がある (生きている人でないと死ねないので)。これを解くと、
S(t, X_t) = e^{-\int_0^t h(u) * e^{X_t \beta} du}
となる。うんざりするような式だけど、要するに生存関数はexp(-累積ハザード関数)です, 累積ハザード関数はハザード関数の積分です、ということであろう。
離散時間PHM。grouped PHMともいう由。時間 t を離散的に扱う("measured in the time interval of shopping trips (usually weeks)"とのこと)。生存関数は
S(t, X_t) = e^{-\sum_{u=1}^t e^{X_u \beta} \int^u_{u-1} h(w) dw}
連続的PHMの生存関数の \int_0^t ... du が \sum_{u=1}^t ... に書き換えられ、e^{X_t \beta} が e^{X_u \beta} に書き換えられ、瞬間のハザードであった h(u) が期間のハザード \int^u_{u-1} h(w) dw に書き換えられているわけだ。ここからハザード関数を逆算すると
Pr (t, X_t) = 1 - e^{ -e^{X_t \beta} \int^t_{t-1} h(u) du }
となる由。mplus でも離散時間生存モデルを推定できるけど(成長曲線モデルみたいにアウトカムを時点別に変数にする)、それと同じことなのかどうか、よくわからない。
上記の2つのモデルの、ベースライン・ハザード関数を変えた奴を用意する。ワイブル分布のほかに、指数分布(ハザード関数は定数。つまりはメモリレスなモデルだ)、Erlang-2(ハザード関数は単調増加)、対数ロジスティック、expo-powerを試す。
競合リスクモデル。離散時間PHMに基づき、ある製品を前の期に買っていた場合のハザードと買っていなかった場合のハザードを別々に推定する(Pr (t, X_t) の式のなかの、共変量の係数 \beta とベースライン・ハザード関数 h() の両方を別々に推定する)。他の問題での使用例はあるが、購買タイミングのデータで推定するのはこの論文が初めてである由。
ノンパラメトリックPHM。ハザード関数は
Pr (t, X_t) = 1 - e^{ -e^{X_t \beta + \alpha_t}}
となる。時点の効果 \alpha_t を時点の数だけ推定するわけだ。
上記のモデルのすべてに世帯間異質性を組み込む。モデルのパラメータ(せっかくなのですべてのパラメータ)が、世帯間で多変量離散分布に従うと仮定する。どうやらその潜在クラスのことをサポートというらしい (知らなんだ...)。連続時間PHMと離散時間PHMでは\betaとh()をサポートごとに推定。競合リスクモデルでは \betaとh()をサポートごとにふたつづつ推定。ノンパラPHMでは\betaと\alpha_tを全部サポートごとに推定。

　実データはIRIのスキャナー・パネル・データ。買い物行動の発生ではなく、洗濯洗剤とペーパータオルの購買をモデル化する。共変量は、価格、ディスプレイ、チラシ、インベントリー(世帯内の買い置きのことであろう。どうやって調べたんだろう...)。すべて最尤法で推定。ええと、連続時間PHM, 離散時間PHM, 競合リスクモデルのそれぞれについてハザード分布が5通り、ノンパラPHM(100時点)と合わせて16個。さらに異質性を組み込んだやつも推定するわけだ。で、モデルのSBC (BICのことであろう)を比較する。
　結果は...

離散時間PHMはうまくいくが連続時間PHMはうまくいかない(共変量の符号が変になる)。これは、連続時間PHMが「買い物に行ったけど買わなかった」と「買い物に行っていない」を区別していないからである。
ベースライン・ハザードとしてはexpo-powerがお勧め。
競合リスクモデルはうまくいき、前期で購買したときと非購買だったときで共変量の効果がちがっており、豊かな知見が得られた。
わざわざノンパラPHMを推定してもたいしたメリットはない。
異質性を組み込むと(サポートは3つ)、あてはまりは良く、ベースライン・ハザードの水準と形状がサポート間で大きく変わった。

　今後の課題としては... 最尤法で推定したけど今後はMCMCが有望。異質性についてはHB推定が有望。時間変動共変量だけでなく時間不変共変量についても要検討。離散PHMについては連続的確率密度だけでなく離散的確率密度も要検討。パラメータが非定常である場合も要検討。PHMと加法リスクモデル(ARM)との比較も要検討。

　離散時間PHMを導入するところで派手につまづいてしまい、読むのに時間がかかった。わからなくなったのは、離散時間PHMを実データを当てはめる際に t をどのように離散化したのか、という点だ。散々悩んだのだが、おそらくほんとに週で区切ったのではないかと思う。とすると、「この週は買い物にいかなかった」人が少数ながらも生じてしまい、結局は「買い物に行ったけど買わなかった」と「買い物に行っていない」の区別がつかなくなるのではないか、という疑問が残っているのだが...。
　上記の混乱は私の予備知識が足りないからであって、総じてとてもわかりやすく、非常に勉強になる論文だった。説明がきびきびしていて、実にありがたい。ここ数日で何本か読んだ類似の論文と同じことを説明していても、こちらのほうが断然わかりやすい。他の学者さんたちにも見習ってほしいよ。
　前々から不思議に思っていたのだけれど、ID-POSやスキャナー・パネルのデータを使ってブランド購買をモデル化する際、往々にして当該カテゴリの購入記録だけを抽出して分析しているように思う。でも、ある来店におけるカテゴリ非購買には複数種類あるから(カテゴリがほしくなかった、買いたいブランドがなかった)、それらのちがいを考慮しないと、ブランド購買のモデルにバイアスが生じるのではないか、という疑問があった。この論文はカテゴリ購買タイミングのモデルだけれど、単位期間におけるカテゴリ非購買に複数種類あり(非来店、来店非購買)、それが共変量の効果にバイアスをもたらすという点で、結局は同じ問題を抱えているわけだ。おかげで霧が晴れたような思いである。やっぱし、見よう見まねではなくて、ちゃんと勉強せんといかんね。

論文：データ解析(-2014) - 読了：Seetharaman & Chintagunta (2003) 購買タイミングの比例ハザードモデル

読書日記

読んだ本を淡々と記録します

2013年4月25日 (木)