elsur.jpn.org >

« 読了: Ferjani, Jedidi & Jagpal (2009) 消費者ベースのブランド価値はおろか、企業収益上のブランド価値まで、コンジョイント分析一発で調べてみせましょう | メイン | 読了: Asparouhov, Masyn, & Muthen (2006) さあSEMで生存時間をモデリングしようじゃないか »

2013年4月25日 (木)

 あるときある消費者が買い物に行きましたとか、あるカテゴリの商品を買いましたとか、そういう現象を時間軸上で統計的にモデル化しようとするとき、ひとつのアプローチはそれを交通事故のような現象だと捉えることだけれど、買い物は交通事故と違ってその人の前日までの買い物に影響されるので、その履歴を考慮しないのはもったいない。とくに最近ではID-POSやらなんやらで、個人ベースのデータがあふれているので、もう少し工夫しようと欲が出るのが人情である。
 そういうときに用いられるのが、生存時間分析で使われる比例ハザードモデルである。いわば購買を死に見立てた生存モデルだ。マーケティング・サイエンスというと派手派手しいけど、このように道具は医学統計から借りてきたものだったりするので、あまりびびってもいけないと思う。

Seetharaman, P.B., & Chintagunta, P.K. (2003) The propotional hazard model for purchase timing: A comparison of alternative specifications. Journal of Business & Economic Statistics. 21(3), 368-382.
 購買タイミングに対する比例ハザードモデル(PHM)を比較検討。仕事の都合で読んだ。
 実データを使って以下の5点について検証する。

  1. 時間が連続的な普通のPHMと、時間を離散的にしたPHMのどっちがいいか。
  2. パラメトリックPHMでベースライン・ハザードとして用いる関数はどれがいいか。指数とかワイブルとか対数ロジスティックとか。
  3. 普通のPHMと競合リスクモデルのどっちがいいか。
  4. パラメトリックPHMとノンパラメトリックPHM(ベースライン・ハザードを出成りで決める奴)のどっちがいいか。
  5. ふつうのPHMと対象者間異質性つきPHMのどっちがいいか。

 というわけで、以下のモデルを用意する。時点を t , 共変量を X_t とする。

 実データはIRIのスキャナー・パネル・データ。買い物行動の発生ではなく、洗濯洗剤とペーパータオルの購買をモデル化する。共変量は、価格、ディスプレイ、チラシ、インベントリー(世帯内の買い置きのことであろう。どうやって調べたんだろう...)。すべて最尤法で推定。ええと、連続時間PHM, 離散時間PHM, 競合リスクモデルのそれぞれについてハザード分布が5通り、ノンパラPHM(100時点)と合わせて16個。さらに異質性を組み込んだやつも推定するわけだ。で、モデルのSBC (BICのことであろう)を比較する。
 結果は...

 今後の課題としては... 最尤法で推定したけど今後はMCMCが有望。異質性についてはHB推定が有望。時間変動共変量だけでなく時間不変共変量についても要検討。離散PHMについては連続的確率密度だけでなく離散的確率密度も要検討。パラメータが非定常である場合も要検討。PHMと加法リスクモデル(ARM)との比較も要検討。

 離散時間PHMを導入するところで派手につまづいてしまい、読むのに時間がかかった。わからなくなったのは、離散時間PHMを実データを当てはめる際に t をどのように離散化したのか、という点だ。散々悩んだのだが、おそらくほんとに週で区切ったのではないかと思う。とすると、「この週は買い物にいかなかった」人が少数ながらも生じてしまい、結局は「買い物に行ったけど買わなかった」と「買い物に行っていない」の区別がつかなくなるのではないか、という疑問が残っているのだが...。
 上記の混乱は私の予備知識が足りないからであって、総じてとてもわかりやすく、非常に勉強になる論文だった。説明がきびきびしていて、実にありがたい。ここ数日で何本か読んだ類似の論文と同じことを説明していても、こちらのほうが断然わかりやすい。他の学者さんたちにも見習ってほしいよ。
 前々から不思議に思っていたのだけれど、ID-POSやスキャナー・パネルのデータを使ってブランド購買をモデル化する際、往々にして当該カテゴリの購入記録だけを抽出して分析しているように思う。でも、ある来店におけるカテゴリ非購買には複数種類あるから(カテゴリがほしくなかった、買いたいブランドがなかった)、それらのちがいを考慮しないと、ブランド購買のモデルにバイアスが生じるのではないか、という疑問があった。この論文はカテゴリ購買タイミングのモデルだけれど、単位期間におけるカテゴリ非購買に複数種類あり(非来店、来店非購買)、それが共変量の効果にバイアスをもたらすという点で、結局は同じ問題を抱えているわけだ。おかげで霧が晴れたような思いである。やっぱし、見よう見まねではなくて、ちゃんと勉強せんといかんね。

論文:データ解析(-2014) - 読了:Seetharaman & Chintagunta (2003) 購買タイミングの比例ハザードモデル