elsur.jpn.org >

« 読了:Muthen & Masyn (2005) 離散時間生存モデルへの招待 | メイン | 読了:Seetharaman(2004) 購買データを分析するみなさん、比例ハザードモデルばっかり使ってないで加法リスクモデルをお使いなさい »

2013年5月 3日 (金)

Manchanda, P., Dube, J.P., Goh, K.Y., & Chitagunta, P.K. (2006) The effect of banner advertising on internet purchasing. Jounral of Marketing Research, 43(1), 98-108.
 話題自体には関心がないのだが、Grover & Vriens (eds) の生存モデルの章で、時間変動共変量をいれた比例ハザードモデルのHB推定の例として挙げられていたので目を通した。第一著者は前に読んだ、複数カテゴリ購買についての(なんだか腑に落ちなかった)論文の第一著者で、少々腰が引けたが、背に腹は代えられない。いまは何でもいいから情報がほしいのだ。

 バナー広告がネット通販に及ぼす影響を、アクセスログと購買データで調べる。どうでもいいけど、結論を先にいえば、大事なのは露出であってクリックはどうでもよかった、効果には個人差があるのでちゃんとターゲティングしたほうがいい、トライアル購買に対する効果とリピート購買に対する効果は異なる、云々。

 あるネット通販専業会社のデータを使う。販売しているカテゴリはヘルスケア・化粧品・非処方薬。データはクッキー単位のアクセスログで、自社サイトへのアクセスと購買、自社サイトおよび他のサイトにおけるバナー広告の表示とクリックがわかる(出稿先の8割をカバーしている由)。これを週ごとの離散データにして分析する(週当たり購買は多くて1回となるよう前処理する)。書いてないけど、観察打ち切りのことは考えなくていいらしい。

 消費者 $i$ の $j$ 回目の購買について考える。前回の購買からの経過時間を $t_{ij}$ とする。時点 $t$ におけるハザード関数を $h(t)$ として、生存関数は
 $S(t_{ij}) = \exp( - \int_0^{t_ij} h(u) du )$
 これを離散化する。前回の購買からの観察期間を十分に長く取り、それを $J$ 個の区間に分割する。で、まず共変量のことは脇において、各区間におけるベースライン・ハザードの積分が定数だと考える(ピースワイズ指数ハザードモデル)。つまり、
 $\int_{(t-1)_{ij}}^{t_{ij}} h(u) du = \exp(\lambda_j) $
$(t-1)_{ij}$ というのがわかりにくいけど、これは「その区間の左端」という意味らしい。
 よし、次は共変量だ。比例ハザードモデルで考える。消費者 $i$ の $j$ 回目の購買までの間隔における $p$ 個目の共変量を $x_{pij}$ として、
 $\int_{(t-1)_{ij}}^{t_{ij}} h(u) du = \exp[ \lambda_j + \sum_{p=1} (x_{pij} \beta_{pi}) ]$
ベースラインを表す $\lambda_j$ は時点ごとに異なるが異質性はなく、共変量の係数 $\beta_{pi}$ は異質性があるが時間独立である。

 これを階層ベイズモデルに放り込む。
 $\Psi_j = log(\lambda_j)$ が $MVN(\Psi_0, V_\Psi)$ に従うと仮定する (なぜこういう風に仮定するのだろう?)。$\beta_{pi}$のベクトルが$\beta_i = \beta_0 + \nu_i$と分解され、$\nu_i$ は$N(0, V_\beta)$に従うと仮定する。$\beta_0$と$V_\beta$の事前分布はそれぞれMVN, 逆ウィシャート分布とする。$\Psi_0, V_\Psi$ もハイパーパラメータだと思うんだけど、事前分布は書いてない。

 以上のモデルを推定する。共変量として、バナー広告を見た回数の対数(LVIEWNUM)、その種類(ADNUM)、サイト数(SITENUM)、ユニークなページ数(PAGENUM)を使用。推定の結果、\Psi_j の分布の時系列変動は複雑で、ああピースワイズにしといてよかった、とのこと。共変量の係数はADNUMのみ負で、これはメッセージがバラバラだからじゃないか、とのこと。云々云々。
 推定結果についていろいろ分析していて、そこがこの論文の肝だと思うけど、いまんところ関心がないし、ほんとに頭が痛くなってきたのでスキップ。

 拝察するに、購買間隔に対する週単位の比例ハザードモデル、ベースラインハザードはノンパラメトリック、打ち切りなし、共変量はすべて時間依存、共変量の係数に消費者間異質性を想定。ということだと思うのだが... 正しいだろうか。
 想像するに、この通販業者にだってきっとロイヤル顧客とそうでない顧客がいて、共変量ではそれを説明できないくらいのばらつきがあるだろう(共変量は要するにすべてWebアクセスにすぎない)。だから、モデルのなかに「買いやすさ」というか、消費者間異質性があって時間独立な切片(frailty)を入れといたほうが気が利いているのではないか、と心配してしまったのだが... きっとなにか読み落としているのだろう。

論文:データ解析(-2014) - 読了:Manchanda, Dube, Goh, & Chitagunta (2006) ネット通販におけるバナー広告の効果を生存モデルで推定