読書日記: 読了：Telang, et. al. (2004) 検索エンジンへの訪問(とかそういう感じのなにか) の間隔を説明する周期性つきの生存モデル

« 潜在クラスモデルの所属確率について (反省の弁) | メイン | 読了： Ferjani, Jedidi & Jagpal (2009) 消費者ベースのブランド価値はおろか、企業収益上のブランド価値まで、コンジョイント分析一発で調べてみせましょう »

2013年4月19日 (金)

Telang, R., Boadwright, P., Mukhopachyay, T. (2004) A mixture model for internet search-engine visits. Journal of Marketing Research, 41(2), 206-214.
　仕事の都合で目を通した。購買でも店舗訪問でもいいから、繰り返し生起する行動の間隔を生存モデルで分析した実例を読みたかったのである。きっとこの分野の方には基礎知識に属する話だろうから、ちょっと恥ずかしいんだけど。
　えーと、論文の主旨としては... NBD(負の二項分布)やPHM(比例ハザードモデル)に基づく購買間隔の確率モデルがいまいち使われていないのは(←そうなんですか？)、購買の周期性 periodicity を説明できないからだ。そこで，周期性を取り込んだモデルを作ってごらんに入れましょう、とのこと。

　基本的なアイデアは次の通り。24時間の周期性を想定し、日内の確率分布としてラプラス分布を想定し(正規分布より裾が厚い)、それを24時間で切り落とし横につなぐ。数式をちゃんと追いかけてないけど、24時間周期の波型になるような確率密度分布をつくるのであろう。これをf_{TL}(t)とする。式で書くとすごくややこしい。
　で、ある人のある時点の訪問有無は、確率pで(この周期と無関係に)ある確率密度分布 f_B(t)に従い，確率(1-p)でこの確率密度分布 f_{TL}(t)に従うと考え、混合分布 f_M(t)を導出する。これをハザード関数 h_0(t) に変換し、これをベースライン・ハザードにしたPHMをつくる... というのが基本アイデア。
　PHMには共変量を突っ込むだけでなく、pやらf_B(t)のパラメータや共変量の係数やらについても消費者間異質性も入れ込む。ここの部分、support-pointという考え方が出てきて、どうやら潜在クラスのようなテクニックらしいのだが、予備知識がなくてよく理解できなかった。Heckman&Singer(1984, Econometrica), Jain & Vilcassim (1991, Marketing Sci.)を読めとのこと。絶対読まないと思いますが。

　で、実データへの適用。126人の1年間のインターネット利用ログを用い、検索エンジンへの訪問を抽出。リストにgoogleが入っていないところに時代を感じる。共変量として、検索エンジンの累積利用回数 (ネット利用経験とともに検索の頻度は下がる、という仮説があったのだそうだ。これも時代だなあ)、検索エンジンサービスの検索以外の機能の利用回数、これらの交互作用。f_B(t)として、ワイブル、対数ロジスティック、expo-power, Conway-Maxwell-Poisson (なんだそれは) の4つを試す。さらに、f_{TL}(t)を入れる奴といれない奴を試す。
　結果は ... f_{TL}(t)をいれたほうがよかった。セグメント数は2がよくて、周期性が強い人と弱い人に分かれた。f_B(t)としてはexpo-powerがよかった。共変量の効果はどうのこうの。ホールドアウトに対するヒット率はどうのこうの(面倒なのでスキップ)。

　細かいところがどうもよく理解できなかった。これって、前回のアクセスから24時間後に「そろそろまたアクセスすんじゃないの」と勘繰るモデルなのだろうか？それとも「こいつはだいたい毎晩何時ごろにアクセスしよるわい」と推定するモデルなのか？そこさえ確信が持てない(前者だとすると、購買ならばともかくwebアクセスの分析としてはちょっと現実味がないなあ...)。この辺は著者のせいというより、私の読解の不足のせいだと思う。顔洗って出直して来いってことでしょうね。

論文：データ解析(-2014) - 読了：Telang, et. al. (2004) 検索エンジンへの訪問(とかそういう感じのなにか) の間隔を説明する周期性つきの生存モデル

読書日記

読んだ本を淡々と記録します

2013年4月19日 (金)