読書日記: 読了：Seetharaman(2004) 購買データを分析するみなさん、比例ハザードモデルばっかり使ってないで加法リスクモデルをお使いなさい

« 読了：Manchanda, Dube, Goh, & Chitagunta (2006) ネット通販におけるバナー広告の効果を生存モデルで推定 | メイン | 読了： Tadajewski(2006) モチベーション・リサーチ、その勃興と衰退 »

2013年5月 4日 (土)

Seetharaman, P.B., (2004) The additive risk model for purchase timing. Marketing Science, 23(2), 234-242.
　購買間隔のモデリングにおける、Cox比例ハザードモデル(PHM)、加法リスクモデル(ARM), 加速故障時間モデル(AFTM)のパフォーマンスを比較します、という論文。
　著者いわく... 世帯の購買間隔のモデリングに際してもっともよく使われているのはPHMだ。ベースライン・ハザード関数としてよく用いられるのは、Erlang-2、ワイブル分布、対数ロジスティック分布、ゴンペルツ分布など。quadratic Box-Coxや Expo-powerが使われることもある (それぞれ Jain & Vilcassim 1991 Marketing Sci., Saha & Hilton 1997 Economic Letters をみよとのこと)。また離散時間PHMが用いられることもある (Helsen & Schmittlein 1993 Marketing Sci. をみよとのこと)。適用例は山ほどある。素晴らしい。しかあし、PHMにつきものの「マーケティング変数の影響が乗法的だ」という仮定は検証されていない。いっぽう、ARMを使った論文は、領域問わずに探しても90年以降たったの9本しかみあたらない。ひどいじゃないか。とのこと。

　ARMとAFTMってのはどういうのかというと... 前回購買からの経過時間を t , 共変量(価格とか) の行ベクトルを X_t として、世帯 i のハザード関数を
　　h_i (t, X_t) = h_i (t) + exp(X_t \beta)
とするのが ARM である(PHMではかけ算にするところを足し算にする)。以下、これを離散時間にして(grouped ARM)、ベースライン・ハザードは対数ロジスティック分布にして、s個のサポートで個人差を表現するモデルを使う。
　AFTMは、ハザードをベースライン・ハザードと共変量の効果にわけて考えず、ハザードそのものを共変量の関数にする。えーっと、対数ロジスティック関数はスケールをa, 形状をbとして
f(x) = [ (b/a)(x/a)^{b-1} ]/[ 1 + (x/a)^b]^2
だが (いまwikipediaで調べました)、本文中のハザード関数は、このxをt、bを\alpha, 1/aをX_tの線形関数 \gamma_0 + X_t \gamma_1 としたものになっているようだ。

　データはIRIのスキャナパネルデータ。洗濯洗剤、ペーパータオル、トイレットペーパーの購買にあてはめる。共変量は価格、ディスプレイ、チラシ。なんだか既視感があると思ったが、これきっとSeetharaman & Chintagunta (2003)と同じデータだ。あの論文を読んだときも悩んだのだが、購買は日次でわかっているんだけど、モデル推定時は週次データにして使っているんだと思う。
　推定の結果は... モデルの適合度やホールドアウトへの予測は、ARM, PHM, AFTMの順に良い。推定されたベースライン・ハザード関数の形状はだいたい同じで、だいたい10日目くらいまで急上昇、あとはなだらかに低下。共変量の係数をみると、PHMだけなんだかヘン(価格の係数が正になってしまうサポートがある)。サポートをつぶした価格弾力性の時系列曲線を求めると、ARMとAFTMでは解釈可能な曲線が得られたが、PHMではずっと 0 近辺になってしまった。ベースライン・ハザード関数を対数ロジスティックから他の形状に切り替えると(指数、Erlang-2、ワイブル、expo-powerを試している)、ARMではどの形状でも結果は大差がないが、PHMでは大きく変わってしまった。というわけで、ARMは優れています。とのこと。

　前回同様、とてもわかりやすい論文で、勉強になった。Marketing Scienceって、高級スーツを着たエリート様が偉そうな理屈で素人をたぶらかすというイメージがあるんだけど、こういうシンプルかつクリアな内容の論文も載るんですね。(←素朴すぎる感想だ)
　わかりやすかったおかげで、いろいろと疑問がわいた。第一に、ある統計モデルをデータにあてはめることの善し悪しの評価には、(1)データのあてはまりのよさや予測の良さ、(2)パラメータが安定していて筋が通っているか、そして(3)そのモデルそのものが背景知識と整合しているか、の３つの側面があると思う。この論文では、(1)の面ではARM, PHM, AFTMの順に良いということがわかり、(2)の面ではPHMがちょっとまずいということがわかった。でも、(3)の側面はいったいどうなっちゃったんだろう。「マーケティング変数が購買確率に加法的に効くかそれとも乗法的に効くか」という根本的な疑問に対しては、もっと心理的な観点からの議論、たとえば「購買時意思決定のほにゃららモデルに照らして考えれば、マーケティング変数はやっぱし加法的(or 乗法的)に効くと考えたほうが筋が通ってんじゃないですかねえ」というような議論があっても良さそなものだと思うのだけれど...
　第二に、「PHMがモデルのspecificationに対してセンシティブである」というのは、果たしてPHMの悪口になっているのかしらん。それはもちろん実務的にはですね、細かいオプションを多少変えても結果がロバストなモデルのほうが、非常に助かります。そのぶん早くうちに帰れるというものだ。でもそれは内輪話であって、いま池から神様が現れて、君が落としたモデルは正しく指定すれば正しい結果が得られるが間違って指定すると間違った結果が得られるモデルかい？それとも指定に関わらずずーっとロバストに間違っちゃうモデルかい？と聞かれたら、そのときはやっぱり、前者が欲しいと答えるべきだと思うわけである。ARMとPHMのどっちがいいかというのは、結局はシミュレーション研究でないとカタがつかない問題なのではないかという気がする。

論文：データ解析(-2014) - 読了：Seetharaman(2004) 購買データを分析するみなさん、比例ハザードモデルばっかり使ってないで加法リスクモデルをお使いなさい

読書日記

読んだ本を淡々と記録します

2013年5月 4日 (土)