読書日記: 読了：Goodhardt, et al.(1984) 購買のディリクレ・モデル

« 読了：「井上ひさし全芝居その三」 | メイン | 読了：「恐山」「ひさし伝」「足利義政と銀閣寺」「サラダ好きのライオン」 »

2012年8月14日 (火)

　ブランド別購買確率が消費者間で異なるとき，その分布にディリクレ分布を当てはめることがあるけど、あれってなぜなんだろう、と前々から疑問に思っていた。と、こういうことをおおっぴらに書くのは、こっぱずかしいことなのかもしれないんだけど... わたくし、もともと根っからの文系なんです、勘弁してください。

　ディリクレ分布を使うのは「ベイズ統計の観点から見てディリクレ分布は多項分布パラメータの事前共役分布になっているからです」... というようなテクニカルな理由であれば、それはそれで納得する。でも、ブランド購買のモデル化にディリクレ分布を使うというのは、二昔ほど前，購買行動の分析が集計値レベルでのモデル化に焦点を当てていた頃のアイデアではないだろうか。もっと実質的な理由があるのではないかしらん？

Goodhardt, G.J., Ehrenberg, A.S.C., & Chatfield, C. (1984) The Dirichlet: A comprehensive model of buying behaviour. Journal of the Royal Statistical Society. Series A (General) , 147(5), 621-655.
　というわけで、当時の研究で，いまでもよく引用されているらしい論文を読んでみた。主に好奇心からなのだが、この分野についてきちんと勉強しないとなあ... という焦りも、少し働いている。マーケティング・サイエンスの新しい本だと、個人レベルの分析の話が中心で、集計レベルの分析の話がなかなか出てこないように思う。でも，地を這う虫のように零細なデータ解析で糊口を凌いでいる立場から見ると，集計値のモデリングにはいまでもニーズがある。

　そもそもディリクレ分布というのは多変量化されたベータ分布のこと。著者らが提案するモデルは，ひとことでいえば，ブランドの売上頻度にディリクレ分布を，カテゴリの売上頻度に負の二項分布を当てはめるものである。

　以下の5つの仮定からなるモデルを構築する。
　ブランド選択についての仮定:
(A1) i番目の個人のブランド選択は、購買の繰り返しを通じてあたかもランダムであるかのようにふるまう。g 個のブランドから j 番目のブランドを選ぶ確率を (p_j)_i とする。これらの確率は時間を通じて固定されており、繰り返される購買においてブランド選択は独立である。したがって、個人 i が n_i 回の購入においてそれぞれのブランドを購入する回数は、パラメータ n_i, (p_1)_i, ..., (p_g)_i の多項分布によってモデル化できる。
(A2) 確率 (p_j)_i は個人によって異なり、次の同時密度関数を持つ多変量ベータ分布(ディリクレ分布)に従う:
　　C p_1^{\alpha_1-1} ... p_g^{\alpha_g-1}
ただし、p_j ≧ 0, \sum \p_j = 1, C=\Gamma(S) / \prod (\Gamma \alpha_j), S=\sum \alpha_j, \alpha_j > 0 である。ブランド j を選択する確率は、 j 番目の周辺分布、すなわち単純なベータ分布
　　C p_j^{\alpha_j-1} (1-p_j)^{S-\alpha_j-1}
となる。この分布の平均は \alpha_j / S 、すなわちこのブランドの市場シェアである。伝統的な書き方でいえば、ベータ分布のパラメータを\alpha, \betaとして、S=(\alpha+\beta)である。
　A1とA2が述べているのは、全消費者による様々なブランドの購買の同時分布が、多項分布の，ディリクレ分布に従う混合分布によって与えられるということである。g=2の場合、この式は良く知られているベータ二項分布に還元される。
　製品クラスにおける購買生起についての仮定:
(B1) 個人 i の購買の繰り返しはあたかもランダムであるかのようにふるまい、独立である。ある「単位」期間 (購買間時間の最小値よりも長いある期間。通常は週) における率の平均は定数 \mu_i である。従って、長さTの期間内の購買数 n_i は、平均 \mu_i T のポアソン分布に従う。
(B2) 購入率の平均 \mu は個人によって異なり、次の密度関数を持つガンマ分布にしたがう:
　　\frac{ e^{-u K / M} \mu^{K-1}}{(M/K)^K \Gamma(K)}
　B1とB2が述べているのは、全消費者によるある製品の長さTの期間内の購入数が、平均MT, 指数K の負の二項分布(NBD)に従うということである。
　(A)と(B)の関係についての仮定:
(C) ブランド選択確率の分布と購入頻度平均の分布は、独立である。
　仮定(A),(B),(C)に基づき、あるひとつのモデルを導くことができる。これをNBD-ディリクレ分布、あるいは単にディリクレと呼ぶことにする。

で，各仮定の論拠は以下の通り。

(A1) ... 経験的に、個人レベルの購買行動は不規則だが定常であることが多いから。
(A2) ... 各ブランドの購買確率がブランド間で独立で(著者らはこれを「市場にセグメントがない」と表現している)、かつ各ブランドの購買確率の個人内の和が1ならば、ブランド選択確率の混合分布はディリクレ分布に従うことが示せる由。へええー、数理的な話なのか。Mosimann(1962, Biometrika)というのが挙げられている。なお、ブランド間の独立性という仮定は非現実的だという批判もあるそうだが(Aitchison, 1982)、著者らはこの批判に対して否定的。
(B1) ... 経験的に、個人の購買生起はランダムとみなせることが多いから。だからといって必ずやポアソン分布だということにはならないのだが、有用な近似である、とのこと。
(B2) ... なんだか面倒な話だったから読み飛ばしたが、あまり強い論拠ではなさそう。
(C) ... 経験的にそうだから。

　... なんだか疑問が解決しちゃったので，あとは流し読み。集計データに当てはめる例が紹介されているが，パラメータ推定は簡単には解けず，近似計算が必要になるような気配だ。たいそう面倒そうな話なのでパス。
　モデルの使い道としては次の4つが挙げられている。(1)市場が定常だと仮定しノームを設定する。(2)変化を解釈するためのベースラインを設定する。(3)診断的につかう(実例を読んでいないのでぴんと来ない)。(4)モデルに基づき市場の一般的性質を理解する。
　末尾に識者との質疑応答がついているんだけど，そっちもパス。結局，数割しか読んでないけど，まあいいや，整理の都合上読了にしておく。

論文：マーケティング - 読了：Goodhardt, et al.(1984) 購買のディリクレ・モデル

読書日記

読んだ本を淡々と記録します

2012年8月14日 (火)