読書日記: 読了：Schmittlein, Cooper, & Morrison (1993) 「80：20の法則」の神話

« 読了：Fabrigar, et al. (1999) おまえらの探索的因子分析はまるでなってない、もっと精進しろ | メイン | 読了：Imai & Ratkovic (2014) 共変量バランシング傾向スコア »

2016年9月 8日 (木)

Schmittlein, D.C., Cooper, L.G., Morrison, D.G. (1993) Truth in concentration in the land of (80/20) laws. Marketing Science, 12(2), 167-183.
　別にいま読まなくてもいいんだけど、ちょっと思うところあって目を通した。
　たとえば、ある製品の売上を調べてみたら、上位20%の顧客が売上の80%を占めてました！なんていうことがあるけど、よくよく考えてみるとその意味するところは結構難しい、「上位20%セグメント」が売上の80%を占めているといえるかどうかはわからないよ、という論文。
　自分なりにひとことでまとめちゃうと、要するに、有限期間において観察された購入量には誤差が乗っているのを忘れなさんな、というのがポイントであろう。

　次のようにモデル化しよう。あるカテゴリなり製品なりについて、世帯$i$の購入速度を$\lambda_i$とする。長さ$t$の観察期間中の購入量$X_i$はポワソン分布に従うと考えて
　$P_p(X_i = x | \lambda_i) = \frac{(\lambda_i t )^x}{x!} \exp (-\lambda_i t), \ \ x=0,1,2,\ldots$
購入率の異質性を形状$r$, 尺度$1/\alpha$のガンマ分布で表すことにして
　$g(\lambda | r; \alpha) = \frac{\alpha^r}{\Gamma(r)} \lambda^{r-1} \exp(-\alpha \lambda)$
これを累積すると、
　$P_{NBD} (X = x) = \int^1_0 P_p(X = x | \lambda) g(\lambda | r; \alpha) d \lambda$
　$= \frac{\Gamma(r+x)}{x!\Gamma(r)} \left( \frac{\alpha}{\alpha+t} \right)^r \left( \frac{t}{\alpha+t} \right)^x$
という負の二項分布(NBD)になる。売上の上位顧客への「観察された」集中はこの式で生成されている、でも「真の」集中は$\lambda$の分布の関数だ。

　ここで、ローレンツ曲線をつかった説明をお送りしよう。
　ローレンツ曲線$L(p)$とは、第$p$パーセンタイルまでの世帯の購入量が全購入量に占める割合だ。80/20法則とは、観察された購入量で書いたローレンツ曲線$L_x(p)$が$L_x(0.8)=0.2$であることに対応する。
　観察された購入量じゃなくて、真の購入率$\lambda$のローレンツ曲線$L_\lambda(p)$について考えよう。 $\lambda$の分布$g$のCDFを$G$として
　$L_\lambda(p) = \frac{1}{E[\lambda]} \int_0^{G^{-1}(p)} \lambda g(\lambda) d\lambda$
となる。[えええ？この式の導出、ちょっと頭が追いつかないんだけど... まあ信じることにしよう...]
　さて、$g$がガンマ分布だとして、代入して展開していくと、結局こうなる:
　$L_\lambda(p) = F(F^{-1}(p|r, 1)|r+1, 1)$
ここで$F(p | r, \alpha)$はガンマ分布のCDF。[導出過程は理解できませんでしたが、信じます]
　この式から次のことがわかる。
　真のローレンツ曲線$L_\lambda(p)$は、もとのガンマ分布の形状パラメータ$r$だけに依存する(尺度パラメータには依存しない)。$r$は$\lambda$の集中の指標になっている。$r$が大きいと集中度は小さい。
　観察されたローレンツ曲線$L_x(p)$は常に真の曲線$L_\lambda(p)$の下に位置する。で、$t$が大きくなるにつれ$L_x(p)$は$L_\lambda(p)$に接近していく、つまり、集中度が下がる。

　話を戻して...モデルを手直しします。

NBDモデルはノンユーザのことを考えていない。これを拡張したMorrison(1969)のノンユーザNBDモデル(NUNBD)だと、割合$q$の世帯が$\lambda=0$、残りの世帯がガンマ分布に従う、と考える。
NBDモデルでは購入はポワソン分布に従う。そこには記憶というものがない。実際には購入間隔には多少なりとも規則性があるだろう。これを考慮したモデルもある(ここでは考えない)。
一回の購入で一個しか買わないとは限らない。消費の速度が同じだとして、一回当たり購入量が少ないほうが購入頻度は上がるから、一回当たり購入量に世帯間異質性がある分、購入量より購入回数をみたほうが集中の度合いは高くなる。

　というわけで、手直ししたモデルをいろんなデータに当てはめて真の集中度を推定する。観察の結果、概して、

購入量0の世帯を含めて集中度を求めると、それは真の集中度より大きくなる。
購入量0の世帯を取り除いて集中度を求めると、それは真の集中度よりも小さくなる。
観察期間を長くすると、真の集中度からのずれは小さくなる。

　というわけで...
　実務家のみなさん。表側に浸透度、表頭に集中度を取った戦略マトリクスを書くことがあるじゃないですか。低浸透・低集中な市場では認知とトライアル拡大が大事だ、高浸透・高集中市場では熾烈な価格競争が起きやすい、低浸透・高集中市場ではニッチを狙うかマスを狙うか考えろ、高浸透・低集中市場では配荷とサポートを手厚くせよ、みたいな。我々のモデルを使えば、浸透度を$q$、集中度を$r$で表せるですよ。違うカテゴリでもちゃんと比較できるですよ。云々。

　うーーーーん。。。。
　正直、違うカテゴリの間で購買量の分布の形状(というか、ローレンツ曲線)を比較したいと思ったことが一度もないので、わざわざモデルを組んだありがたみが全然わかんないんだけど、それは私の視野が狭いからで、役に立つという人もいるのだろう。

　それはともかく、頭の体操としてとても面白かった。なるほどねえ。仮に全世帯の消費速度が同一でも、観察期間中の購入量にはばらつきが生じるから、縦断的には平均への回帰が起きるし、横断的にいえばローレンツ曲線は45度線にならず、常に下方向に歪む。つまり、顧客の購入量の分布は、ある観察期間についてみるとパレート法則に従っていても、ほんとはそんなには上位層に集中してないかもしれないわけで、ちょっと均して捉えないといけないわけだ。
　この論文は顧客の異質性についての論文だけど、これってきっと商品の異質性についてもいえることだろう。ある期において商品の売上が商品間ですごくばらついていても、次の期では平均への回帰が起きうる。いっけんロングテールな商売のようにみえても、実は思ったほどじゃないかもしれないわけだ。

論文：データ解析(2015-) - 読了：Schmittlein, Cooper, & Morrison (1993) 「80：20の法則」の神話

読書日記

読んだ本を淡々と記録します

2016年9月 8日 (木)