elsur.jpn.org >

« 読了:「『聴くこと』の革命」「中国民族主義の神話 人種・身体・ジェンダー」「中世的世界とはなんだろうか」「本屋図鑑」「シャープ崩壊」「憲法入門」「武士という身分」「少年の名はジルベール」 | メイン | 読了:Vanhonacker, Lehmann, Sultan (1990) 重回帰のメタ分析で事前分布をつくってベイズ推定 »

2016年4月15日 (金)

Allenby, G.M. & Rossi (2006) Hierarchical Bayes Models. in Grover, R. & Vriens (eds), The Handbook of Marketing Research: Uses, Misuses, and Future Advances, Sage.
 仕事の都合で読んだ。ベイジアン・モデリングの大スター、Allenby兄貴による、HBモデルの素人向け解説。

 私が心のなかで彼を兄貴と呼んでいるのは、香港映画界最後のカンフー・スター、ドニー・イェン兄貴と似ていると思うからである。聞くところによれば、ドニー兄貴は宇宙最強なアクションを追求するあまり、共演者にとんでもない無理難題を求めるのだそうだ。Allenby兄貴も、著書に"Bayesian Statistics and Marketing"なんていかにも親しみやすそうなタイトルをつけておいて、読者をあの無闇に難解な内容へと突き落すあたり、ドニー兄貴に瓜二つである。この類似性、お分かり頂けただろうか (←誰に言っているのかわからないが)
 ま、さすがに市場調査実務家向けハンドブックの1章であれば、そんなには難しくないだろうと思って手に取った次第。

 いわく。
 過去10年、消費者行動のモデルは飛躍的進歩を遂げた。個人レベル・データの分析においてはベイジアンの手法がすっかり普及し、選択モデル(コンジョイント分析)だけでなく幅広い問題に用いられるようになった。消費者間異質性に関心が集まり、ベイジアン手法によるモデリングが進んだ。本章では、これらの進展を支えた立役者、階層ベイズモデルについてご紹介しよう。

1.想定
 たとえば、ある製品の需要に対する価格の影響について分析したいとしよう。販売量が連続的単位で得られるなら、価格感受性を回帰モデルで測れる:
 $y_t = \beta_0 + \beta_1 price_t + \epsilon_t$
 $\epsilon_t \sim Normal(0, \sigma^2)$
って感じね。
 ところが個人レベルの需要は、こんな風に連続的には動かない。そこで、連続モデルと打ち切りを想定し、
 $y_t = 1$ if $\beta_0 + \beta_1 price_t + \epsilon_t > 0;$ otherwise $y_t = 0 $
という風に考える。こういう発想は、散布図やクロス集計表からは得られない。ところがマーケティング実務家は、これまでこういうモデルをあまり使ってこなかった(コンジョイント分析を別にして)。

1.1 階層モデル
 さっきの式を書き換えようう。潜在変数を導入して、
 $y_t = 1$ if $z_t > 0$; otherwise $y_t=0$
 $z_t = \beta_0 + \beta_1 price_t + \epsilon_t$
 $\epsilon_t \sim Normal(0, \sigma^2)$
潜在変数$z_t$の下で、$\beta_0, \beta_1, \sigma^2$についての推論は$y_t$と独立である点に注目。
 モデルは階層的に捉えると便利なことが多い。上の例で、一本目の式は、もし販売量($z_t$)が十分に多いならば購買が生じやすい($y_t=1$)、というシナリオを表している。二本目の式は販売量と価格の関係を表している。こういう風に捉えるとモデルを精緻化しやすい。
 マーケティングでは、階層モデルは(a)個々の対象者の行動と(b)対象者を通じた反応の分布を記述するために用いられてきた。前者は単位内の行動のモデル、後者はモデルのパラメータの横断的な変動のモデルである(異質性の分布と呼ぶことが多い)。

1.2 ベイジアン分析
 階層ベイズモデルとは階層モデルのベイジアン手法による分析だ。ベイジアン手法とは[...ここでベイズの定理についての説明をひとしきり。事前オッズ、尤度比、事後オッズを使って説明している。これ、かえってややこしくないか]
 ...とまあこのように、ベイジアン手法はエレガントなのだが、その割には最近まであまり使われていなかった。ちょっとしたモデルについて適用しても、計算がややこしくなっちゃうからである。

2.HB革命
 革命前、ベイズ定理を実装するためには、事前分布の確率密度に尤度をかける必要があった。たとえば、
 $y_t = \beta + x_t + \epsilon_t$
 $\epsilon_t \sim Normal(0, \sigma^2)$
というモデルがあるとして、$\beta$の事前分布が正規分布だとすると
 $\pi(\beta) = \frac{1}{\sqrt{2 \pi s^2}} \exp \left(\frac{-1}{2s^2}(\beta - \bar{\beta})^2 \right)$
省略するけど、$\pi(\sigma^2)$もなんらか考えないといけない。で、尤度は
 $\pi(y_t | \beta, \sigma^2, x_t)$
 $= \prod_{t=1}^{T} \frac{1}{\sqrt{2 \pi s^2}} \exp \left(\frac{-1}{2s^2}(y_t - \beta x_t)^2 \right)$
これらを全部かけて
 $\pi(\beta, \sigma^2 | y_t, x_t) \propto \pi(y_t | \beta, \sigma^2, x_t) \times \pi(\beta) \times \pi(\sigma^2)$
いやーエレガントですね。でも計算が難しすぎる。

 ここで革命が起きた。MCMCの登場である。[...ここでMCMCについてかなり投げやりな説明があって...] おかげで計算が容易になり、応用が一気に広がった。

3.事例
ここでは、多変量分布のextremes(分布の裾)について調べる例を示し、極値HB+MCMCの威力を示そう。

3.1 背景
 企業は、新製品をもっとも買いそうな顧客、マーケティング戦略の変化によってもっともスイッチしそうな顧客、もっとも良い反応をしてくれる人... を分析する必要がある。つまりextremesの理解が求められる。

3.2 モデル
 階層ベイズ・ランダム効果ロジットモデルについて考えてみよう。対象者$h$が選択肢$i$(その属性ベクトルが$x_i$)を選択する確率についてモデル化する。
 $Pr(i)_h = \frac{\exp(x'_i \beta_h)}{\sum_j \exp(x'_j \beta_h)}$
異質性をいれる。観察可能な共変量を$z_h$として
 $\beta_h = \Gamma z_h + \xi_h$
 $\xi_h \sim MVN(0, V_\beta)$
$\Gamma$は「部分効用が他人と違う人」がどんな人なのかを表している。$V_\beta$の対角成分の大きさは、部分効用の異質性のうち$\Gamma z_h$で捉えきれていない部分の大きさを表し、非対角成分は属性水準の評価のパターンを表す(たとえば、属性水準の部分効用の間に正の共変動があるということは、それらの水準を持っている製品が特定の人にすごく好かれるということだ)。
 $\Gamma$と$V_\beta$に事前分布を与え、このモデルを階層として書き下ろすと、
 $y | x, \beta$
 $\beta | z, \Gamma, V_p$
 $\Gamma | a, A$
 $V_\beta | w, W$
パラメータの数はすごく大きいが(個人ごとの$\beta_h$があるから)、MCMCなら大丈夫。

3.3 データ
 [クレジット・カードの選好について電話調査でコンジョイント実験をやった。属性は7つ、共変量は年齢、年収、性別。詳細略]

3.4 結果
 [推定しましたって話があって...]
 部分効用の共分散行列$V_\beta$の事後平均をみると、水準"out-of-state bank"と"low annual fee"の相関が高い。このことは、年会費の安いクレジットカードを提供することが、国外顧客の利用促進のために効果的であることを示唆している。[←このあとの説明で使うための指摘である。面白い指摘だけど、こんな風に共分散行列そのものをちくちくと眺めるのは、実際には難しかろう]

3.5 異質性の分布
 各属性水準についての部分効用の確率分布を、全体についても、ある特定の個人についても観察できる[実例]。各個人の部分効用推定がかなりの不確実性を伴っていることに注意。

3.6 Focusing on Extremes
 [ここ、ちょっと面白いので詳しくメモ]
 $\Gamma$の事後平均をみるとわかるのは、国外銀行のクレジットカードの効用は平均して3.758低いということだ。このペナルティを乗り越えるためのインセンティブとして、利率を下げる、年会費を下げる、の2つがある。
 $\Gamma$の事後平均だけをみると、どちらもインセンティブでも十分であるようにみえる。しかし、共分散行列$V_\beta$の事後平均をみると、年会費と国外銀行の相関が高い。つまり、年会費に対する感受性が高い人は国外銀行への部分効用が高めだ。いっぽう利率と国外銀行の相関は低い。
 低年会費+国外銀行と低利率+国外銀行の2選択肢を考え(他の属性は等しくする)、全体効用の分布を比較してみると、前者の選択肢では全体効用のばらつきが大きくなっており右裾だけみると前者のほうが大きいことがわかる。
 [なるほどね... 実際の場面ではめんどくさいのでいきなりシミュレータを使っちゃうところだと思うけど、こうやって全体効用の分布を細かく見ていくのも面白いなあ]

4. HBモデルを使うときに厄介なこと
 複雑なHBモデルを推定する際には、すぐに使える(off-the-shelf)ソフトがない。WinBugsは貴重な例外だがデータサイズが大きいときには問題が生じる。HBの普及に貢献したのはSawtooth Softwareのプログラムだが、選択型コンジョイントとOLS回帰のHB推定に限定されている。そこで! 僕らが書いた"Bayesian Statistics and Marketing"を買うといいよ!Rのソフトつきだよ!!
 HB推定は古典的推定とは違って閉形式の解がない。いくらバーンインしても、パラメータ推定の平均の変動は残るかもしれない。また、個々人についての点推定が得られるのではなく、推定値の分布が得られる、という点に注意。そのせいで話が複雑になることがある(マーケット・シミュレーションとか)。

 やれやれ、終わった。疲れた。
 なにか変わった実例が紹介されるかと期待してたのだが、結局選択型コンジョイントだったよ...シクシク。
 この章、末尾に8ページにわたって主要文献解題が添えられている。労作だが、2006年の段階では、こんな風に「マーケティングにおけるHBモデルの主要論文」をリストアップすることができたのね。今ではちょっと無理だろう。

 ちなみにドニー兄貴による傑作アクション・シーンのひとつがこちら。「SPL/狼よ静かに死ね」(2005, 葉偉信監督)より。この振付を覚えろと敵役の俳優(呉京)に求めるあたり、Allenby兄貴が著書において説明もなくいきなり逆Wishart分布を持ち出す際の酷薄さを彷彿とさせますね。(すいません、いまちょっと適当なことをいいました)

 呉京さんは昨年公開された「SPL2」にも出演しているらしい。日本でも公開してくれるといいんだけどなあ。

論文:データ解析(2015-) - 読了:Allenby & Rossi (2006) 階層ベイズモデルとはなにか (feat.「SPL 狼よ静かに死ね」)

rebuilt: 2020年4月20日 18:54
validate this page