« 読了:Krajbich et al.(2015) 直観的判断は速く熟慮的判断は遅いと考えられているが、では速い判断は直観的で遅い判断は熟慮的だといえるか | メイン | 読了:Juster (1966) 購入意向じゃなくて購入確率を訊け »
2018年5月28日 (月)
Dotson, J.P., Howell, J.R., Brazell, J.D., Otter, T, Lenk, P., MacEachern, S., Allenby, G.M. (2018) A Probit Model with Structured Covariance for Similarity Effects and Source of Volume Calculations. Journal of Marketing Research, 55(1), 35-47.
新製品のSOV(Source of volume)測定について考えていて、なにかの足しになるかと思って読んでみた。先日出たばかりの論文である。
数ページ読んで、コンジョイント分析に特化した分析手法提案であることに気づき、ちょっとやる気が萎んだ。前半の理論編を読み終えるあたりでようやく、ベイズモデリング界の有名人・Allenby兄貴が共著者であることに気づき、急速にやる気が衰えた。でもまあ、いちおう最後までめくりました。
いわく。
SOV(source of volume)、つまり需要変化の源について知ることは大事だ。わが社の新製品が自社の現行製品とカニバリゼーションを起こさないかしらん、とか。
製品間の代替性のパターンを完全にモデル化するとなると、製品数を$J$個として$J^2-J$個の交差効果が必要になる。コンジョイント分析なんかだと架空の製品がたくさんあるわけで、とてもじゃないがモデル化できない。
ロジットモデルの世界では、代替性のパターンを柔軟にモデル化するよりも倹約性のほうが重視される。というわけで、ふつうIIAが仮定される。IIA仮定をおいたロジットモデルでは、個人レベルでのSOVは計算できないけど、消費者には異質性があるから、累積レベルではSOVが計算できるんだよ、という理屈である。我々はこういう路線は採らない。ほんとうの問題は、ロジットモデルは選択肢間での誤差の相互依存性を説明していないという点にある。
そこで、多項プロビット(MNP)モデルに、構造化した共分散行列を導入する。この共分散行列は選択肢間の知覚距離に基づいて決める。知覚的に類似した選択肢の間では選択確率が相関すると考えるわけである。
多項モデルに誤差の相関を導入する提案はすでにある。Hausman&Wise(1978)は正規誤差を、McFadden(1978)は極値誤差を考えた。しかしそういうモデルでは、誤差項は提示順序とかブランドとかと結びつけて考えられており、それぞれの選択肢の具体的な属性・水準と関連付けられることはなかった。[←そうなんですか?]
モデル。
マーケティングにおける選択モデルは、ふつう誤差項がiidだと仮定する。そのため、どんな選択肢でも誤差項の実現値によっては勝ちうるということになり、弱い製品への需要が過大評価され、予測シェアは0にならない。
このようにモデルの倹約性に価値が置かれていたのは、マーケティング・データはふつう、対象者数は大きいけど対象者あたりの観察数が小さいからである。誤差項に相関を許した先行研究もあるけれど、異質性の表現だけが目的だったり、nested logitモデルによって相関構造を制約したりしていた。
さて、我々のモデルは次の通り。
製品の属性のうち観察可能なのを$x_o$、観察不能なのを$x_u$とする。世帯特性のうち観察可能なのを$h_o$, 観察不能なのを$h_u$とする。$x= [x_o, x_u], h=[h_o, h_u]$とする。
効用関数を
$u(x, h) = V(x_o, h_o) + \epsilon(x, h)$
と仮定する(誤差項は加算されるのだと仮定する)。意思決定者は選択を通じて効用を最大化すると仮定する。
決定論的効用について、選択課題を$c$、選択肢を$k$として
$V_h(x_{hck}) = x'_{hck} \beta_h$
と考える。
さらに、誤差項も$x, h$の関数と考える。誤差$\epsilon_{hck}$は平均ゼロの正規分布に従うと考え、その共分散行列を世帯x選択課題別に$\Sigma_{hc}$とする。これはサイズ$K$の行列で(つまり行と列は選択肢)、対角要素は1、非対角要素は$\sigma_{ij}$である。なお、対角要素を1にしないというのも試したが、モデルの性能は上がらなかった。
当然ながら、世帯x選択課題別に共分散行列を推定できるだけのデータはない。そこで$\sigma_{ij}$についてこうモデル化する。
$\sigma_{ij} = \exp(-d_{ij}/\theta_h)$
$d_{ij}$はスカラーで、選択肢$i, j$の距離を表す。$\theta_h$は距離をリスケールするパラメータで、未知の世帯特性によって決まると考える。ゼロに近いときにIIAに近づく。
では、選択肢$i$と$j$のあいだの距離$d_{ij}$をどうやって求めるか。4案考えました。
- 案1、異なる属性の数。いうなれば属性ベクトル間のハミング距離である。
$d_{1,ij} = \sum_k^K I(x_k^i \neq x_k^j)$ - 案2、属性をその効用で重みづけする。
$d_{2,ij} = \sum_k^K |(x_k^i - x_k^j)' \beta_{hk}|$ - 案3、全体効用の差を距離とする。対象者は補償的に行動しており、選択肢がその属性という観点から似ていようが似ていまいが、効用が近かったら似ていると思うのだ。
$d_{3,ij} = |(x^i - x^j)' \beta_h|$ - 案4、世帯の選好で重みづけしたユークリッド距離。
$d_{4,ij} = \left[ \sum_k^K \beta^2_{hk} (x_k^i - x_k^j)^2 \right]^{1/2}$
なお、選好と知覚とは別だろうと考え、距離の式の中に出てくる$\beta$を別の自由パラメータに置き換えるというのも試したが、モデルの性能は上がらなかった。
こうしてみると、従来の選択モデルと比べて新たに導入されたパラメータは、結局$\theta_h$だけである。
[以下、$\theta_h$の識別条件とか、もうちょっとだけモデルを拡張して負の共分散を許しました、とかといった話題。パス]
理論編の最後になりましたが、先行研究紹介。[ここは勉強のために詳しくメモ]
iidでない誤差項をいれることでIIA仮定を避けるという文献は山ほどあるが、大きく3つの次元を考えることができる。
- 誤差共分散行列に事前構造をどこまで入れるか。もっとも一般的なのは、共分散を選択肢specificな定数の関数にするという路線である。nested logit モデル, correlated MNPモデルがこれにあたる。この路線は、各製品の水平的差別性の程度(differential similarity)が属性に影響され、属性の布置が選択肢集合によって異なる場合には、効率が悪い。製品の差別性の程度を属性の関数とみるモデルとしては、cross-nested logit モデル(Wen & Koppelman, 2001)、構造的共分散プロビットモデル(Kamakura & Srivastava, 1984), ランダム係数プロビットモデル(Hausman & Wise, 1978)がある。
- 横断的な選好異質性と、製品の差別性の程度を同時に扱うか。一般化極値(GEV)分布モデルはふつうこれになる。他に、Kamakura & Srivastave (1984), Hausman & Wise(1978), Zeithammer & Lenk(2006)がある[中身の紹介は省略]。ただし、製品の差別性の程度は選択肢specificな定数で説明されており、製品の属性とは関連付けられていない。
- IIAからの逸脱を説明する際に、選択肢なり属性なりへの観察されていない固定された選好を持ち込むか。GEV分布モデルでは持ち込まれない。Zeithammer & Lenk(2006)もそう。いっぽうKamakura & Srivastava(1984)は選択肢間の相関を選択肢間の距離の関数とみている。
本モデルは、3つの次元すべてにあてはまる。
実験やりまーす。
コーヒー・クリーミング・パウダーについてのコンジョイント実験。属性は、ブランド(4水準)、乳製品か(2)、無脂肪か(2)、香りつきか(2)、サイズ(2)、価格(5)。951名。14試行。完全プロファイルで4選択肢並べてひとつ選ばせる。1試行をホールドアウト。
すべてのモデルパラメータをランダム効果とする。対象者を$h$として
$\beta_h \sim N(\bar{\beta}, V_\beta)$
でもって、次のモデルを比較する:
- 提案モデル。距離の定義を変えた4種類と、距離3にして負の共分散を許した場合の、計5種類。
- HBロジット。
- HBプロビット。誤差項の共分散行列を単位行列にした場合($I$)、分散の不等性を許した場合、(1,1)だけ1に固定して残りを自由推定した場合($\Sigma$)、さらに対象者別に自由推定した場合($\Sigma_h$)、の計4種類。
- HB nested logit. ネストを製品にした場合、脂肪有無にした場合、香り有無にした場合の、計3種類。
結果。インサンプルの適合度でも[Gelfand & Dey(1994, JRSS)の推定量のlogmarginal densityというのを使っている。そんなん知らんがな]、ホールドアウトの予測でも、距離3による提案モデルが優れていた。パラメータ推定値を比べると...[略]。誤差項の相関をこまかくみていくと...[略]。
別のデータセットでやっても、やっぱし提案モデル(距離3)が優れてました。
SOVの推定について。
新規参入のSOVをどう推定するか。まずは多項ロジットモデルの場合について考えてみる。IIAが仮定されているから、SOVのレートは参入前の選択確率と同じである。既存品を$i$, 新規品を$k$, すべての製品を$j$とする。$i$の決定論的効用を$V_i = x'_i \beta$とする。参入前は
$Pr(i)_{Before} = \exp(V_i) / \sum_j \exp(V_j)$
参入後は
$Pr(i)_{After} = \exp(V_i) / ( \sum_j \exp(V_j) + \exp(V_k) )$
$Pr(k)_{After} = \exp(V_k) / ( \sum_j \exp(V_j) + \exp(V_k) )$
製品$k$のSOVにおける$i$の割合は
$\%SOV = (Pr(i)_{Before}-Pr(i)_{After})/Pr(k)_{After}$
これは結局$Pr(i)_{Before}$となることが示せる。代替性を調べているはずが、実際には選好を調べているわけである。たとえば低価格のために選択確率が高くなっている選択肢があったら、そこからのSOVも高くなるわけで、これはおかしい。
ロジットモデルのもつこの制約的な性質は、異質な消費者集合について累積することで緩和されるだろうか。
クリームパウダーの実験に基づき選択肢シミュレータをつくった。パラメータとしてランダム効果の事後分布の平均$\bar{\beta}$を使う版と、事後分布$\pi(\{\beta|Data\})$を使う版をつくった。なお後者は$\{\beta_h \}$を使うのと似た結果になる。このことは実務家ならみんな知っている。Huber, Orme, Miller(1999, Sawtooth Software Conf.)をみよ。
まず3選択肢でシェアを求める。選択肢2,3は属性がひとつしか違わないものにする。次に選択肢1と属性がひとつしか違わない選択肢4を追加し、再度シェアを求める。これを繰り返す。
選択肢4のSOVは1で大きくなるはずである。しかし多項ロジットモデルの場合はそうならない。これは$\{\beta_h \}$版でも対して改善しない。つまり、個人レベルでIIAを仮定しちゃったことによって生じる問題は、異質性を盛り込んでも取り返せない。問題の深刻さは異質性の程度によって決まるわけだけど、それは事前にはわからない。
[さらに選択肢1の全体効用を操作した実験を行っている。主旨は同様なので省略]
[別のデータでも試しているけど、もう疲れたのでパス。やりすぎでしょう...]
というわけで、誤差相関が選択肢の価値と構造的に関連している選択モデルを御提案しました。相関構造は製品属性から勝手に決まります。
距離3が優れていたということは、選択肢間の相関は、どの属性のせいで効用が高い・低いかとは無関係に、補償的に決まる模様です。マーケティングや心理学の研究では、製品の類似性ってのは製品属性で決まると考えるのがふつうで、効用で決まるとは考えない。いっぽう本研究の結果は、製品が異なっているときだけでなく、製品の効用が異なっているときにも、対象者はそれを弁別しやすい、ということを示唆している。
実務家のみなさん、ロジットモデルをよく使っておられますが、製品間の代替性を調べるときにはIIA仮定の影響が強すぎて怖い、ということを知っていただきたい。
今後の課題は、異なる代替関係をもたらすような選択理論を構築すること。Tversky&Simonsonの文脈依存的選好の研究とかがこれに近いが、そういうのは遷移律からの逸脱に焦点を当てているのに対して、代替性が製品によって違うというのは遷移律の違反ではない、という点が異なる。
云々。
... やれやれ、いちおうめくったぞ。疲れたぞ。
私の仕事との関係で言うと、「コンジョイント分析におけるIIA仮定は非現実的だけど個人効用をHB推定してるから大丈夫」というのは半ば幻想である、という点が、ちゃんとしたシミュレーションでわかったというのが収穫であった。そうなんすかー。参っちゃいますねー。
いっぽう、あんまり真面目に読んでないので読み落としてるのかもしれないけど、提案手法じゃなくてHBプロビット($\Sigma_h$)でも別にいいんじゃね?とも思った。モデルのパフォーマンスは遜色ないみたいだし。SOV算出時のシミュレーションは示されてないのだが、実は提案手法と対して変わらんのではないかしらん。えーっと、HBプロビット($\Sigma_h$)なら、Allenby先生のbayesmパッケージでできちゃいません?
実務的問題とはちょっと離れてしまうけど、距離3が優れているのはなぜか、って話が興味深かった。大きく言うと、実験者は選択肢を属性の束として捉えているけど、被験者はその属性の束から潜在属性(ここでは全体効用)を生成したうえでやおら課題を遂行しているかも、ということであろう。Barsalouの「アドホック・カテゴリ」みたいな話ですね。ああ栄光の80年代認知心理学。
ベイズ・モデリング界のスターであるAllenby兄貴の論文には、アクション映画界のスターであるドニー・イェン兄貴のアクションが似合うので(前者は読者に、後者は共演者に、無理難題を押し付けるところが似ている)、今回も動画を貼っておくことにする。ピーター・チャン監督「武侠」(2011, 日本公開タイトル「捜査官X」)より。気弱な農民のはずのドニーさんが、クララ・ウェイ姉さんの横暴を前にし、ついにその本性を明らかにするという名場面である。
屋根の上を疾走するシーンも忘れがたいですが、この映画の最大の見どころは、リアリティがありそうでなさそうな、さまざまな謎のキメポーズだと思う次第である。牛小屋の対決でクララ姉さんが刃物振り回しているときの、ドニーさんのあのポーズはなんなの? 両手のこぶしを顔の前に10cmくらい縦に離して構える奴。全然意味がわかんないんだけど、やだもう、超かっこよくないですか? 私もいまディスプレイの前で試してます。
論文:データ解析(2018-) - 読了:Dotson, et al. (2018) 選択肢の全体効用が似ているときに選択肢間の誤差相関を高くする階層プロビット選択モデルを使ったコンジョイント分析でSOVを推定しよう (feat. 武侠)