読了: Sonner, Aislie, & Otther (2007) コンジョイント分析で属性のWTPを推定したいとき、価格の効用を真面目に推定したほうが良いか、いっそ傾き1に固定しちゃった方が良いか

Sonnier, G., Ainslie, A., Otther, T. (2007) Heterogeneity distributions of willingness-to-pay in choice models. Quantitative Marketing and Economics, 5, 313–331.
 仕事の足しになるかと思って読んだ奴。Googleさんいわく被引用件数223。経済学の論文としては、これって多いほうなんですかね?
 最初なにいってんだかわかんなくなって混乱したんだけど、ここでいっているWTPというのは製品そのものに対する支払意思額のことではなく、価格以外の属性の部分効用の増分を価格に換算した値のことである(たとえば、同じ製品がブランドBじゃなくてAだったらいくら多めに払うか)。

1. イントロダクション
 選択モデルでWTPの分布を推定するときに2つのやりかたがある。

  • WTPを属性パラメータと価格パラメータの比として定義する。Meijer & Rouwendal(2006 J.App.Econ.)とか。
  • 再パラメータ化してWTPを直接に識別する。WTPについての事前分布を実装できる。

 本研究ではこの2つの方法を比べる。

2. 効用と余剰最大化
2.1 尤度関数の等価性

 消費者\(i\)の選択肢\(j\)に対するオケージョン\(y\)における間接効用を\(V^*_{ijt}\)とする。その選択肢の非価格属性を\(x_{ijt}\), 所得を\(y_i\), 価格を\(p_{ijt}\)とし、以下のように仮定する。$$ V^*_{ijt} = x^\top_{ijt} \phi^* + \gamma^*(y_i-p_{ijt}) + \varepsilon^*_{ijt} $$ $$ V^*_{i0t} = \varepsilon^*_{i0t}$$ 誤差項は第一種極値分布にiidに従うと仮定する。とりあえずはスケール未知として、\(\varepsilon^*_{ijt} \sim EV(0, \mu)\)としておこう。

 それぞれの選択において、間接効用関数に定数を掛けても、効用を最大化する選択肢は変わらないから、\(V^*_{ijt}\)はなんらかスケーリングが必要である。そこで次のように規準化し、誤差項の分布を\(EV(0, 1)\)にする。$$ V_{ijt} = x^\top_{ijt} \phi + \gamma(y_i – p_{ijt}) + \varepsilon_{ijt}$$ \(\phi = \phi^*/\mu, \gamma = \gamma^*/\mu, \varepsilon_{ijt} = \varepsilon^*_{ijt}/\mu\)である。おなじみのMNL選択確率は$$ Prob^u_{ijt} = \frac{\exp(x^\top_{ijt} \phi – \gamma p_{ijt})}{1+\sum_m^J \exp(x^\top_{imt} \phi – \gamma p_{imt})} $$ となる。

 さて、\(x\)の\(k\)番目の要素\(x_{ijkt}\)の改善のWTPとは、改善前と改善後の間で無差別になるような価格変化のことである。\(x_{ijkt}\)が連続変数だとすればWTPは\(\phi_k/\gamma = \phi^*/\gamma^*\)である。そこで、\(\mu\)でスケーリングするかわりに\(\gamma^*\)でスケーリングし、$$ C_{ijt} = x^\top_{ijt} \beta + (y_i – p_{ijt}) + \eta_{ijt}$$ と書き換える。\(C_{ijt} = V^*_{ijt}/\gamma^*, \beta = \phi^*/\gamma^*, \eta_{ijt} = \varepsilon^*_{ijt}/\gamma^* \)である。この式は、属性バンドルの金銭的価値と、それを獲得するための価格との差、つまり消費者余剰になっている。MNL選択確率は$$ Prob^s_{ijt} = \frac{\exp\left( \frac{x^\top_{ijt} – \beta – p_{ijt}}{\mu} \right)}{ 1+\sum_m^J \exp \left( \frac{x^\top_{imt} \beta -p_{imt}}{\mu} \right)} $$ となる。
 尤度として\(Prob^u_{ijt}\)を使っても\(Prob^s_{ijt}\)を使っても、WTPのML推定値は同じである。

2.2 ベイジアン分析とWTPの事前分布・事後分布
 [ここからちょっと難しい話になって混乱してしまったので、この節のみ逐語訳]

 WTP比のML推定量、つまり\(\phi_k\)と\(\gamma\)のML推定値の比は、有限の積率を持たず、二次損失やそのほかのいろんな損失関数に関してリスクが無限になる。ML推定量にまつわるこの問題は、ベイジアンの枠組みでは情報事前分布の導入によって軽減される。従ってモデルはデータの完全条件つき尤度とモデルパラメータの事前分布で構成される。階層事前分布を\(\gamma\)の正の実数直線の上に定義することで、効用の減衰に対する正のWTPという問題が解決されるし、比の事前分布・事後分布の積率が有限であることが保証される。
 ランダム係数モデルの文脈では、Meijer & Rouwendalが、\(\phi_k\)と\(\gamma\)のいろんな分布におけるWTP比の特性について論じている。係数の比が係数と同じ分布に従うというのは特殊ケースである(たとえばどちらも対数正規分布である場合がそう)。つまり、一般に、\(Prob^s_{ijt}\)に示した尤度とともに用いられる事前分布の分布形式[←???]は、\(\phi_k, \gamma\)の事前分布によって示唆される分布形式とは異なるわけだ。よって、WTPのML推定値を等質モデルから得る場合とは異なり、\(Prob^u_{ijt}, Prob^s_{ijk}\)に示した尤度を混ぜる[←???]ことによって形成されるWTPの事後分布は、別個の事後分布に帰着し、価格の関数としての需要についても別個の特徴づけへと帰着する。
 これらの2つのアプローチの間にはどのような乖離が生じると期待されるだろうか? [←恥ずかしながら「2つのアプローチ」がなんのことなのかがわからない。個人間等質なモデルなのかランダム係数モデルなのかとは無関係に、尤度を\(Prob^u_{ijt}\)にしたときと個体尤度を\(Prob^s_{ijk}\)にしたときでどう違うか、って話だよね?]
 データが事前分布を凌駕しているときは、事前分布がちがうにも関わらず、WTPの事後分布はアプローチ間で収束するだろう。係数に等質性を課すモデルでは概してそうなるはずである。もっと興味深いのは階層モデルの場合である。
 階層モデルでは、ふつう我々はたくさんのユニット(たとえば消費者)に直面する。ユニット当たりの観察数は比較的に少ない。従って、ある消費者についての完全条件つき尤度は限られたデータ量からの情報のみを示しており、等質モデルに比べ、事後分布に対する事前分布の影響は概してより大きくなる。
 階層モデルは、完全情報尤度として尤度関数\(Prob^u_{ijt}\)と尤度関数\(Prob^s_{ijt}\)のどちらかを使い、どちらかのパラメータ化をすることになるだろう。\(Prob^u_{ijt}\)の場合、\(\gamma_i\)についての(階層)事前分布がゼロに近いところに正の密度を持っていれば、価格に敏感でないように思える対象者に容易に適応できる。そういう対象者は、モデルによって示唆されるWTP事後分布に多大な影響を与え、よって価格の関数として需要を特徴づける際にも多大な影響を与えるだろう。いっぽう、\(Prob^s_{ijt}\)の尤度関数を持つ階層モデルは、WTPを\(\beta_i\)として直接に測っている。この形式の利点は、WTPの階層事前分布を直接に指定できるという点である。たとえば、絶対的に大きなWTPに小さな密度を与えるような正規事前分布を指定できる。
 WTP比について我々が描写した問題は、選択モデルに特有なものでもWTPに特有なものでもない。なにかの量をモデル・パラメータの比として定義した場合すべてに当てはまる問題である[← そう!そうだよね! この点がずっともやもやしていたのだ] しかし、WTPの推定(そして関連する概念である留保価格の推定)はマーケティング・経済学において特に大事な問題である。近年では、マーケティング研究はWTPと留保価格の研究にさらに焦点をあてるようになっている。なぜなら、価格戦略への直接的な示唆を持つからである(Jedidi & Zhang 2002 MgmtSci, Jedidi et al., 2003 MktgSci, Shaffer & Zhang 1995 MktgSci, 2000 J.Econ.Mgmt.Strategy)。経済学の研究は、WTPのランダム係数の比としての推定に潜在的な問題があることを認識してきた(Meijer & Rouwendal 2006; Revelt & Train 1998 Rev.Econ.Stat.)。またマーケティング実務家もこの問題について認識しており、WTP事後分布の要約として中央値を使うことを勧めている(Orme, 2001 Sawtooth社のニュースレター)。確かに中央値のほうがより頑健だろう。しかし、価格の関数として需要を捉えるベイジアン決定理論分析は、最適な行為を識別する際、WTPの事後分布の全体に依拠している。WTPの事後分布が事前分布に対して敏感なら、最適な行為だって敏感である。

 [なるほど。逐語訳してようやくこの論文の主旨が分かった。自分の言葉でメモしておくと、こういうことだ。
 コンジョイント分析で、モデルに価格属性を量的変数として投入しておき、(たとえば)ブランド属性の部分効用推定値を価格属性の金額単位あたり部分効用推定値で割って、ブランド価値を製品価格に換算することがある(ブランドのWTP)。ふつうなら、(A)それぞれの部分効用を推定し、効用推定値同士で割り算する。しかし、(B)モデル上で価格属性を量的変数とみて、その係数を1に固定する、という手もある。
 ベイジアンの場合、(A)と(B)では推定結果が異なる。パラメータの事前分布がちがうからだ。なお、累積レベルのモデルであろうが個人レベルのモデルであろうが結果は異なるのだが、個人レベルのモデルのほうが深刻である。事前分布の指定の影響がより大きいからだ。
 ではどっちがいいだろうか? …ってことですよね。なるほど。
 このメモは論文をここまでしか読んでいない時点でライブで取っているので、見当違いなことを書くかもしれないけど、モデルというものは本来的にはデータ生成メカニズムを表すものであり、個人差はブランド知覚にもあるし価格知覚にもあるんだから、(A)が自然なんじゃないかしらん。ブランドへのWTPなんていうのは分析者が想定した架空の概念でしょう?
 うーん、でもモデルというものは分析者の既有知識を表しているともいえるわけで、WTPについての事前分布を直接指定したい、というニーズがあるのもわかるなあ。その意味では(B)のほうが自然だ。そうね、一概に決めつけられないわね]

2.3 最適価格設定
 [企業は選択型コンジョイント分析の結果に基づきマーケット・シェアのシミュレータを作ったり、選択肢に「どれも買わない」を入れておいて留保価格を推定したりすることがあるけれど、上記の問題はそれにも影響するんだよ、という話。メモ省略]

3. シミュレーション研究
 以下、\(Prob^u_{ijt}\)のパラメータを\(\Phi_i = [\phi^\top_i \ \log(\gamma_i)]^\top\), \(Prob^s_{ijt}\)のパラメータを\(\Theta_i = [\beta^\top_i \ \log(\mu_i)]^\top\)とする。\(\phi_i, \beta_i\)は長さ6。

 データを4つつくります。

  • D1: \(\Phi \sim N(\bar{\Phi}, \Sigma_{\Phi})\)とする。\(\Sigma_\theta\) [\(\Sigma_\Phi\)のこと?]は対角行列。\(\phi\)は平均はいろいろで分散はすべて1。\(\log(\gamma_i)\)は平均-1, 分散2とする。\(\gamma_i\)は0に近いことがある(個人レベルのWTPはすごく大きくなりうるわけだ)。
  • D2: D1と同様だが、\(\log(\gamma_i)\)は平均0, 分散0.2とする。つまり、\(\gamma_i\)はどの対象者でもだいたい1である。
  • D3: \(\Theta \sim N(\bar{\Theta}, \Sigma_{\Theta})\)とする。\(\phi\)は平均はいろいろで分散はすべて1。\(\log(\mu_i)\)は平均1, 分散0.1とする。
  • D4: D3と同様だが、\(\log(\mu_i)\)は平均-1, 分散0.5。つまり、選択確率は極端になりうる。

 300人、選択肢数3, 15試行。共変量は選択肢固有の定数、4水準の離散属性、そして価格({1.5, 1.6, …, 2.5}からランダムに選択)。[んんん? 非価格属性のパラメータは6個だったよね。離散属性は4水準だからパラメータ数3。ってことは、選択肢固有の定数というのは提示位置の効用のことかな]
 14試行を使ってMCMC推定。モデルが2種類あるので結果は8つとなる。なお、推定時の事前分布は、\(\bar{\Theta}, \bar{\Phi}\)は\(N(0, 10^6 I)\)で、\(\Sigma_\theta, \Sigma_\Phi\)は\(IW(8, I)\)。

 結果。WTPの推定誤差をみる。D1-D4のいずれにおいても\(Prob^s\)モデルの勝ちとなった。つまり、真のデータ生成プロセスが\(Prob^u\)モデルであったとしても(D1, D2)、推定においては\(Prob^s\)モデルがよろしい。

4. ふたつのCBCスタディ
 [これはデモだと思うので、パス]

5. 要約と結論
 本研究では、属性と価格の係数についていっけん合理的な事前分布を指定することにより、WTPの事後分布が極端に裾の太い分布になるということを示した。価格の係数を等質に制約する、WTPの中央値のみ使う、などのアドホックな解決策はあるが、本論文では、むしろ消費者余剰の空間上で選択モデルをパラメータ化することで、WTPの事前分布を直接に指定するという方法を示した。

 データ生成メカニズムによっては、特定の属性水準について対象者のWTPを推定できないことがありうる。たとえば、非補償的な処理とか、価格に基づいて品質を推定しているとか、単に価格を無視しているとか。こういう対象者については、効用モデル[\(Prob^u_{ijt}\)モデルのこと]のほうが対応しやすいだろう。従ってモデリング上の問いは、WTPのありそうな値の範囲についての事前知識を(1)実装すべきか、(2)実装するとしたらどのように実装するか、という点となる。我々が示したのは、(2)については余剰モデル[\(Prob^s_{ijt}\)モデル]が非常に効果的だ、ということである。
 (1)は、マーケティングにおけるコンジョイント実験に関する推論上の問題の核心に触れる問題である。コンジョイント分析は、市場の需要を特徴づけたいという暗黙的な目標を持っている。事前分布は環境の既知の諸相を保持しつつ、他の点においてはコンジョイントの尤度からの情報を取り入れられるものでなければならない。我々の議論は、コンジョイントのデータと他の事前知識が所与のときに事前の予測分布を形成するという問題に限定されている。長い目で見れば、コンジョイント・データの基盤にある現実のデータ生成メカニズムについてより良い理解を得ることがによって市場における選択を生成する尤度に接近することができるようになるだろう。
————–
 この論文、WTP推定の話というより、もっと一般的な、「選択モデルのパラメータ推定値のスケーリングをどうするか」という問題なのではなかろうか。関心ある量が、パラメータ(コンジョイント分析でいえば部分効用)そのものではなくて、パラメータの比(部分効用の金額換算値)であるような場面では、データ生成プロセスがどうであれ、モデル上でそれが直接にパラメータになるようにモデルをスケーリングしておけ… ということだと思う。

 うーん。。。そうなんですかねえ。。。
 著者も最後に述べているように、本質的には、部分効用の異質性をモデルで表現したいか、それともWTPの異質性にをモデルで表現したいか? というのが真の問いだと思う。そしてコンジョイント分析の場合、ふつうは前者なんじゃないですかね。だって、モデルの要素が実質的な解釈を伴わないというのは怖い。「部分効用の分布」がたとえば正規分布だということがもっともらしいかそうでないか、なんとなく判断できるけど、WTPの分布、つまり「部分効用の比の分布」が正規分布だといわれても、判断に困るじゃないですか。

 いっぽう、そもそもモデルの要素を実質的な解釈と結びつけるのが難しいことだってあるんだから(一対比較のサーストン・モデルがそうですね)、あえてそういうモデル定式化を選ぶ人を止めることはできない。
 それに、事前知識なんてないんだ、そして推定したいのは属性のWTPなんだ… という場面では、それはまあ、パラメータ推定値を割り算してWTPを求めるよか、WTPを直接にパラメータにしたほうが、それっぽい事後分布になりやすいでしょうね。違うモデルなんだから、推定誤差が小さくなることだってあるでしょう。うん、まあね、それはわかる。
 なんかその、問題の本質から目をそらして、テクニカルな議論をしているような気がしてならないんだけど、人生においては問題の本質から目をそらしたほうが良い場面が多々あることも理解できる。