読書日記: 読了：Erdem, Zaho, & Valenzuela, A. (2004) アメリカでPBが売れない理由を購買データだけで突き止める

« 読了：Andrews & Currim (2003) 有限混合多項ロジット選択モデルのクラス数推定にはAIC3がいいらしいぞ (ザバーッ) | メイン | 読了：「おかめ日和」「マスタード・チョコレート」「深夜食堂」「ママゴト」「チェーザレ」「銀の匙」「アゲイン」「うさくんの脳みそやわらかい」「闇金ウシジマくん」「とろける鉄工所」 »

2012年4月27日 (金)

Erdem, T., Zhao, Y, & Valenzuela, A. (2004) Performance of store brands: A cross-country analysis of consumer store-brand preferences, perceptions, and risk. Journal of Marketing Research, 41(1), 86-100.
　ストア・ブランド(PB)のシェアは、ヨーロッパで高くアメリカで低いのだそうだ。その理由をホーム・スキャン・パネル・データだけで突き止めます、という論文。
　こういう研究をする人って、ほんとに問いから出発しているのだろうか？それとも、データを入手できて高度な分析モデルを作れる人が、研究のために問いを探すのだろうか？どちらともいえないんだろうけど、この研究に関する限り、後者の色合いが強いんだろうなあと思う。

　いやあ、難しかった、読み通すのがホントに、ホントに大変だった。主因はもちろん私の能力不足だが、いっちゃなんだけど、ちょっとわかりにくいと思うんですよね、と小声でぼやいたりなんかして...
　モデルについての説明を抜き書き。ほんとはナショナル・ブランド群とストア・ブランド群の話を並行して進めていくのだけど、仕組みはまったく同じなので、ナショナル・ブランドについての説明のみ抜き出す。各ナショナルブランドを表す添え字は原文では j_n だが、簡略のために j と書く。分散パラメータ\sigma^2_Aや\sigma^2_xにも、原文では添え字A, x にさらに添え字 n がついているのだが、略記する。Eの添え字の順番が途中で入れ変わっているけど、原文ママである。

　消費者は不完全な情報しか与えられておらず、したがって製品の品質についてuncertainだろう。[...] そこで以下のように定義する。
　　X_{ijt} = A_j + x_{ijt}
　ただし、X_{ijt}は消費者 i が時点 t において仮にナショナル・ブランド j を買っていたらそのときに感じていたであろう全体的品質水準、A_j はナショナル・ブランド j の(真の)平均的な品質水準、x_{ijt}はi.i.d.な偶然誤差項である。x_{ijt}は、ある消費者が偶然に「不良品」ないし「もうけもの」を得ることを表しうるだけでなく、消費者が品質水準を完全に評価できないというinabilityをも表しうる。[...]

　消費者はナショナルブランドの品質水準の平均(A_j)についてベイズ更新によって学習する、と仮定する。[...] また、品質水準A_jについての消費者の事前分布は、t=0の時点では正規分布に従うと仮定する。
　　A_j \sim N(\bar{A}_j, \sigma^2_A)
ただし、\bar{A}_jはナショナル・ブランド j の知覚品質水準の事前平均であり、各消費者において E_{0i}[A_j] = \bar{A}_jとなる。 \sigma^2_Aは、消費者 i が時点 t=0 において知覚した、このナショナルブランドの品質水準の事前分散である。[...] \sigma^2_Aは、ナショナルブランドについての消費者の初期状態でのuncertanity（知覚品質水準についての初期状態の分散、ないし事前分散)を捉えている。[...]

　消費者の潜在的属性(品質)知覚に付随する偶然誤差項は次のように分布する:
　　x_{ijt} \sim N(0, \sigma^2_x),
ただし\sigma^2_xは、ナショナルブランドに共通な、経験の変動性である。x_{ijt}は消費者、ナショナルブランド、時点を通じてi.i.d.であると仮定する。[...]

　消費者はベイズ更新器のようにふるまうのだから、潜在属性水準(たとえば品質)への消費者の期待は、以下のように表現できる:
　　E_{it}[ A_j ] = A_j + z_{ijt},
　　z_{ijt} \sim N(0, \sigma^2_{A_{ijt}})
ここで \sigma^2_{A_{ijt}} は、消費者 i の時点 uにおけるナショナルブランド j についての期待誤差であり、\sigma^2_{A_{ijt}}=E[(A_j - E_{ti}[A_j])^2]である。\sigma^2_{A_{ijt}}は、消費者 i が時点 t においてブランド j に対して持つ期待の誤差について消費者 i が持っている分散を示している。それは消費者の品質についての(ないし不完全にしか観察されない属性についての)信念のばらつきを反映し、消費者への知覚されたリスクを表している。[...]

　時点 t において消費者 i は、ブランド j の経験における驚きの諸要素から、そこに含まれる情報を受け取り、それによって品質水準の平均 A_jについての期待を更新する。したがって、ベイズルールによれば
　　E_{ti}[ A_j ] = E_{t-1, i} [ A_j ] + \sum_{j=1} D_{ijt} \beta_{ijt} (X_{ijt} - E_{t-1, i}[ X_{ijt} ])
[サメーション記号のインデクスがサメ―ションの外側の添え字と同じになっているので、わけがわからない。おそらく、サメーションの内側の j はすべて同一の別の記号に書き換えたほうがいいのだろう]
ただしD_{ijt}は、消費者 i がナショナルブランド j を使用したときに1, そうでないときに0 となる。[...]

　\betaはカルマンゲイン係数で、カルマンフィルタリングのアルゴリズムから得ることができる。
　　\beta_{ijt} = \sigma^2_{A_{ijt}} / ( \sigma^2_{A_{ijt}} + \sigma^2_x )
ここで\beta_{ijt}は、消費者 i が時点 t においてナショナルブランド j の品質水準を評価するとき[正しくは「任意のナショナルブランドの品質水準を比較するとき」だと思う]、ナショナルブランド j の過去の購入から得た情報に与える重みである。[...]
　消費者 i は、時点 t において j の品質水準の分散 \sigma^2_{A_{ijt}}も更新する。
　　\sigma^2_{A_{ijt}} = (1-\beta_{ijt}) \sigma^2_{A_{ijt-1}}
　[...]

　先に述べたようにz_{ijt} = E_{ti}[A_j] - A_j である。さらに、x_{ijt} の平均は 0 だから、E_{t-1, i}[X_{ijt}] = E_{t-1,i}[A_j]である。したがって
　　z_{ijt} = z_{ijt-1} + \sum_j D_{ijt} \beta_{ijt} (x_{ijt} - z_{ijt-1})
である。

　ああでもないこうでもないと、まるまる一晩悩んだんだけど、やっぱり理解できなかった。特に理解できないのは、A_j と E_{ti}[ A_j ]という記号の意味である。こういうことを書き留めると嗤われちゃうかもしれないけど、のちのちのために、現時点での混乱ぶりを正直にメモしておくことにする。

　心のなかで有力な解釈は、いまのところこういうものだ。

　ブランド j の品質を、N(\bar{A}_j, \sigma^2_A)に従う確率変数 A_j で表す。もちろん品質は消費者や使用状況に対して相対的に決まるものだが，その分布は個別具体的な使用経験からは独立に、アプリオリに決まっている。つまり、A_j は信念ではない。個別の使用経験におけるブランド j の知覚品質は、A_j にホワイトノイズ x_{ijk} が乗ったものである。つまりこのモデルでは、ブランド j の知覚品質は、ブランド j についての個々の消費者の信念とは無関係に決まっている。

　消費者 i が時点 t において持っているブランド j の品質についての信念を確率変数 E_{ti}[ A_j ] で表す。ここで E というのは確率分布の平均を表す記号でなくて、A_jとは別の確率分布を表す記号なのだ(←え？)。t=0 におけるその分布は、なぜかA_j の分布に一致する(←えええ？)。著者は E_{0i}[A_j] = \bar{A}_j と書いているけど、これはなにかの間違いで、ほんとは E_{0i}[A_j]=A_j と書くべきだ。

　信念を表す確率分布 E_{ti}[ A_j ] は、使用経験に伴って更新される。これを，A_j に z_{ijt}が乗った分布として捉えることができる。z_{ijt}の分散は時点とともに小さくなる。

　。。。うーむ。かなりおかしい。この解釈だと、あらゆる使用経験の背後にある不変な品質が、時点0での信念に一致する、という奇妙な話になる。Eが期待値の記号じゃないというのも無理がある。

　もうひとつの解釈はこうだ。

　　ブランド j の品質についての信念を確率変数で表す。その分布は個々の消費者の使用経験に従って更新されていく。それはほんとは A_{ijt} とでも書かないといけないんだけど、論文ではめんどくさいのでA_j と略記している (←まさか...)。個別の使用経験におけるブランド j の知覚品質は、そのときどきの信念 A_j (本来はA_{ijt}と書くべき) にノイズ x_{ijk} が乗ったものである。

　t=0における A_j (本来はA_{j0}とでも書くべき)の分布はN(\bar{A}_j, \sigma^2_A)に従う。
　消費者 i が時点 t において持っている信念 A_j (本来はA_{ijt}と書くべき)の分布の平均を E_{ti}[ A_j ] と表す。ここで E というのは、確率分布の(条件つきの)期待値を表す記号である。

　信念を表す確率分布 A_j (本来は A_{ijt} と書くべき)は、使用経験に伴って更新されていく。これを，初期分布 A_j (本来はA_{j0}とでも書くべき) が左右にz_{ijt}だけ動いた分布として捉えることができる。z_{ijt}の分散は時点とともに小さくなる。著者は E_{it}[ A_j ] = A_j + z_{ijt} と書いているけど、これはなにかの間違いで、ほんとは E_{it}[ A_j ] = \bar{A}_j + z_{ijt} と書くべきだ。

　。。。うーむ。これもなんだかおかしい。話の筋は通るけど，まさかそんな変な書き方はしないだろう。

　。。。私の手に負えない、あきらめよう。とにかく、話のポイントはこうだと思う。このモデルでは、消費者は各ブランドの知覚品質についての期待を時点ごとに更新していく。しかし、あるブランドの使用時の知覚品質が良かったときにそのブランドへの期待が上がるのではなく、あるナショナル・ブランドの使用時の知覚品質が良かったときにはすべてのナショナル・ブランドへの期待が上がり、あるストア・ブランドの使用時の知覚品質がよかったときにはすべてのストア・ブランドへの期待が上がる。

　ここまでのところで疲れ切ってしまったので、あとは簡単に...
　消費者 i にとっての時点 t でのブランド j の効用 U_{ijt} は知覚品質 X_{ijt} と価格P_{ijt} で決まると考え、
　　U_{ijt} = \alpha_i P_{ijt} + \omega_i X_{ijt} + \omega_0 \gamma_i X^2_{ijt} + \epsilon_{ijt}
と仮定する。係数は基本的にランダム係数で、正規分布を仮定。知覚品質をわざわざ二次にしているのは、リスク志向性の個人差を表現したいからである (\omega_0 \gamma_i が正だったらリスク志向的)。上の式から\epsilon_{ijt}を取り除いたやつをV_{ijt}として、消費者の選択をE[V_{ijt}]をつかった多項ロジットでモデル化する。
　このモデルをいろんな国のスキャン・パネル・データに当てはめる。同定のための制約をいくつかつければsimulated MLで推定できるのだそうだ。カテゴリは、洗剤(米・英・スペイン)、トイレットペーパーとマーガリン(米・スペイン)。国xカテゴリごとに4～7ブランド、うちひとつがストア・ブランド。で、以下の指標を比較する。

r_1: ストア・ブランドの\sigma^2_Aとナショナル・ブランドの\sigma^2_Aとの比。事前のuncertaintyのちがいを表す。
r_2: ストア・ブランドの\sigma^2_xとナショナル・ブランドの\sigma^2_xとの比。使用経験のなかに含まれている情報のちがいを表す。
r_3: \gamma_i の平均と \alpha_i の平均の比。リスク回避と価格のどちらを重視するかを表す。
r_4: \omega_iの平均と\alpha_iの平均の比。品質と価格のどちらを重視するかを表す。
r_5: 知覚品質水準の最大値と最小値の差と、最大値との比。ストア・ブランドとナショナル・ブランドの品質の差を表す。

どの指標も、大きいときにストアブランドが不利になるはずの指標である。
　その結果... どの国 x ブランドでも、消費者はリスク回避的。事前のuncertainty は0でない。どの5つの指標も、米・英・スペインの順に大きいのだが、r_1, r_2, r_3での差がすごく大きい。つまり、米のストア・ブランドは、品質について確信が持てず、使うたびに良かったり悪かったりするし、そもそも米の消費者は価格感受性に比べてリスク回避的だ、というわけだ。

　あああ、疲れた。。。苦労して読んだ結果，何を得たのかよくわからないが，カルマン・フィルタについての知識が足りないことがわかったので，よしとしよう。
　アメリカのストア・ブランドは、品質が低そうだという意味でエクイティが低いのではなく、むしろ品質がよくわからないという意味でエクイティが低いのだ，という知見が面白いと思った。実のところ、英のストアブランドは高品質路線、スペインのストアブランドは低品質路線なのだそうだ。とにかく整合的なポジショニングが大事なのであり、アメリカのストア・ブランドはそれができていない、ということらしい。たった数カテゴリの知見でなにを偉そうに，というツッコミは野暮というものであって，そんなことが購買データだけでわかるなんてすごいなあ，と素直に感心するのが正しい読み方であろう。

論文：マーケティング - 読了：Erdem, Zaho, & Valenzuela, A. (2004) アメリカでPBが売れない理由を購買データだけで突き止める

読書日記

読んだ本を淡々と記録します

2012年4月27日 (金)