読書日記: 読了: Andrews, Ainslie, & Currim (2002) 有限混合モデル vs. 階層ベイズモデル～選択データ分析での対決～

« 読了：van Heerde, Gupta, & Wittink (2003) 販促の効果に占めるスイッチングは君が思うよりずっと小さい | メイン | 読了：「成熟社会の経済学」 »

2012年4月23日 (月)

Andrews, R.L., Ainslie, A., & Currim, I.S. (2002) An empirical comparison of logit choice models with discrete versus continuous representations of heterogeneity. Journal of Marketing Research, 39(4), 479-487.
　さっわやかなまでにテックニカルな論文。複雑な社会現象に正面から取り組むのも立派だけど、こういう話も気楽でよろしい。胸に一陣の風が吹き込むようだ。というか、どうでもいい話をテキトウな態度でフガフガと読むのは良い気晴らしになる。
　えーと、この論文の掲載号に著者らはもう一本載せていて(Andrews, Ansari, & Currim, 2002)、メトリックなコンジョイント分析において有限混合モデルを使った場合と階層ベイズモデルを使った場合とを比較しているのだそうだ。個人パラメータの復元やホールドアウトの予測という観点からは、まあ似たようなもんである由。で、本論文はタイトルの通り、ロジット選択モデルについて同じことを調べます、という研究。今度はコンジョイント分析じゃなくて、ホーム・スキャン・パネル・データに選択モデルを当てはめる場合を想定してシミュレーションするわけだ。このバットで馬を殴り殺したから今度は鹿を殴り殺してみよう、というような話だ(←???)。いやー、いいなあー、この論文量産システム、すっばらしいなあー。
　手続きの詳細はもう一本のほうの論文を読めとのことで、正確にはわからないのだが、推察するにこういうことだろう。次のような人工的な購買データをつくる。それは架空の(たとえば)400世帯の，世帯あたり(たとえば)15回の買い物データで，各世帯は各買い物において架空の5つのブランドのいずれかを購入する。各買い物において，それぞれのブランドは，価格，店内ディスプレイ有無，チラシ広告有無，の3つの値を持っている(ランダムに生成)。これら3つの変数の値と(重みは各データセットに対してランダムに付与)，その世帯にとってのブランド部分効用の和によって，各ブランドの全体効用が決まり，選択も決まる。世帯は(たとえば)3つのクラスにわかれており，各クラスごとに，ブランド部分効用の分布が決まっている。というようなデータセットを，実験計画に従って生成しまくる。要因は，クラス数(1,2,3)、クラス間の分離の程度(2水準)、ブランドの部分効用の分布(正規分布,ガンマ分布)とその分散(2水準)、世帯数(75,200,400)、世帯当たり購買数(3,10,15)、誤差分散(2水準)。すべての組み合わせ(360)についてひとつづつデータセットをつくり，それに有限混合ロジットモデル(FM)，ならびに階層ベイズ推定した混合ロジットモデル(HB)を当てはめる。ここでいうFMモデルとは、世帯パラメータの分散がクラス内で0であるモデルのことで(クラス数はBICとかで推測する)、つまりFMでは世帯間異質性を離散的に捉え、HBでは連続的に捉えていることになる。で、成績指標として、世帯パラメータのRMSE、モデルの適合度(対数尤度, BIC)、ホールドアウトでの対数尤度とブランド選択率予測値を求め、データセットごとの成績をANOVAで分析する。
　結果は適当に飛ばし読みしてしまったが、ひとことでいえば、世帯当たり購入数3の条件ではHBはボロボロ。うーむ、消費者あたりのデータが少なくてもHB推定はできちゃうけど、あんましあてにならない、ってことですね。反省。いっぽう、購入数が増えればFMもHBも大差ない由。
　論文末尾で著者らいわく、「分析者が消費者異質性を連続的に表現するモデルを好むか離散的に表現するモデルを好むかは、その人の意見と個人的好みの問題だが、主観的な議論と思索よりは実証的証拠のようが説得的だから、さらなる実証研究がなされるといいなあと思う」とのこと。ふーん。

論文：データ解析(-2014) - 読了: Andrews, Ainslie, & Currim (2002) 有限混合モデル vs. 階層ベイズモデル～選択データ分析での対決～

読書日記

読んだ本を淡々と記録します

2012年4月23日 (月)