« 読了: Revelle (2009) 嗚呼Cattellは偉かった | メイン | 読了:Erdem, Zaho, & Valenzuela, A. (2004) アメリカでPBが売れない理由を購買データだけで突き止める »
2012年4月25日 (水)
Andrews, R.L. & Currim, I.S. (2003) A comparison of segment retention criteria for finite mixture logit models. Journal of Marketing Research, 40(2), 235-243.
データ分類手法のひとつである有限混合モデル(潜在クラスモデル)では、モデル適合度指標をつかってクラス数を推定できるが、その指標のパフォーマンスを比較いたしました、という論文。類似の研究はいくつもあると思うのだが、この論文では、店舗スキャナ・データに多項ロジット選択モデルをあてはめ、顧客の選好の異質性を有限混合モデルで説明する、という状況に焦点を当てている。すごく狭い話ではあるが、そういうモデルを組む人にとっては大事な問題だ。
比較する指標は次の7つ。モデルの対数尤度をL, パラメータ数をkとして、
- AIC = -2L + 2k。
- AIC3 = -2L + 3k。Bozdoganという人が提案している由。なんで3になるのか、理屈はさっぱりわからないが、とにかく有限混合モデルでは3になるのだそうです。
- CAIC = -2L + k[(log n)+1]。nはサンプルサイズ。
- ICOMPという指標。AICみたいなもんだが、対数尤度に対するペナルティを、パラメータ数ではなく推定されたフィッシャー情報行列で決めるらしい。なんだかよくわからんが、パラメータ数が多すぎるモデルだけではなく、パラメータ推定の分散が大きすぎるモデルにもペナルティが課せられるのだそうだ。これもBozdoganという人が提案している由。
- SchwarzのBIC。
- 妥当化用サンプルでの対数尤度(LOGLV)。これが最大になるまでセグメント数を増やしていく。
- NECという指標。クラス数SのモデルのエントロピーをE(S)、対数尤度をL(S)としたとき、E(S)/(L(S)-L(1))だそうだ。クラス間の分離が大きいときに大きくなる理屈である。これが最大になるまでセグメント数を増やしていく。
シミュレーションは... 予測子は2値変数2つ、連続変数1つ(プロモーションと価格のつもり)。要因は、真のクラス数(2,3)、世帯レベル係数(クラス内でガンマ分布に従う)の平均のクラス間の差(3水準)、世帯数(100,300)、世帯当たり購入数平均(5,10)、選択肢数(3,6)、誤差分散(2水準)、最小のクラスのサイズ(3水準)。各組み合わせについて3個のデータセットを生成し、正しいセグメント数を復元できたかどうかを調べる。
その結果、総じてAIC3が優れていた由。へええー。
この論文を読んでいてふと思い出したのだが、ずっと前にフジテレビ制作の「ウゴウゴルーガ」という子ども向け番組があった。もう何年もテレビを見ない生活なのだが、ああいう面白い番組はいまあるのかしらん。あの番組のなかで、洋式便器の中のウンチがこちらに向かって、低いくぐもった声で文脈とは無関係なうんちくを垂れ、「~は~らしいぞ」と言い終わるか終わらないかのうちにザバーッと水流に流されていく、という非常にシュールなショートアニメがあったと思う。あれのスマフォ・アプリをつくったらちょっと面白いかもしれない。設定で「マーケティングデータ解析」を選択し、画面上のウンチをタップすると、「購買ログに有限混合多項ロジット選択モデルを適用するときは、AICにパラメータ数を足した値が最小になるクラス数を選ぶといいらしいぞ」ザバーッ、なんてね。
論文:データ解析(-2014) - 読了:Andrews & Currim (2003) 有限混合多項ロジット選択モデルのクラス数推定にはAIC3がいいらしいぞ (ザバーッ)