読了: Vermeulan, Goos, Vandebroek (2007) 「どれも選ばない」選択肢が入っている選択型コンジョイント実験のD-最適計画

Vermeulen, B., Goos, P., Vandebroek, M. (2007) Models and optimal designs for conjoint choice experiments including a no-choice option. SSRN.

 選択型コンジョイント分析で「どれも選ばない」選択肢をいれるときの最適実験計画(←そういうのがあるんです)についての論文。
 なんか大学の紀要みたいな感じだし、もっとちゃんとしたのを探したほうがいいのかも…と思いながらめくったんだけど、これが大変勉強になった。

1. イントロダクション [略]

2. no-choice選択肢
 選択型コンジョイント分析では、選択肢に「どれも選ばない」(no-choice)を含めることが多い。そっちのほうが現実的な実験になるから。実際、no-choiceを含めないとパラメータにバイアスがかかるといわれている。Dhar(1997 JCR), Dhar & Simonson(2003 JMR)をみよ。
 対象者がno-choiceを選ぶ理由はふたつ考えられる。(1)他のどの選択肢も十分な効用を持っていないから。(2)困難な決定の回避。Baron & Ritov(1994 OBHDP)をみよ。もっともJohnson & Orme (1996 Tech.Paper)は実際にそれが起きている証拠がないと主張している。本論文では前者を仮定する。

3. 多項ロジットモデル
 まずMNLモデルについておさらいしよう。
 対象者を\(n\), 選択集合を\(k\), 選択肢を\(j\)としよう。\(p\)個の属性の水準を持つベクトルを\(x_{kj}\)とし[ダミーベクトルであろう]、効用を $$ u_{nkj} = x_{kj} \beta + \epsilon_{nkj}$$ とする。\(\epsilon_{nkj}\)は極値分布にIIDに従うとする。選択確率は$$ P_{nkj} = \frac{\exp(x_{kj}^\top \beta)}{\sum_j \exp(x_{kj}^\top \beta)} $$ となる。
 対象者の選択をダミー変数\(y_{nkj}\)で表そう。選択集合が対象者間で共通ならば、対数尤度関数は$$ ln(L(\beta)) = \sum_n \sum_k \sum_j y_{nkj} ln(P_{nkj}) $$ こいつを最大化すればよい。

 さて、no-choiceを含むモデルとして、Haaijer, Kamakura, Wedel(2001 IJMR)は2つのモデルを提案している。どちらもMNLモデルに基づく。
 その1, NCMNL。no-choiceを\(x_{kj}\)がすべて0, すなわち効用0の選択肢とする。各属性に水準が一つ増えることになる。そのせいでパラメータ推定値が歪む可能性がある。
 その2, ENCMNL。no-choiceかそうでないかという2水準の属性があると考える。この属性の係数はno-choiceの効用ということになる。

 さて、上記アプローチはIIAという強い仮定を必要とする。[…IIAの説明。中略…] no-choiceは他の選択肢と全然ちがう、つまり他の選択肢間には類似性があるから、IIAは成り立たないとみるべきだろう。
 そこでnested MNLを導入する。選択肢\(j\)の上にネスト\(m\)があるとして、$$ P_{jkm} = P(m)P(j|m)$$ $$ P(m) = \frac{\exp(\lambda_m V_m)}{\sum_i \exp(\lambda_i V_i)} $$ $$ P(j|m) = \frac{\exp(x_{kj}^\top \beta)}{\sum_i \exp(x^\top_{ki} \beta)} $$ $$ V_m = ln(\sum_i \exp(x^\top_{ki} \beta))$$ [いつのまにか添え字\(n\)が消えておる…]
 \(\lambda_m\)は非類似性係数で、通常0と1のあいだの値をとる。対数尤度関数は$$ ln(L(\beta)) = \sum_n \sum_k \sum_m \sum_j y_{njkm} ln(P_{jkm})$$ となるが、concaveでないので最大化が難しく、初期値を変えて試す必要がある。
 ここでは、no-choiceがひとつのネスト、他のすべてがもうひとつのネストになっていると考えるわけである。これをMLMNLモデルと呼ぼう。

4. no-choiceモデルのためのD-最適計画の構築
 さあ、ここからが本題です。
 コンジョイント選択実験の目的は、対象者の選択が製品の属性にいかに依存しているかを知ることである。得られる情報を最大化する実験計画を最適計画という。最適計画の研究では、D-最適性、A-最適性、G-最適性、V-最適性などの基準が知られている。詳しくはHuber & Zwerina(1996 JMR), Sandor & Wedel(2001 JMR), Kessel, Goos, Vandebroek(2006 JMR)などをみなさい。[←こういうリファレンスを探してたのよ… ありがとう…]
 以下ではD-最適性に注目する。一番よく使われているし、コーディング方略やスケールに依存しないという利点がある。

 D-最適計画とはなにか。それは、\(\beta\)に含まれる未知パラメータについてのFisher情報行列の行列式を最大化する計画であり、従って\(\beta\)の信頼楕円を最小化する計画である。Fisher情報行列はパラメータ推定値の分散業分散行列に反比例しているから、D-最適計画はパラメータ推定値の一般化分散[←?]を最小化する計画だともいえる。
 すべての選択肢の属性の水準を持つ行列を\(X\)とし、Fisher情報行列を\(I(X, \beta)\), 分散共分散行列を\(V(X, \beta)\)とする。D-誤差を次のように定義する: $$ D = \{ \mathrm{det} I(X,\beta)\}^{-1/p} = \{ \mathrm{det} V(X,\beta)\}^{-1/p} $$ これが最小な計画がD-最適計画である。

 NCMNL, ENCMNL, MNMNLのいずれにおいても、D-誤差は\(X\)と\(\beta\)の両方に依存する。だから、最適計画をつくるためにはパラメータについての事前知識が必要になる。困った。

  • Kessel, Goos, Vandebroek(2006)は、未知パラメータをすべて0にしちゃえと提案した。ちょっと強すぎる仮定である。
  • Huber & Zwerina(1996)はプリテストなりマネージャーの事前知識なりを使えと提案した。最適計画の研究ではこういうのを局所最適計画という[← へー]。
  • Sandor & Wedel(2001)は事前分布を使えと提案した。こういうのをベイジアン最適計画という。

 以下ではベイジアン最適計画のアプローチでいこう。事前分布を\(f(\beta)\)とする。ベイジアン版のD-誤差として、D-誤差の期待値を用いる: $$ D_b= E_\beta \left[ \{\mathrm{det} I(X, \beta)\}^{-1/p} \right] = \int \{ \mathrm{det} V(X, \beta)\}^{1/p} f(\beta) d\beta $$
 解析的に解けないので、\(\beta\)のドロー\(\beta_1, \ldots, \beta_R\)を使って $$ D_b = \frac{1}{R} \sum_i^R \{\mathrm{det} I(X, \beta_i)\}^{-1/p} = \frac{1}{R} \sum_i^R \{\mathrm{det} V(X, \beta_i)\}^{-1/p} $$ を求める。
 最適計画を探す際には修正Fedorovアルゴリズムを使う。これはランダムに生成した計画のプロファイルを交換しながら最適計画を探すヒューリスティクスである。[← あああ、そういうことか… Rのidefixパッケージがなにをやっているのかようやくわかってきた]

 さて、Fisher情報行列は具体的にはどうなるか。
 MCMNL, ENCMNLであれば, 選択集合\(i\)の各プロファイルを行として持つ行列を\(X_i\)、各プロファイルが選ばれる確率を\(p_i\)、\(p_i\)を対角に持つ対角行列を\(P_i\)として $$ I(X, \beta) = N \sum_i X_i^\top (P_i – p_i p_i^\top) X_i$$ となる。[なんでかわからんが、へーそうなんですか。ってことはあれね、ドローした\(\beta\)に計画行列を掛けて製品効用を求め、指数関数にいれて選択確率を求め、この式に放り込んでフィッシャー情報行列を求め、その行列式を求める、というのを延々と繰り返すわけね。超めんどくさいな]
 ENCMNLの場合、\(X_i\)は\(p+1\)列になるので(no-choiceのダミー変数がはいるから)、\(I(X, \beta)\)も\(p+1\)次元になる。しかしno-choiceの効用にはあまり関心ないので、あくまで\(p\)個のパラメータについての最適化したい。このような、パラメータの一部についてのD-最適計画のことを、最適計画の研究では\(D_s-\)最適計画という。[ふへえええ… 難しい話だなあ…]

 NLMNLの場合はどうなるか。Goos, Vandebroek & Vermeulen (2007, unpub.)によれば$$ I(X, \beta, \lambda) = N \left[ \begin{array}{cc} X^\top D X & X^\top \pi \\ \pi^\top X & c \end{array} \right] $$ ただし、\(D, \pi, c\)は\(\lambda, P_{jkm}(j,m), P(m), P(j|m)\)の複雑な関数である[← ほんとにこう書いてある…]。さらに、\(D_s-\)最適計画の観点からは、最大化すべきは\(I(X, B, \lambda)\)の行列式じゃなくて\( X^\top D X – c^{-1} X^\top \pi \pi^\top X\)の行列式である。

5. \(D_b-\)誤差の観点からの計画比較
[メモは省略するけど、3x3x3, 試行あたり選択肢3, 16試行の実験で、MNL, NCMNL, ENCMNL, NLMNLで最適計画を作り、NCMNL, ENCMNL, MNMLNで分析したときの\(D_b-\)誤差を求めている。NLMNLで設計・分析したときが最良とのこと]

6. 最適no-choice計画の性能評価
 最後に、係数推定と選択確率予測についてのシミュレーションをお届けしよう。

 まず評価基準を決めます。
 係数の推定値について。ほんとは$$ EMSE_{\hat{\beta}} (\beta) = \int (\hat{\beta}-\beta)^\top (\hat{\beta}-\beta) f(\hat{\beta}) d\hat{\beta}$$ を求めたいんだけど、その近似として…[頭が混乱しちゃったので省略]
 選択確率の予測\(\hat{p}\)についてもEMSEを近似的に求める[…略…]。

 真のモデルがNCMNLである場合… 真のモデルがENCMNLである場合… 真のモデルがNLMNLである場合…
 [読まずにとばした]

7. 混合反応に基づくno-choice計画の性能評価
 [では生成モデルが対象者によって違ったら?というシミュレーション。スキップだ、つきあいきれん]

8. 結論
 no-choice選択肢があるときの3つの分析モデルについて、それぞれの最適計画をつくり、その性能を調べた。面白いことに、no-choice選択肢がないときの最適計画と比べてたいして変わらなかった。つまり、no-choice選択肢があっても、それを無視した最適計画を使っていてよさそう。
 ただし、適切なモデルを使うことは大事。真のデータ生成モデルがわかんないときはMNMNLがおすすめ。
———
 …意外にも、とても勉強になりました。論文の主旨はno-choiceをいれた選択型コンジョイント分析の最適計画にあるわけだけど、その手前の、選択型コンジョイント分析の最適計画について頭が整理できた。評価型コンジョイントならわかるけど、選択型のときの計画行列ってどうなるんだろう? と疑問に思ってたのである。なるほど、評価型の場合と違い、各対象者の各試行の計画行列に注目するわけね。かつ、モデルに指数関数が入っているから計画行列だけではFisher情報行列を求めることができなくて、未知パラメータについてのなんらかの仮定なり事前分布なりが必要になるわけね。そいつは面倒だね。

 ついでに感想をメモしておくと…

 選択型コンジョイント分析を専用システムなしでやる場合、自分だったらどうする? と考えると、「どれも選ばない」選択肢を入れるとして、効用推定はこの論文でいうENCMNLでやると思う。いや、MNMNLにした方が良いという理屈はわかります。でも、選択肢間の類似性を問題にするならばそもそもブランド間の類似性だってあるわけだし、nested logitの仮定する2段階の意思決定がリアルだという気もしない。正直、ちょっと凝りすぎじゃないかという気がする。確認してないけど、Sawtooth SoftwareのシステムもENCMNLではないかしらん?

 計画行列を作る際、まじめに最適計画探索をやることより、むしろそこそこ良い計画をたくさん生成することを考えると思う。web調査の場合、実験計画を対象者間でどんどん変えていけるし、直感的にいってむしろそっちのほうが大事だと思うからだ。しかし、個々の計画の最適性をチェックしてどこかで足切りしたいとは思う(し、実際やっている)。そのとき、計画行列は総水準数+1列になるけど、最適化したいのは属性の部分効用の推定だけだよね、というのは、なるほど、盲点であった。
 でもさ、たしかに「どれも選ばない」の効用推定には関心ないけど、いまどきのコンジョイント分析のアウトプットは部分効用推定値よりもシミュレーション重視だし(わざわざHBで個人レベル効用を推定してんだから安易に集計したくない)、シミュレーションには「どれも選ばない」の個人レベル効用が効いてくるんだから、やっぱり総水準数+1個のパラメータ推定のためのD-最適性を問題にすればいいんじゃないの?
 まあこの論文の結論によれば、実際には「どれも選ばない」を入れる実験でも入れないときの最適計画を使っててたいして問題ないみたいだから、結局どうでもいいんだけどさ。