読了: Tsai (2000) 順位付けデータに選好の個人差があるThurstonianモデルを当てはめるときの識別性について

Tsai, R.C. (2000) Remarks on the Identifiability of Thurstonian Ranking Models: Case V, Case III, or Neither? Psychometrika, 65(2), 233-240.

 サーストンの一対比較モデルを複数の回答者に拡張したときのモデルの識別条件について調べていたんだけど、そのものずばりであるTsai(2003)がなかなか難しく、著者の前の論文に遡って読んでみた。ここでは完全順位付け課題について考えており、選択誤差を考えないので話がよりシンプルである。

1. イントロダクション
 一対比較・順位付けの世界ではThurstoneのランダム効用アプローチの影響が大きい。Thurstoneはランダム効用の共分散をすべてゼロとおくCase IIIモデル、さらに効用の分散も等しいと仮定するCase Vモデルを提案しており、その影響もまた大きい。
 悲しいかな、Case IIIであれCase Vであれ、解は一意に決まらない。古くは1940年代にGuttmanが、Case Vの仮定はすべての刺激の間に同じ相関があるという仮定と等価であることを示している。Thurstoneが定義した共分散構造は、Case V/IIIモデルの十分条件ではあるが必要条件ではないわけだ。
 本論文は、Thurstonian順位付けモデルの共分散構造における等価クラスを定義し、Case IIIとかVとかよりもっと意味のある分類を提供する。

2. ThustoneのCase IIIモデルの定義が抱えている問題点
 Thurstonian順位付けモデルAについて考えよう。ランダム効用を$$ \mathbf{u}_A \sim N(\mu_A, \Sigma_A), \ \ \mu_A = (2 \ \ 5 \ \ 0)^\top, \ \ \Sigma_A = \left[ \begin{array}{ccc} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 3 \end{array} \right]$$ とする。順位の確率分布を求めると、たとえば下から順に(231)となる確率は0.802である。これ、いわゆるCase III モデルですよね。
 今度はThurstonian順位付けモデルBについて考えよう。ランダム効用を$$ \mathbf{u}_B \sim N(\mu_B, \Sigma_B), \ \ \mu_B = (\sqrt{.8} \ \ \sqrt{5} \ \ 0)^\top, \ \ \Sigma_B = \left[ \begin{array}{ccc} 1 & .7 & .6 \\ .7 & 1 & 5 \\ .6 & .5 & 1 \end{array} \right]$$ とする。順位の確率分布を求めると、下から順に(231)となる確率は.802。どんな順位についても、その確率はモデルAと同じになる。でもこれ、Case III モデルじゃないですよね。
 このように、ThurstoneのCase IIIという定義には問題があるわけです。
 [正直この論文にはあまり関心が持てなかったし、ここまでに書かれていることは知識としては知っていたんだけど、ここまで読んで思い直し、布団に寝転がってめくるのをやめてきちんとメモを取り始めた。やはりヴィヴィッドな事例というのは目が覚めますね]

3. Thurstonian順位付けモデルの等価クラス
 以下では、Thurstonian順位付けモデルAとBが同一の確率分布を与えるとき、\(A \equiv B\)と書く。\([A] = \{X | X \equiv A\}\)をAの等価クラスと呼ぶ。

 Thurstonian順位付けモデルでは、\(n\)個の刺激の順位が、刺激に対応するランダム効用\(u_1, \ldots, u_n\)の順序によって決まると考える。たとえば、\(\mathbf{s}_l\ = (1, 3, 2, \ldots, n-1, n)\)だとして、$$ Pr(\mathbf{s}_l) = Pr( (u_1 – u_3 > 0) \cap (u_3 – u_2 > 0) \cap \cdots \cap (u_{n-1} – u_n > 0)) $$ である。

 [うーん… ここがどうも納得いかない…
 たとえば刺激数が4だとしますね。完全順位付けを求めたときに回答が「1,3,2,4」となる確率は、一対比較設問「1 vs 3」「3 vs 2」「2 vs 4」への回答が(左, 左, 左)になる同時確率と同じ? そうなの?
 仮に4つの刺激の効用が独立に同分布に従うとしますね。前者の確率は\(1/4!=1/24\), 後者の確率は\(1/2^3 = 1/8\)じゃないですか。どうも納得いかない…]

 ランダム効用のベクトル\(\mathbf{u}\)について$$\mathbf{u} \sim N(\mu, \Sigma)$$としよう。
 ある順位付けを\(\mathbf{s}_l\)と書こう。たとえば(1,3,2,ldots)というのが\(\mathbf{s}_l\)の一例。
 効用の差のベクトルの分布について考えたい。\(\mathbf{s}_l\)において隣接する刺激の対比行列を\(\mathbf{C}_l\)とする。たとえば\(\mathbf{s}_l\)が(1,3,2,ldots)なら、\(\mathbf{C}_l\)は1行目が\( (1 \ \ 0 \ \ -1 \ \ \ldots \ \ 0)\)である。
 隣接ペアの効用の差のベクトルは $$\mathbf{C}_l \mathbf{u} \sim N(\mathbf{C}_l \mu, \mathbf{C}_l \Sigma \mathbf{C}^\top_l) $$となる。

 [ここでしばし固まったが、つまりこういうことであろう。
 たとえば刺激が4個だとしよう。長さ4の効用ベクトル\(\mathbf{u}\)は、長さ6の「総当たりペアの効用差」ベクトルに書き換えることができる。どうやったら書き換えられるかというと、たとえば「1 vs 2」を行ベクトル\((+1 \ \ -1 \ \ 0 \ \ 0)\)で表し、これを縦に積んだ6×4の行列を\(\mathbf{C}^*\)として、\(\mathbf{C}^* \mathbf{u}\)が「総当たりペアの効用差」ベクトルになる。
 ところが著者が述べているのはそうではない。ある順序づけ、たとえば(1,3,2,4)に注目し、\(\mathbf{u}\)を長さ3の「隣接ペアの効用差」ベクトルに書き換える、という話なのである。どうやったら書き換えられるかというと、一行目が\((+1 \ \ 0 \ \ -1 \ \ 0)\)であるような3×4の行列を\(\mathbf{C}_l\)として、\(\mathbf{C}_l \mathbf{u}\)が「隣接ペアの効用差」ベクトルになる。
 なんだか順位付け課題の結果\(\mathbf{s}_l\)から後付け的に定義した計画行列\(\mathbf{C}_l\)を考えているような気がして、すごく気持ち悪いんだけど…先に進んでみよう]

 ここから、順位付け\(\mathbf{s}_l\)が得られる確率がわかる。\(\mathbf{D} = (\mathrm{Diag}(\mathbf{C}_l \Sigma \mathbf{C}^\top_l))^{-\frac{1}{2}}\)とし、\(n-1\)次元の標準正規分布関数を\(\Psi\)として$$ Pr(\mathbf{s}_l) = \Psi (\mathbf{D}\mathbf{C}_l \mu, \mathbf{D} \mathbf{C}_l \Sigma \mathbf{C}^\top_l \mathbf{D}) $$ となる。

 [ぶひーーー! 気持ち悪いいいい!! と、ディスプレイの前でひとり小声で絶叫。自宅でよかった。
 \(\mathbf{s}_l\)は順位付け課題に対する反応でしょう。その確率を与える式の右辺に、その反応においてたまたま隣接した刺激ペアの対比行列\(\mathbf{C}_l\)が入るのは話の先取りじゃないですか!キモイ!キモすぎる!
 いやまあ、確率密度が\(n-1\)次元のMVNで与えられるのはわかるんですけどね。\(\mathbf{s}_l\)は効用差にしか依存しないし、刺激数を4として、総当たりペアの効用差ベクトルは長さ6だけど、6次元じゃなくて3次元の空間でしか動けない。でもさあ… どうにも気持ち悪い… 騙されているような気がする…]

 順位付けでは効用の順序だけが問題になるので、順序を保持する変換は順位付けデータを変えない。だから、\(\mu, \Sigma\)のすべてを識別することはできない。
 Yao(1995)はこう提案している。\((n-1, n-1)\)単位行列の右に\(-1\)からなる列を付けた行列を\(\mathbf{C}\)とし、\(\Delta = \mathbf{C}\mu, \Gamma = \mathbf{C}\Sigma\mathbf{C}^\top\)とする。で、標準化された平均差 \(\frac{\delta_j}{\sqrt{\gamma_{jj}}}\), 差の分散の比\(\frac{\gamma_{jj}}{\gamma_{11}}\), 差の相関\(\frac{\gamma_{jk}}{\sqrt{\gamma_{jj}\gamma_{kk}}} \)をパラメータとすると、これは識別できる。
 この論文の冒頭にあげた例でいうと、\( \mathbf{D} \mathbf{C} \mu \) はモデルA, Bのどちらでも\( (1 \ \ \sqrt{5})^\top\)となり、\(d^{-1}\mathbf{C}\Sigma\mathbf{C}\)はどちらでも\( \left[ \begin{array}{cc} 1 & .75 \\ .75 & 1.25 \end{array} \right]\)となる。

 対比行列を変えれば他のパラメータ化になる。
 一般化していえばこうなる。ランク\(n-1\)の任意の対比行列を\(\mathbf{S}\)とする。\(\mathbf{D} = (\mathrm{Diag}(\mathbf{S}\Sigma \mathbf{S}^\top)^{-\frac{1}{2}}\)とし、\(\mathbf{S}\Sigma \mathbf{S}^\top\)の要素(1,1)を\(d\)として、\(\mathbf{D}\mathbf{S} \mu\)と\(d^{-1}\mathbf{S}\Sigma\mathbf{S}\)が識別できる。

4. Thurstonian順位付けモデルにおける\(\Sigma\)の等価クラス
 Thurstonian順位付けモデルの共分散行列\(\Sigma_A\)と\(\Sigma_X\)があって、識別できるパラメータについて同一であるとき、\(\Sigma_A \equiv_C \Sigma_X\)と書く。すなわち、$$ [ \Sigma_A ]_C = \{\Sigma_X | d^{-1}_X \mathbf{S} \Sigma_X \mathbf{S}^\top = d^{-1}_A \mathbf{S} \Sigma_A \mathbf{S}^\top\}$$

補題. \(\mathbf{A}\)を\(n \times n\)行列とし、任意の\((n-1) \times n\)対比行列\(\mathbf{S}\)について\( \mathbf{S} \mathbf{A} \mathbf{S}^\top = \mathbf{0}\)とする。このとき、なんらかのベクトル\(\mathbf{b}, \mathbf{d}\)について\(\mathbf{A} = \mathbf{d}\mathbf{1}^\top + \mathbf{1}\mathbf{d}^\top\)が成り立つ。
[木で鼻をくくったような証明がついているけど、実際にためしてみよう。\(n=2\)として、\(\mathbf{S} = (1 \ \ -1)\)とする。$$ \left( \begin{array}{cc} 1 & -1 \end{array} \right) \left( \begin{array}{cc} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array} \right) \left( \begin{array}{c} 1 \\ -1 \end{array} \right) = a_{11} – a_{21} – a_{12} + a_{22} $$ が0になる。従って\(a_{11} – a_{12} = a_{21} – a_{22}\)が同じ、つまり、どの行をみても列間の差はおなじなわけだ。いうなれば、各要素は行の主効果みたいのと列の主効果みたいのの和で決まる。だから\(\mathbf{A} = \mathbf{d}\mathbf{1}^\top + \mathbf{1}\mathbf{d}^\top\)と書ける。これが\(n > 2\)でも成り立つってことなんでしょうね]

命題. Thurstonian順位付けモデルの共分散行列\(\Sigma\)について、$$ [\Sigma]_C = \{ a\Sigma + \mathbf{b} \mathbf{1}^\top + \mathbf{1}\mathbf{b}^\top \}$$ が成り立つ。ただし、\(a, \mathbf{b}\)は共分散行列が正則となるように選ぶものとする。

 証明:

  • \(\Sigma_A \in [\Sigma]_C \)とする。定義より、$$ d^{-1}_A \mathbf{S} \Sigma_A \mathbf{S}^\top = d^{-1} \mathbf{S} \Sigma \mathbf{S}^\top$$ だから $$ \mathbf{S} \left( \Sigma_A – \frac{d_A}{d} \Sigma \right) \mathbf{S}^\top = \mathbf{0} $$ 補題ならびに共分散行列の対称性より $$ \Sigma_A – \frac{d_A}{d} \Sigma = \mathbf{b} \mathbf{1}^\top + \mathbf{1} \mathbf{b}^\top $$ \(a = \frac{d_A}{d}\)として、$$ \Sigma_A = a \Sigma + \mathbf{b} \mathbf{1}^\top + \mathbf{1} \mathbf{b}^\top $$
  • \(\Sigma_A = a \Sigma + \mathbf{b} \mathbf{1}^\top + \mathbf{1} \mathbf{b}^\top\)とする。$$ \mathbf{S} \Sigma_A \mathbf{S}^\top = \mathbf{S}(a \Sigma + \mathbf{b} \mathbf{1}^\top + \mathbf{1} \mathbf{b}^\top) \mathbf{S}^\top = a \mathbf{S} \Sigma \mathbf{S}^\top $$ 右辺の\(\mathbf{S} \Sigma \mathbf{S}^\top\)の要素(1,1)を\(d\), 左辺の要素(1,1)を\(f\)とすると、\(f = ad\)なので、$$ f^{-1} \mathbf{S}\Sigma_A \mathbf{S}^\top = (ad)^{-1} a \mathbf{S} \Sigma \mathbf{S}^\top = d^{-1} \mathbf{S} \Sigma \mathbf{S}^\top $$ 従って\(\Sigma_A \in [\Sigma]_C\)である。

 [美しい… あまりに鮮やかなので全部メモしてしまった。数学ができる人ってうらやましいです]

系1. 以下の3つは等価である。

  1. \(\Sigma\)はCase Vモデルである。
  2. \(\Sigma = a \mathbf{I} + \mathbf{b}\mathbf{1}^\top + \mathbf{1}\mathbf{b}^\top\)が成り立つ。ただし\(a, \mathbf{b}\)は\(\Sigma\)が正則となるように選ぶものとする。
  3. \(\Sigma\)におけるすべての刺激ペア\((i,j)\)について、\(Var(u_i – u_j) = \sigma^2_i + \sigma^2_j – 2 \sigma_{ij} = c > 0\)が成り立つ。
    1. [証明と例がついているけどパス]

      系2 以下の3つは等価である。

      1. \(\Sigma\)はCase IIIモデルである。
      2. なんらかの対角行列\(\Sigma_A\)について\(\Sigma = \Sigma_A + \mathbf{b}\mathbf{1}^\top + \mathbf{1}\mathbf{b}^\top\)が成り立つ。ただし\(\mathbf{b}\)は\(\Sigma\)が正則となるように選ぶものとする。
      3. \(\Sigma\)におけるすべての刺激トリプル\((i,j,k)\)について、\(Cov(u_i – u_k, u_j – u_k) = \sigma_{ij} – \sigma_{ik} – \sigma_{jk} + \sigma^2_k = c_k > 0\)が成り立つ。
        1. [証明と例がついているけどパス]

          5. 結論 [略]

          ———-
           3節に全然納得できない箇所があったんだけど、この論文の本題は4節だし、そこは大変勉強になった。