読了:Brown (2014) 一対比較・順序づけ課題のいろんな因子分析モデル・理想点モデルをひとつの枠組みで整理する

Brown, A.(2014) Item Response Models for Forced-Choice Questionnaires: A Common Framework. Psychometrika, 81(1), 135-60.

 先日より一対比較による個人差推定について延々考えているんだけど、もういい加減に飽きてきた…。
 これは参考になるかと思って読んでみた奴。

 いわく。
 強制選択課題は得点がipsativeになるのがよくないといわれてきた。それに対して強制選択に基づく適切な測定を提案したIRT理論が、少なくとも6個はある(後述)。レビューとしては McFadden(2001 Am.Econ.Rev.), Bockenholt(2006 Psychometrika)をみよ。
 こういうモデルのほとんどは刺激中心的なモデルであり、ヒト中心的な場面では別の設計や項目やモデルが必要になる。
 本論文は強制選択質問紙データのモデルを記述する共通の枠組みを提案する。

1. 強制選択モデルを分類するための3つの軸
 モデルの違いは3つの軸からなる。(1)強制選択の形式, (2)効用と心理的属性との間の関係(測定モデル), (3)効用と観察された選択との関係(決定モデル)。

1.1 強制選択の形式
 ある選択課題をブロックと呼ぶ。
 ブロックは2つ以上の項目を含む。一番簡単なのはペアに対する強制選択で、反応はひとつの二値変数で表せる。3個以上の順序づけは\(\tilde{n} = n(n-1)/2\)個の二値変数で表せる。ブロックからひとつ選ぶとか、最も好きなのと嫌いなのを選ぶとかは部分的な順序づけで、これも\(\tilde{n}\)の二値変数で表せる(ただし欠損が生じる)。
 Qソートのように大きなブロックを何段階かに分類する課題があるけど、そういうタイありの順序づけも欠損ありの二値変数で表せる。
 [おっとお… ここではordinalな一対比較は視野の外なのか…]

1.2 項目-属性関係の測定モデル
 項目が記述している概念の魅力度とか、対象者の行動なり性格なりとの一致度とか、ある意見への同意の程度といった、項目に対して対象者が持つ心理的価値のことを、Thurtstonは効用と呼んだ。ここでもそう呼ぼう。
 効用の個人差は、項目が測定している個人属性の個人差と、他の全てのヒト-項目相互作用を反映する。ヒト中心的な適用場面では前者が関心の対象となる。そこで次のランダム効用モデルが登場する。対象者\(j\)の項目\(i\)の効用は$$ t_{ji} = \bar{t}_{ji}(\mathbf{\theta}_j) + \epsilon_{ji} $$ \(\mathbf{\theta}_k\) は\(d\)個の心理的属性のベクトル、\(\bar{t}_{ji}\)はその関数。偶然誤差は互いに独立、心理的属性とも独立。

 もっとも一般的なのは線形因子分析モデルと理想点モデルである。他にもいっぱいある。Wandering Vectorモデル(De Soete & Carroll, 1983)とか。

  • 線形因子分析モデルは$$ t_{ji} = \mu_i + \sigma_a^d \lambda_{ia} \theta_{ja} + \epsilon_{ji} $$ ある項目はある属性だけと関連するという設計も多い。このとき因子負荷行列\(\Lambda\)は各行に非ゼロをひとつだけ持つ。こういうのをindependent clusters basisということもある。[項目と属性が一対一対応する、という意味じゃなくて、多対一対応するという意味であろう]
  • 理想点モデルはもともとThurstoneに基づくのだが、有名なのはCoombs(1960)である。対象者の理想点を表すベクトル\(\mathbf{\theta}\)と、項目の位置を表すベクトル\(\mathbf{\delta}_i\)との距離を考えて、$$ t_{ji} = \mu_i – D(\mathbf{\theta}_j, \mathbf{\delta}_j) + \epsilon_{ji} $$ 距離としては、Shepard, Coombsらはユークリッド距離を、Takane, Bradyらは二乗ユークリッド距離を想定した。
     線形因子分析モデルとは異なり、ここでは項目に属性の指標としての良し悪しというものがない。そこで、たとえばユークリッド距離なら \( (\sum_a^d w^2_{ia} (\theta_{ja} – \delta_{ia})^2)^{1/2} \)というように属性別の重みをつけるというアイデアもある。[重みが二乗になっているのは正値に制約したいから。どうでもいいけど、この重みってまさかすべて自由推定ってこたあないですよね。どういう制約をかけるのかしらん]

1.3 選択行動の決定モデル
 一般的な決定理論では、比較判断の裏には各項目についての絶対的判断があると考える。そのもっとも歴史ある有名なモデルがThurstoneの比較判断の法則だが、Coombsも、Luceも、TverskyのEBAもみなそうだ。

  • まずはThurstoneの比較判断の法則から。\(j\)さんの\(i,k\)に対する比較判断の二値変数\(y_{j\{i,k\}} \)は\(t_{ji} \geq t_{jk} \)のときそのときのみ1になる、と考える。潜在回答\(y^*_{j\{i,k\}} = t_{ji} – t_{jk}\)が裏にあると考えても良い。
     Thurstoneは効用の誤差項\(\epsilon_{ji}\)が正規分布に従うと想定した。誤差分散を\(\psi^2_i, \psi^2_k\)として、選好確率は$$ P(y_{j\{i,k\}} = 1 | \mathbf{\theta}_j ) = \Phi \left( \frac{ \bar{t}_{ji}(\mathbf{\theta}_j) – \bar{t}_{jk}(\mathbf{\theta}_k)}{ (\psi^2_i + \psi^2_k)^{1/2}} \right) $$  効用最大化という規則は決定論的だが効用判断は確率的プロセスだと考えることで、選好反応をうまく確率的にモデリングしていることになる。[そうそう。この点は院生の時に気がついて「へーっ」と思ったことがあった。あの頃わたしは若かった]
  • Coombsのunfolding preferenceモデル。ヒトは理想点を持っていて、それに近い刺激ほど好む、と考える。項目位置の順序は、項目の位置の順序を理想点でfoldしたものになっている。[恥ずかしながら、unfoldingという意味がいまのいままで良く理解できていなかった。理想点からの距離は空間座標を折りたたんだものになってるからそれを元に戻す、という意味なのか…]
     Coombsは一次元を考えていたんだけど、これを多次元に拡張しよう。理想点ベクトルを\(\mathbf{\theta}_j\), 項目の位置ベクトルを\(\mathbf{\delta}_i\)、距離を\(D\)として、\(D(\mathbf{\theta}_j, \mathbf{\delta}_i) \leq D(\mathbf{\theta}_j, \mathbf{\delta}_k)\)のときそのときに限り\(y_{j\{i,k\}}\)、ということになる。
     このモデルは完全に決定論的である。実データにうまくあてはめるため、距離とか理想点とか項目位置とかに確率的過程を導入するという提案がおこなわれている。
     このモデルは、\(t_{jk} = -D(\mathbf{\theta}_j, \mathbf{\delta}_i)\)とみればThurstonのモデルの特殊ケースである。
  • Luceの選択公理とBradley-Terryモデル。Luceは選択行動に対して一般的な公理からトップダウンにアプローチした。一般的公理とはIIAのことで[…説明…]。この公理のもとで、「反応強度」をあらわす比率尺度の変数\(\pi_{ji}\)が存在し、ブロック\(S\)について$$ P(y_{j \{i, S\}} = 1) = \frac{\pi_{ji}}{\sum_{k \in S} \pi_{jk}} $$となる。ブロックサイズが2のときは、Luceより先に提案されていたBradley-Terryモデルとなる。[へー。BTモデルはLuceより先なのか]
     Bradleyは\(\pi_{ji} = \exp(t_{ji})\)が「真の評定」と考えた。すごく簡単で便利だが、個人差測定という場面ではランダム効用を入れた方がよい。\(\pi_{ji} = \exp(\bar{t}_{ji}(\mathbf{\theta}_j)\)として、\(P(y_{j \{i, S\}} = 1 | \mathbf{\theta}_j)\)は[…ロジスティック関数になる。メモ省略…]。
     より一般的に\(S\)からの\(i\)の選択確率を考えると、MacFaddenいわく、効用判断が独立なら、\(\pi_{ji} = \exp(t_{ji})\)とすれば効用のロジスティック関数になる。ランダム効用モデルでは誤差は個人特性のもとで条件付き独立なのでIIA公理があてはまる。というわけで[… 多項ロジスティック関数の式。メモ省略]
     Thurstonのいう「効用」、Luceのいう「反応強度」、Bradleyのいう「真の評定」はパラレルだが、Thurstonは\(S\)からの\(i\)の選択確率について「\(i\)の効用が最大である確率」としかいっていないのに対し、Luceはもっと強く「\(i\)の反応強度と比例する」と考えている。Thurstonのモデルに、効用がIIDで(これをThurstonはCase Vと呼ぶ)、効用差が(正規分布じゃなくて)ロジスティック分布に従う(つまり効用は二重指数分布に従う)という仮定を付け加えると、Luceにぴったり一致する。
     実際にはふつう項目の効用は心理属性に依存しているのでIIDでない。Luceの公理のもとでは、似た効用を持つ項目の同時選択確率が過大評価されることになる。この問題は心理属性をコントロールしてランダム部分を独立にすれば解決する。
  • Andrich(1985, 1995)のForced Endorsement Model。ブロックサイズ2のとき、ヒトは各項目をendorseするかどうか(二値)を決定しているのだと考える。判断は(0,0), (0,1), (1, 0), (1,1)の4通りあり得るわけだ。で、もし(0,0)ないし(1,1)になったらヒトはもういちど考える、しかし考え直したときも(0,1)と(1,0)の確率は保持される、と仮定する。各項目についての決定が項目間で独立だと考えれば、$$ P(y_{j \{i,k\}} = 1 | \mathbf{\theta}_j) = \frac{ P(y_{ji} = 1|\mathbf{\theta}_j) P(y_{jk} = 0|\mathbf{\theta}_j) }{ P(y_{ji} = 1|\mathbf{\theta}_j) P(y_{jk} = 0|\mathbf{\theta}_j) + P(y_{ji} = 0|\mathbf{\theta}_j) P(y_{jk} = 1|\mathbf{\theta}_j) } $$ となる。個々の絶対的判断に関してはなんらかのIRTモデルを考える。[面白いなあ。なんですかね、これ、背後に実質的な心理学的理論があるモデルなのでしょうか]
     (1,0)と(0,1)の相対確率が変わらないという強い仮定のためには、誤差のロジスティック分布と等分散の仮定が必要になる。個々の絶対的判断を\(\bar{t}_{ji}(\mathbf{\theta}_j)\)のロジスティック関数とすると、[…中略…]、結局Bradley-Terryモデルになる。[そうなの? なあんだ]

2. 強制選択質問のためのモデルのクラス
 上記の3軸でモデルを分類しよう。項目ペアか順序づけブロックか(後者はブロック内で比較の間に依存性が生じる)。線形因子分析(LFA)か理想点(IP)か。リンク関数はプロビット(Thurstonian)かロジット(BT)か。組み合わせると2x2x2=8クラスとなる。
 ここからは、既存のIRTモデルについて紹介する。先に整理しておくと、

  • LFAかつThurstonian … Thurstonian IRTモデル
  • LFAかつBT … (なし)
  • IPかつThustonian … Zinnes-Griggs
  • IPかつBT … SSLMPP, SHCMPP, MUPP

となる。なお、順序づけブロックに対応できるのはThurstonian IRTだけである。測定モデルにおける次元数でいうと、Thurstoninan IRTは一次元でも多次元でもありうる。IPモデルは基本的に一次元だが、MUPPのみ多次元でもありうる。

2.1 Zinnes-Griggs (1974) モデル $$ t_{ji} = – | (\theta_j + \epsilon_j) – (\delta_i – \epsilon_{ji}) | $$ というモデル[一次元の理想点モデルで距離は差の絶対値で、理想点にも項目位置にも個人差があるわけね]。
 誤差の正規性と等質性を仮定する。従ってThurstonian IPに分類される。

2.2 AndrichのSquared Differenceモデル(1984)とHyperbolic Cosineモデル(1989)
 どちらも誤差がロジスティック分布(等分散)に従うと考える理想点モデル。BT IPに分類される。
 Andrichさんは$$ t_{ji} = – (\theta_j – \delta_i)^2 + \epsilon_{ji} $$ と考えた。$$ P(y_{j\{i,k\}} = 1 | \theta_j) = \frac{1}{ 1+\exp(-2(\delta_i – \delta_k)(\theta_j – (\delta_i+\delta_k)/2)} $$ となる。Simple Squared Difference Model for Pairwise Preference (SSLMPP)と呼ぼう。
 次に、距離を差の二乗ではなくて差の絶対値と考える理想点モデルも考えた。これは $$ P(y_{j\{i,k\}} = 1 | \theta_j) = \frac{ cosh(\theta_j – \delta_k)}{cosh(\theta_j – \delta_k) + cosh(\theta_j – \delta_i)} $$ というモデルになる[よくわからんけど信じます]。Simple Huperbolic Cosine Model for Pairwise Preference (SHCMPP)と呼ぼう。
 
2.3 Multi-Unidimensional Pairwise Preference (MUPP)モデル (Stark et al., 2005)
 決定モデルとしてはAndrichの Forced Endorsement Modelを拡張したもので、識別力とか、項目位置の変動とか、endorcementの最大確率の変動とかを組み込んでいる。BT IPに分類される。測定モデルは多次元。
 [この節の冒頭に、a model for forced-choice pairs of dimension pure ideal point items というくだりがある。そのあとでもdimension pure items とかdimension pure ideal point itemsという表現がでてくる。読み進めていくと、どうやらある項目がある属性だけを測っていることをdimension pureと表現しているらしい]

2.4 McCloy-Heggestad-Reeve (2005) のunfolding モデル
 決定モデルとしてはCoombsのunfoldingモデル。決定論的なモデルなのでIRTモデルとはいえないが、潜在特性を擬似的に推定するために用いることができる。あるブロックの項目の位置はブロック内で等しく、ブロック間で異なるようにしておく。そうすることで異なる次元におけるヒトの得点の境界を推定できる。ヒトの得点は上限と下限の中央とする。[よくわからん…]

2.5 Thurstonian IRTモデル (Brown & Maydeu-Olivares, 2001)
 Thurstonian LFAに分類される。

3. 強制選択による個人差測定の基本的特性
3.1 LFAモデルにおける効用
 項目効用の構造の部分は $$ \bar{t}_{ji} – \bar{t}_{jk} = \mu_i – \mu_k + \sum_a^d \left( (\lambda_{ia} – \lambda_{ka} \theta_{ja} \right) $$ となる。
 dimension pure itemであれば, 項目\(i, k\)に対応する属性を\(\theta_a, \theta_b\)として $$ \bar{t}_{ji} – \bar{t}_{jk} = \mu_i – \mu_k + \lambda_{ia} \theta_{ja} – \lambda_{kb} \theta_{jb} $$ となる。2つの属性を床にとり選択確率を高さにとると、\(\theta_a\)が高く\(\theta_b\)が低いときに高くなるような曲面になる。
 もし同じ属性を測っていたら $$ \bar{t}_{ji} – \bar{t}_{jk} = \mu_i – \mu_k + (\lambda_{a} – \lambda_{b}) \theta_{j} $$ となる。属性を横軸、選択確率を縦軸にとるとS字型になる。因子負荷が似るにつれてだんだん平たくなってくる。因子負荷が同じなら、もはや回答の傾向は個人パラメータ\(\theta_j\)と無関係になる。

3.2 IPモデルにおける効用
 項目効用の構造の部分は$$ \bar{t}_{ji} – \bar{t}_{jk} = \mu_i – \mu_k – ( D(\mathbf{\theta}_j, \mathbf{\delta}_i) – D(\mathbf{\theta}_j, \mathbf{\delta}_k) ) $$ となる。
 二乗ユークリッド距離の場合は [… メモ省略…]。もしも項目が同じ属性セットを測っていて(ないし一次元で)、かつ属性の重みが等しければ、LFAモデルと等しくなる。もっとも、ふつうはindependent cluster basisになるように項目をつくる。この場合は効用の差は個人属性の二次関数となり、2つの属性を床にとり選択確率を高さにとると、すごく複雑な曲面になる。
 ユークリッド距離の場合は[…メモ省略…]。もしも一次元で属性の重みが等しければ、効用の差は\(\theta_j\)のピースワイズ線形関数になる(2項目の位置の間でだけ効用差が動く)。
 多次元の場合、ならびに一次元でもZinnes-Griggsモデルの場合は、効用の差はなだらかな関数になる。

4. 強制選択モデルのフィッティング
4.1 効用差の平均・共分散構造
 強制選択モデルは平均・共分散構造分析の観点から定式化できる。このアプローチはThurstonian IRTモデルで採用されている。簡単に説明しよう。詳しくはBrown & Maydeu-Olivares(2012)をみよ。
 個人レベルの量(効用、属性、誤差)をすべてランダム効果とみて、確率変数で表現しよう(つまり、ここからは添字\(j\)を取っ払う)。ブロック数を\(p\)とする。潜在効用差を $$ \mathbf{y}^* = \mathbf{A} \mathbf{t}$$ とする。\(\mathbf{y}^*\)は潜在効用差のベクトルで長さ\(p\tilde{n}\), \(\mathbf{A}\)はサイズ\((p\tilde{n}, pn)\)のブロック対角行列[ただの計画行列ね。まだ個人属性の話はしていない]、\(\mathbf{t}\)は潜在効用のベクトルで長さ\(pn\)。効用差は正規分布だから、モデルの記述のためには平均と共分散だけが必要である。

 LFAモデルの場合、$$ \mathbf{t} = \mathbf{\mu}_t + \mathbf{\Lambda} \mathbf{\theta} + \mathbf{\epsilon} $$ となる。\((\mathbf{\Lambda})\)は因子負荷行列でサイズ\(pn, d\)。共通因子\(\mathbf{\theta}\)の共分散行列を\(\mathbf{\Phi}\), 独自因子\(\mathbf{\epsilon}\)の共分散行列(対角行列)を\( \mathbf{\Psi}^2 \)としよう。すると効用差の平均・共分散構造は[…メモ省略]。
 
 では、二乗ユークリッド距離のIPモデルならどうなるか。[…中略…] 効用差の共分散構造には、\(\mathbf{\theta}\)の共分散行列ではなくて、\(\mathbf{\theta}\)とその二乗のベクトルを縦に積んだベクトルの共分散行列が出現してしまう。

4.2 尺度原点の識別
 ある個人について効用の原点を識別することはできない。幸い、強制選択質問の焦点は項目効用ではなくてその背後の属性にある。
 一次元なら、LFAならば因子負荷が等しくない限り、属性の得点は一意に識別できる。二乗ユークリッド距離(重み均等)のIPモデルでも、項目位置が同じでない限り属性の得点を一意に識別できる。
 多次元の場合、LFAだと$$ \mathbf{At} = \mathbf{A} \mathbf{\mu}_t + \mathbf{A \Lambda \theta} + \mathbf{A \epsilon}$$ となるわけだけど、ここで\(\mathbf{A \Lambda}\)がフルランクなら属性の平均・共分散を識別できる。計画行列はフルランクではないが、\(\mathbf{A \Lambda}\)はふつうフルランクである(例外としては、すべてのブロックのなかで因子負荷が等しい場合、すべての属性のなかで因子負荷が等しい場合、などがある)。IPの場合は[…疲れちゃったので少しスキップ…]という風に複雑になる。属性が重みがある場合の尺度原点の識別についてはよくわかっていない。

4.3 項目パラメータの推定
[細かいメモは省略するけど、テトラコリック相関行列を使ってGLSで求めなさい、完全情報法は計算量的に無理だからあきらめなさい、LFA(つまりThurstonian IRT)については推定方法は確立していてどういう識別制約を掛けたらよいのかもちゃんとわかってます、IPの場合はまだよくわかってないことが多く、Zinnes-Griggsモデルなら周辺最尤法で解けるしAndrichの2つのモデルはMLで解けるけど、MUPPとはMcCloy-Heggestad-Reeveはよく分かってない(項目パラメータを既知として個人パラメータを求める時にしか使われていない)、云々]

4.4 個人パラメータの推定
 項目パラメータと属性の相関を推定してから、ML法なり、\(\mathbf{\Phi}\)を事前正規分布の共分散にしたベイズ法(EAPかMAP)でやる。属性数が1~2なら前者、3以上なら後者がお勧め。
 ブロックサイズが3以上の場合、局所依存性があるんだけど、ベイズ推定なら無視しちゃって良い模様。

5. 結論と考察
 [これが意外に長く、2頁強ある… 疲れてるんだけどなあ…]
 どのモデルを選ぶべきか。
 調査票をいちから作っているとしたら、まずはブロックサイズが問題になる。大きい方が情報は増えるけど認知負荷が高くなる。
 測定モデルとしてLFAとIPのどちらがよいか。(1)ブロック内の項目が同じ属性を同じ弁別力で測っているならIPとLFAは等価である。LFAなら項目の因子負荷をばらつかせること、IPなら項目の位置をばらつかせること。(2)属性の尺度原点を識別する(つまり対象者間の比較を可能にする)方法も似ている。一次元比較なら上記と同じ。多次元比較なら、LFAでは\(\mathbf{A\Lambda}\)をフルランクにすること。IPなら、属性内の項目の位置をばらつかせること。

 残念ながら、強制選択データがもっているこれらの基本的性質はあまり知られていない。Bockenholt(2004)は、効用の尺度原点の識別という問題を、属性の上での絶対的位置を復元できないという懐疑主義へと変換してしまっている。しかし、属性の尺度原点は識別できる。[まさかのBockenholt批判。この人たちって仲間内じゃなかったのか。両者ともMaydeu-Olivaresと共著があるけど]
 Stark, et al.(2005 App.Psych.Measuremnt), Drasgow et al.(2009 Chap.)は、多次元の強制選択設問に少数の一次元ペアを埋め込むというような工夫を紹介しているが、そういう工夫は別になくてもよいのである。

 LFAとIPのどちらがよいかという点は長年の議論の的であったが、皮肉なことに、実は両者はよく似ている。現実問題として、リサーチャーはLFAにするか、IPというよりレアな道を選ぶかを決めなければならない。測定モデルとしてどちらが優れているとはいえない。概念的な適切さとか(態度についての文を比較するなら理想点モデルが適切かも)、項目のつくりやすさとか、モデリング上の考慮とか(項目パラメータを推定したいかとか)、で決めるしかない。
 
 本論文では扱わなかったが、一般的なSEMのフレームワークなら、順序カテゴリカルデータや連続データへの拡張も容易である。
 云々。
——–
 いやー、この論文はほんとに勉強になった。これまでSEMの発想に縛られていたので、急に視野が広がったという思いだ。一対比較課題で個人差測定したい人は、Cattelan(2012)とこれを読むといいと思う。
 もっとも、理想点モデルなんてたいていの人は使わないと思うけどね… 私もたぶん使わないと思う。

 尺度原点の識別の問題について、ずっともやもやしてるんだけど…
 著者がいう尺度原点の識別とは、関心の対象である個人属性の得点\(\theta_j\)の原点に「母平均」という以上のなんらか認識的な意味を持たせたいということではなくて、単に\(\theta_j\)を一意に推定できるかという問題なんじゃないかなあ。そのためには、計画行列と因子負荷行列の積\(\mathbf{A \Lambda}\)がフルランクであればよいわけだ。
 関心の対象が項目効用であるような場合(つまり\(\Lambda\)が単位行列で独自因子がない場合)についていえば、計画行列\(A\)がフルランクならば、\(\theta_j\)を一意に推定できる。識別のため、最後の項目の効用を0に固定してフルランクにしたとき、\(\theta_j\)は一意に推定できる。そのとき、\(\theta_j\)が項目効用ではなく「各項目と最後の項目との効用の差」を表してしまっているせいで、それ自体がやたらに解釈しにくくなってしまうけれども、それはまた別の話であって、とにかく一意に推定できているのである。
 いっぽうBockenholt(2004)さんがいっている尺度原点の識別とは、そういう話じゃなくて、関心の対象が項目効用そのものであろうがその裏の因子得点であろうが、とにかくゼロに認識的な意味を与えたいという話だと思う。

 これは先日からずっと感じている感想なんだけど、ひとつの心理属性、ないし少数の心理属性と単純構造の因子負荷行列を確認的に仮定しつつ、一対比較や順位付けで心理属性の得点を推定するという、その適用場面がいまいち想像しづらい。直観的に、そんなんではうまく推定できないだろうなと思ってしまうのである。属性の数が多いとか、負荷行列が未知なので探索的因子分析したいとかだったら、まだわかるんですけど…
 たぶん、適切な応用場面をイメージできてないんだろうな。なんか実証論文を読んでおいた方がいいのかもしれない。読まないけど。