読了:Brown & Maydeu-Olivares (2013) 強制選択課題を用いているおまえらリサーチャーが項目反応理論を勉強しなければならない理由

Brown, A., Maydeu-Olivares, A. (2013) How IRT Can Solve Problems of Ipsative Data in Forced-Choice Questionnaire. Psychological Methods, 18(1), 36-52.

 もういい加減うんざりしてきたんだけど、Thurstonian IRTの論文をもう一本だけ。

 [イントロは大幅に端折って…]
 強制選択課題から得られるipsativeなデータ(個人内の得点合計が一定であるデータ)をそのまま分析するんじゃなくて、Thursonian IRTのようなIRTベースの得点を用いたほうがよいということを示します。

Ipsativeデータの諸問題
 ipsativeデータには以下の特徴がある。

  • 本質的に相対的。
  • 構成概念妥当性が歪む。\(k\)個の等分散な尺度からなるipsativeなテストがあるとき、尺度間の相関の平均は\(\bar{\rho} = -1 / (k-1)\)となり、仮に3つならなんと-0.5である。また、共分散行列がランク落ちするから最尤法の因子分析はできない。主成分分析はできるけど、artifacturalな主成分が出てくる。
  • 基準関連妥当性も歪む。
  • 信頼性の推定値も歪む。そもそも整合的コーディングという仮定が破られている(特性の真の得点が高かったら、positively keyedな項目の得点は高くなる、といえない)。誤差も独立でない。

尺度の数を増やせば問題は多少マシになるものの、解決はしていない。

強制選択質問の項目反応モデリング
 最近の提案を紹介しよう。まずは、項目パラメータを既知として、良い強制選択質問を作るというアプローチ(既存の強制選択データがipsativeであるという問題を解決してくれるわけではない):

  • Stark et al.(2005 App.Psych.Meas.), Stark et al.(2006 J.App.Psych.): 多次元一対比較のIRTモデル(MUPP)。理想点モデルに基づく。
  • McCloy et al.(2005 Org.Res.Meth.): 強制選択質問の作成方法。理想点反応関数において同じ識別力を持つ項目を使うべきだという考え方で、暗黙のうちにIRTモデルを使っている。

 強制選択データへのSEMアプローチ:

Thurstoneの比較判断法則を用いた強制選択決定のモデリング
 というわけで、Thursonian IRTアプローチについてご紹介しよう。詳しくは私たちの上記論文を読んでね。

 Thurstoneのモデルには2つの重要概念がある。効用と効用最大化だ。
 […スキップ…]
 Thurstoneの比較判断法則によれば、項目\(i, k\)の比較判断(二値)を\(y_l\)、効用を\(t_i, t_k\)として,
\( y^*_i = t_i – t_k \)が0以上のときそのときに限り\(y_l = 1\)となる。3個以上の項目の完全順位付けも部分的順位付けもすべて項目ペアへの二値アウトカムとして表現する。

Thrustonian因子モデル
 項目の効用が独立かつ等分散である場合をThurstonはCase Vと呼んだ。そうでない場合、項目の効用の背後に心理特性があるという因子分析モデルを仮定できる。二値アウトカムを持つ二次因子分析モデルに似ている(項目効用が一次因子で心理特性が二次因子)。

強制選択質問へのThurston IRTモデル
 Thurstonnian因子モデルはマーケティング分野で人気がある[←そ、そうですか???]。いっぽうパーソナリティ研究なんかでは、項目効用ではなく心理特性にのみ関心が持たれる。残念ながら順序づけ課題の場合、アウトカムである比較反応に誤差項がないので潜在特性を得点化できない[←えええ、そうなんですか?]。
 そこで私たちはThurstonian IRTモデルというのを提案した。項目効用をすっとばし、Thurstonian因子モデルを一次因子モデルに組み替えるのである。
 各項目はある因子のみに負荷を持つとしよう(independent clusters structure)。項目効用は$$ t_i = \mu_i + \lambda_i \eta_a + \epsilon_i $$となる。項目効用差は$$ y^*_i = -\gamma_l + (\lambda_i \eta_a – \lambda_k \eta_b) + (\epsilon_i – \epsilon_l)$$ と書ける。\(\psi^2_i = var(\epsilon_i)\)として、項目反応関数は$$ P_l(y_l = 1 | \eta_a, \eta_b) = \Phi \left( \frac{-\gamma_l + \lambda_i \eta_a – \lambda_k \eta_b}{\sqrt{\psi^2_i + \psi^2_k}} \right) $$ となる。
 普通のIRTと違うのは、(1)二値アウトカムが項目を共有しているアウトカム間で局所依存性を持つこと、(2)3項目以上の場合、二値アウトカムがブロック内で局所依存性を持つこと、である。

モデルと個人パラメータの推定
 Thurstonian IRTモデルはMplusとかで推定できる。限定情報法がおすすめ。個人パラメータはMAPとかで求めるがよろしい。

測定の精度とテストの信頼性
 IRTでは、測定の精度は個人特性に依存すると考える。私たちは項目情報関数をつかって得点のSEを出す方法をご提案しております。
 さっきの項目特性関数を$$ P_l(y_l = 1 | \eta_a, \eta_b) = \Phi(\alpha_l + \beta_i \eta_a – \beta_k \eta_b)$$と書こう。すると項目情報関数は…[めんどくさいので省略。IRTの人ってなんでこう面倒くさいチマチマした話を延々とやりたがるんでしょうね(やつあたり)]
 \(\eta\)の情報関数は… MAP推定した得点のSEは… [すいません、関心が急速に薄れました。丸ごと読まずにスキップ]

適用例
 古典的な強制選択質問紙であるCustomer Contact Styles Questionnaire (CCSQ) について分析してみよう。4項目を提示し、各項目の5件法評定と強制選択(most likeとleast like)の両方をやっている。32ブロック、全128項目[すげえ質問紙だな。マイルドな拷問といえよう]。実は128項目の裏に16因子が仮定されている[independent clusters structureなんでしょうね]。
 因子について、以下の4種類の得点化を行う。

  • 古典的単一刺激。項目の5件法評定値を合計し、対象者を通じて標準化。
  • 古典的強制選択。most likeを2点, least likeを0点、それ以外を1点として合計し、対象者を通じて標準化。
  • IRT単一刺激。段階反応モデルをあてはめる。[fitted to each scale separatelyって書いてある。scaleってたぶん因子のことだろう。つまり、16本の一次元IRTってことだろうな]
  • IRT強制選択。Thurstonian IRTモデル、16因子を仮定。部分順序づけだからアウトカムに欠損が出まくるので、MIで埋めた。[いやいやいや… それってフェアな比較じゃなくないですか。そんならIRT単一刺激のほうも16次元IRTにしないとおかしくない?]

 結果。

  • 16因子についてのプロファイルを個人内で比べると結構違う。個人別に16因子の得点を合計して分布をみると、古典的強制選択のみ 0 近辺がすごく多くなる[そりゃそうだ]。16次元空間上の4点のマハラノビス距離をみると、単一刺激と強制選択のあいだの距離は古典よりIRTのほうで近い[そりゃそうだろうな。とにかく古典的強制選択は得点化の方法としてまずかろう]
  • ある因子についての対象者を通じた設問形式相関はどちらもちょっと低い(古典的単一刺激と古典的強制選択の相関は中央値0.68、IRT単一刺激とIRT強制選択の相関は0.70)。[うん、これも経験的にわかる。各項目への評定と項目選択というのは意外に整合しないもので、これは得点化の方法で工夫しても覆い隠せない。また、古典的強制選択は個人効用の得点化手法としてちょっとまずいんだけど、効用の異質性が大きければその問題は露見しにくい]
  • いっぽう、ある因子についての対象者を通じた手法間相関は強制選択で低くなる(古典的単一刺激とIRT単一刺激の相関は中央値0.98, 古典的強制選択とIRT強制選択の相関は中央値0.88)。IRT強制選択は12因子を同時に分析しているので、対象者の順序づけという点で大きな違いが生じるわけだ。[ああそうか… 評定尺度のIRTを因子別に一次元でやっている理由がわかった。強制選択のIRTとはフェアな比較ができないけれど、この論旨からいえば別にかまわないのか]
  • 信頼性(各因子のalphaとか)。単一刺激ではどちらも高い。強制選択では古典的で低くIRTで高い。[…中略…]
  • 構成概念妥当性。16因子得点を主成分分析に掛け、4主成分を斜交回転して名前をつけると、古典的強制選択では「対比」とでも呼ぶしかないような変な主成分になっちゃった。
  • 基準関連妥当性。他の変数との相関をみると、古典的強制選択だけ変な風になっちゃった[面倒くさいのでちゃんと読んでない。スイマセン]

考察
 強制選択課題から直接得たipsativeな得点より、IRTで推定した特性得点のほうが、あらゆる点で優れている。直接解釈できるし、個人差にははっきりとした意味がある。推定精度も高い。構成概念妥当性が評定データの場合と一致する。そして、なにより大事な話だが、基準関連妥当性が高い。

 今後の展開: 強制選択質問の最適設計。
—————
 勉強になりましたです。
 著者らがThurstonian 因子分析モデルという言葉とThurstonian IRTモデルという言葉をどう使い分けているのか、やっとわかったよ…。両者は等価なのだが、二次因子分析モデルとして捉えたら前者、項目効用をすっ飛ばした一次因子モデルとして捉えたら後者なのね。私は前者に関心があるのに後者の方向の論文を読んで、違和感を感じたりイライラしたりしていたわけだな。

 この自分の抱えている問題が解決できたわけではないのだけれど、どんな問題を抱えているのかがようやくわかってきた。強制選択課題における個人レベルの項目効用の推定値をどう表現するか、という問題だ。

 この論文のデータ分析例で出てくる、4項目からなるブロックを提示してもっとも好きな項目ともっとも好きでない項目を選んでもらうという手法は、市場調査ではMaxdiff (Best-Worst法)として広く使われている。この論文では16因子のそれぞれについて項目を複数個用意し、ある項目はあるブロックでしか提示せず、項目効用ではなく因子得点に関心を持つのに対して、Maxdiffでは16項目そのものを使い回しながら提示し、項目効用に関心を持つ、というところがちがうけれど。
 Maxdiffで項目の個人効用が推定されたとして、それをどう表現するか。デファクト・スタンダードたるSawtooth Software社の製品の場合、3種類の得点が出力される。(1)”raw score”。効用をロジットスケールで表した値で、個人内の合計は0。(2)選択確率。うろ覚えだけど、raw scoreを\(x\)として \(\exp(x)/(\exp(x)+3)\)だったと思う。その項目がサイズ4の項目ブロックの中から選択される確率(ただし他の項目の生の得点は0とする)、という理屈である。(3)(2)を個人内で合計して100になるように定数倍した得点。
 (1)(3)は文字通りipsativeな得点だし、(2)も「19項目の得点がわかれば残る1項目の得点もわかる」という意味でipsativeである。
 しかし、Sawtoothのソフトは多項ロジットモデルを階層ベイズ推定しているはずである。素直に考えれば、本来の項目効用推定値はipsativeではないはずなのである。せっかくipsativeでない得点が手に入っているのにわざわざipsativeな得点に直して出力しているのではないか、Sawtooth社のいう”raw score”は実はそれほどrawではなくて、ちょっと火が通ってるのではないか、と思う次第である。

 Sawtooth社がそうしている理由は3つ思いつく。

  1. 実は、推定を簡単にするためモデルを縮約したり、モデル内で制約を掛けたりしているから。たとえば、最後の項目の個人効用を0に固定して推定している、とか。
  2. 本来の推定値(本生の得点と呼ぼう)はipsativeでないけれど、その値には意味がなく、個人内合計を0に調整してはじめて意味を持つから。
  3. 本生の得点はipsativeではなく、それはそれで意味があるんだけど、たいていの人は「対象者の回答はどこまでも項目の相対比較にすぎないんだから、推定された項目効用もあくまで相対的な値でしょう? だったら得点はipsativeであるべきじゃないですか」と思うだろうし、それに反論するのがめんどくさいから。

 1はありそうな気がしますね。SawtoothのソフトはMaxdiff課題を、(項目数-1)列の計画行列を持つ多項ロジット選択課題としてコーディングしているのかもしれない。必ずしもそういうハードな識別制約を掛ける必要はないとは思うんだけど、たとえば2要因3×3水準の選択型コンジョイント課題は2+2=4列の計画行列を持つ多項ロジット選択課題と捉えるのがふつうだから、Maxdiffを1要因16水準の選択実験とみれば、計画行列を15列にするのは極めて自然である。というか、俺が推定するんならそうするね。で、16項目の個人効用の和が0になるように変換する。
 仮にそうならば、この論文のように「強制選択の回答を単純に平均した得点はipsativeなのに対し、モデルで推定した個人レベル効用はipsativeではないので良い」とは一概に主張できないわけだ。どっちみちipsativeなんだから。

 2については… ここが一番もやもやしているんだけど、そんなことないんじゃないかしらん。個人効用の本生の推定値は、真の個人効用(それ自体はipsativeでない)を、選択確率のロジットという尺度上で表現した値であるわけですよね。ある対象者について個人内合計を0に調整すると、その人の効用の推定値は少し動き、元の本生の推定値から離れることになる。それは推定誤差を縮小するための調整というより、16個の推定値がある性質を持っていてほしいという外的な要望に応えるための調整である。調整する前の推定値と調整した後の推定値、どっちの誤差が大きいか? 私は誤差が増大すると思うのですが。
 この論文が指摘しているのも、推定対象は異なるけれど(項目効用ではなく二次因子得点の話だけれど)、要はそういうことだと思う。強制選択回答の古典的推定は、ipsativeであるという測定上の性質を持っていて、そのことによるバイアスを被るのだ。

 現実的に考えると、一番もっともらしい事情は3であるような気がします。実際、仮にMaxdiffのソフトがipsativeでない得点を出力したら、ユーザの間にどんな誤解が生まれるか、想像するだにおそろしい。「項目1の効用のほうが項目2より2倍大きいです」とか。

 というわけで、疑問は以下の通り。
 Maxdiffとか一対比較とかの回答をモデル化し、項目の個人効用がipsativeでないかたちで推定できちゃったとき、上記3.のようなコミュニケーション上の事情を無視できるならば、それをそのまま使うべきか? それともわざわざipsativeな得点に直すべきか?
 仮に前者だとしたら、モデリングにあたっては、項目の個人効用がipsativeにはならないような形で推定した方が優れている、ということになるだろうか? たとえば一対比較データの階層ベイズモデルで、どれかひとつの項目の個人効用を0に固定するというようなハードな制約を掛けるのと、事前分布によってソフトな制約を掛けるのでは、後者のほうが優れている、といえるだろうか? それは結局は等価なのだと思ってましたけど?