読了: Burkner, Schulte, Holling (2019) 順位付けや一対比較課題の回答にThurstonian IRTモデルをあてはめて対象者の潜在特性を推定するのはどのくらい現実的なのか

Burkner, P.C., Shulte, N., Holling, H. (2019) On the Statistical and Practical Limitations of Thurstonian IRT Models. Educational and Psychological Measurement, 79(5), 827-854.
 Brown & Maydeu-Olivares (2011 Edu.Psych.Measurement)の後続研究らしい。ほんとは研究そのものにはあんまし関心なくて、RのthurstonianIRTパッケージについて知りたくてめくっただけなんだけど…
 あとで気がついたが、第一著者はRのbrmsパッケージ(Stanで回帰分析するパッケージ)の中の人だ。写真を拝見したところ若いお兄さんである。へええ。

 いわく。
 評定尺度は社会的望ましさとか反応スタイルとかの影響を受けやすい。かわりに強制選択(FC)をつかうことがあるけど、伝統的なスコアリングだと個人パラメータがipsativeになってしまう(ある変数のスコアが他の変数のスコアに依存する)。そこで用いられるのがThurstonian IRTである。
 [すでにこの段階で混乱した。Thurstonian IRTで得られるスコアってなんだろう。たとえば\(k\)個の項目の一対比較なら、\(k\)個の項目の個人効用がそれではないだろうか。仮にそうならば、ある対象者の\(k\)個の個人効用推定値には相対的な大きさにしか意味がないわけで、たとえば個人内平均0というような制約をかけて推定したり、そうでなくても個人内平均を0にスケーリングして表現すると思う。それってipsativeなスコアですよね?]
 しかし、T-IRTの個人パラメータ推定の良さはいくつかのテスト特性に依存する。たとえば、項目がすべて同じ方向にkeyされているか[???]、特性の数、項目の数、などである。本論文はこうした実務的な限界について検討する。

Thurstonian IRTモデル
 まずはT-IRTモデルについて簡単に紹介しよう。
 FCでは、2個以上の項目がブロックとして提示され、被験者は項目を順位付けしろと言われたり、もっとも好きな項目ともっとも嫌いな項目を選べと言われたり、ひとつ選べといわれたりする。以下では順位付けについて考える。他の形式もすべて部分的な順位付けとして捉えられる。

 ブロック内の項目数を\(n\)として、順位付けを\(\tilde{n} = n(n-1)/2\)ペアの一対比較と考える。
 項目\(i\)と\(k\)の比較で\(i\)が選ばれたかどうかを二値変数\(y_{ik}\)で表す。項目\(i\)の効用を\(t_i\)とし、\(y^*_{ik} = t_i – t_k\)とし、\(y^*_{ik} \geq 0\)のときそのときに限り \(y_{ik}=1\)だとする。
 \(y_i\)は潜在特性ベクトル\(\eta\)の線形関数と考える。以下では、ある項目はひとつの潜在特性にのみ負荷を持つと考える。すなわち$$ t_i = \mu_i + \lambda_i \eta_a + \epsilon_i$$ となる。潜在特性は平均0, 分散1, 相関行列\(\Phi\)のMVNに従うとする。\(\epsilon_i\)は分散\(\psi^2_i\)の正規分布にiidに従うとする。
 以上をまとめると$$ y^*_{ik} = (\mu_i + \lambda_i \eta_a + \epsilon_i) – (\mu_k + \lambda_k \eta_b + \epsilon_k) $$ となるけれど、\(\mu_i – \mu_k\)のかわりに\(-\gamma_{ik}\)を自由推定することにして、項目特性関数を以下とする。標準正規分布関数を\(\Phi(\cdot)\)として$$ P(y_{ik} = 1 | \eta_a, \eta_b) = \Phi \left( \frac{-\gamma_{ik} + \lambda_i \eta_a – \lambda_k \eta_b}{\sqrt{\phi^2_i + \phi^2_k}} \right) $$ SEMであればこの定式化で良い。しかし点ごとの尤度を考える場合、同じブロックに属する\(i,j,k\)について\(y_{ik}\)と\(y_{ij}\)は独立でないわけで、これを考慮するために$$ P(y_{ik} = 1 | \eta_a, \eta_b) = \Phi \left( \frac{-\gamma_{ik} + \lambda_i \eta_a – \lambda_k \eta_b + \nu_i – \nu_k}{\sqrt{\phi^2_i + \phi^2_k}} \right) $$ で\(\nu_i \sim N(0, \phi_i)\)と考える。[めんどくせえなあ、もう…]

妥当性についての先行研究 [メモ省略]

equally keyed items vs. unequally keyed items
 [このあたりで、だんだん自分が問題設定を理解していなかったことに気がつきはじめ、詳細にメモをとるようになった]
 FC項目はリッカート尺度につきもののさまざまな反応バイアスの影響を受けないと考えられている。多くの重要な(high-stakes)測定場面で問題になる反応バイアスに社会的望ましさバイアスがあるが、FC項目では、回答者にいくつかの同じくらい魅力的な選択肢のなかから一つを選ばせるので、社会的望ましさの影響を受けにくいと考えられている。
 つまり、FCにおいては、ブロック内の項目間で望ましさが均等である必要がある。典型的には、プリテストで得た魅力度評定をつかってブロックを作る。しかし、項目の望ましさは文脈に依存する。従って、プリテストは本番と同じ状況で、本番と同じ母集団から得た回答者に対しておこなわないといけない。すべての職業の採用試験に単一のFCテストを使うことはできない。さらに、同じブロックの他の項目のせいで望ましさが変わってしまい、T-IRTモデルの項目パラメータが変わってしまうこともある。だから厳密には、そのブロックを提示して各項目の望ましさを測らなければならない。というわけで、テスト構築のために同一母集団に対して複数回のデータ収集が必要になる。
 [だんだんわかってきた… これ、通常のThurstonモデルとかBradley-Terryモデルとかとは違って、比較判断の対象となる項目の効用自体には関心がなくて、ただ選択課題を通じて対象者の潜在特性を推定したいという場面の話なのだ。その潜在特性というのはふつう少数で、それぞれ複数の項目を持っているのである。だから、プリテストをやっといて、だいたい同じくらいの効用を持つ項目を組み合わせて選択肢セットをつくる、というのが前提なのだ。そういう文脈の話なのか… ]

 従来のシミュレーション研究では、潜在特性の復元という観点から見て、調査票のなかにequally keyd blocks(positively keyed itemsのみ、ないしnegatively keyed itemsのみのブロック)とunequally keyed blocksの両方が含まれていた方がよいことが示されている。しかし、unequally keyed blocksの使用には以下の問題点がある:

  • negatively keyed itemを使うと認知的負荷が増える。
  • methodological varianceが増大する可能性がある。negtatively keyed itemだけが独立なmethod factorを持つかもしれない。[FCに限らず、たとえば評定項目のセットのなかに反転項目を含めたとして、反転項目の回答を反転してコーディングしようがしまいが、因子分析では反転項目だけが負荷を持つ因子が得られちゃうかもしれない、という話であろう]
  • 社会的望ましさバイアスを受けないようにするという、FCのそもそもの目的に反する。
  • シミュレーションとちがって現実場面では社会的望ましさの影響をうけるわけで、みんな同じ項目を選んじゃうかもしれない。そのときそのブロックはパラメータ推定に寄与しない。

 というわけで実務的には、equally keyed itemのみを使って潜在特性を復元できるかどうかが鍵になる。

 [そのほか、先行するシミュレーション研究(どうやら自分たちのらしいけど)の限界と本研究のselling point。細かい話なので読み飛ばした]

Rでの実装
 私らすでにthrustonianIRTパッケージってのを開発してましてですね、これ、モデル推定のエンジンとしてlavaan, Mplus, Stanを選べるんです。[…中略。Mplusを呼ぶときはベイズ推定ではないらしい。えええ、Mplusでベイズって手もありませんかね、Stanより速いっすよ…]

シミュレーション
 潜在特性が復元できるかどうかのシミュレーションをやります。指標として、対象者の潜在特性(標準化済み)を\(\theta_i\)として$$ RMSE(\hat{\theta}, \theta) = \sqrt{ \frac{1}{n} \sum_i^n (\hat{\theta}_i – \theta_i)^2} $$ を使います。
 シミュレーションのデザインは以下の通り。

  • \(n=2000\)。
  • 1ブロックは3項目。各ブロックの項目は異なる潜在特性の指標になっている。
  • 潜在特性の数\(n_T\)は{3,4,5}。
  • ある潜在特性についての項目が含まれるブロック数\(n_{BT}\)は{9, 15, 21, 27}。
  • 潜在特性間の真の相関行列\(\Phi\)は{すべて0, すべて0.3, すべて-0.3, 現実的事例1, 2}。[すべての非対角要素が-0.3である相関行列なんてつくれるの? と面食らった。脚注には、\(n_T = 5\)では作れなかったと書いてある。3変数なら作れるってことかな。あとでよく考えてみよう]
  • 負荷\(\lambda\)は{unif(0.3, 0.7)からドロー, unif(0.65, 0.95)からドロー, unif(0.65, 0.95)からドローして半分を負にする}。誤差分散は\(\psi = 1 – \lambda^2\)となる。
  • 切片\(\gamma\)はunif(-1, 1)からドロー。

以上の全条件の組み合わせ、計180条件について検討する。(1)Mplusだけつかって、各条件当たり100試行。(2)Mplus, lavaan, Stanをつかって各条件当たり各1試行。これなら現実的な時間で終わる[約半年かかるそうだ。はっはっは]。(3)潜在変数を30個に増やして一部の条件のみについて試行。

Mplusのみによるシミュレーション
 equally keyed itemsだと、潜在特性のRMSEも相関行列のバイアスもひどい。
 [ややこしいので、自分にもわかりやすいように整理しておこう。たとえば\(n_T=3, n_{BT} = 9\)というのはこういう場面であろう。いま3つの潜在特性があることがわかっていて、各潜在特性を表すポジティブな項目が9個ずつある。そこで、各潜在特性について1項目づつを取り出して1ブロックとし、9ブロックをつくる。で、対象者にブロックを提示し、項目が自分にあてはまる順に順序をつけてくださいと求める(設問数は9となる)。で、各対象者について3つの潜在特性を推定する。シミュレーションによれば、すべての項目の因子負荷が0.3~0.7, 因子間相関が0のとき、潜在特性(標準化済み)のRMSEはなんと0.73、因子間相関のバイアスは-0.44とのこと。ええええ? そんなにひどいの??]

モデル実装の間の比較
 Mplus, lavaan, Stanのどれがよいとはいえない(つまりフルベイズでやっても問題は解決しないわけだ)。equally keyed itemsの場合に復元成績がひどいという点は変わらない。
 真の潜在特性スコアを横軸、その推定値を縦軸にとった曲線を描くと、右端で45度線から下にずれ、左端では上にずれるわけだけど、equally keyed itemではずれが始まるのが早くなり、ずれが大きくなる。またlavaanでずれがやや大きい。
 […以下、疲れちゃったので読まずにスキップ]

潜在特性が30個の場合
 \(n_{BT}\)は9とします。つまりブロック数は90。[つまりあれね、各対象者に、3項目の順序づけ設問を90問やらせるわけね。これ一種の拷問だよね。国際条約で禁止したほうがいいと思うよ]
 僕らのPCはメモリ32G積んでんですけど、Mplusとlavaanではメモリ不足になっちゃったのでStanのみでやりました。[うん、30因子のCFAは無理だろう。むしろStanが回ったというほうがびっくりだよ…]
 今度は、equally keyed itemsでもRMSEはそれほど悪くならない。[←ええええ? よくわからん。なにが起きているんだ…]

考察
 equally keyed itemsの場合、潜在特性の数が少ないとき、スコアの推定は不正確になるので、T-IRTモデルの適用はお勧めできない。潜在特性の数が多いときは大丈夫。
実装面では、lavaanはちょっと精度が悪い。そもそもMplusとlavaanは収束しないことも多い。Stanを使うのがよろしいのではないでしょうか。
 潜在特性がいっぱいあるときは、FCは良い方法である。[まじか… 回答負荷からみて現実的でないと思うけど…]

限界
 3項目のブロックしか調べなかった。対象者数が現実よりちょっと多めだった。交差負荷を考えなかった。潜在特性の数が中程度のときにどうなるのかはよくわからない。

テスト構築に対する実務的含意
 潜在特性の推定という観点からはunequally keyed itemsを含めるべき。もっとも社会的望ましさバイアスは除去できなくなるし、テストが重要な場合ほど受験者は望ましい項目を選ぶにきまっているわけで、本論文のシミュレーションを信じてはならない。また、潜在特性あたりのブロック数が多いのは基本的に良いことなのだが、unequally keyed itemsの場合Mplusやlavaanは収束しなくなりやすい。[Stanなら収束するといえるのかしらん…]
 equally keyed itemsで潜在特性が少数の場合、推定の信頼性もRMSEも潜在特性間の相関の推定も、それはそれはひどいと覚悟すべし。
 […中略…]
 まとめると、受験者が答えを偽る強い動機を持っているようなhigh-stakesなテスト場面で、T-IRTモデルを使う際には十分な注意が必要である。たくさんの潜在特性の比較をおこなう必要がある。ふつう潜在特性というのはせいぜい5個程度だろうから、T-IRTモデルはお勧めできない。T-IRTならnon-ipsativeなスコアが得られる、と単純に考えるのはよろしくない。
———-
 もちろん私の理解不足のせいだろうけど、ちょっとわかりにくい論文であった。大事な論点が後出しされるような印象があって。
 シミュレーションの成績が意外に悪いのでびっくり。なにか読み違えているのであろうか…。もっとも、真の潜在特性スコアよりも推定値が0へと縮退するというバイアスらしいので、「個々の対象者においてどの潜在特性が高いか」という観点からはそれほどひどい成績ではないのかもしれない。考えてみれば、項目の順位付けや一対比較課題をやる場面で、分析者はふつう、よおし個々人の潜在特性の高さを推定しちゃうぞ、とは思わないですわね。個人内での潜在特性の相対的な高さがわかれば御の字だと思うからこそ、評定ではなくて比較課題をやるわけで。

 理解不足を晒すようですが…
 潜在特性の復元という観点から見て、equally keyed itemsは不利になるそうだが、その理屈がよくわからない。コンジョイント課題で、ある試行における選択肢の全体効用が似ていることをutility balanceとよび、効用が似ている方が(少なくともシミュレーション上は)部分効用の推定精度が高くなると考えるけれど、3つの項目の順序づけ課題の場合も、どう順序づけすればいいか迷うようなブロックを用意した方が、(少なくともシミュレーション上は)潜在特性の推定精度が高くなるはずではないかしらん? うーん、これはきっと俺の理解不足だな。先に先行研究を読んでおいた方がよかったかも。
 潜在特性あたりの試行数が一定なら、潜在特性がたくさんある方がRMSEが低くなる、というのも、なんだか腑に落ちない。まあ確かにRMSEはそうなるだろうと思う。たとえば製品への選好を一対比較で調べるとして、選好が一次元的ならば、比較する製品がいっぱいあるほうが、個々の製品への選好レベルはより正確にわかりますわね、課題の大変さを別にすれば。でも、調査票で順位付けや一対比較をやって潜在特性を推定するとき、そこで推定したいことって、個々人の潜在特性の絶対的なレベルなの? そうではなくて、個人内での潜在特性の相対的な大きさなんじゃない? よくわかんないけど、たとえば成績の指標として真の潜在特性とその推定値の個人内順序相関の平均値を採用したら、潜在特性の数が少ない方が成績が良くなったりしないかなあ?