elsur.jpn.org >

« 読了:Thissen, & Steinberg (1986) いろんな項目反応モデルを分類する体系についてのご提案 | メイン | 回顧リンク集:回答スタイルについて »

2018年1月 8日 (月)

Jin, K.Y., Wang, W.C. (2014) Generalized IRT Models for Extreme Response Style. Educational and Psychological Measurement. 74(1), 116-138.

 原稿の都合で読んだ奴。
 回答スタイルをIRTでモデル化する研究としてはde Jong, et al.(2008)というのを読んだことがあるけど、それとどう違うのかを知りたくて読んだ。著者らは香港教育大の人。

 この論文では回答スタイルのうち極端反応スタイル(ERS; x件法尺度の両端を選んじゃう傾向)に注目する。
 ERSについての先行研究:

潜在特性とERSの両方を調べたいとき、その直感的な方略としては、潜在特性を測る項目への反応を別のやり方で得点化するという手がある。たとえばJohnson, et al(2005)は両端の選択肢を選んだ個数をERSの指標にしている。でもそんなやり方では項目特性と個人指標が交絡しちゃう。内容面で多種多様な項目をあっちこっちから集めてきて回答スタイルを測るという手もある。Greenleaf(1992), Weijters, et al.(2010), Weijters, et al.(2008 J.Acad.MktgSci)がそう。でも今度は潜在特性をきちんと測れなくなる。
 次の5点に注意する必要がある。(1)ERSの同定には沢山の項目が必要。Greenleaf(1992)だと16項目。(2)ERSの同定の際には選択肢の数が多い方がいい。3件法より7件法のほうが楽。(3)なにをもって極端反応とするか、明確な定義はない。(4)どう定義するかで結果が変わってくる。(5)潜在特性からERSをキレイに除去しないと比較ができなくなる。
 というわけで、本研究ではIRTによって潜在特性とERSを分離する。

 リッカート尺度を扱うIRTモデルはたくさんある。いくつかご紹介しよう。以下、対象者を$n$, 項目を$i$, 選択肢を$j$とする。
 まずはpartial credit model (PCM):
 $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{ij})$
ここで$P_{nij}$は選択確率、$\theta_n$は潜在特性、$\delta_i$は困難度、$\tau_{ij}$は閾値である。この閾値を$\tau_{j}$としたのがrating scale model(RSM)。他にSamejima(1969)のgraded response modelなどがある。
 いずれにせよ、項目パラメータを別にすれば、反応を決めるのは$\theta_n$だけである。

 さて、ここにERSを組み込むにはどうしたらよいか。これまでのアプローチを概観しよう。

 以上から得られる結論:(1)閾値をランダム効果とすることで回答スタイルを説明できる。(2)個人のERSを直接に定量化できることが望ましい。
 
 お待たせしました、いよいよ提案手法です。
 上記のランダム閾値モデルを次のように拡張する。
 ERS-RSM: $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{j})$
 ERS-PCM: $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{ij})$
でもって、
 $\log(\omega_n) \sim N(0, \sigma^2_\omega)$
とする。$\omega$は閾値の幅を表していて、小さいことはERSの高さを表す。
 このモデルはさらに拡張できる。右辺全体に識別力$\alpha_i$を掛けるとか。$\theta_n$を含め全体を多次元化するとか。$log(\omega_n)$を説明する回帰モデルを入れるとか。
 推定は、SASのNLMIXEDによる周辺最尤推定で可能。また、WinBUGSでベイズ推定という手もある。本研究では後者を採用する。$\theta$は$N(0,1)$とする。$\sigma^2_\omega$は自由推定し、$1/\sigma^2_\omega$の事前分布を$Gamma(1, 0.1)$とする。

 シミュレーション。ERSがある場合とない場合について、ERSを入れたモデルと入れてないモデルを比較する。すいません、読んでないっす。
 実データへの適用事例が2件。すいません、読んでないっす。

 考察。
 提案モデルは真のERSをうまく復元できるし、ほんとはERSがないときにもおかしくならない。
 今後の課題:他の回答スタイルへの拡張。すでにリッカート項目への系列的判断をIRTでモデル化した研究がある。Brockenholt(2012 Psych.Methods), Thissen-Roe & Thissen (2013 J.Edu.Behav.Stat.)がある。[←これ、面白そう!!!]

 ... 先行研究レビューがすごくしっかりしていて、とても勉強になった。疲れたけど、ありがたいことであります。一流のプロによる論文を読んだなあ、という感じ。
 残念ながら、Allenby兄貴たちのモデルは引用されていないんだけど、IRTの枠組みに入らないからだろうか(でもJohnson(2003)は引用されているよなあ...)。ま、自分で勉強せえってことでしょうね。

 いっぽう、提案モデルについては、ほんっとに申し訳ないんだけど、価値がいまいち理解できなかった。
 rating scale modelでいうと、もともと
 $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{j})$
というモデルがあって、ここに
 $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{nj})$
 $\tau_{nij} \sim N(\tau_j, \sigma^2_j)$
という風に閾値に異質性を入れるというアイデア(著者らの先行研究)と、
 $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{j})$
 $\log(\omega_n) \sim N(0, \sigma^2_\omega)$
という風に入れるというアイデア(提案手法)があるわけだ。後者のほうが制約がきつい。たったそれだけのことじゃないの? どっちがよいかはデータで決まる問題であって、毎回AICとかで判断すればよくない?
 おそらく、ERSを直接に定量化したいという強い動機づけがあるんだと思う($\omega_n$がその答えになっている)。でも、そういう動機づけが生まれる文脈がいまいちわからないのである。回答スタイルにはERS以外にもいろんなパターンがあるわけだから、閾値はできるだけ柔軟にモデル化しといた方がよかないか。その結果、モデルの中にERSに直接に対応する変数がないとしても、別にかまわないんじゃなかろうか。もしどうしてもERSを指標化したいんなら、推定されたパラメータをあとで要約すればいいじゃん。各対象者において$\tau_{nj}$のSDを求めるとかさ?

 うーん。たぶん私の発想が甘いというか、文脈を理解できていないんだろうな。
 おそらく、著者らにとってERSとは、リッカート尺度に対する回答行動をある視点で見たときに(たまたま両端の選択率に注目したときに)立ち現れる個人差のことではなくて、回答行動の背後に仮定されているひとつの潜在特性なのであろう。だから、たとえば「一般知能というものがある」と信じている人が問答無用で1因子の因子分析をするように、「ERSというものがある」という信念がある以上、モデルのなかにERSを表す潜在特性を入れるべし、ということなのだろう。反応の生成メカニズムそのものに関心を持つ心理学的視点と、生成メカニズムは所与としていかに潜在特性と項目特性を分離するかに関心を持つテスト理論的視点のちがい、という感じかしらん...?

論文:調査方法論 - 読了:Jing & Wang (2014) x件法評定の両端を選んじゃう傾向を、ランダム閾値をいれたラッシュモデルで定量化する

rebuilt: 2020年11月16日 22:54
validate this page