« 読了:Thissen, & Steinberg (1986) いろんな項目反応モデルを分類する体系についてのご提案 | メイン | 回顧リンク集:回答スタイルについて »
2018年1月 8日 (月)
Jin, K.Y., Wang, W.C. (2014) Generalized IRT Models for Extreme Response Style. Educational and Psychological Measurement. 74(1), 116-138.
原稿の都合で読んだ奴。
回答スタイルをIRTでモデル化する研究としてはde Jong, et al.(2008)というのを読んだことがあるけど、それとどう違うのかを知りたくて読んだ。著者らは香港教育大の人。
この論文では回答スタイルのうち極端反応スタイル(ERS; x件法尺度の両端を選んじゃう傾向)に注目する。
ERSについての先行研究:
- Greenleaf (1992 POQ)
- Van Vaerenbergh & Thomas (2013 Int.J.PublicOpnionRes.) [←やばい、これノーチェックだったかも]
- Hamilton(1968 Psych.Bull.): ERSは性格特性と関係がある
- Johnson, et al.(2005 J.Cross-Cul.Psych.): ERSは発話において明確・正確であろうとするモチベーションと相関する
- Naemi, Beal, Payne(2009 J.Personality): 調査回答が速い人、思考が単純な人はERSが高い
- Kieruj & Moors (2010 Int.J.PublicOpinitonRes.): ERSは選択肢の数に影響されない
- Weijter, et al.(2010 Psych.Methods): ERSは時間的に安定している
- Arce-Ferrer(2006 Edu.Psych.Measurement): 個人特性・社会特性の関連性についての研究
- Baumgartner & Steenkamp (2001 JMR): 同上 [←あれ?たしか俺これ読んでるんだけど、記録が残ってない]
- Chen, Lee, & Stevenson (1995 Psych.Sci.): 同上
- van Herk, Poortinga, & Verhallen (2004 J.Cross-Cul.Psych.): 同上
潜在特性とERSの両方を調べたいとき、その直感的な方略としては、潜在特性を測る項目への反応を別のやり方で得点化するという手がある。たとえばJohnson, et al(2005)は両端の選択肢を選んだ個数をERSの指標にしている。でもそんなやり方では項目特性と個人指標が交絡しちゃう。内容面で多種多様な項目をあっちこっちから集めてきて回答スタイルを測るという手もある。Greenleaf(1992), Weijters, et al.(2010), Weijters, et al.(2008 J.Acad.MktgSci)がそう。でも今度は潜在特性をきちんと測れなくなる。
次の5点に注意する必要がある。(1)ERSの同定には沢山の項目が必要。Greenleaf(1992)だと16項目。(2)ERSの同定の際には選択肢の数が多い方がいい。3件法より7件法のほうが楽。(3)なにをもって極端反応とするか、明確な定義はない。(4)どう定義するかで結果が変わってくる。(5)潜在特性からERSをキレイに除去しないと比較ができなくなる。
というわけで、本研究ではIRTによって潜在特性とERSを分離する。
リッカート尺度を扱うIRTモデルはたくさんある。いくつかご紹介しよう。以下、対象者を$n$, 項目を$i$, 選択肢を$j$とする。
まずはpartial credit model (PCM):
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{ij})$
ここで$P_{nij}$は選択確率、$\theta_n$は潜在特性、$\delta_i$は困難度、$\tau_{ij}$は閾値である。この閾値を$\tau_{j}$としたのがrating scale model(RSM)。他にSamejima(1969)のgraded response modelなどがある。
いずれにせよ、項目パラメータを別にすれば、反応を決めるのは$\theta_n$だけである。
さて、ここにERSを組み込むにはどうしたらよいか。これまでのアプローチを概観しよう。
- 潜在クラスを入れる。Moors(2008 Quality&Quantity), van Rosmalen, et al.(2010 JMR)がこの路線。潜在クラスの番号を$g$として、PCMを
$\log(P_{ngij}/P_{ngi(j-1)}) = \theta_ng - (\delta_gi + \tau_{gij})$
と拡張する。するとたいてい、「閾値のあいだの幅が狭いクラス」というのが出てくる。これがERSが高い人々だということになる。Rost, Carstensen, & von Davier (1997 論文集), von Davier, Eid, & Zickar(2007 論文集)がそう。こういう路線では必ずしも真の潜在クラスを復元できないので注意。Alexeev, Templin, & Cohen (2011 J.Edu.Measurement)をみよ。[←どの論文も題名に"mixture Rash model"と書いている。なるほど、ラッシュモデルの文脈の研究なのか... 急に勉強する気が失せてきた。あの分野はほんとに難しい] - 多次元名義反応モデル。Bolt & Johnson (2009 App.Psych.Measurement), Bolt & Newton(2011 Edu.Psych.Measurement), Johnson & Bolt(2010 J.Edu.Behav.Stat.)がこの路線。参照カテゴリを$R$として、
$\log(P_{nij}/P_{niR}) = \alpha'_{ij} \theta_n + \beta_{ij} \gamma_n + \tau_{ij}$
$\gamma_n$がERS特性で、$\tau_{ij}$が位置パラメータ。欠点は、選択肢の順序性を無視していること、$\theta_n$と$\gamma_n$が補償的関係にあるというのを理論的に正当化しにくいこと。 - 順序プロビットモデルの閾値に異質性をいれる。Johnson(2003 Psychometrika)が提案している。閾値間の幅が多変量対数正規分布に従うと仮定する。ERSの個人差を上手く捉えてはいるけど、ERSを示す傾向そのものを定量化しているとはいえない。[←話の流れ上ディスりたいんだろうけど、いまいち主旨がつかめない...]
- 上と似ているけど、展開型(unfolding)IRTモデルを使うという提案がある。Javaras & Ripley(2007 JASA)。このモデルでは、閾値の個人差が許容される。共通閾値についてのスカラーパラメータと翻訳パラメータから、集団レベルの閾値と個人レベルの閾値を導出する。黙従傾向とERSの両方を定量化できるが、項目反応関数が累積的な場合には固有の理想点unfoldingアプローチは利用できない。実際、多くのリッカート項目は累積的IRTで分析されているので、ERSの累積的IRTモデルを構築することが重要である。[←途中から諦めて写経のようにメモしたけど、正直なんだかさっぱりわからない。そもそも展開型IRTモデルというのがよくわからないし。マーケティングでいうPREFMAPみたいなもんだろうか]
- 項目反応を極端反応とそうでない反応にわけ、普通のIRTモデルをあてはめる。de Jong, et al.(2008)がこの路線。ERS研究としてはいいけど、潜在特性のほうの指標が手に入らない。
- ランダム閾値モデル。我々(Wang et al.,2006 J.Edu.Measurement, Wang & Wu, 2011 J.Edu.Measurement)のアプローチである。PCMなりRSMなり閾値パラメータをランダム効果とみる。RCMなら
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{nj})$
$\tau_{nj} \sim N(\tau_j, \sigma^2_j)$
PCMなら
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{nij})$
$\tau_{nij} \sim N(\tau_j, \sigma^2_j)$
とはいえ、これもERSを直接に定量化しているとはいえない。
以上から得られる結論:(1)閾値をランダム効果とすることで回答スタイルを説明できる。(2)個人のERSを直接に定量化できることが望ましい。
お待たせしました、いよいよ提案手法です。
上記のランダム閾値モデルを次のように拡張する。
ERS-RSM: $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{j})$
ERS-PCM: $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{ij})$
でもって、
$\log(\omega_n) \sim N(0, \sigma^2_\omega)$
とする。$\omega$は閾値の幅を表していて、小さいことはERSの高さを表す。
このモデルはさらに拡張できる。右辺全体に識別力$\alpha_i$を掛けるとか。$\theta_n$を含め全体を多次元化するとか。$log(\omega_n)$を説明する回帰モデルを入れるとか。
推定は、SASのNLMIXEDによる周辺最尤推定で可能。また、WinBUGSでベイズ推定という手もある。本研究では後者を採用する。$\theta$は$N(0,1)$とする。$\sigma^2_\omega$は自由推定し、$1/\sigma^2_\omega$の事前分布を$Gamma(1, 0.1)$とする。
シミュレーション。ERSがある場合とない場合について、ERSを入れたモデルと入れてないモデルを比較する。すいません、読んでないっす。
実データへの適用事例が2件。すいません、読んでないっす。
考察。
提案モデルは真のERSをうまく復元できるし、ほんとはERSがないときにもおかしくならない。
今後の課題:他の回答スタイルへの拡張。すでにリッカート項目への系列的判断をIRTでモデル化した研究がある。Brockenholt(2012 Psych.Methods), Thissen-Roe & Thissen (2013 J.Edu.Behav.Stat.)がある。[←これ、面白そう!!!]
... 先行研究レビューがすごくしっかりしていて、とても勉強になった。疲れたけど、ありがたいことであります。一流のプロによる論文を読んだなあ、という感じ。
残念ながら、Allenby兄貴たちのモデルは引用されていないんだけど、IRTの枠組みに入らないからだろうか(でもJohnson(2003)は引用されているよなあ...)。ま、自分で勉強せえってことでしょうね。
いっぽう、提案モデルについては、ほんっとに申し訳ないんだけど、価値がいまいち理解できなかった。
rating scale modelでいうと、もともと
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{j})$
というモデルがあって、ここに
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{nj})$
$\tau_{nij} \sim N(\tau_j, \sigma^2_j)$
という風に閾値に異質性を入れるというアイデア(著者らの先行研究)と、
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{j})$
$\log(\omega_n) \sim N(0, \sigma^2_\omega)$
という風に入れるというアイデア(提案手法)があるわけだ。後者のほうが制約がきつい。たったそれだけのことじゃないの? どっちがよいかはデータで決まる問題であって、毎回AICとかで判断すればよくない?
おそらく、ERSを直接に定量化したいという強い動機づけがあるんだと思う($\omega_n$がその答えになっている)。でも、そういう動機づけが生まれる文脈がいまいちわからないのである。回答スタイルにはERS以外にもいろんなパターンがあるわけだから、閾値はできるだけ柔軟にモデル化しといた方がよかないか。その結果、モデルの中にERSに直接に対応する変数がないとしても、別にかまわないんじゃなかろうか。もしどうしてもERSを指標化したいんなら、推定されたパラメータをあとで要約すればいいじゃん。各対象者において$\tau_{nj}$のSDを求めるとかさ?
うーん。たぶん私の発想が甘いというか、文脈を理解できていないんだろうな。
おそらく、著者らにとってERSとは、リッカート尺度に対する回答行動をある視点で見たときに(たまたま両端の選択率に注目したときに)立ち現れる個人差のことではなくて、回答行動の背後に仮定されているひとつの潜在特性なのであろう。だから、たとえば「一般知能というものがある」と信じている人が問答無用で1因子の因子分析をするように、「ERSというものがある」という信念がある以上、モデルのなかにERSを表す潜在特性を入れるべし、ということなのだろう。反応の生成メカニズムそのものに関心を持つ心理学的視点と、生成メカニズムは所与としていかに潜在特性と項目特性を分離するかに関心を持つテスト理論的視点のちがい、という感じかしらん...?
論文:調査方法論 - 読了:Jing & Wang (2014) x件法評定の両端を選んじゃう傾向を、ランダム閾値をいれたラッシュモデルで定量化する