« 読了:Greenberg & McDonald (1989) ベネフィット・セグメンテーション・ユーザーズ・ガイド | メイン | 読了: Carbone & Gorr (1985) 時系列予測ってフリーハンドでいいんじゃね?→よくなかった »
2015年4月20日 (月)
たとえば調査票に5件法尺度項目が並んでいるとき、ばんばん両端にマルをつける人もいれば、真ん中のあたりにしかマルをつけない人もいる。これにはどうやら文化差もあるようで、「中国の人って両端につけやすいね」なんていう話も時々耳にする。
このような、項目内容とは無関係に生じる回答の傾向のことを、英語ではresponse styleというのだけれど、日本語ではなんというのだろうか。探しているのだけれど、なかなか出てこない。しばらく前にこの話題について紹介する記事を書いた際には「回答スタイル」と訳したのだが、「回答スタイル」で検索すると私の記事が上位に挙がってしまう。response styleに関して発見できた数少ない日本語文献のひとつは山岸・小杉・山岸 (1996, 社会心理学研究)で、この著者らは「応答傾向」と呼んでいるのだが、これもまた一般的な呼び方とはいいにくそうだ。ううむ...
Johnson, T.R. (2003) On the use of heterogeneous thresholds ordinal regression models to account for individual differences in response style. Psychometrika, 68(4), 563-583.
調査データにおける回答スタイルを統計的にモデル化するという論文。
回答スタイルの問題は個人的な関心事のひとつとしてフォローしているので、仕方なく目を通す次第だが、Psychometrikaの20頁の論文を読もうだなんて、ちょっとマゾヒスティックだなあ...
著者いわく、回答スタイル研究でもっとも注目されているのは順序カテゴリカル項目におけるextreme response style (k件法項目で両端につけやすい傾向, ERS) なので、それについてモデル化します、とのこと。ま、焦点をなにかに絞らないといけないのはわかるし、研究が多いのはERSとARS(acquiescence response style)だと思うので、この選択は自然であるように思う。それに、東アジアに住む身の上として最も気になるのはmidpoint responding (MPR) なので、その逆に相当する ERSのモデル化はありがたい。
なお、これまで提案されてきたERS対処策として以下がある由。
- カテゴリを潰す (Backman & O'Malley, 1984 POQ)
- カテゴリを増やす (Clarke, 2000 J.Soc.Behav.Personality; Hui & Triandis, 1989 J.CrossCulturalPsych. )
- モデル化する (Greenleaf, 1992JMR; Rossi, Gulula, & Allenby, 2001 JASA)
提案モデルは以下の通り。
対象者を$i=1,\ldots,n$とする。項目を$j = 1,\ldots,m_i$とする。各項目は$K$カテゴリの順序カテゴリカル項目である。回答を表す確率変数を$Y_{ij}=1,\ldots,K$、その実現値を$y_{ij}$とする。
回答の背後に連続潜在変数$Y^*_{ij}$を想定する。まずは固定的な閾値$\gamma = (\gamma_1, \ldots, \gamma_{K-1})'$でマッピングしよう。$\gamma_{k-1} < Y^*_{ij} < \gamma_{k}$のとき、そのときに限り$Y_{ij}=k$となると考える。
$Y^*_{ij}$が、全体レベルのパラメータ・ベクトル$\theta$と個人レベルのパラメータ・ベクトル$\zeta_i$の下で互いに独立であると仮定する。$\zeta_i$は$\theta$に依存するものとする。パラメータの事前分布を$h(\theta, \gamma)$, $\zeta_i$の密度関数を$g(\zeta_i | \theta)$として、確率モデルは
$h(\theta, \gamma) \prod_{i=1}^n g(\zeta_i | \theta) \prod_{j=1}^{m_i} P(\gamma_{y_{ij}-1} < Y^*_{ij} < \gamma_{y_ij} | \theta, \zeta_i, \gamma)$
ここまでは、まあ、わかりますわね。階層順序回帰モデルだ。
さて。回答スタイルの個人差を閾値の異質性として定式化する。
対象者$i$の閾値を$\gamma_i = (\gamma_{i1}, \ldots, \gamma_{i,K-1})'$とする。で、$\gamma_i$も$\theta$に依存するものとする。さあ、俄然ややこしくなってまいります。
まず、閾値はシンメトリカルだと想定する。つまり、たとえば「反対」「やや反対」「どちらでもない」「やや賛成」「賛成」の5件法だとして、「やや」が表す強さは反対でも賛成でも同じだと考えるわけである。順序カテゴリカル項目のすべてにおいて現実的な想定とはいえないが、中央が中立である両極尺度項目なら、まあ現実的な制約であろう。このように制約する理由はふたつ。(1)倹約性。(2)$Y_{ij}$のロケーション・パラメータへの共変量の効果を回答スタイルの個人差から分離できる。
以下、原文では一般化して書いてあるが、私が話についていけなくなってしまうので、以下では$K=5$に決め打ちして書き直します。えーと、カテゴリ$1,2,3,4$の右閾値が$\gamma_{i1}, \gamma_{i2}, \gamma_{i3}, \gamma_{i4}$である。ここで$\gamma_{i4}=-\gamma_{i1}>\gamma_{i3}=-\gamma_{i2}>0$と制約する。
これを閾値間の幅でシンプルに書き直す。このくだり、たぶん原文に誤植があると思うので、勝手に書き直しちゃうぞ。著者は
$\gamma_{i1} = - \delta_{i1} - \delta_{i2}$
$\gamma_{i2} = - \delta_{i1}$
$\gamma_{i3} = \delta_{i1}$
$\gamma_{i4} = \delta_{i1} + \delta_{i2}$
といいたいのだと思う。以下では$\delta_i = (\delta_{i1}, \delta_{i2})'$とする。
次に、個人レベルパラメータ$\zeta_i, \delta_i$のモデル化。
$(\zeta'_i, ln(\delta'_i))'$が多変量正規分布に iid に従うと考える[なぜ閾値の幅だけ対数に変換するのか、特に説明はない]。行列になっちゃうので式は省略するが、$\zeta_i$は平均$0$, 共分散行列$\Sigma_{11}$, $ln(\delta_i)$は平均ベクトル$\mu$, 共分散行列$\Sigma_{22}$, $ln(\delta_i)$を行、$\zeta_i$を列にとった共分散行列を$\Sigma_{21}$とする。こいつらをみんな$\theta$に叩き込むわけです。
というわけで、確率モデルは、
$h(\theta) \prod_{i=1}^n g(\zeta_i, \delta_i| \theta) \prod_{j=1}^{m_i} P(\gamma_{y_{ij}-1} < Y^*_{ij} < \gamma_{y_{ij}} | \theta, \zeta_i, \gamma)$
やれやれ、お疲れさまでした。
このモデルをどうやって推定するかという話が延々続くんだけど (もちろんMCMC)、そこはいまあまり関心がないので省略。
対抗モデルとしては:
- 回答スタイルがないモデル、すなわち$\Sigma_{22}=0$。
- Rossi et al.(2001)のモデル。閾値の比例性を仮定する(順序ロジットモデルとかでいえば、スケールパラメータだけが個人パラメータになる)。本モデルの特殊ケースとして捉えられる由
- 閾値に無情報事前分布を与えるモデル(でもシンメトリ性は想定する)。Johnson(1996 JASA, 1997 Stat.Sci.), Lenk, Wedel, & Bockenholt (2002 unpub.)というのが挙げられている。
- 本モデルと同じように$\delta_i$の周辺分布を対数正規分布とするんだけど、シンメトリ性を仮定しないモデル。Tutz & Hennevogl (1996, Comp.Stat.DataAnalysis) というのが挙げられている。
例を3つ。
例1, 簡単なシミュレーション。
データ生成モデルは、
$Y^*_{ij} = \beta_0 + \zeta_i + \beta_1 x_{ij} + \epsilon_{ij}$
ひとり9項目、$x_i = (-2, -1.5, -1, -0.5, 0, 0.5, 1, 1.5, 2)'$, $\beta_0=0$, $\beta_1=1$, $\zeta_i$と$\epsilon_{ij}$はiidに$N(0,1)$に従う。これを7件法に変換し、閾値を変動させる。閾値の分散を$\Sigma_{22}=cI$とし、$c$を$0$(つまり変動無し)、$\sqrt{0.5}, 1$の3通りを試す。$n=1000$。
分析側のモデルは、閾値に異質性を考える奴と考えない奴でそれぞれ推定。$\beta_0$, $\beta_1$, ランダム効果の分散$\sigma_{11}$がどうなるかを調べる。
結果。データ生成側で閾値を変動させたとき、分析モデルで閾値の異質性を考えておかないと、$\beta_1, \sigma_{11}$が過小評価される。(ここ、原文では$\beta_0$が過小評価されると書いてあるけど、表をみるとそうでもない。誤植ではなかろうか。)
例2はもっと複雑なシミュレーション、例3は実データの因子分析における適用。いずれも、やっぱ閾値の異質性を考えなきゃ駄目だよ、という主旨。疲れちゃったので読み飛ばした。
... ちゃんと読んでないけど、とりあえず読了にしておこう。このモデルって、Mplusで推定できないかなあ...
論文:データ解析(2015-) - 読了:Johnson (2003) 回答スタイルを階層回帰でモデル化