読書日記: 読了: de Jong, Steenkamp, Fox, Baumgartner (2008) 世界各国の人々の「調査でX件法の両端にマルをつけたがる傾向」

« 読了：Wyss et al.(2014) 共変量バランシング傾向スコアを使ってみた | メイン | 読了：朝野(2004) コンジョイント分析の歴史を辿る »

2016年9月13日 (火)

de Jong, M.G., Steenkamp, J.E.M., Fox, J.P., Baumgartner, H. (2008) Using item response theory to measure extreme response style in marketing research: A global investigation. Journal of Marketing Research, 45(1), 104-115.

　回答スタイルの文化差の実証研究。調査の評定尺度の両端に回答する傾向(extreme response style, ERS)に注目する。
　前に回答スタイル研究のレビュー記事を書いた時に、集めたけど結局紹介しなかった論文。このたび思うところあってきちんと目を通してみた。
　この論文の見どころはなんといっても、ERSを定量化するための精緻な統計モデルにある。さあいでよIRT！その謎な専門用語で人々を煙に巻くがよい！

　えーっと、まずは先行研究概観。
　以下、ある尺度において観察されたスコア$X$を、真のスコア$T$、体系的エラー$S$、ランダムエラー$E$にわけて
　$X_i = T_i + S_i + E_i$
とする。$i$は個人を表す添え字。$S$のソースのひとつがERSである。
　個人のERSとはなにか。典型的には、リッカート尺度項目で両端につけた項目の数と考えられる。項目を$k$とし、両端につけたことを表すダミー変数を$EXTR_{ik}$として
　$\hat{ERS}_i = \sum_k EXTR_{ik}$
ERSの定量化にあたって「両端しかみない」というこの戦略を、本研究でも踏襲する。理由その1、そうしている人が多いから。理由その2、acquiescence回答と操作的に区別するため。

　個人のERSをどうやって測定するか。路線は2つある。
　その1、ERS測定専用の項目セットをいれる。Greenleaf (1992 POQ)というのがある。でも欠点が多い:

調査票が長くなっちゃう。
仮にERS特性が下位集団間で変動するならば、文化・言語を通じて同じようにうまく機能する項目を作ろうとする努力が無駄になるかもしれない。[←どういう意味？よくわからない]
多言語調査の場合、すでに翻訳上の等価性が担保された実質的項目からERSを求めたほうが良い。

その2、実質的な構成概念を図るべく設計された項目からERSの指標を出す。この方法の欠点:

ERS算出に用いる項目群は内部の相関が低くないと困るんだけど(スタイルと内容の交絡を避けるため)、実際にはそうは問屋が卸さない。
そもそもERSってのは個人の傾性と項目特性の相互作用の産物であろう。異なる項目を通して単に両端の個数だけを数えるのはおかしい。
ある項目のERSが国・言語のあいだで違ったとして、それは意味の違いのせいかも。
もしリサーチャーがERSのドライバーを見つけたいならば、ERSの測定モデルを階層潜在変数モデルに統合し同時推定することが望ましい[←おらが田んぼに水を引く努力...]。

　おまたせしました、ここから提案モデルです。

　まずは2パラメータ正規累積IRTモデルを考えます。$\Psi(\cdot)$を標準正規CDFとして、
　$P(EXTR_{ik} = 1 | ERS_i, a_k, b_k) = \Psi[a_k (ERS_i - b_k)]$
これを項目特性曲線といいます。$a_k$を弁別力、$b_k$を識別度といいます。[IRTになじみがない人向けの説明がひとくさり。略]

　さあ、ここからが本番。モデルを拡張する。

testletの効果をいれよう。testletとは教育測定におけるBradlowらのアイデア。ここでは、多項目からなるひとつの尺度をa testletと捉える。[たとえば、「Q1 生活価値観MA」ってのがあったら、これがひとつのtestletね]
　項目$k$が属するtestletを$r_k$として、
　$P(EXTR_{ik} = 1 | ERS_i, \Psi_{i,r_k}, a_k, b_k) = \Psi[a_k (ERS_i - \Psi_{i,r_k} - b_k)]$
　$\Psi_{i,r_k}$とは個人ごとのtestlet効果。$N(0, \sigma^2_{\Psi_{r_k}})$と仮定する。
項目パラメータを国によって変動させる。国の添え字を$j$とする。
　まず弁別力について。ある項目のある国での弁別力$a_{kj}$は、平均$\tilde{a}_k$の正規分布からのドローだと考える。弁別力は正の実数でないと困るので、負になったら0にする。実数範囲を$A$として
　$a_{kj} \sim N(\tilde{a}_k, \sigma^2_a) I (a_{kj} \in A)$
同様に識別力についても
　$b_{kj} \sim N(\tilde{b}_k, \sigma^2_b)$
で、$\tilde{\xi}_k = [\tilde{a}_k, \tilde{b}_k]^t$の事前分布をMVNとする。ただし、ここでも$\tilde{a}_k$として負の値をドローするのは変なので、
　$\tilde{\xi}_k \sim N(\mu_\xi, \Sigma) I (\tilde{a} \in A)$
とする。平均ベクトル$\mu_\xi$は$[1,0]^t$に固定し、分散行列$\Sigma$には無情報事前分布IW(2, diag(100, 100))に従うとする。
ERSについて。事前分布を$N(\beta_{0j},\sigma^2)$とする。国別ERS平均の分布を$\beta_{0j} \sim N(\gamma_{00}, T)$とする。
最後に、識別のために、各国$j$について以下の制約を与える。
　$\prod_k a_{kj} = 1$ for all $j$
　$\sum_k b_{kj} = 0$ for all $j$

　ここまでを整理しよう。

項目特性曲線は
　$P(EXTR_{ijk} = 1 | ERS_{ij}, \Psi_{ij,r_k}, a_{kj}, b_{kj}) = \Psi[a_{kj} (ERS_{ij} - \Psi_{ij,r_k} - b_{kj})]$
testletの効果は
　$\Psi_{ij,r_k} \sim N(0, \sigma^2_{\Psi_{r_k}})$
各国の項目パラメータは
　$a_{kj} \sim N(\tilde{a}_k, \sigma^2_a) I (a_{kj} \in A)$
　$b_{kj} \sim N(\tilde{b}_k, \sigma^2_b)$
　$\prod_k a_{kj} = 1$
　$\sum_k b_{kj} = 0$
項目パラメータの平均の事前分布は
　$\tilde{\xi}_k = [\tilde{a}_k, \tilde{b}_k]^t \sim N(\mu_\xi, \Sigma) I (\tilde{a} \in A)$
ERSは
　$ERS_{ij} \sim N(\beta_{0j}, \sigma^2)$
国別のERS平均は
　$\beta_{0j} \sim N(\gamma_{00}, T)$

　ついでに、ERSについての構造モデルも組む[先生、そこまでやらんでも...]。
　個人レベル共変量を$X_{1ij} \ldots X_{Qij}$、国レベル共変量を$W_{1ij} \ldots W_{Sij}$として、
　$ERS_{ij} = \beta_{0j} + \beta_{1j} X_{1ij} + \ldots + \beta_{Qj} X_{Qij} + \eta_{ij}$
　$\beta_{qj} = \gamma_{q0} + \gamma_{q1} W_{1qj} + \ldots + \gamma_{qS} W_{Sqj}$
　$\eta_{ij} = N(0, \sigma^2)$
　$[u_{0j}, \ldots, u_{Qj}]^t \sim N(0, T)$

　やれやれ。これを階層ベイズモデルとしてMCMCで解こうってわけです。
　なお、無事$ERS_{ij}$が推定できたら、項目回答を修正することもできる。やり方はPodsakoff et al.(2003 J.App.Psych.)をみよ。

　シミュレーション。[略]

　実データへの適用。
　GfKさんとTNSさんが行った26ヶ国調査のデータを使います。国あたりサンプルサイズは335～1181、トータルで12506。
　設問は19問プラス2項目、全項目数は100。すべて5件法。個人レベル共変量は年齢、性別、教育(高低の2水準にする)。
　モデル選択。項目パラメータの変動ありなし、テストレットありなし、で4モデルを組んでベイズファクターで比較したら、両方入れたモデルがよかった。
　結果。項目パラメータは大きく変動していた。やっぱ単純なERS指標ではいかんということである。さらに項目パラメータは国によってもちがっていた。云々。
　ERSの規定因はなにか。国レベル共変量として、個人主義、不確実性回避、男性性、権力距離なんかをいれてみたら、個人主義、不確実性回避、男性性の高い国でERSが高かった。云々。

　論文の最後ではERSを説明するモデルを検討しているけど、それよかERSの国別平均のチャートのほうが面白い。とびきり高いのがロシア。低いのが台湾、タイ、そして中国。日本は世界平均よりちょっとしたくらい。うーん、Chen, Lee, Stevenson(1995)によれば日本と台湾はMPRが高く(ERSと逆)、また私の周囲では中国本土はやたらERSが高いというのが定説になってるんだけど、この論文の結果はちょっとちがうわけね。やっぱり、回答スタイルの傾向を個別の観察報告から一般化するのは難しい...

　いやー、しっかし、読んでいて楽しい論文だ。要するに「ある対象者が両端につけた項目数を数えよう、それが多い人は『極端につけやすい人』だ」という素朴なアイデアを、階層ベイズIRTモデルでもってどんどん精緻化していくわけなんだけど、その精緻化の仕方に筋が通っていて無理がないように思う。
　回答スタイルはERS以外にもいろいろあるわけなので、Allenby兄貴たちのモデルみたいに、二値IRTじゃなくて段階反応モデルを考えたほうが、枠組みとしては一般性がある。でも、実はAllenby兄貴たちのモデルでも、推定の都合上、閾値のあいだに結構恣意的な制約を掛けているようなので、要するに、実用上どちらがいいかは場合によるだろうと思う。
　これ、どうにかしてMplusで推定できないものだろうか...

論文：データ解析(2015-) - 読了: de Jong, Steenkamp, Fox, Baumgartner (2008) 世界各国の人々の「調査でX件法の両端にマルをつけたがる傾向」

読書日記

読んだ本を淡々と記録します

2016年9月13日 (火)