読了:Felix (2011) 3件法で訊こうが9件法で訊こうがリスケールしちゃえば変わんないよ

Felix, R. (2011) The impact of scale width on responses for multi-item, self-report measures. J. Targeting, Measurement and Analysis for Marketing, 19, 153-164.

 仕事の都合でリッカート尺度の段階数について調べてたら、なんと2011年の研究が出てきて、びっくりして目を通した。この話題でまだ論文書く人がいるの!? という驚きだが(検索でひっかかる論文はたいてい80年代まで)、まああれかもね、盛り上がることも滅びることもなく総括も進展もない、ゴルフの打ちっ放しみたいな感じのテーマなのかもしれないっすね。
 著者はメキシコのマーケティングの先生。途中で疑問に思って調べたけど(失礼な…)、ちゃんとした業績のある方であった。掲載誌についてはよくわからない。CiNiiによれば現在はJ. Marketing Analyticsという誌名らしい(寡聞にして初耳である)。大学図書館での所蔵館数は1。渋い。

 いわく、
 自己報告式質問紙に多項目の尺度をいれるとき[5件法尺度の項目を10個入れる、というような場合ですね]、その段階数をどうするか。先行研究の結果は整合的でない。それに、先行研究は尺度の信頼性・妥当性ばかりに注目しているきらいがある。実際には、信頼性・妥当性がある程度あるならば、リサーチャーの次の関心は平均やSDや歪度の整合性であろう。たとえば、段階数を変えると平均は変わるのか。
 [全然納得できない… 5件法と7件法のどっちが信頼性が高いか、どっちが妥当性が高いか、という問いはわかる。でも、5件法と7件法のどっちが平均が高めに出るか、という問いはよくわからない。そもそも比較したいって思いますかね?]

 先行研究概観:

  • Bendig (1954 J.App.Psy): 段階数と信頼性は関係ない
  • Komorita & Graham (1965): 段階数と信頼性は関係ない
  • Green & Rao (1970 J.Mktg.): 段階数5-7くらいが信頼性が高い
  • Matell & Jacoby (1971 Edy.Psy.Measurement): 段階数と信頼性は関係ない
  • Jacoby & Matell (1971 JMR): 段階数と信頼性は関係ない
  • Finn (1972 Edu.Psy.Measurement): 段階数5-7くらいが信頼性が高い
  • Masters(1974 J.Edu.Measurement): 得点の変動が小さい場合は段階数を増やすと信頼性が高くなる
  • McKelvie (1978 Br.J.Psy.): 段階数5-7くらいが信頼性が高い
  • Aiken (1983 Edu.Psy.Measurement): 段階数と信頼性は関係ない
  • Churchill & Peter (1984 JMR): 段階数が多い方が信頼性が高い
  • Birkett (1986 Conf.): 段階数5-7くらいが信頼性が高い
  • Peter & Churchill(1986 JMR): メタ分析。段階数と妥当性は関係ない
  • Chang(1994 App.Psy.Measurement): 手法分散を取り除くと6件法より4件法の信頼性が高い[←これは面白いね…]
  • Bandalos & Enders (1996 App.Measurement in Edu.): 段階数5-7くらいが信頼性が高い
  • Preston & Colman (2000 ActaPsy.): 段階数5-7くらいが信頼性が高い
  • Dawes (2008 IJMR): 異なる段階数の項目の(変換後の)平均とSDを比較。あまり変わらない
  • Consractor & Fox (2011 J.Targeting,Measurement&Anal.Mktg.) 平均の敏感性は段階数5-6くらいで高い

 研究1。
 プリテストで広告を3つ選んだ(評価の高い奴、低い奴、中くらいの奴)。学生に3つの広告を見せてそれぞれへの評価を求めた。項目は{良い-悪い, 質が高い-低い, 魅力的-魅力的でない、楽しい-楽しくない}。調査票は次の4種類、ランダムに割付: {3件法, 5件法, 7件法, 9件法}。ただし中くらいの広告に対しては常に7件法で訊いた。101人を分析。
 まずは回答をすべて7件法にリスケールする(\(O\)件法回答\(o\)を\(R\)件法回答\(r\)にリスケールするには\(o \times (R-1)/(O-1)+(O-R)/(O-1)\)とする。たとえば3件法→7件法なら\(o \times 3-2\), つまり{1,2,3}を{1,4,7}にするってことね)。
 各広告について4項目を1因子CFAしたところ、1因子で良い模様。[うわあ、まじか… 尺度の違いは無視して票を縦に積み、リスケールした得点を量とみて因子分析したってか… 乱暴だなあ…]
 信頼性は高い(αは0.83-0.82)。収束的妥当性も高い(因子負荷はどれも高い)。弁別的妥当性も高い(AVEはどれも高い)。
 各広告について、各項目ならびに合計得点で4水準のANOVAをやったが、いずれも有意でない。ノンパラで調べても同様。SDも変わらない。つまり段階数は平均に影響しない。歪度も明確には変わってない。
 個人ごとの使用段階数の平均をみると[Cox(1980 JMR)というのが引用されている]、段階数とともに線型に上昇する。
 考察。段階数を増やしても信頼性・妥当性は変わらず、得られる情報の量が増える。[←おいおいおいおい…]

 研究2。
 学生に調査。まず有名なブランド3つ(通信会社Telcel, Apple, Levi’s)の名前とロゴをみせ、研究1と同じように4項目を訊く。で、9項目の物質主義価値観尺度を訊く。調査票は次の4種類、ランダムに割付: {3件法, 5件法, 7件法, 9件法}。ただしLevi’sの広告評価だけは常に7件法で訊いた。126人を分析。
 回答をすべてリスケールする…
 [なんか嫌になっちゃったんでメモは省略するけど、段階数がちがってても平均やSDは変わりませんでしたという話]

 考察。
 (3-9件法の範囲なら)段階数が多いほうが、対象者が使用する情報の量が増えるようだ。
 より実務的にいうと、段階数は回答スタイルに影響しないようだし、平均やSDも変わらないようなので、段階数よりもっと他のことを気にした方がよいだろう。
 今後の課題: 実務家はアカデミシャンと違って単一項目尺度を好むし[Gilmore & McMullan(2009, Euro.J.Mktg)というのが引用されている], 別に単一項目でも予測妥当性はかわんないという話もあるので[Bergkvist & Rossiter(2007 JMR)]、単一項目尺度についても調べたいっすね。
 云々。

 ううううう… わからない… なにもわからない…
 この研究の「段階数が異なる調査票間で、リスケールした回答を比較する」という発想がわからない。第一に、段階数が異なる項目の回答平均をリスケールしてまで比較したいというニーズがわからない。なぜ比較したいと思うのか。第二に、段階数がちがえば測定誤差の分布がちがうはずなのに、それを無視して因子分析したりANOVAやったりするのが気持ち悪い。ではどうすべきか、と訊かれると困るんだけど、私だったら、もっと人数を積み上げて(対象者は学生なんだからさ!)、回答を順序尺度とみたモデル(段階反応モデルとか)を調査票別に推定して、閾値パラメータの信頼区間だか事後分布だかを比較するよね…。第三に、百歩譲ってリスケールした回答を量と見なして分析するならば、関心が持たれるのは段階数によって平均やSDがどう変わるかではなくて、刺激間の差の効果量がどう変わるかだろう。正直なところ、これを通したか査読の先生?…という気分だ。
 というか、リッカート尺度の段階数という問題を群間比較だけで検討しようというアプローチそのものがしょぼくないっすか。尺度使用(段階反応モデルなら閾値)に個人差があることを前提とした分析をするのが筋だろうと思う。個人ごとの尺度使用を捉えられるような実験計画をうまいこと組むのが、腕の見せ所ってもんなんじゃないですか、先生!? (←えらそうな態度)
 … まあいいや!次いってみよう!