« 2017年12月 | メイン | 2018年4月 »
2018年1月 8日 (月)
企業が顧客ロイヤルティの程度を測るとき、NPS(net promoter score)という謎の指標を使うことがある。
かっこいい名前だが、要するに、調査票に一問、当該ブランドを他の人にも勧めたいかどうかを11件法で訊いた設問を入れる。で、top2box%(上位2段階の反応率)からbottom7box%を引く。これをNPSと呼ぶ。それだけ。ほんとにそれだけ。
態度測定に関心がある人なら誰でも、「おいおい、なぜ一項目で済ませようと思うかね...?」と首を傾げるのではないかと思う。少なくとも私は最初唖然としました。
ここで測りたい対象(ロイヤルティ)は抽象的な構成概念である。それはNPSのように推奨意向という形でも訊けるだろうし、「これからも買いたいか」といった項目でも訊けるだろう。だったら、いくつかの角度から手を変え品を変えて訊き、得られた回答を合成した方がよいのではないか?
こうした発想(多重指標による態度測定)に抗し、あえてNPS的な単一指標測定を推すとして、その論拠はいくつか考えうる。
これまでに私がもっとも頻繁に耳にした説明は次の通りである。いわく。KPIにとってなによりも大事なこと、それはわかりやすさである。企業成員の上から下までの誰もが「ああこれは顧客ロイヤルティを測っている値なのね」と納得することこそが大事なのである。多重指標を用いた推定は、「科学的には正しいかも知れないが」(←ってみんないうんですよね。もう聞き飽きたのでなにか略語を作りたいくらいだ。KTSとか)、いかんせんわかりにくい。云々。
この説明をもっと正確に言い換えると、組織において人々は、人々の納得感こそが大事だという過剰なまでに強固な信念を抱いている、ということである。暖かく言い換えると、上は下の知的水準を慮り下は上の知的水準を忖度するという優しい世界がここにある。シニカルに言い換えると、誰もが「俺以外はみな単純な馬鹿だ」と思っているから、それに応じて組織自体がほんとに馬鹿になっていくわけである...というのはさすがに言い過ぎかな。
それはまあいいや。単一指標が支持される第二の論拠は、そのぶん調査票が短くなる、というもっともな指摘である。たとえ標本調査であるにせよ、長く面倒な調査票が回答者(つまりは顧客)のブランド・ロイヤルティを下げてしまうようでは、確かに元も子もない。NPSの提唱者ライクヘルドの本を読んでいると、長い調査票のことがコレデモカとディスられていて、この人は両親をリサーチャーに惨殺されたのだろうかと不思議に思うくらいだが、調査項目をとことん減らせという主張自体は、確かに仰せのとおりと思う。その割に、定例的な顧客満足度調査の調査票に、NPS用の他者推奨意向項目をはじめとしたさまざまな項目がコレデモカコレデモカと山のように詰め込まれているのを拝見し、なんだか複雑な気持ちになることも少なくないのですが、それはそれ、これはこれである。
それもまあいいとしよう。一番ややこしいのは、NPSを支持する方々が挙げる第三の論拠、予想外に斜め上方向から飛んでくる理由である。
ライクヘルド先生はなんと、「他の指標ではなくNPSこそが企業収益と密接に関連する!我々はエビデンスを持っている!」と強硬に主張しているのである。購入継続意向や好意ではなく推奨意向こそが予測的妥当性を持つのだ、というわけである。そりゃすごい。
で、その主張に依拠したコンサル・ビジネスが花盛り、いまやNPSを飯の種にしている人が世界中に大勢いて、うっかりNPSの悪口を云おうものなら「おまえはロイヤルティのなんたるかがわかってない」なんて言われちゃうわけで...
Keiningham, T.L., Cooil, B., Andreassen, T.W., Aksoy, L. (2007) A longitudinal examination of net promoter and firm revenue growth. Journal of Marketing, 71, 39-51.
昨年末、「でもNPSは収益と直結してるっていいますよね?」「いやそれが案外そうでもないという話もありまして」というやりとりをする機会が何回かあり、そのたびにキニングハムさんたちの論文を紹介していた。もうなくなっちゃった会社の話だから時効だとと思うけど、前職で「クライアントがロイヤルティのKPIをNPSに切り替えたいと言い出した時のために読んでおけ」と、この論文が海外から回覧で回ってきた記憶がある。競合他社の人が書いた論文なのにね、ははは。
自分ではろくろく読まずに人様に紹介するのもどうかと思い、探してみたら、2007年の論文は以前読んでいたようで、メモが出てきた。
いわく。
NPSは2003年の提唱以来、いろいろ批判はありつつも(Keininghamご自身の著書"Loyalty Myths"が挙げられている), NPSは広く普及してきた。ジャック・ウェルチはじめ多くの有名CEOがNPSを称賛している。いまでは企業が投資家にNPSを報告するくらいである。
NPS受容の根拠となったのは、提唱者ライクヘルドが示した、NPSと収益成長率との密接な関連性であった。ところがこのエビデンスはいまだピアレビューを受けていないし、きちんと再現した人もいない。
本研究はReichheld(2006, HBR; 2006「究極の質問」), ならびにSatmetrix社[NPSの商標を持っている会社]のホワイトペーパーの再現を試みます。使うデータはNCSB(Norwegian Customer Satifaction Barometer)[←これは多重指標を使ってロイヤルティ指標を算出している]。
理論的背景。
まずWoM(クチコミ)について。
WoMが売上に効いたという逸話はたくさんある。しかしその関係はなかなか複雑だということも示されている。Godes & Mayzlin(2004 MktgSci)によれば、WoMとTV視聴率には関係がないし、小売のロイヤル顧客のWoMは売上に効かないが、非ロイヤル顧客のWoMは効く。また、WoMが製品への反応に効くという点については一般的な合意がある。
WoMの価値を算出しようという試みは少ない(Helm 2006 Managing Service Quality; Hogan et al, 2004 J.Adv.Res., Wangenheim & Bayon 2004 EuroJ.Mktg.)。企業収益とWoMの関連を縦断で調べた査読論文は見当たらない。
Net Promoterについて。
広く知られるようになったのは2003年のHBRの記事。Satmetrixが2001年から集めたデータで、NPSが他の調査設問よりも企業収益の成長率を強く予測すると示した。Satmetrixは2004年のホワイトペーパーで詳細を示している。そのほか、MIT Sloan Mgmt Review の記事(2006), ライクヘルドの2006年の本「究極の質問」がある。ライクヘルドさんにいわせれば、NPSが12ポイント上がると企業の成長率は倍増する。
さて、ライクヘルド-Satmetrix以外からの証拠は、知る限り次の2つ。
- Marsden, et al.による、Listening社とLSEの共同研究。NPSが7ポイント上がると成長率が1%上がるという結果。しかしこの研究は、NPSの横断調査と、その(翌年じゃなくて)前年の収益成長率を比べている。
- Morgan & Rego(2006 MktgSci)。ACSIを使った時系列研究。調査からたくさん指標を出していて、そのなかに"Net Promoter"がある。企業パフォーマンスの予測力はないことが示されている。しかし、データもNPSの計算方法もオリジナルと全然違うし、NPSのdata fieldsについて誤解している(2007年の同誌でコメントを書いたから読め)。
本研究の目的は、なにかの理論的仮説の検証ではなくて、単純にライクヘルド-Satmetrixの知見を追試すること。
手法。
NCSBでは、世帯にとって重要であるいろんなサービス産業における大手企業について、その顧客に対し、推奨意向、全体満足、再購入意向などを訊いている。ノルウェー全国から得た確率標本への電話調査、およそ16000票、企業当たり100-200票。
NCSBはもともとFornellがスウェーデンとUSでやった研究に基づいている。理論的背景についてはFornellらの論文を参照のこと。
ここでは、NCSBで推奨意向・全体的満足・最購入意向の3つを経年で調べており、かつ企業収支データが手に入る21社について調べる。NPSは推奨意向から求める(あいにく10件法で訊いているので、top2box%からbottom6box%を引く)。
ライクヘルド-Satmetrixがやった手順は次の通り。(1)各企業について2年分のNPSの平均を求める。(2)同じ2年間、ならびにその前の1年を含めた3年間について、収益成長率平均を求める。(3)産業別に相関を求める(結局、過去の成長率とNPSを比べているわけだ)。なお、HBRの記事では3つの産業の散布図を示していて、企業数はそれぞれ3件, 5件, 10件。
その良し悪しは別にして、これとおんなじ方法で調べます。産業数は5つ(銀行、コンビニつきガソリンスタンド、家具屋、セキュリティシステム、運輸)。
結果。
NPS, NCSB, 全体的満足、再購入意向、推奨意向、平均で見ようがTopboxでみようがTop2boxでみようが、収益成長率とはろくに相関しない。[いろいろ手を変え品を変えて示しているが、省略]
重回帰モデルで変数選択すると、BIC最良なのはどの指標も使わないモデルであった[←はっはっは]。
このように、単一の態度指標では、企業の収益成長は予測できない。
こんどは、NPSとACSIを比べてみよう。[ACSIとはUSのロイヤルティ・モデル、ならびにそれに基づくロイヤルティ調査。もちろん多重指標を使ってスコアを出している。ちなみにライクヘルド先生はご著書でACSIをさんざんけなしている。さあ、ここからなかなか性格が悪くて楽しいぞ]
ライクヘルドの著書「究極の質問」の付録には、6個の産業におけるNPSと企業成長の散布図が示されている。そのうち3つはASCIでもトラックしている。そこで、このページを拡大してスキャンし、点の座標を求めた。で、横軸をNPSから、同じ企業の同期のACSIスコアに差し替えた。見比べてみると、なんと、ほとんど同じである。3つの産業のうち2つで、NPSよりもACSIのほうが、成長率との相関がわずかに高い。
ライクヘルドの本をよく読むと、推奨意向が成長の最良の予測子になる産業とそうでない産業があると書いてあって、後者の例を4つ挙げている(電話、ケーブルテレビ、コンピュータシステム、データベースソフト)。彼らは12の産業で分析したと述べているんだけど、その12のなかにこの4つが入っているのかどうかはっきりしない。仮に入れてないんなら、強力な選択バイアスが働いていることになる。仮にいれてるんなら、我々は3つのうち2つでACSIのほうが相関が高いことをみつけたわけだから、12産業のうち4+2=6産業、つまりは全体の半分で、NPSは最良の予測子にならないことになりませんか? [←いやーん、ネチネチしてるー]
結論。
ライクヘルドは著書でこういっている。「我々がやったことは、本書の想定読者であるビジネス・リーダーにわかるように、常識を定量化するということであった。実務家は進んだ統計手法に関心を持たない。因果と相関、時間枠、統計手法については論争が続いているが、率直にいってたいした価値があるとは思えない」
そうではない。統計が問題なのである。NPSが確固とした統計的分析に基づいていると信じたからこそ、実務家たちはNPSを受け入れ、CEOはアナリストにNPSのデータを示したのだ。
本研究によれば、NPSは確固たる科学に基づいてもいないし、他の指標よりも優れていない。その結果、企業のパフォーマンス、企業価値、株主の利益について、誤った戦略が生まれ、誤った資源配分がなされてきた可能性がある。ライクヘルド-Satmerixの知見は独立した客観的な検証にさらされる必要がある。
云々。
... はっはっは。メモを読み返しただけでも笑ってしまった。面白い論文である。
率直に言って、単一指標による態度測定よりも多重指標による測定のほうが信頼性が高くなるであろうことも、どう測定したところで顧客態度と企業収益がそれほど密接に結びつきはしないだろうということも、容易に想像がつく話だと思う。だから結論にあんまり驚きはない。人々は大言壮語に弱いなあ、大言壮語の検証には手間がかかるなあ、という感慨だけがある。
世のNPS信仰に対する実証的反論はこの研究以降にもあると思うので(意識の高いビジネスマンの方々が愛するHBRにさえ載っている)、そういうのが少しでも知られるようになり、みなさんちょっと頭を冷やしてくださるとありがたいんですが。
これはNPSで飯食っているご専門の方々にも頷いて頂けると思うんだけど、要は測定を活動と結びつけることが大事なのであって、NPSが企業収益と「もっとも」関連する指標ではないとしても、もはやどうでもいいんじゃないですかね。設問や集計方法なんかより、その背後にある顧客経験をどう抽出するかとか、カスタマー・ジャーニーをどうやって描くかとか、得られた知見を施策にどう落とし込んでいくかとか、そういうノウハウの蓄積のほうが大事だと思う。NPSに基づくロイヤルティ構築活動の価値は、NPSそれ自体とは別のところにあるだろう。
さらにいえば、調査会社がことさらにNPSを悪く言う場合、その動機は必ずしも純粋ではないかもしれないので、ちょっと割り引いて聞いたほうがいいかもしれない。調査会社の観点からみると、態度測定手法が複雑精緻であるほうが、調査サプライヤー選定時のスイッチング・バリアが高くなる。要するに、あらゆるトークはポジション・トークでありうるということである。偶然でしょうけど、この論文の第一著者は市場調査業界の有名人、現在は大学の先生だと思うけど、この論文の時点では某グローバル調査会社の副社長であった。
論文:マーケティング - 読了:Keiningham, et al.(2007) Net Promoter Scoreが企業収益と直結するって? はっはっは
事情があって、調査項目に対する回答スタイルの研究について再び調べていたんだけど、自分がなにを読んでなにを読んでないんだかわかんなくなってきてしまった。いちおう記録はあるんだけど、不備が多すぎる。
とりあえず、ブログにメモを載せた論文を発行年順に並べておく。すいません、完全に自分用のメモです。
- Greenleaf(1992) 回答スタイル由来のバイアスを検出・補正する
- Chen, et al. (1995) 回答スタイルの文化差(北米 vs 東アジア)
- Rossi, Gilura, Allenby (2001) k 件法項目で高いほうにばかり答える人や低いほうにばかり答える人がいるのをなんとかする
- Johnson (2003) 回答スタイルを階層回帰でモデル化
- Arce-Ferrer (2006) メキシコの調査回答スタイルの地域差
- de Jong, Steenkamp, Fox, Baumgartner (2008) 世界各国の人々の「調査でX件法の両端にマルをつけたがる傾向」
- van Rosmalen, et al. (2010) イエスマンたちの本音 ~評定データにおける回答スタイルの補正~
- ミニレビュー:「回答スタイル」研究の潮流 ... 2012年頃までの論文を調べて書いた
- Jing & Wang (2014) x件法評定の両端を選んじゃう傾向を、ランダム閾値をいれたラッシュモデルで定量化する
- Schneider(2017) 高齢者の感情評定における回答スタイル・バイアスを多次元項目反応モデルでどうにかする
- 田崎・ 申(2018) x件法尺度への回答スタイルを日米韓で比較する
Jin, K.Y., Wang, W.C. (2014) Generalized IRT Models for Extreme Response Style. Educational and Psychological Measurement. 74(1), 116-138.
原稿の都合で読んだ奴。
回答スタイルをIRTでモデル化する研究としてはde Jong, et al.(2008)というのを読んだことがあるけど、それとどう違うのかを知りたくて読んだ。著者らは香港教育大の人。
この論文では回答スタイルのうち極端反応スタイル(ERS; x件法尺度の両端を選んじゃう傾向)に注目する。
ERSについての先行研究:
- Greenleaf (1992 POQ)
- Van Vaerenbergh & Thomas (2013 Int.J.PublicOpnionRes.) [←やばい、これノーチェックだったかも]
- Hamilton(1968 Psych.Bull.): ERSは性格特性と関係がある
- Johnson, et al.(2005 J.Cross-Cul.Psych.): ERSは発話において明確・正確であろうとするモチベーションと相関する
- Naemi, Beal, Payne(2009 J.Personality): 調査回答が速い人、思考が単純な人はERSが高い
- Kieruj & Moors (2010 Int.J.PublicOpinitonRes.): ERSは選択肢の数に影響されない
- Weijter, et al.(2010 Psych.Methods): ERSは時間的に安定している
- Arce-Ferrer(2006 Edu.Psych.Measurement): 個人特性・社会特性の関連性についての研究
- Baumgartner & Steenkamp (2001 JMR): 同上 [←あれ?たしか俺これ読んでるんだけど、記録が残ってない]
- Chen, Lee, & Stevenson (1995 Psych.Sci.): 同上
- van Herk, Poortinga, & Verhallen (2004 J.Cross-Cul.Psych.): 同上
潜在特性とERSの両方を調べたいとき、その直感的な方略としては、潜在特性を測る項目への反応を別のやり方で得点化するという手がある。たとえばJohnson, et al(2005)は両端の選択肢を選んだ個数をERSの指標にしている。でもそんなやり方では項目特性と個人指標が交絡しちゃう。内容面で多種多様な項目をあっちこっちから集めてきて回答スタイルを測るという手もある。Greenleaf(1992), Weijters, et al.(2010), Weijters, et al.(2008 J.Acad.MktgSci)がそう。でも今度は潜在特性をきちんと測れなくなる。
次の5点に注意する必要がある。(1)ERSの同定には沢山の項目が必要。Greenleaf(1992)だと16項目。(2)ERSの同定の際には選択肢の数が多い方がいい。3件法より7件法のほうが楽。(3)なにをもって極端反応とするか、明確な定義はない。(4)どう定義するかで結果が変わってくる。(5)潜在特性からERSをキレイに除去しないと比較ができなくなる。
というわけで、本研究ではIRTによって潜在特性とERSを分離する。
リッカート尺度を扱うIRTモデルはたくさんある。いくつかご紹介しよう。以下、対象者を$n$, 項目を$i$, 選択肢を$j$とする。
まずはpartial credit model (PCM):
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{ij})$
ここで$P_{nij}$は選択確率、$\theta_n$は潜在特性、$\delta_i$は困難度、$\tau_{ij}$は閾値である。この閾値を$\tau_{j}$としたのがrating scale model(RSM)。他にSamejima(1969)のgraded response modelなどがある。
いずれにせよ、項目パラメータを別にすれば、反応を決めるのは$\theta_n$だけである。
さて、ここにERSを組み込むにはどうしたらよいか。これまでのアプローチを概観しよう。
- 潜在クラスを入れる。Moors(2008 Quality&Quantity), van Rosmalen, et al.(2010 JMR)がこの路線。潜在クラスの番号を$g$として、PCMを
$\log(P_{ngij}/P_{ngi(j-1)}) = \theta_ng - (\delta_gi + \tau_{gij})$
と拡張する。するとたいてい、「閾値のあいだの幅が狭いクラス」というのが出てくる。これがERSが高い人々だということになる。Rost, Carstensen, & von Davier (1997 論文集), von Davier, Eid, & Zickar(2007 論文集)がそう。こういう路線では必ずしも真の潜在クラスを復元できないので注意。Alexeev, Templin, & Cohen (2011 J.Edu.Measurement)をみよ。[←どの論文も題名に"mixture Rash model"と書いている。なるほど、ラッシュモデルの文脈の研究なのか... 急に勉強する気が失せてきた。あの分野はほんとに難しい] - 多次元名義反応モデル。Bolt & Johnson (2009 App.Psych.Measurement), Bolt & Newton(2011 Edu.Psych.Measurement), Johnson & Bolt(2010 J.Edu.Behav.Stat.)がこの路線。参照カテゴリを$R$として、
$\log(P_{nij}/P_{niR}) = \alpha'_{ij} \theta_n + \beta_{ij} \gamma_n + \tau_{ij}$
$\gamma_n$がERS特性で、$\tau_{ij}$が位置パラメータ。欠点は、選択肢の順序性を無視していること、$\theta_n$と$\gamma_n$が補償的関係にあるというのを理論的に正当化しにくいこと。 - 順序プロビットモデルの閾値に異質性をいれる。Johnson(2003 Psychometrika)が提案している。閾値間の幅が多変量対数正規分布に従うと仮定する。ERSの個人差を上手く捉えてはいるけど、ERSを示す傾向そのものを定量化しているとはいえない。[←話の流れ上ディスりたいんだろうけど、いまいち主旨がつかめない...]
- 上と似ているけど、展開型(unfolding)IRTモデルを使うという提案がある。Javaras & Ripley(2007 JASA)。このモデルでは、閾値の個人差が許容される。共通閾値についてのスカラーパラメータと翻訳パラメータから、集団レベルの閾値と個人レベルの閾値を導出する。黙従傾向とERSの両方を定量化できるが、項目反応関数が累積的な場合には固有の理想点unfoldingアプローチは利用できない。実際、多くのリッカート項目は累積的IRTで分析されているので、ERSの累積的IRTモデルを構築することが重要である。[←途中から諦めて写経のようにメモしたけど、正直なんだかさっぱりわからない。そもそも展開型IRTモデルというのがよくわからないし。マーケティングでいうPREFMAPみたいなもんだろうか]
- 項目反応を極端反応とそうでない反応にわけ、普通のIRTモデルをあてはめる。de Jong, et al.(2008)がこの路線。ERS研究としてはいいけど、潜在特性のほうの指標が手に入らない。
- ランダム閾値モデル。我々(Wang et al.,2006 J.Edu.Measurement, Wang & Wu, 2011 J.Edu.Measurement)のアプローチである。PCMなりRSMなり閾値パラメータをランダム効果とみる。RCMなら
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{nj})$
$\tau_{nj} \sim N(\tau_j, \sigma^2_j)$
PCMなら
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{nij})$
$\tau_{nij} \sim N(\tau_j, \sigma^2_j)$
とはいえ、これもERSを直接に定量化しているとはいえない。
以上から得られる結論:(1)閾値をランダム効果とすることで回答スタイルを説明できる。(2)個人のERSを直接に定量化できることが望ましい。
お待たせしました、いよいよ提案手法です。
上記のランダム閾値モデルを次のように拡張する。
ERS-RSM: $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{j})$
ERS-PCM: $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{ij})$
でもって、
$\log(\omega_n) \sim N(0, \sigma^2_\omega)$
とする。$\omega$は閾値の幅を表していて、小さいことはERSの高さを表す。
このモデルはさらに拡張できる。右辺全体に識別力$\alpha_i$を掛けるとか。$\theta_n$を含め全体を多次元化するとか。$log(\omega_n)$を説明する回帰モデルを入れるとか。
推定は、SASのNLMIXEDによる周辺最尤推定で可能。また、WinBUGSでベイズ推定という手もある。本研究では後者を採用する。$\theta$は$N(0,1)$とする。$\sigma^2_\omega$は自由推定し、$1/\sigma^2_\omega$の事前分布を$Gamma(1, 0.1)$とする。
シミュレーション。ERSがある場合とない場合について、ERSを入れたモデルと入れてないモデルを比較する。すいません、読んでないっす。
実データへの適用事例が2件。すいません、読んでないっす。
考察。
提案モデルは真のERSをうまく復元できるし、ほんとはERSがないときにもおかしくならない。
今後の課題:他の回答スタイルへの拡張。すでにリッカート項目への系列的判断をIRTでモデル化した研究がある。Brockenholt(2012 Psych.Methods), Thissen-Roe & Thissen (2013 J.Edu.Behav.Stat.)がある。[←これ、面白そう!!!]
... 先行研究レビューがすごくしっかりしていて、とても勉強になった。疲れたけど、ありがたいことであります。一流のプロによる論文を読んだなあ、という感じ。
残念ながら、Allenby兄貴たちのモデルは引用されていないんだけど、IRTの枠組みに入らないからだろうか(でもJohnson(2003)は引用されているよなあ...)。ま、自分で勉強せえってことでしょうね。
いっぽう、提案モデルについては、ほんっとに申し訳ないんだけど、価値がいまいち理解できなかった。
rating scale modelでいうと、もともと
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{j})$
というモデルがあって、ここに
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{nj})$
$\tau_{nij} \sim N(\tau_j, \sigma^2_j)$
という風に閾値に異質性を入れるというアイデア(著者らの先行研究)と、
$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{j})$
$\log(\omega_n) \sim N(0, \sigma^2_\omega)$
という風に入れるというアイデア(提案手法)があるわけだ。後者のほうが制約がきつい。たったそれだけのことじゃないの? どっちがよいかはデータで決まる問題であって、毎回AICとかで判断すればよくない?
おそらく、ERSを直接に定量化したいという強い動機づけがあるんだと思う($\omega_n$がその答えになっている)。でも、そういう動機づけが生まれる文脈がいまいちわからないのである。回答スタイルにはERS以外にもいろんなパターンがあるわけだから、閾値はできるだけ柔軟にモデル化しといた方がよかないか。その結果、モデルの中にERSに直接に対応する変数がないとしても、別にかまわないんじゃなかろうか。もしどうしてもERSを指標化したいんなら、推定されたパラメータをあとで要約すればいいじゃん。各対象者において$\tau_{nj}$のSDを求めるとかさ?
うーん。たぶん私の発想が甘いというか、文脈を理解できていないんだろうな。
おそらく、著者らにとってERSとは、リッカート尺度に対する回答行動をある視点で見たときに(たまたま両端の選択率に注目したときに)立ち現れる個人差のことではなくて、回答行動の背後に仮定されているひとつの潜在特性なのであろう。だから、たとえば「一般知能というものがある」と信じている人が問答無用で1因子の因子分析をするように、「ERSというものがある」という信念がある以上、モデルのなかにERSを表す潜在特性を入れるべし、ということなのだろう。反応の生成メカニズムそのものに関心を持つ心理学的視点と、生成メカニズムは所与としていかに潜在特性と項目特性を分離するかに関心を持つテスト理論的視点のちがい、という感じかしらん...?
論文:調査方法論 - 読了:Jing & Wang (2014) x件法評定の両端を選んじゃう傾向を、ランダム閾値をいれたラッシュモデルで定量化する
Thissen, D., Steinberg, L. (1986) A Taxonomy of Item Response Model. Psychometrika. 51(4), 567-577.
題名のとおり、IRTモデル(項目反応モデル)の分類を提案する論文。回答スタイルのIRTモデリングについて調べていて、知らない通称がバンバン出てきて嫌になってしまったので、試しに読んでみた。今頃四半世紀前の分類を読んでどうすんだという気もするんだけど...
いわく。ラッシュモデル以来、モデルに人名を付けることが多いんだけど、そういうのやめたほうがいい。Samejimaさんはいっぱいモデル作っているのでSamejimaモデルといわれてもどんなモデルか分からないし[←やっぱそうなのか]、Rasch(1960)は母集団分布のことを考えてなかったから母集団分布を考慮した「傾きが等しいロジスティックモデル」をRaschモデルと呼んでいいのかどうかわからない。
曲線のかたちにちなんでモデル名をつけるのもよくない。関数が同じでもパラメータ制約が違ってたら全然違うモデルになる。rating scale modelとpartial credit modelとか。
というわけで、IRTモデルの分類をご提案します。
[ここで図が入る。下表にまとめておく]
- binary models
- normal ogive (Lawley, Tucker, Lord)
- logistic: 1PL, 2PL (Rasch, Birnbaum)
- splines (Winsberg)
- others?
- difference models
- graded (Samejima)
- divide-by-total models
- partial credit (Masters)
- rating scale (Andrich)
- others (Masters & Wright)
- nominal (Bock)
- left-side added models
- 3PL (Birnbaum)
- 2 paramter (Choppin)
- left side added divide-by-total
- multiple choice (Samejima)
- model 6 (Sympson)
- multiple choice (Thissen & Steinberg)
本稿で言うモデルとは、カテゴリカル反応を得る項目についての、潜在変数の下でのある反応の条件付き確率を記述する数学的関数のこと。潜在変数の母集団分布の扱いについては考えない。パラメトリックなモデルについてだけ考える。いずれのモデルでも、潜在変数の母集団分布についてなんらか特徴づければ、パラメータはparallel marginal ML法で推定できるだろうけど、推定手続きについても考えない。多次元モデルも考えない。
IRTモデルを4つに大別する。
その1、二値モデル。
IRTの始まりは1930-40年代、二値反応の正規累積モデルにまで遡る。Rasch(1960)とBirnbaum(1968)がロジスティックモデルを導入した。Guttman(1950)の決定論的モデルもこの潮流に位置づけられる。Winsberg, Thissen, Wainer(1983)はスプライン関数の導入を提案している。
まあとにかく、二値モデルはもっと複雑なモデルの基盤となるモデルである。
その2,differenceモデル。
Samejima(1969)はIRTを多重カテゴリカル反応へと拡張した。「カテゴリ$k$より上に反応する確率」$P^*(k)$を二値モデルでモデル化するというアイデアである。これは現在"graded responses"モデルとして知られている。結局カテゴリ$k$への反応確率を$P^*(k)-P^*(k+1)$とモデル化しているわけで、ここではこのタイプのモデルをdifferenceモデルと呼ぼう。
このタイプのモデルでは、正規累積関数なりロジスティック関数なりを使う場合、傾きパラメータはすべてのカテゴリで等しくないといけない(でないと曲線が重なってしまう)。もっとも重なりさえしなければいいわけで、たとえばスプライン関数だったらパラメータがカテゴリ間で違っててもよい。
その3.divide-by-totalモデル。
Masters(1982)が提案した"partial credit"モデルは、Samejima(1969)のgradedモデルの代替案である。このモデルでは「反応がカテゴリ$k-1$かカテゴリ$k$であるとして、その下でのカテゴリ$k$」の曲線を考える。SamejimaもMastersも、$m$カテゴリの段階反応項目を$m-1$個の架空の二値項目に分解するという点では同じで、分解の仕方がちがうのである。
Mastersはこの曲線をこうモデル化した。
$\frac{P(k)}{P(k-1)+P(k)} = \{1+\exp[-(\theta-\delta_{k-1})]\}-1$
ただし$\sum_k P(k)=1$。変形すると
$P(k) = \exp[(k-1)\theta - \sum_{j=0}^{k-1}\delta_j] /$ (m個の分子の和)
となる。このタイプのモデルを、ここでは"divide-by-total"モデルと呼ぼう。
[←なるほど... このモデルは結局、$1, \ldots, m$個めの選択肢の効用関数において$\theta$に係数$0, \ldots, m-1$がかかるような多項選択モデルになるわけね。ここは勉強になった。Schneider(2017)が自分のモデルをpartial credit modelと呼んでいた理由がわかった]
このタイプのモデルは、Bock(1972)の名義反応モデル
$\displaystyle P(k) = \exp[z_k(\theta)] / \sum_h^m \exp[z_h(\theta)]$
$z_h(\theta) = a_h \theta + c_h$
の一種である。もともとBockは
$\sum z_h(\theta) = 0$
と制約しようと思っていた。これは要するに$\sum a_h = \sum c_h = 0$ということである。いま$\alpha, \gamma$を長さ$m-1$の無制約なパラメータベクトルとすれば、$(m-1)\times x$の対比行列$T_a, T_c$をつかって
$a' = \alpha' T_a, c' = \gamma' T_c$
と書き直すことができる。さて、上で述べたpartial creditモデルは
$T_a = [0,1,2,\ldots,m-1]$
で$\alpha$はスカラーだというモデルになる。
[...ここから、過去のいろんな提案をこのモデルの拡張として説明する。たぶんこの論文でいちばん力が入っている部分で、3頁ほど続くんだけど、ぼけーっと読んでたらわけわかんなくなってきちゃった。あきらめて省略する。必要になったら!勉強すればいいさ!]
"divide-by-total"モデルと"difference"モデルの関係について。
単純に言っちゃうと、この2つは異なるパラメトリックなクラスに属する。"difference"モデルは$k$より右の確率について
$\displaystyle P^*(k) = \sum_{h=k}^m P(h) = \frac{\sum_{h=k}^m \exp [z_h(\theta)]}{\sum_{h=1}^m \exp [z_h(\theta)]}$
とモデル化している。この曲線は二値ロジスティックでない。
別の言い方をすると、"difference"モデルを代数的に"divide-by-total"形式に書き換えることはできる(Master(1982)はSamejima(1969)の書き換えになっている)。どんな多重カテゴリモデルであれ、"difference"形式でも"devide-by-total"形式でも表現できる。でも、一方で簡単にかけると他方では簡単にかけない。
その4、left-side addedモデル。
最初の提案はBirnbaum(1968)の3パラメータ・ロジスティックモデル。このモデルは結局、2パラメータ・ロジスティックモデルを$2PL$として
$3PL = 2PL + c(1-2PL)$
となる。「ほんとは知らない」確率に$c$を掛けた奴でもって、曲線の左のほうをちょっと上にあげるわけなので、ここでは"left-side added"モデルと呼ぶ。
そのほかの定式化としては、Choppin(1983)の提案があって[...略]
その5. left-side added multible catogoryモデル。
当て推量パラメータ付きのモデルを多カテゴリへと拡張する提案としては[...略。すいません、当面関心ないもので]
云々。
... ちょっと頭の整理になったけど、そのぶんかえってわからないことが増えてしまった... 前にMuthen導師のテクニカル・ペーパーを読んだときは「おお!わかったぞ!」と思ったのに...
順序反応変数$y$をモデル化するとき、その背後に連続変数$z$を想定し、$z$が閾値1と閾値2の間におちたら$y$は2になる、という風に考えることがあるじゃないですか。そういうのはdifferenceモデルに分類されるのだろうか($z$が正規分布に従うなら$P(y \geq k | z)$が正規累積曲線になるから)。いや、でもそれは閾値の設定次第? 仮に閾値に等間隔性の制約をいれたらpartial creditモデルにも書き換えられるってこと? あれ???
この辺の話、なにも86年の論文を読まなくても、私くらいのレベルの素人向けの、日本語の参考書がありそうだな...
論文:データ解析(2018-) - 読了:Thissen, & Steinberg (1986) いろんな項目反応モデルを分類する体系についてのご提案
田崎勝也, 申知元(2018) 日本人の回答バイアス:レスポンス・スタイルの種別間・文化間比較. 心理学研究. 88(1), 32-42.
仕事柄、調査票への回答スタイルの問題にはそれなりに関心があるんだけど(数年前に業界誌に紹介記事も書いた。すっごく大変だったけどなんの反応もなかった)、なんと!日本人の回答スタイルについての新しい実証研究が出ていた。しかも心理学研究に。正直、日本語の学術誌のほうがチェックから漏れやすい。
というわけで、原稿準備の途中で読んだ論文。第一著者の方は青学の教授で(心理じゃなくて国際政治経済学部というところ)、文化心理学がご専門らしい。回答スタイルの論文としてはすでに田崎・二ノ宮(2013, 社心研)がある。
注目する回答スタイルはacquiescence(ARS; いわゆるyea-sayer)、両端反応(ERS)、中間反応(MRS)の3つ。
先行研究:
- Chen, Lee, Stevenson(1995): 日本人はMRSが高い。
- 米村・松田(1991, 社心発表): 同様。
- 山岸・小杉・山岸(1996, 社心研): ARSに日米差なし。
- Harzing(2016, Int.J.CrossCulturalMgmt.): 26ヶ国調査。日本人はARSが低い。
- Johnson, Kulesa, Cho, Shavitt (2005 J.Cross-Cultural Psych.): Hofstedeの文化次元との関連を検討。ARSは個人主義、権力格差、不確実性回避、男らしさと負の相関、ERSは個人主義、男らしさと正の相関。
- Shiomi, Loo(1999, Soc.Behav.Personality): カナダと日本でERSに差なし。
- Lamm, Keller (2007 J.Cross-Cultural Psych.): 子育て中の母親の国際調査。集団主義的環境の母親のほうがERSが高い[←へええ?]
[あれ...なんでde Jong et al.(2008)を挙げないのかなあ]
方法。
日米韓の学生を対象者とする。注目する項目は、コミュニケーション不安尺度、議論志向性尺度、外国人・移民に対する質問群。全部5件法、いずれも反転項目が入っている。
分析対象は計51項目。これをランダムに3群にわける(各群17項目)。で、各群における回答{4,5}の割合をARS変数、{1,5}の割合をERS変数、3の割合をMRS変数とする。で、3つのARS変数を指標に持つARS因子, 3つのERS変数を指標に持つERS因子、3つのMRS変数を指標に持つMRS因子を考える(負荷はひとつを1にしてあとは自由推定する)。これはWeijiters et al.(2008, J.Acad.MarketingSci)のやり方なのだそうだ。なお、国を群にした多母集団モデルを組んんだがDIFはなかった由。
さて、3つの因子の得点を推定し、それを目的変数にしてANOVAをやる。要因は、国籍、バイカルチャー度(自己観が独立的かつ依存的である人をバイカルチャーと呼んでいる)、3因子のうちどれか(被験者内要因と捉える)、の3つ。[えええ... 上のCFAモデルに突っ込んで同時推定しないんだ... へぇー...]
結果。日韓は米に比べMRSが高かった。云々。
[省略するけど、国のなかで3つの因子得点の平均を比較するという分析をやっている。なるほど、それで3要因ANOVAなのか。著者の先生によれば、この研究では回答スタイルの種別間の比較と文化間の比較を回答スタイル研究の「両輪と捉え、比較対象に多様性を持たせるためことで日本人RS[回答スタイル]の全体像の把握を試みた」とのこと。でも因子得点の因子間比較って、要は「日本の回答者が{4,5}を選ぶ確率と{1,5}を選ぶ確率とではどっちが高いか」というようなことを調べていることになるんじゃないかしらん。それは項目内容次第なわけで、正直なところその問いが持つ意味が私にはよくわからない。仮にそれが意味を持つとして、3つの因子得点の平均差ををこういう風にANOVAで検定できるものかどうかもよくわからない(元になっているARS変数, ERS変数, MRS変数はそもそも独立でない)。なにか理解し損ねているのかもしれない]
考察。
回答スタイルの統計的制御は大事。この論文はWeijter et al.(2008)のモデルを使ったが、ほかにBillet & McCledon(2000, SEM)というのもある。
云々。
...日本人の回答スタイルについての実証研究が増えるのはとてもありがたいです。あ、そうだ、バイカルチャーな人とそうでない人を比べるというところも面白かった。ニスベットみたいに、バイカルチャーな自己観を持つ人にどっちかの文化的枠組みをプライムする刺激を見せたら、そのあとの調査票の回答スタイルが変わっちゃったりなんかすると面白いんだけどなあ。
この論文では、ERS, ARS, MRSをわりかし素朴に得点化してから分析しているけど、回答そのものを順序尺度とみて、閾値に個人差を想定する階層モデルを組んだらどうなるか、比較してみたいところだ。
論文:調査方法論 - 読了:田崎・ 申(2018) x件法尺度への回答スタイルを日米韓で比較する
Schneider, S. (2016) Extracting Response Style Bias From Measures of Positive and Negative Affect in Aging Research. The Journals of Gerontology: Series B, 73(1), 64–74,
原稿の準備で読んだ。調査項目への回答スタイルを階層ベイズモデルで扱っている奴がないかなあと思って(もっとぶっちゃけていうと、RかMplusでどうにかしている奴はないかなあと思って)。結局は階層ベイズじゃなかったけど、Mplusでできる分析ではある。
この論文、新幹線に揺られながら頑張って読んだのに、メモを保存し損ねてしまったのである...ガッデム...
読み直すのも面倒なので、前半をひとことで要約すると、要するに、ポジティブ感情・ネガティブ感情への調査項目群と加齢との関係を調べるとき、回答スタイルを考慮するとどうなるかを既存データで調べましたという話である。トシを取るとネガティブ感情を感じにくくなるとかいう話もあるけど、いっぽう年寄りってのは調査項目に関わらずx件法尺度の両端に付けがちだという先行研究もあってだね...とかなんとか。
HRS(Health and Retirement Study)というUSの大規模調査への高齢者の回答のうち、ポジティブ感情13項目、ネガティブ感情12項目に注目する。項目はたとえば「過去30日間、あなたはどのくらい恐怖を感じましたか」というような奴で、いずれもnot at allからvery muchまでの5件法。
回答スタイルとして5件法の端を選ぶスタイルに注目し、後述する方法で、各対象者の回答スタイルの得点を求める。ポジティブ感情項目群とネガティブ感情項目群とで別々に得点を求めた[←うそー。一発でやればいいのに...]。モデルには年齢を入れず、まず回答スタイルの得点を推定してからあとで回帰した[←測定と構造の同時推定はやらないわけだ。この論文のテーマであれば私もたぶんそうするけど、ちょっと悩むところではあるし、ご批判があるかもしれない]。
関心があるのは論文の主旨より、むしろ回答スタイルを定量化する方法のところなので、ここで本文から離れ、Supplemental materialの説明からメモを取っておく。
えーと、どうやるかというと、項目をいったん名義尺度とみて[←順序尺度ではない]、多次元IRT(MIRT)のモデルを組むのである。以下、原文の添字の使い方がちょっとうざいので、適宜変更する。
ある対象者が項目$i$において選択肢$x$を選ぶ確率を
$P_{ix} = \exp(c_{ix} + a_{ix} \theta) / \sum_k \exp(c_{ik} + a_{ik} \theta)$
とモデル化する。$\theta$がポジティブ感情因子。$a_{ix}$が選択肢の傾きというか因子負荷であり、なんと、$i$を問わず
$a_{ik} = k - 1$
としてしまう。5件法だったら負荷を(0,1,2,3,4)に固定してしまうのだ。 おおっと、こりゃあ意外に単純だね。 こういうのをpartial credit modelと呼ぶ由。Masters(1982 Psychometrika)をみよとのこと。
ここに回答スタイルを表す因子を追加する。(1)因子なし、(2)因子を一つ入れて負荷は自由推定、(3)「両端に反応する」因子をいれる、(4)「右端に反応する」因子と「左端に反応する」因子を入れる、の4つのモデルを試す。最後のケースなら、負荷はそれぞれ(0,0,0,0,1), (1,0,0,0,0)。
こういう話はMplusのコードをみたほうが早い。ポジティブ感情13項目、モデル(4)の場合のMplusコードは以下の通り(抜粋)。
Mplusでは値が最大であるカテゴリが強制的に参照カテゴリになるので、あらかじめnot at allが5になるように反転してコーディングしといた由。こうすると、負荷(4,3,2,1,0)を持つ因子がポジティブ感情因子になり、負荷(-1, -1, -1, -1, 0)を持つ因子が低反応因子になる。なるほど。
VARIABLE:
[...中略...]
NOMINAL ARE p1-p13;
ANALYSIS:
ESTIMATOR = ML; PROCESSORS = 6;
MODEL:
PA by p1#1-p13#1@4 p1#2-p13#2@3 p1#3-p13#3@2 p1#4-p13#4@1;
HIEXTR by p1#1-p13#1@1;
LOEXTR by p1#1-p13#1@-1 p1#2-p13#2@-1 p1#3-p13#3@-1 p1#4-p13#4@-1;
PA with HIEXTR @0; PA with LOEXTR @0; HIEXTR with LOWXTR;
PAがポジティブ感情因子、HIEXTRとLOEXTRが回答スタイル因子。びっくりするぐらい簡単なコードである。多次元IRTとはいうけれど、それは回答スタイルが多次元だという話であって、実質的な潜在変数はPAひとつきりなのだ。
PAとHIEXTR, LOEXTRの相関を0に固定しているけど、ここは推定してもあんまり高くならなかった由。
本題に戻って...
結果。
AIC, BICをみると、ポジティブ・ネガティブともに、モデル(1)より(2)が良く、しかし(3)になると悪くなり、(4)にするとましになった。つまり「右端に反応する」因子と「左端に反応する」因子はわけた方がよい。以下、(4)を採用する[←表をみると、ネガティブ項目群では(4)より(2)のほうが適合が良いんですけど??? この点説明がないような気がするが、読み落としたかなあ]
年齢に回帰すると、{ポジ,ネガ}x{右端,左端}のすべてで正の回帰係数が得られた。年齢をコントロールして認知能力で回答スタイルを説明するパスモデルを組むと、4つすべてで認知能力への負の回帰係数が得られ、年齢はそれほど効かなくなった。ほかに、既婚者、高学歴、白人で回答スタイル因子が低く、ヒスパニック、女性でポジ感情の回答スタイル因子が高かった。[...中略...]
ポジ感情・ネガ感情の回答スタイル除去後スコアの収束的・予測的妥当性を調べるため、一緒に訊いてたCES-Dとか、追跡調査における入院有無とかを目的変数にした階層回帰モデルを組んだ。[面倒くさいので省略するけど、除去してよかったねという話。でも劇的な改善ってわけじゃなさそうだ]
考察。[...大幅に中略...]
本研究の限界: (1)うつと心的疾患をCES-Dとかで押さえたんだけど、これも自己報告だし、調査様式の効果が入っちゃっている。(2)認知能力と感情を同時に横断で調べている。ほんとは縦断でやりたい。(3)MIRTによる回答スタイルの評価についてはもっと別の領域でも試すべき。
云々。
... 正直なところ、感情と加齢というこの論文の本筋には全然関心がなくて、どうやって回答スタイルを推定したのかというところだけ知りたくて読んだ。
うーん... これって要するに、5件法尺度における各段階の等間隔性は所与にしているわけだ。その意味では、5件法リッカート尺度への反応を量的変数と見なして分析するのと変わらない。むしろ、5件法尺度を順序尺度とみなして、4つの閾値を集団レベルで自由推定するモデルを組み、モデル(1)と比べてほしかった。ま、自分でやれってことでしょうけど。
[2018/01/09追記: Thissen & Steinberg (1986)を読んでからこのメモを読み返し、上のくだりは私の思い違いであることに気が付いた。$c_{ix}$を推定していることを見落としていたぜ]
回答スタイルの研究を読んでいるときいつも思うことだけど、たぶん回答スタイルというのは状況に対して非常に敏感なものだろうから、「この質問紙でこういう回答スタイルが推定されました」「回答スタイルは××と相関していました」といわれても、どこまで一般化できるか怪しいところだよなあ。
MIRTによる 回答スタイル研究として挙げられていた論文をメモ: Bolt & Johnson(2009 App.Psych.Measurement), Falk & Cai (in press, Psych.Meth.), Morren, Gelissen, & Vermunt (2001, Sociological Meth.), Huggins-Manley & Algina (2014, SEM)。
論文:調査方法論 - 読了:Schneider(2017) 高齢者の感情評定における回答スタイル・バイアスを多次元項目反応モデルでどうにかする
« 2017年12月 | メイン | 2018年4月 »