読了: Bockenholt (2004) 比較判断で推定した効用に原点を持たせるための3つの工夫

Bockenholt, U. (2004) Comparative Judgments as an Alternative to Ratings: Identifying the Scale Origin. Psychological Methods, 9(4), 453-465.
 仕事の都合で悩むことがあって、なにかの足しになるかと思って読んでみた奴。
 比較課題や順位付け課題でもって刺激の効用というか評価を定量化したとき、常識的に考えるとその値の絶対的な大きさには意味がないんだけど、いやいや工夫すれば絶対的な大きさに意味を持たせることもできるんですよ、という論文。

 いわく。
 選好とか価値とか態度とかを項目の一対比較とか順位付けで調べる場合、相対的な程度はわかるけど、どの項目がどのくらい魅力的かはわからない。というわけで、長年にわたって研究者たちは、評定のような絶対的判断だけが尺度の原点についての情報を持っているのだと考えてきた。
 しかし、比較判断からでも原点はわかる。本論文ではその3つのアプローチを紹介する。
 [評定尺度じゃなくて比較判断を使うことのメリット。中略]

一対比較データの尺度原点問題
 完備実験の場合、被験者は \(J(J-1)/2\)個のペアについて項目を選択するように求められる。一対比較モデルをランダム効用の観点から解釈すると、被験者はまず2項目の効用を求め、次に効用が高い項目を選ぶ。同じペアでも違う回答をするかもしれないから偶然誤差項をいれる。というわけで、対象者\(i\)が項目\(i, j\)に対して示す潜在的アウトカムを$$ y_{ijk} = \mu_{ij} – \mu_{ik} + \epsilon_{ijk}$$ とする。\(\epsilon_{ijk}\)はペア間で独立とする。\(\epsilon_{ijk}\)が\(N(0, \sigma^2)\)に従うと仮定するならばThurstonのCase Vモデルとなり、ロジスティック分布だとすればBradley-Terry-Luceモデルになる。
 潜在的判断\(y_{ijk}\)を離散反応尺度にマップしないといけない。BTLモデルでは\(\Psi(\cdot) = 1/(1+\exp(-(\cdot)))\)として $$ Pr(y_{ijk} > 0) = \Psi(\mu_{ij} – \mu_{ik}) $$ Thurstonianモデルでは\(\Phi\)を標準正規分布関数として $$ Pr(y_{ijk} > 0) = \Phi( (\mu_{ij} – \mu_{ik}) / \sigma_{jk} )$$ となる。
 対象者の潜在判断のベクトルについて$$ \mathbf{y}_i = \mathbf{A} \mathbf{\mu}_i + \mathbf{\epsilon}_i $$ と書こう。\(\mathbf{\mu}_i\)は\(J\)個の項目パラメータのベクトルで、\(\mathbf{A}\)はどれとどれを比較したのかを示す計画行列である(要素は0, 1, -1のいずれかで、ある行は1をひとつ、-1をひとつ持つ)。
 \(\mathbf{\mu}_i\)に個人差があると考えるのが当然であることが多い。その場合、平均ベクトル\(\mathbf{\mu}\), 共分散行列\(\Sigma\)のMVNに従うと考えることが多い。もっともMVNというより混合正規分布を考えた方が良い場合もある。

 さて。
 比較判断において尺度原点問題が生じるのは、観察されているのが項目の評価の間の差だけだからだ。早い話、\(\mu_{ij}, \mu_{jk}\)に一律に\(c\)を足しても\(y_{ijk}\)は変わらない。
 そこで、最後の項目\(J\)について\(\mu_{iJ} = 0\)とし、計画行列の最後の列を削るという方法が登場する。パラメータは減ってありがたいが、解釈は大変である。\(\Sigma\)の\(j\)番目の対角要素\(\sigma_{jj}\)は、いまや\(\mu_{ij}\)ではなくて\(\mu_{ij} – \mu_{iJ}\)の個人間分散を表現することになる。全項目の共分散行列を\(\Omega\)とするなら$$ \sigma_{jj} = \omega_{jj} + \omega_{JJ} – 2\omega_{jJ}$$ である。\(\Sigma\)を分析する際には、どの項目を参照項目にしたかという決定に依存しないような分析をしないといけない。ふつうに考えたら\(\Sigma\)から\(\Omega\)を復元することはできない。
 なんとかして\(\Omega\)を推定する方法はないだろうか?

比較判断の尺度原点を決定する
 3つのアプローチを紹介する。

アプローチ1. 絶対判断と相対判断を結合する
 絶対判断と相対判断が同じ項目尺度値を提供すると仮定し、絶対判断と相対判断を組み合わせる。
 項目\(j\)についての潜在的な絶対判断を$$ y_{ij} = \eta_{ij} + \epsilon_{ij} $$ とする。たとえばすべての\(j\)についてこれを得て、一対比較のモデルに叩き込む(計画行列に、1をひとつ持ち他はすべて0という行が追加されるわけだ)。さすがにペアの誤差項の分散と絶対判断の分散は変えてあげる。
 こうすれば計画行列はフルランクになる。その意味ではどれか1項目だけ追加すればいいのだが、仮定の検証のため、複数項目について(できれば全項目について)絶対判断を得ておいたほうがよい。\(j\)と\(k\)について得れば$$ H_0: \eta_{ij} – \eta_{ik} = \mu_{ij} = \mu_{ik}$$についてモデル比較で検定できる。
 [いやいやいやいや… それはナイわ。自分の仕事の文脈でいうと、わざわざ一対比較を使うのは伊達や酔狂ではなく、国際調査なので反応スタイルの文化差が怖いとか、社会的望ましさバイアスが洒落にならないような項目内容のせいで、評定回答がどうにも信用できない場面に限られる。こうして評定と比較を併用してしまったのでは元の木阿弥ではないですか]

アプローチ2. 尺度の原点をアプリオリに決める
 たとえば現状維持にあたる項目をゼロにする。ほら、最近では判断というものは参照点に依存するっていわれてるじゃないですか[と、Kahnemanを引用している]。
 ふたつのくじを選ばせる課題について考える。くじ\(j\)は確率\(p_s\)であたりくじ\(k\)は確率\(p_u\)であたる。くじだからあたりは利得で、なにももらえないのが現状維持だと考えられる。現状維持の評価を\(\mu_{i0}=0\)とすると、2つのくじの効用の比較は$$ y_{ij(p_s)k(p_u)} = p_s \mu_{ij} – p_u \mu_{ik} + \epsilon_{ij(p_s) k(p_u)}$$ リスク下決定であることを明確にするため、添字の後ろにかっこをつけて確率をつけている。\(mu_{ij}\)は現状維持からのずれをあらわす。
 項目が3つあるとしよう。$$ \mathbf{y}_i = \mathbf{A} \mathbf{\mu}_i + \mathbf{\epsilon}_i $$の\(\mathbf{\mu}_i\)は3つの項目の効用のベクトル。まず単純な一対比較を3試行やる。計画行列\(\mathbf{A}\)に3行できる(各行は1をひとつ、-1をひとつ、0をひとつ持つ)。さらに、たとえば「項目1が確率0.8でもらえる(0.2でなにももらえない)のと、項目2が確率0.2でもらえる(0.8でなにももらえない)のとどちらがよいか」というように聞く。計画行列には(0.8, -0.2, 0)という行が追加される。こうやって計画行列をフルランクにできる。
 このやりかたは、リスク下選択でもリスク下でない選択でも効用が同じ、という仮定に基づいている。この仮定についても検討できる。上のモデルと、リスク下選択でもリスク下でない選択では効用が異なるというモデルを比較すれば良い。
 [うーん、これもナイなあ。項目に確率を付与してどちらのくじを選ぶか訊けるのは、モノの魅力度を測定しているときくらいではないだろうか。それに、仮にくじ選択にするのが不自然でないとしても、対象者がみなリスク中立だという仮定は強すぎるように思うし、モデル比較でその仮定を正しく棄却できるのかどうかわからない。実はリスク選好に個人差があるけれど、効用の平均がリスク下とそうでないときで同じと仮定する倹約的なモデルを棄却できない、ってことがありえますよね。そのとき、効用推定がリスク選好の個人差を無視したことによるartifactになっている、ということが起こりそうだ。たしかそういう論文ありませんでしたっけ、Tverskyらがのくじ選択で価値関数を検証する有名な実験は、リスク選好性の個人差を無視した集計によるartifactをみていて、個人ごとによくみると実はいろんな価値関数があるんだ、的なの]

アプローチ3. 項目バンドルについての判断から尺度の原点を推論する
 項目の比較だけじゃなくて項目のバンドルの比較もおこなう。たとえば誕生日プレゼントが5つあるとして、一対比較だけなくて2つの組み合わせを比較する、とか。
 人は複数の項目をどのように評価するのかという問題については、心理学と経済学で長い研究史がある。Luce(2000)はこうした研究をjoint receipts研究と呼んだ。
 以下では、もし項目バンドルの全体的評価を、個々の項目の評価の所与の関数によって予測できるならば、項目の尺度の原点を決定できると言うことを示す。ここでは項目の効用が加算的に組み合わされる関数に注目する。多くの応用場面において加算的関数は少なくとも近似的には維持できるだろう。もっと一般に維持できるとはいえないし、可能ならば実証的検証が必要だけれども。
 \(i\)さんが項目\(l\)と項目バンドル\((jk)\)を比べて選好判断したのを\(y_{il(jk}\)とする。$$ y_{il(jk)} = \mu_{il} – \mu_{i(jk)} + \epsilon_{il(jk)}$$である。項目が3つあるとして、$$ \mathbf{y}_i = \mathbf{A} \mathbf{\mu}_i + \mathbf{\epsilon}_i $$ の\(\mathbf{\mu}_i\)のところに、項目の効用(3個)と項目2個の組み合わせの効用(3個)をいれて計画行列をつくる。[本文の式に誤植があるように思う。計画行列は通常と同じく、各行に1がひとつ, -1がひとつ, 残りはゼロのはずだ]
 この計画行列はフルランクでない。そこで今度は$$ H_0: \mu_{i(jk)} = \mu_{ij} + \mu_{ik} $$ と仮定する。すると\(\mathbf{\mu}_i\)のところには項目3つの効用を入れればよくて、計画行列はフルランクになる。
 [うーん、ナイな… 申し訳ないけどこれもちょっと考えにくい。項目バンドルの効用が項目の効用の和ダという仮定は強すぎると思うが、それ以上に、項目バンドルの比較というのが不自然であるような文脈が多いのではないか]
 [研究例の紹介。パス]

考察
 いずれのアプローチも判断過程についての仮定に基づいている。幸いなことにそれぞれのアプローチにおいて、基盤となる仮定をモデル比較の観点から検証できる。このように、尺度原点の同定という問題はひとつの仮定の検証としてみることができる。
 云々。
————
 読み始めたときは「これだよ!こういう話が読みたかったのよ!」と思い、最後まで目を通さずにいきなりメモを取り始めたのだけど、途中で著者の言う3つのアプローチの全貌があきらかになった段階で、「うーん、ごめん!いまそういう話が読みたいわけじゃないのよ!」という気分になった。人生ままならないなあ。

 ところで、イントロで「評定尺度でも評定段階の捉え方はは対象者によって異なる」という話が紹介されていて、この問題についてはKrosnick & Fabrigar (in press) “Designing great questionnaires: Insights from psychology”, OUP. が広範にレビューしている、と述べている。そんなのがあったらぜひ読んでみたいが、しかしこの書籍はみあたらない。おそらく、Krosnickさんのwebサイトで”The handbook of questionnaire design”というタイトルでin pressとされているのがそれだと思うんだけど、しかしこれ、ほんとに出版されるのだろうか? 2004年段階でBockenholtさんは原稿を読んでたのに、いまだ出版されてないってことですよね…