elsur.jpn.org >

« 読了:Stern(1990) 一対比較データを扱ういろんなモデルを「2つの刺激がそれぞれ謎の得点を稼いでいきある得点に先に達したほうの刺激が勝つのだ」モデルで包括的に説明する | メイン | 読了:Loffler (2014) 高級車の消費者支払意思額をPSMとコンジョイント分析で比較する »

2017年8月24日 (木)

引き続き、論文のメモを記録しておく。このへんまで、たぶん5月頃に読んだ奴だと思う。

Agresti, A. (1992) Analysis of Ordinal Paired comparison Data. Journal of the Royal Statistical Society. Series C (Applied Statistics), 41(2), 287-297.
 先日読んだレビュー論文で、一対比較への段階反応データについての隣接カテゴリロジットモデルというのが紹介されていて、よく意味がわからなかったので、引用文献を辿って読んでみた。

 いわく。
 処理$h$と$i$を比べたとき、$i$が選好されることを$Y_{hi}=1$, $h$が選好されることを$Y_{hi}=2$とする。Bradley & Terry (1952)のモデルは
 $\displaystyle \log \frac{P(Y_{hi} =1)}{P(Y_{hi} =2)} = \mu_i -\mu_h$
で、これは
 $\displaystyle P(Y_{hi}=1) = \frac{\exp(\mu_i)}{\exp(\mu_i)+\exp(\mu_h)}$
とも書ける。このへんの歴史に関心をお持ちの向きはDavid(1988, 書籍)あたりを見るがよろしい。
 さて、BTモデルをタイあり比較(つまり3件法)へと拡張する試みは60年代からある。では、これを5件法とか7件法とかに拡張する方法について考えよう。

 処理の数を$I$, 順序反応カテゴリ数を$J$とする。処理$h$と$i$を比べた反応を$Y_{hi}$とする。尺度は対称だ ($Y_{hi}=j$なら$Y_{ih}=J-j+1$だ) と仮定する。

 その1, 累積リンクモデル。
 連続潜在変数$Y^*_{hi}$と、それを反応$Y_{hi}$に変換するための閾値$\alpha_1, \ldots, \alpha_{J-1}$ (小さい順) を考える。さらに、処理への潜在的評価$Y_h, Y_i$を考え、$Y^*_{hi} = Y_h - Y_i$と考える。そして、各処理の効用パラメータ$\mu_i, \mu_h$を考え、$Y_h-\mu_h, Y_i-\mu_h$は比較によらず同一の分布にしたがうと考える。すると、
 $Z = (Y_i - \mu_i) - (Y_h - \mu_h)$
は比較によらず同一の分布に従い、
 $\alpha_{j-1} - (\mu_h - \mu_i) < Z < \alpha_j - (\mu_h - \mu_i)$
のときに$Y_{hi}=j$だってことになる。$Z$の累積分布関数を$F$とすれば
 $F^{-1}(P(Y_{hi} \leq j)) = \alpha_j - (\mu_h-\mu_i)$
である。
 $F^{-1}$をロジットリンクにすると、$J=2$ならばBradley-Terryモデルになる。$F^{-1}$をプロビットリンクにすると、$J=2$ならばThurstone-Mostellerモデルとなる。

 その2、隣接カテゴリロジットモデル。
 反応$j$と$j+1$にだけ注目する。上記と同様に、反応は$Z+\mu_i-\mu_h$で決まっているのだと考えて
 $\displaystyle \log \frac{P(Y_{hi}=j)}{P(Y_{hi}=j+1)} = \alpha_j - (\mu_h -\mu_i)$
これを書き換えると
 $\displaystyle \frac{P(Y_{hi}=j)}{P(Y_{ih}=j)} = \exp((J+1-2j)(\mu_h -\mu_i))$
つまり、たとえば7件法だとして、$\exp(2(\mu_i-\mu_h))$は回答3 vs 5のオッズ、その2乗は回答2 vs 6のオッズ, 3乗は1 vs 7のオッズだということになる。累積リンクモデルより解釈しやすい。

 ... ここからは、推定方法の話、事例、比較に独立性がない場合の話。読みたいところが終わっちゃって急速に関心が薄れたので、パス。

 なあんだ、隣接カテゴリロジットってそういう話か、と納得したのだが(隣接する2カテゴリの下での条件付き確率のロジットを効用の線形関数とみるわけね。結局ベースライン・カテゴリを決めたロジットモデルと同じことだ)、Agrestiの分厚い本を見たら、順序カテゴリデータの章にちゃんと書いてあった。なんだかなあ。手持ちの教科書をちゃんと読めという話である。

 素朴な疑問なのだが... 消費者調査で、刺激セットの総当たり対について選好判断を繰り返すとき、恒常和法で聴取することがある。ここに(たとえば)10枚のチップがあるとして、好きなほうにより多くのチップを置いてください、という訊き方である。
 テクニカルにいえば、この回答は刺激対に対する0~11の11件法評定だと考えて分析することもできるし、独立に行った10回の試合の勝敗集計だと捉えて、ThurstonモデルなりBradley-Terryモデルなりを当てはめることもできる(そういう事例を見たことがあるし、ここだけの話、自分でもやったことがあります)。でも正直なところ、後者のアプローチにはかなり抵抗がある。あるペアに対するチップの置きかたが、あるパラメータの二項分布に従っていると考えていることになるわけで、ちょっと仮定が強すぎるように思うわけである。
 でも考えてみると、チップの置きかたを11件法評定だと捉えて累積リンクモデルなり隣接ロジットモデルなりを当てはめたとしても、それはそれで強い仮定が置かれている。どちらのモデルでも閾値は左右対称だし、$Z$(効用の差と潜在評価の差とのずれ)にはなんらかの確率分布が仮定されている。つまり、あるペアに対するチップの置きかたが、あるパラメータの正規分布だかなんだかに従っていると考えているわけで、結局のところ五十歩百歩なんじゃないかしらん。
 実のところ、10枚のチップの置きかたと効用差との関係は、回答生成の心的過程に関わる実質的な問題で、心理実験で調べるべき問題なんじゃないかと。そういう研究があるといいんだけどなあ。

論文:データ解析(2015-) - 読了:Agresti(1992) 一対比較への順序尺度型回答を分析するための2つのモデル

rebuilt: 2020年4月20日 18:54
validate this page