読了:Mattos & Ramos (2021) 一対比較データのベイジアンBradley-TerryモデルをStanで推定するbpcsパッケージというのを作ったよ

Mattos, D.I., Ramos, E.M.S. (2021) Bayesian paired comparison with the bpcs package. Behavior Research Methods.
 題名のとおり、一対比較データをベイジアンモデルで分析しますという話。Rのbpcsパッケージの解説である。なにがどうベイジアンなのかを知りたくて目を通した。

 いわく。
 一対比較は個人中心的に用いられている場合と刺激中心的に用いられている場合とがある。個人中心的な場合についてIRTを使うモデルが提案されている。いっぽう刺激中心的な場合はBradley-Terryモデルが有用で、拡張の提案も多い。しかしたいていは最尤法で頻度主義的に推定している。
 本論文はBTモデルをベイズ推定する方法を提案します。
 [ベイジアンだとどういう良いことがあるか… メモ省略]
 でもって、bpcsパッケージをご紹介します。パッケージ名は「ベイジアン一対比較をstanでやる」の略。

 先行するソフトとしては…

  • Johnson & Kuhn (2013 BRM): ランキングのThurstonian modelをJAGSで推定
  • Caron & Doucet (2012 J.Comp.GraphicalStat.): BTモデルをGibbsサンプラーで推定
  • sportパッケージ。系列的一対比較のGlickoモデル, Glicko2モデル, ベイジアンBTモデルを推定できる。[Glickoって? Glickman(2001 J.App.Stat.)というのがreferされている]
  • pcFactorStanパッケージ。BTモデルをベイジアンIRTで推定。[へええ。どうやら項目効用のEFAモデルを考えるらしい。使えるかも]
  • thurstonianIRTパッケージ。Brown & Maydeu-Orivares(2011 Edu.Psych.Measurement), Brown(2016 Psychometrika)のモデルで、バックエンドとしてMplusとかlavaanとかStanとかが使える。[←うおおおお。こないだ読んだ、一対比較をCFAとみて推定しますって話じゃんか! そんなパッケージがあったとは!]
  • PLMIXパッケージ。Plackett-Luceモデル(BTモデルを含む)の有限混合版をGibbsサンプラーで推定。
  • Corff, Lerasle, & Vernet (2018, arXiv): random環境におけるベイジアンBTモデルの事後分布をノンパラGibbsサンプリングで推定。[なんのことだかわからんな]
  • Seymour et al.(2020, arXiv): BTモデルを空間データに拡張。[へえええ?]

 モデルについて。
 源流は比較判断のThurstone法則に遡る。Case I では、2つの刺激の差の評価のためにはすべての刺激のばらつきと刺激間相関についての推定なり知識なりが必要になる。Case Vでは、ばらつきは等しくて無相関だと仮定される。Thurstone-Mostellerモデルとか、単にThurstoneモデルと呼ばれることもある。
 BTモデルはThurstone-Mostellerモデルと似てるんだけど、刺激間の差が正規分布に従うんじゃなくてロジスティック確率変数だと仮定する。結果はたいして変わらないし、計算が楽である。我らがbpcsパッケージはBTモデルの拡張である。

 以下の説明のために用語を導入しよう。比較対称となる項目とか刺激のことをプレイヤーと呼ぶ。比較判断をする人のことを被験者と呼ぶ。ある被験者があるプレイヤーペアに対しておこなう比較をコンテストと呼ぶ。引き分けをタイと呼ぶ。
 記法。プレイヤー数を\(N\)とする。プレイヤー\(i\)の能力を表現する潜在変数を\(\alpha_i (>0)\)とし、\(\lambda_i = \log (\alpha_i)\)とする。コンテスト\(n\)におけるプレイヤー\(i, j\)間比較の結果を二値変数\(y_{i,j,n}\)とし、\(i\)が勝ったら1とする。それとは別に、タイかどうかを表す二値変数を\(tie_{i,j,n}\)とする。なお、添字\(n\)は適宜省略する。
 \(\lambda\)の事前分布を正規分布とし、その分散を\(\sigma^2_\lambda\)とする。これから登場する他のパラメータについても同様。

 BTモデルとは、$$ P(i \ beats \ j) = \frac{\alpha_i}{\alpha_i + \alpha_j} = \frac{\exp(\lambda_i)}{\exp(\lambda_i) + \exp(\lambda_j)}$$ というモデル。$$ logit(P(i \ beats \ j)) = \lambda_i – \lambda_j $$となりますね。識別のため、\(\sum_i^N \lambda_i\)を0だか1だかに制約する。
 かつては共役分布を使った提案もあったけど、bpcsは、事前分布として\(\lambda_i \sim N(0, \sigma^2_\lambda)\)とします。\(y\)はベルヌーイ分布と考える。

 BTモデルの初期の拡張にDavidsonモデルがある。パラメータ\(\nu\)を追加し、タイとなる確率と、タイでないという条件のもとで\(i\)が勝つ確率を求める。bpcsでは、$$ P(i \ beats \ j | not \ tie) = \frac{\exp(\lambda_i)}{\exp(\lambda_i) + \exp(\lambda_j) + \exp(\nu + \frac{\lambda_i+\lambda_j}{2})} $$ $$ P(i \ ties \ j) = \frac{\exp(\nu + \frac{\lambda_i+\lambda_j}{2})}{\exp(\lambda_i) + \exp(\lambda_j) + \exp(\nu + \frac{\lambda_i+\lambda_j}{2})} $$ とする。\(y, tie\)がそれぞれベルヌーイ分布で、事前分布は\(\lambda_i \sim N(0, \sigma^2_\lambda), \nu \sim N(0, \sigma^2_\nu)\)。

 順序効果を組み込む拡張として… [この論文の文脈では大事だろうけど、いまちょっと関心ないのでメモ省略。要は\(P(i \ beats \ j) = \exp(\lambda_i) / (\exp(\lambda_i) + \exp(\lambda_j + \gamma))\)とするわけ]

 一般化モデル。プレイヤーの特性\(X_{i,k}\)を導入して… [これも面倒くさいのでメモは省略するが、要は \(\lambda_i = \sum_k X_{i,k}\beta_k \)とし、事前分布を\(\beta_k \sim N(0, \sigma^2_\beta)\)とするわけ]

 ある被験者が複数の比較をおこなう場合、その被験者の比較の間には従属性があると考えるのが現実的である。これをmultiple judgment sampling問題という。対策としては混合効果モデルないし階層モデルがある。
 被験者を添字\(s\)で表して、$$ P(i \ beats \ j) = \frac{\exp(\lambda_{i,s})}{\exp(\lambda_{i,s}) + \exp(\lambda_{j,s}} $$ $$ \lambda_{i,s} = \lambda_i + U_{i,s}$$ とする。事前分布は $$ U_{i,s} \sim N(0, U^2_{std})$$ $$U_{std} \sim HalfN(0, \sigma_U^2)$$ とする。[へー、半正規分布なのか… 階層分布のクラスタ間分散パラメータの事前分布は逆ウィシャートとか半コーシーとかにすることが多いと思うけど。どのくらいこだわりのある話なのかよくわからない]

 被験者特性の導入。[いよいよ面倒くさくなってきたのでメモ省略]

 [bpcsパッケージの使い方。メモ省略]

 [BTモデルを使った先行研究を再分析。Iwasa et al.(2020 Front.Psych.)という知覚の研究、霊長類に写真見せる実験、医療分野の意思決定における患者の統制の座と役割選好?とかいう研究、の3本。スキップ]

 今後の発展としては、ベイジアン累積モデルとか、時間依存性のあるモデルとかへの拡張が考えられる。
 云々。
—–
 イントロ部分で「あ、これは俺がいま求めているパッケージじゃないかも…」と気がついたが(私の仕事の文脈だと、4~5件法の両極尺度でとった一対比較も同じ枠組みで扱えた方がありがたい)、面白いのでメモをとりながらめくった。勉強になりましたです。

 イントロに、一対比較法の価値を説明するために順序尺度評価をディスるくだりがあるんだけど、そこで引用されている文献が面白かったのでいくつかメモ。リッカート尺度の研究は広い分野に散在していて、なかなか全貌を捉えにくい。

  • Coetzee & Taylor (1996 Food Quality & Preference): 対象者は順序尺度を正しく使えないかもしれない
  • Petrou (2003 Health Economics): 対象者は順序尺度を正しく使えないかもしれない
  • Kreitchman, et al.(2019 Frontiers in Psych.): 順序尺度回答における対象者の自己監視 [←面白そう]
  • Hontagas et al.(2015 Applied Psych.Measurement): 順序尺度回答における対象者の自己監視
  • Luckett et al.(2020 J.Sensory Studies): 順序尺度がうまく機能しない場合
  • Hopper, et al.(2019 Behav.Res.Methods): 順序尺度がうまく機能しない場合

 一対比較データのIRTモデルについては以下が引用されていた: Wang et al.(2017 App.Psych.Measurement), Morillo, et al.(2016 App.Psych.Measurement)。どちらも知らなかった。世間は広いな。