読書日記: 読了：Cattelan (2012) 一対比較データのための統計モデル・レビュー

« 読了：Austin, Jembere, Chiu (2016) 層別クラスタ抽出標本の2群を傾向スコアでマッチングするとき傾向スコアの算出に標本ウェイトを使うべきかどうか調べてみたけどよくわかんなかった | メイン | 読了：Stern(1990) 一対比較データを扱ういろんなモデルを「2つの刺激がそれぞれ謎の得点を稼いでいきある得点に先に達したほうの刺激が勝つのだ」モデルで包括的に説明する »

2017年8月23日 (水)

　これも仕事の都合で、かなり前に読んだ奴。

Cattelan, M. (2012) Models for paired comparison data: A review with emphasis on dependent data. Statistical Science, 27(3), 412-433.

　一対比較データのためのモデルに関する、全21頁のレビュー。著者はイタリアのポスドクさん。題名にある dependent dataとは、比較と比較の間に独立性がない、という意味。

　対象者$s$が対象$i$と$j$を比較した値を$Y_{sij}$とする。当面、観察は独立と考える(たとえば、ある対象者はひとつの比較しかしないものとする)。

　その1, 伝統的モデル。
　伝統的なモデルでは、$Y_{sij}$は二値で、$i$が勝つ確率$\pi_{ij}$は対象の効用$\mu_i, \mu_j$の差の関数、すなわち
　$\pi_{ij} = F(\mu_i - \mu_j)$
である。これをunstructured modelという。$F$が正規累積分布ならThurstone(1927)のモデルとなり、ロジスティック累積分布ならBradley-Terryモデル(1952)となる。モデルの目的は効用ベクトル$\mathbf{\mu} = (\mu_1, \ldots, \mu_n)'$についての推論である。なお識別のためになんらかの制約をかける必要がある。和が0だとか。
　普通は効用の差に関心があるわけだけど、そうすると次の問題が起きる。たとえば$H_0: \mu_i = \mu_j$をワルド統計量$(\hat{\mu}_i - \hat{\mu}_j)/\sqrt{\hat{var}(\hat{\mu}_i-\hat{\mu}_j})$で検定したいとするじゃないですか。$\hat{\mu}_i$と$\hat{\mu}_j$は独立じゃないから共分散が要る。でもいちいちめんどくさい。そこで擬似分散を使うことが多い。[... 共分散が正なら分散を割り引くという話。考え方が説明されているんだけどよくわからなかった。Firth & de Menezes (2004, Biometrika)を読めとのこと]

　その2, 順序型の一対比較。
　たとえば、タイを許す比較とか、「どちらともいえない」を真ん中にとった5件法とか。
　Agresti(1992, JRSS)は2つモデルを挙げている。ひとつめ、累積リンクモデル。
　$pr(Y_{ij} \leq y_{ij}) = F(\tau_{y_{ij}} - \mu_i + \mu_j)$
として、累積ロジットモデルだか累積プロビットモデルだかに持ち込む。
　ふたつめ、隣接カテゴリモデル。[説明が書いてあったんだけどよくわからなかった。3件法なら、回答(1,2)だけのロジスティック回帰モデルと回答(2,3)だけのロジスティック回帰モデルを推定する、ということ？まさかねえ...]

　その3, 説明変数の導入。
　たとえば、対象についての説明変数を導入して
　$\mu_i = x_{i1} \beta_1 + \cdots + x_{iP} \beta_P$
とか(もちろん対象固有な切片をいれてもよい)。こういうのをstructured modelという。ただの線形結合じゃなくて、たとえばスプライン・スムーザーの線形結合にしましょうなどという提案もある。
　対象者についての共変量を入れるという提案もある。また、対象者の潜在クラスを考えるという提案もある(Dillon, Kumar, & de Borrero, 1993 J.MktgRes)。[←直感として、そのモデル、Mplusで組めちゃいそうだなあ...]
　対象者を共変量で再帰分割しながらBradley-Terryモデルを推定しまくるという提案もある。[変態だ、変態が現れた... Strobl, Wickelmaier, Zeileis (20011, J.Edu.Behav.Stat.)だそうだ]
　個々の比較についての共変量を入れるという提案もある。スポーツのホーム・アドバンテージとか。

　ここからは、独立性がないデータのためのモデル。

　その4. 推移律が成り立たないモデル。
　効用を多次元化して捉えようというモデルとか(最終的なランキングは出せないことになる)、比較の間の従属構造を考えるモデルとかがある。

　その5. 一人の対象者が複数の比較をするモデル。
　これは研究が多い。

　アプローチ1, サーストン・モデル。もともとThurstone(1927)は知覚弁別について考えていたわけだが、そもそも彼にとって$n$個の刺激$(T_1, \ldots, T_n)'$は多変量正規分布に従うのであり、つまり刺激は共分散を持つのである。またTakane(1989)のモデルは、それぞれの比較に誤差を持たせ、その誤差に共分散を持たせており、そのおかげでwandering vectorモデル, wandering ideal pointモデルを扱うことができる[←よくわからんが、効用が共分散行列を持つだけじゃなくて比較が共分散行列を持っているから、たとえばなにとなにを比べるかによって理想ベクトルが切り替わっちゃうようなデータ生成構造が表現できたりする、ということだろうか]。
　こういうモデルはパラメータがめっさ多くなるのでなんらかの制約が必要である。サーストンは刺激の共分散行列に制約を掛けたし、Takaneは因子モデルを使った。
　もっと拡張したモデルにTsai & Bockenholt (2008)というのがあってだね...[略]
　計量心理学者が関心を持つのは刺激の間の関係なので、最大の関心はunstructuredで無制約なサーストンモデルにあるんだけど[←なるほどね]、残念ながらなんらかの制約が必要である。Takaneが考えたような個々の比較が誤差を持つモデルを識別するためには、最低限どんな制約が必要かといいますと...[ああ、面倒くさい話だ... パス]

　アプローチ2, ロジット・モデル。最初期はLancaster & Quade (1983)というので、効用をベータ分布に従う確率変数と捉えた。でも「同じ対象者における同じ対象ペアの比較」のあいだに相関を導入しただけだった。
　オッズ比を使うアプローチもある。普通の統計ソフトで推定できるのが長所。[←短い説明があるんだけどさっぱりわからん]
　対象の効用にランダム効果をいれるというアプローチもある[←っていうか、普通そういう風に考えません？]。たとえば、個人$i$, 対象$i$について
　$\mu_{si} = \mu_i + \sum_p \beta_{ip} x_{ip} + U_{si}$
とか。Bockenholt(2001, Psych.Method)など。

　アプローチ3, 経済学における選択モデル。この文脈では、ランダム効用モデルのIIA仮定をどうやって緩和するかという点が問題になっていた。nested logitモデルとか、効用に乗っている個人別の誤差に共分散を考える多変量プロビットモデルとか。
　経済学における選択理論の特徴は、調査票で調べるstated preferenceと選択課題で調べるrevealed preferenceを別物として扱うという点である。両方を同時に扱うモデルとしてWalker & Ben-Akiva (2002 Math.Soc.Sci.)がある。[←へー]

　その6. 対象に関連した依存性があるモデル。
　たとえば動物のあいだのコンテストで、固有の個体がランダム効果を持つ、というような場合。[へー、そんな問題があるのね。でも関心ないのでパス]

　さて、上記その5のような、独立性のないデータのためのモデルをどうやって推定するか。[... ここから、どんな尤度をどうやって求めるか、適合度をどうやって測るのか、というような難しい話に突入し、おおこれは統計学の論文だったのか、と思い出した次第。5頁にわたってスキップ。どうもすいません]

　最後にRのパッケージ紹介。

ebaパッケージ。これはもともとTverskyのEBAモデルを推定するためのパッケージなんだけど、属性がひとつしかなかったらサーストンモデルやBradray-Tarryモデルと同じである。
prefmodパッケージ。対象者が複数いるデータに焦点を当てている。
BradreyTerry2パッケージ。トーナメントに焦点を当てている。
Stroblらの再帰分割をやる psychotree パッケージというのもある。[えええ、パッケージがあるの!? ただの変態じゃねえな...]

最後のまとめのところに今後の課題がいろいろ書いてあったけど、疲れたのでパス。

論文：データ解析(2015-) - 読了：Cattelan (2012) 一対比較データのための統計モデル・レビュー

読書日記

読んだ本を淡々と記録します

2017年8月23日 (水)