elsur.jpn.org >

« 読了: Rosipal & Kramer (2006) PLSレビュー in 2006 | メイン | 読了:稲増(2016) メディア・世論調査への不信感が高いのはどんな人か »

2018年5月 5日 (土)

Liu, I., Agresti, A. (2005) The analysis of ordered categorical data: An overview and a survey of recent development. Test, 14(1), 2005.
 順序カテゴリカルデータの分析手法についてのレビュー。
 かつてAgrestiの教科書とかで読んだ内容とも重複しているんだけど、こういう知識は突然に必要になるので、時々おさらいしておこうと思って... というのは建前で、いろいろ疲れることが重なったあげく、不意に出先で時間が空いたので、リハビリのつもりで読んだ奴。こういう話題はややこしいことを考えなくていいので助かる。
 掲載誌はSpanish Society of Statistics and Operations Researchの発行。Google様的な被引用回数は241件、結構少ない。

1. イントロダクション (略)

2. 順序カテゴリカル反応のモデル
 順序カテゴリカル反応への関心を引き起こした主な研究がふたつある。McCullagh(1980)による累積確率のロジットモデルと、Goodman(1979)によるオッズ比の対数線型モデルである。

2.1 比例オッズモデル(累積ロジットモデル)
 順序反応のモデルとして現在もっとも一般的なのは累積確率のロジットを使うモデルであろう。
 McCullaghはこう考えた。$c$カテゴリの順序反応を$Y$、予測子のセットを$x$として、
 $logit[P(Y \leq j | x)] = \alpha_j - \beta' x$
$j$は$1$から$c-1$まで動く。
 このモデルは$c-1$個の累積確率のすべてに対して予測子が同一の効果を持つと仮定している。$c$カテゴリの反応をどこかで切って二値に落とすとして、どこで切ろうが説明変数の効果を表すオッズ比は同じだということになる。このタイプのモデルは比例オッズモデルと呼ばれることも多い。

2.2 累積リンクモデル
 McCullagh(1980)は、プロビット、loglog, cloglogといった二値データでおなじみのリンク関数を使うという手も考えた。そういうのを取り込んで一般化したのが累積リンクモデルである。
 $G^{-1}[P(Y \leq j | x)] = \alpha_j - \beta' x$
$G$は連続累積分布関数(cdf)。

2.3 多項ロジットモデルによる代替案

 いま、カテゴリカル反応を長さ$c-1$のダミーベクトルで表現し、対象者$i$におけるその平均を$\mu_i$として
 $g(\mu_i) = X_i \beta$
という多変量一般化線型モデルを考えると、累積リンクモデルも隣接カテゴリロジットモデルもcontinuation-ratioロジットモデルも、このモデルの特殊ケースとして捉えられる。

2.4 その他の多項反応モデル

2.5 順序反応の連関のモデリング
 $r \times c$分割表の行を$X$, 列を$Y$とし、セル頻度を$\{n_{ij}\}$, その期待値を$\{\mu_{ij}\}$とする。
 Goodman(1985)はこう考えた。
 $\log \mu_{ij} = \lambda + \lambda_i^{X} + \lambda_j^{Y} + \sum_k^M \beta_k u_{ik} v_{jk}$
ただし$M \leq min(r-1, c-1)$。$M = min(r-1, c-1)$とすると飽和する。ふつうは$M=1$とする。

関連する研究は対応分析と正準相関モデルの文脈でも行われている。一般正準相関モデルは
 $\pi_{ij} = \pi_{i+} \pi_{+j} \left(1+\sum_k^M \lambda_k u_{ik} v_{jk}\right)$
Goodmanの定式化と似ているけど、連関の項を使って$\mu_{ij}$と独立なときの値とのずれをモデル化している点に注意。この路線の限界は、多元表への一般化が大変だという点。

3. 順序反応のクラスタ化データ・反復データのモデリング
 クラスタ化データ・反復データのモデルには大きく分けて2つある。

 以下、あるクラスタにおいて$Y_1,\ldots,Y_T$の反復反応が得られているとする。話を簡単にするため$T$は全クラスタで共通だということにするが、クラスタ$i$について$T_i$だと一般化してもよろしい。

3.1 GEEアプローチによる周辺モデル
 累積ロジットリンクを持つ周辺モデルについて考えよう。
 $logit[P(Y_t \leq j|x_t)] = \alpha_j - \beta' x_t$
 これだと$T$個の反応の周辺分布の説明変数への依存性だけを考えていて、$T$回の反復反応の間の多変量的な依存性はモデル化していない。
 さて、この周辺モデルを推定する際、対数尤度関数を最大化するというのはおかしな話になる。対数尤度関数は、予測子の多様な水準から得られた多項分布の積になる。それぞれの多項分布は、$T$個の反応のクロス分類における$c^T$個のセルから定義される。尤度関数はこの完全な同時分布を指しているのだから、周辺モデルの公式を対数尤度に直接置き換えることができない。[←ううむ...よくわからない...]
 ここでは一般化推定方程式(GEE)を使うのが簡単である。GEEは擬似尤度の多変量への一般化に基づいており、周辺回帰モデルだけを指定すれば、$T$個の反応の相関構造については適当に推測してくれる。
 GEEはもともと、二値とかポワソンとかの単変量分布の周辺モデルとして開発されたが、反復順序反応の累積ロジットモデルや累積プロビットモデルに拡張されている。
 [ここからGEEによるモデリングの説明に入るんだけど、残念ながら良く理解できなかった。短い説明だし、写経してもいいんだけど、面倒なので省略する。ううむ、GEEっていつも勉強しかけて挫折するんだよなあ]

3.2 MLアプローチによる周辺モデル
 上記のように、周辺モデルを最尤推定するのはおかしい。同時セル確率と、同時分布の高次パラメータならびに周辺モデルのパラメータとを一対一対応させる多変量ロジスティックモデルという提案もあるが、次元数が増えると無理になる。周辺モデルを制約方程式として扱い、ポワソン尤度と多項尤度を最大化するというアプローチもあるが、計算が大変。
 [だめだ、3.1-3.2はさっぱり理解できない。Agrestiの教科書も見たけどやっぱりむずかしい。まあふだんはGLMMでやっておりますので、今回はあきらめるけど、なにかやさしい教科書はないかしらん]

3.3 一般化線形混合モデル
 こんどは周辺分布じゃなくて、同時分布をクラスタのランダム効果を使ってモデル化する。反応を指数分布族として、一般化線形モデル(GLM)にランダム効果を加えたのを一般化線形混合モデル(GLMM)という。同様に、多変量GLMも多変量GLMMに拡張できる。
 ランダム効果が表すものは状況によって異なる。ヒトの異質性とか、未知の共変量とか、なんらかの過分散(overdispersion)とか。
 基本的なモデルは
 $logit[P(Y_{it} \leq j | x_{it}, z_{it})] = \alpha_j - \beta^{'} x_{it} - u^{'}_i z_{it}$
ここで$z_{it}$はランダム効果の説明変数ベクトルで、$u_i$はiidに$MVN(0, \Sigma)$に従う。リンク関数を変えてもいいし、continuation-ratioロジットモデルに変えてもいい。[嗚呼... 周辺モデルよか全然わかりやすいよ... 胸なごむ...]

3.4 マルチレベルモデル
 クラスタのレベルが2つ以上ある場合もある。地域-学校-学生、とか。
 アプローチとしては、GEE, 多変量GLMM, 階層モデルでそれぞれのレベルについて事前分布を与えるベイズモデル、が考えられる。

3.5 その他のモデル(遷移モデルと時系列)
 反復測定データを遷移モデルで分析するという手もある。反応を説明変数と過去の反応で条件づけて説明するわけだ。二値データについてマルコフ連鎖構造を使うことが多い。
 順序データについてはEkholm et al.(2003)というのがあって、反応間の連関をdependence ratioというので表す。これは所与のセルの確率を独立性の下での期待値で割った値のこと。このモデルは、連関メカニズムが純粋に交換可能であればヒトのランダム項をいれたGLMMと等しくなり、連関メカニズムが純粋にマルコフであればマルコフ連鎖構造の遷移モデルと等しくなる。[←悪いけどなにをゆうておるのかようわからん]
 連続時間の遷移モデルのGEE推定とML推定というのもある。

 周辺モデルが良いか、クラスタ特定的なモデルが良いか、遷移モデルが良いか。これは、母集団レベルで解釈したいか個人レベルで解釈したいか、説明変数の効果を以前の反応で条件づけて記述したいか、によって決まる問題である。
 モデルのタイプがちがえばパラメータのサイズも変わる。たとえば、周辺モデルよりもクラスタ特定的モデルのほうが効果の推定値が大きくなる。

4. 順序反応へのベイジアン分析
4.1 多項パラメータの推定
 とりあえず、$c$カテゴリの多項変数、説明変数なし、ということにしよう。セルの頻度$(n_1, \ldots, n_c)$がサイズ$n=\sum n_i$, パラメータ$\pi=(\pi_1, \ldots, \pi_c)'$の多項分布に従うとする。多項確率質量分布の共役密度関数はディリクレで...[分布とその特性値の説明。省略]。事前のパラメータを$(\alpha_1, \ldots, \alpha_c)$とすると、事後のパラメータは$\{n_i+\alpha_i\}$となり...[特性値の説明。省略]。
 さて、多項確率の推定の際に$\pi_1 \leq \ldots \leq \pi_k \geq \pi_{k+1} \geq \ldots \geq \pi_c$という制約をいれるという考え方があり、これは順序カテゴリに適することが多い。[←えっ、なぜ??]
 多項ロジットのパラメータ事前分布としてディリクレじゃなくてMVNを仮定するという路線もある。相関行列を自己回帰の形式にすると、隣接カテゴリの確率が似てくるので、順序カテゴリに向いている。
 ディリクレ・パラメータの分布を階層的に指定するという手もある。二階の事前分布をいれるわけね。共役分布を使わないと決めてしまえば、ロジットモデルでMVN事前分布の階層モデルのほうが計算しやすい。

4.2 クロス表における確率の推定
 Good(1965)はディリクレ事前分布と階層モデルを使ってクロス表のセル確率を推定した。その後、データ依存な事前分布を使うというのも出てきて... [面倒になってきたのでこの節はスキップ]

4.3 順序反応のモデリング
 [いよいよ、順序反応そのもののベイジアン・モデリングの話、なんだけど... 1996年ごろ以降の先行研究が、一本につき数行づつ紹介されている感じなので、省略する。多変量反応にも拡張されている由]

5. 順序反応についてのモデルベースでない手法
5.1 層別クロス表のCMH法
 カテゴリカル変数$X, Y$の連関を、第三の変数$X$をコントロールして分析したいとき、ふつうは三元クロス表を書く。では、$Z$をコントロールした下での$X, Y$の条件つき連関は?
 モデルに基づかないアプローチとして一番有名なのはCochran-Mantel-Haenszel(CMH)検定である。$X$と$Y$がともに順序なら、層を結合した連関が自由度1のカイ二乗分布に従うことを利用する。これは行と列になんらかスコアを振って線形トレンドをみていることになる。実はこれ、多項ロジットと深い関係がある。Agrestiの本を読め。
 検定統計量だけでなく、後述する順序オッズ比も手に入る(それが層を通じて一定だという仮定の下で)。各層が十分大きければ多項ロジットモデルのML推定量と類似するし、層が多くなってデータがスパースになってくると、実はML推定量より優れている。

5.2 順序オッズ比
 順序反応の二元表のオッズ比にはいろんなタイプがある。

5.3 ランク・ベースのアプローチ
 先ほど述べたように、CMH統計量は連関の要約にカテゴリのスコアを使っていると捉えられるが、スコアを使わず厳密に順序情報だけで推論するのもある。Kendallの$\tau$統計量, Goodman-Kruskalの$\gamma$, Jonckheere-Terpstra検定、など。[←最後の奴、初めて聞いた...]

5.4 不等性制約の使用
 順序カテゴリを活用するその他の方法として、連関構造を記述するパラメータに不等性制約を置くというのがある。たとえば、二元クロス表での連関を記述する際、累積オッズ比、局所オッズ比、大域オッズ比、連続オッズ比が使えるが、その際に$(r-1)(c-1)$個の対数オッズ比のすべてが非負だという制約を掛ける。するとセル確率のML推定値が手に入ったり、尤度比検定で独立性を検定したりできる。Bartolucci et al(2001, JASA)をみよ。なお、局所オッズ比を制約するのがもっともきつい制約になる(局所対数オッズ比が一様に非負なら大域対数オッズ比も非負)。
 2行の場合、非負対数オッズ制約のもとで尤度比検定の漸近分布が手に入って...でも3行以上には一般化できなくて... [とかなんとか... 略]
 それとは別の話として、対数線形モデルとかのパラメータに非負制約を掛けるというのもある。

5.5 一致の測定
重みつき$\kappa$とか、ROC曲線を使うとか、いろんな方法がある。

6. その他の問題
6.1 正確推論
[ごく短い説明だけど、力尽きてきたのでパス]

6.2 欠損データ
 多変量GLMMの場合、MCARやMARがあっても大丈夫。いっぽうGEEのように尤度ベースでない手法では、ランダム欠損でも無視できるとは限らない。
 他にも欠損を扱うモデルの提案がいろいろある。反応じゃなくて共変量の欠損を扱うモデルの提案もある。

6.3 標本サイズと検定力
 $c$カテゴリの順序反応を2群間で比較する場合について考える。比例オッズモデルの場合、周辺確率が変わらないとして[←?]、ある検定力に達するために必要な標本サイズ$N(c)$には次の性質がある:
 $N(c) / N(2) = 0.75/(1-1/c^2)$
ここからわかるのは、カテゴリを2つに潰すと情報の損失は大きい、しかしカテゴリが4~5個あればそれ以上あるときと変わらない。
 ほかに、Wilcoxonのrank sum検定の場合のガイドラインとか、個人について処理前と処理後に測定すするsubjec-specificモデルの場合のガイドラインが提案されている。

6.4 順序データ分析のためのソフトウェア
[略]

6.5 結語
[略]

 ... いやあ、長かった... 疲れた... めんどくさかった...

 この論文が面白そうだと思ったのは、73頁のうち本文は29頁で、残りは識者たちのコメントと返答になっているところ。せっかくなので対話調でメモしておく。

Tutz: 順序回帰モデルの利用について伺います。
 順序モデルとして良く知られているのは累積型のモデル、つまり
 $P(Y \leq j | x) = F(\eta_j(x))$
 $\eta_j(x) = \alpha_j - x'\beta$
というものです。
 でも、逐次型のモデル
 $P(Y=j | Y \geq j, x) = F(\eta_j(x))$
も有用だと思うんですよね。ここで$F$は狭義単調分布関数であればよくて、たとえばロジスティック分布関数ならcontinuation-ratioロジットモデルになります。
 このモデルはカテゴリ$r$から$r+1$への遷移をモデリングしているとみることもできます。だから、カテゴリ$r$に到達しているという条件のもとで、どんな二値回帰モデルでも使えるんです。
 逐次型モデルは拡張が容易です。たとえば累積モデルによる近似がうまくいかない場合は、$\beta$をカテゴリごとに$\beta_j$として推定してもいいです。[以下、累積モデルに比べて逐次型モデルがいかに柔軟かという話。略]
 というわけで、累積型モデルばかりが注目されるのって納得いかないんですけど、どう思います?

Liu & Agresti: 逐次型モデルがあまり使われてないのは、カテゴリを低いほうから並べるか高いほうから並べるかで結果が変わってきちゃうからじゃないですかね。

Tutz: 予測子をどう組み合わせるかという話なんですが。
 反復測定データの周辺モデルや混合モデルの場合、一番単純なモデルだと、クラスタ$i$の観察$t$のカテゴリ$j$について
 $\eta_{tj}(x_{it}) = \alpha_j - x'_{it}\beta$
というふうに、観察$t$を通じて$\alpha_j$と$\beta$は一定にすると思います。カテゴリ数なり観察数なりが小さい場合はともかく、これはちょっと制約し過ぎと思います。先々の研究を考えたら、やっぱり
 $\eta_{tj}(x_{it}) = \alpha_{tj} - x'_{it}\beta_j$
とか
 $\eta_{tj}(x_{it}) = \alpha_{tj} - x'_{it}\beta_t$
というふうに、カテゴリ別・観察別のパラメータを入れたほうがいいと思います。でも全パラメータを自由推定しちゃうとノイズに敏感になっちゃうし解釈しにくいので、なんらか制約を入れたほうがいいでしょうね、たとえば罰則付きML法で、対数尤度$\ell$を
 $\ell_p = \ell - \sum_{j,s} \lambda_s (\beta_{j+1,s} - \beta_{j,s})^2$
に置き換えるとか($\lambda_s$は平滑化パラメータ)。
 累積型モデルで追加制約を考慮する場合、罰則付き尤度モデルは比例モデルと非比例モデルの間のどこかに位置します。$\lambda_s$がすごく大きい場合、$x_{it}$の$s$番目の要素に比例オッズモデルを当てはめることになります。もちろん$\alpha_{tj}$は$t,j$を通じて一定にしないといけません。[←??? 力不足で理解できない...]
 予測子を平滑化するという方向の拡張もあります。線形予測子の代わりに加算構造を使うというのは興味深い拡張ですね。[GEEのこと???] 横断データだと加算順序回帰モデルとしてすでに使われていますが、反復測定の場合、$t$別にスムーズな構造を見つけるというのはチャレンジングな課題です。

Liu & Agresti: 予測子のより一般的な構造を用いるという解説、ありがとうございます。おっしゃるとおり、単純・解釈可能でかつスムーズな構造を見つけるのが難しいですね。でもこれからは応用事例も増え、もっと一般的になると思いますよ。

Tutz: 平均反応モデルについて一言申し上げたい。
 実務家にとって魅力的だというのはわかりますけど、あれは順序モデルじゃないですよ。カテゴリにスコアを与えているということは、反応をmetricallyにスケールした離散反応モデルにすぎないです。

Liu & Agresti: おっしゃる通り、順序反応データに平均反応モデルを使うのはよろしくないです。でも道具箱のなかにはいれておきたいと思います。非統計家にとってはロジスティック回帰よりわかりやすいですし、反応カテゴリ数が多ければ、潜在構造を仮定することなしに順序回帰への道を開くという利点があります。メトリックを選ばないといけないというのは確かに難点ですが、順序説明変数を扱うときにだって同じ問題は起きているわけですし。

Tutz: 順序データ分析の研究では予測が無視されがちじゃないですか? 二値データとかカテゴリカルデータの場合には、分類の枠組みであんなに予測の研究があるのに。なんで判別分析とか機械学習で順序データが注目されてないんでしょうかね。

Liu & Agresti: そうですね。

Simonoff: あんまし触れてくださいませんでしたが、ノンパラメトリック・セミパラメトリックなアプローチについて補足させてください。私の専門なもので。
 まずノンパラメトリックなアプローチについて。大域的にパラメトリックな仮定をおくのをやめて、局所的な多項関係を仮定します。たとえば... [以下、説明省略。難しいよお]
 少なくとも局所的にはパラメトリックなモデルがあてはまると思う場合には、セミパラメトリックなアプローチがよいでしょう。たとえば... [説明省略]

Liu & Agresti: いやー、良く知らなかった話で、勉強になりました。[←とは書いてないけど、まあそういうニュアンス]

Kateri: コメントの前に、触れてくださらなかった話題について紹介してもいいですか? 正方順序行列の分析という話題です。
 分類変数の正方行列の場合、対称モデル、準対称モデル、周辺等質性モデルがあることは広く知られています。これが順序変数の場合だと、適切なモデルのクラスがさらに広がって、条件付き対称モデル、対角非対称モデルというのが出てきます。
 これらのモデルは、一致の測定とか、移動表の分析とかと関連していますし、行列がマルコフ連鎖の遷移確率行列である場合には「ランダム・ウォーク」「均衡状態」「リバーシビリティ」という概念と関わってきます。

Liu & Agresti: なるほど、ありがとうございます。順序変数の正方行列だったらほかにもこんなモデルがありますね...[とひとしきり紹介があるが、話についていけなくなったのでパス。このへんはAgrestiの教科書をみたほうがよさそう]

Kateri: クロス表の連関のモデル化についてコメントします。
 連関はKL距離の観点からの指標、相関はピアソン距離の観点からの指標です。Goodman(1996) はこの二つを含むより一般的なクラスのモデルを考えました... [以下、自分の研究紹介。省略]
 順序クロス表の分析における興味深い問題として、行ないし列の併合という問題があります... [自分の研究紹介]

Liu & Agresti: (特に返答無し)

Lesaffre: 私、自分が相談を受ける際は、順序ロジスティック回帰じゃなくて二値ロジスティック回帰を勧めることが多いんですよね。相手はたいてい医者で、二値ロジスティック回帰の出力ならよく理解できますし、二値ロジスティックでも順序ロジスティックでも結果はたいていほとんど変わらないから。おそらく他の統計家の方もそうなんじゃないかと。
 お伺いしたいんですけど、二値じゃなくて順序ロジスティックを使うことの利点を明確に示したシミュレーションとかないでしょうか? それにソフトはあるんでしょうか?

Liu & Agresti: Lesaffre先生のこのご指摘にはちょっとガックリなんですけど、ええとですね、順序モデルだとそれぞれの効果についてひとつのパラメータが出ます。二値に潰して分析するのとでは結果は結構違います。Whitehead(1993)をみてください。

Lesaffre: Anderson(1984)のモデルについて触れて下さらなかったのにはちょっとびっくりです。このモデルは評価の順序カテゴリ変数を分析するもので、
 $P(Y=s) = \exp(\beta_{0s} - \phi_s \beta^T x) / $(分子の合計)
ただし$1 =\phi_1 > \ldots > \phi_k = 0$とします。これは多項ロジット回帰の特殊ケースですが、説明変数との関係が一元的だという点が古典的な順序データ分析とは違います。
 この尺度上での評価者の誤分類をどう修正するのかというのは重要な研究分野だと思うんですけど。

Liu & Agresti: ご指摘の通り、見落としていた研究です。$\{\phi_t\}$が固定なら対数線形モデル、等間隔なら隣接カテゴリロジットモデルとして捉えられますね。このモデルがあまり注目されていない理由のひとつはパラメータ数が多いからだと思いますが、Andersonさんが早く亡くなってしまったせいもあるかもしれません。[←へー]
 誤分類の話ももっと注目されていいと思います。先生がレビュー論文書いてください![←おまえら実は仲良しだな]

Loughin: [ものすごく大雑把に要約すると] たとえば我々の研究だと、GLMMモデルでカウントデータを生成してGLMMモデルを当てはめると、完全に正しいモデルなのにパラメータが保守的に歪んだりします。いい加減だけど簡単なモデルじゃなくて、複雑で正しいモデルを使うべしという根拠とかありますかね? 分析者も忙しいわけで、証拠がないと移行しないと思うんです。

Liu & Agresti: 大事なご指摘と思います。たとえば、データがスパースなときは名義尺度モデルより順序モデルのほうが有利です。こういう風に、実務的な状況での手法の良さを調べていくことが大事ですね。

Svensson: 私は対応のある順序データをカテゴリ数と無関係に評価する方法について研究しています。視覚的アナログ尺度のデータなどに使える方法です。基本的なアイデアは、評価の間の依存性についての情報を得ることで説明できるaugmented rankingというのを考えるということです。変数ペアにランクを振るわけです。[...以下説明が続く。面白そうなんだけど、この説明だけではちょっと理解できそうにないので、メモ省略]

Liu & Agresti: [頑張ってください的コメント]

Svensson: [統計教育についてのコメント。パス]

Liu & Agresti: [Agrestiさんのフロリダ大での学部教育の話。パス]

Aguilera: 論文に出てきませんでしたが、PLS順序ロジスティック回帰というのがあります。これはPLS一般化回帰の特殊ケースで、変数の数が事例数より多かったり多重共線性があるときにも使えます。主成分ロジスティック回帰というのもあります。
 関数的データ分析(functional data analysis)というのもあります。これは観察がベクトルじゃなくて関数であるときに、関数的共変量の観点から反応変数を説明しようというものです[←??? よくわからん]。

Liu & Agresti: ご指摘ありがとうございます。いずれも興味深い問題ですね。

 ... はい!終了!疲れた!
 すぐに忘れてしまいそうなので、最後に「ここがわからん」「ここをもっと知りたい」という箇所をメモしておこう。

論文:データ解析(2018-) - 読了: Liu & Agresti (2005) 順序カテゴリカルデータの分析方法レビュー (全体的に遠慮がちな質疑応答つき)

rebuilt: 2020年11月16日 22:54
validate this page