« 読了:Ahmad & Khan (2019) 量質混在データのクラスタリング手法レビュー | メイン | 読了: Szepannek (2018) RのclustMixTypeパッケージ »
2019年12月26日 (木)
Gower, J.C. (1971) A general coefficent of similarity and some of its properties. Biometrics, 27, 857-874.
量的変数と質的変数が混在しているデータで個体間の類似性を求めるとき、Gower距離というのを使うことがあるけど、これはその元論文。この時間がないときに、1971年の論文を読んでいるというモノ好きさときたら...
要するにこういう話であった。2つの個体$i$と$j$の間の類似性$S_{ij}$を求めるためには、まず各変数$k$について以下を求める。
- 二値変数だったら、両方1なら$s_{ijk}=1, \delta_{ijk}=1$, 片方1なら$s_{ijk}=0, \delta_{ijk}=1$, 両方0なら$s_{ijk}=0, \delta_{ijk}=0$。[Jaccard係数のような発想だ。これは0-0がマッチといえない場面を想定しているわけで、マッチといえるような場面ならばまた違う話になるだろう]
- 質的変数だったら常に$\delta_{ijk}=1$で、値が一致したときに$s_{ijk}=1$、そうでないときに$0$。[エエエエ。それって質的変数群についてはハミング距離になるってことだよね... いいんすかそんな話で]
- 量的変数だったr$\delta_{ijk}=1$で、$s_{ijk} = 1 - |x_i-x_j|/R_k$とする。ただし$R_k$はなんらかの値(たとえば変数$k$の範囲)。
$S_{ij} = \sum_k s_{ijk} / \sum_k \delta_{ijk}$
とする。
こうしてつくった個体の類似性行列(個体数$n$なら$n \times n$)は、欠損がない限り半正定値なのだそうだ(証明は読んでないけど)。
単に変数を通じて平均するんじゃなくて、なんらか変数に重み$w_k$を振って
$S_{ij} = \sum_k s_{ijk} w_k / \sum_k \delta_{ijk} w_k$
もよい($w_k \geq 0$なら類似性行列はやはり半正定)。
いっそ$w_k$を個体ペアごとに変え、2つの個体のその変数の値によって決めるという手もある。さすがにこの場合は半正定はならないかもしれない由。
... 後半は変数に階層性があるときの話らしいんだけど、いま関心ないのでパス。そういう場合の類似性の係数についてさんざん説明しておいて、「しかし私はこの係数の利用を勧めるのにかなりためらいを感じる。というのは、私自身は使ったことがないし使いたいと思ったこともないからだ」だそうです。はっはっは。
論文:データ解析(2018-) - 読了: Gower (1971) 質と量が混じっているときの類似性係数(人呼んでGower距離)