elsur.jpn.org >

« 読了:Ahmad & Khan (2019) 量質混在データのクラスタリング手法レビュー | メイン | 読了: Szepannek (2018) RのclustMixTypeパッケージ »

2019年12月26日 (木)

Gower, J.C. (1971) A general coefficent of similarity and some of its properties. Biometrics, 27, 857-874.
 量的変数と質的変数が混在しているデータで個体間の類似性を求めるとき、Gower距離というのを使うことがあるけど、これはその元論文。この時間がないときに、1971年の論文を読んでいるというモノ好きさときたら...

 要するにこういう話であった。2つの個体$i$と$j$の間の類似性$S_{ij}$を求めるためには、まず各変数$k$について以下を求める。

で、全変数を通じて平均して
 $S_{ij} = \sum_k s_{ijk} / \sum_k \delta_{ijk}$
とする。
 こうしてつくった個体の類似性行列(個体数$n$なら$n \times n$)は、欠損がない限り半正定値なのだそうだ(証明は読んでないけど)。
 単に変数を通じて平均するんじゃなくて、なんらか変数に重み$w_k$を振って
 $S_{ij} = \sum_k s_{ijk} w_k / \sum_k \delta_{ijk} w_k$
もよい($w_k \geq 0$なら類似性行列はやはり半正定)。
 いっそ$w_k$を個体ペアごとに変え、2つの個体のその変数の値によって決めるという手もある。さすがにこの場合は半正定はならないかもしれない由。 

 ... 後半は変数に階層性があるときの話らしいんだけど、いま関心ないのでパス。そういう場合の類似性の係数についてさんざん説明しておいて、「しかし私はこの係数の利用を勧めるのにかなりためらいを感じる。というのは、私自身は使ったことがないし使いたいと思ったこともないからだ」だそうです。はっはっは。

論文:データ解析(2018-) - 読了: Gower (1971) 質と量が混じっているときの類似性係数(人呼んでGower距離)

rebuilt: 2020年11月16日 22:53
validate this page