elsur.jpn.org >

« 読了:Teugels (1990) 多変量ベルヌーイ分布をどうやって表現するか | メイン | 読了: Gower (1971) 質と量が混じっているときの類似性係数(人呼んでGower距離) »

2019年12月26日 (木)

 データの中に量的変数もあればカテゴリカル変数もある、そいつらをひっくるめて多変量解析にかけたい(たとえば個体をクラスタリングしたい)、というような状況をmixed dataの分析と呼ぶことがある。データ解析手法の話題としては比較的マイナーかもしれないけれど、日々の仕事のなかでは全然珍しくない、それどころか、むしろそういうのが通常営業である。
 mixed dataのクラスタリング手法としてぱっと思いつくのは、(1)縮約してクラスタリングする(MCAからk-meansとか、Rのclusterdパッケージとか)、(2)距離行列を出してクラスタリングする(Gower距離からk-medoidsとか)、(3)四の五の言わずに潜在クラスモデルを組む、の3つだが、私はMplus信者なので、他の手法も試すとしても、とにかく(3)は絶対にやる。やらいでか。
 しかし、こんど仕事の都合で出てきそうな奴は結構大きなデータなので、うっかりMplusなんかに食わせちゃったら、生きている間に終わらない...

Ahmad, A., Khan, S. (2019) Survey of state-of-the-art mixed data clustering algorithms. IEEE Access, 7.
 というわけで、mixed dataのクラスタリングについてのサーヴェイ論文。本番では悩んでいる時間がとれなさそうなので、事前の予習のつもりで目を通した。

先行研究レビュー
 5つの領域に分けて整理する。

A. 分割型クラスタリング。
 k-means法のように、データ点$d_i$について(1)それが属するクラスタの中心$C_i$を定義し、(2)距離$\xi(d_i, C_i)$を定義し、(3)コスト関数$\sum_i^n \xi(d_i, C_i)$を反復で最小化する、というタイプの手法。データ点の数に対して線形だし、並列化可能である。
 特徴の型が混合している場合の提案としては以下がある。

 いったん数値特徴データに変換してからk-meansとかやればいいじゃん、というアプローチもある。

 その他の提案として、

 さて、partitional clusteringに共通の難題がふたつある。
 その1. クラスタ中心の初期値をどうするか...[メモ省略]
 その2. クラスタ数をどう決めるか...[メモ省略]

B. 階層クラスタリング。
 個体間の距離行列がありリンケージ基準があります、という手法。トップダウンかボトムアップかは問わない。たいていの場合、時間は$O(n^3)$、メモリは$O(n^2)$必要。
 特徴の型が混合している場合の提案としては...

C. モデル・ベースのクラスタリング。
 データ点がなんらかのモデルに一致しているとみる手法。

D. ニューラル・ネットワーク・ベースのクラスタリング。
大きく分けて自己組織化マップ(SOM)と適応共鳴理論(ART)がある。どちらもカテゴリカル変数には工夫が必要。

E. その他。

サーヴェイした結果の分析
 結局、一番実用的なのは分割型クラスタリングだろう。単純だしスケールするから。[おいおい、身も蓋もねえな]
 混合データのクラスタリング研究の多くは、教師ラベルつきのデータを教師ラベル抜きでクラスタリングして、結果を教師ラベルと比べている。[その比べ方がしょぼいよね、という批判が最後のほうに出てきた]
 同じデータでアルゴリズムを比較している研究は見当たらない。みんなそれぞれ好きなデータを使っている。[それではいかんよねという話が最後のほうに出てきた]

ソフトウェアとアプリケーション
Rでは...

 MATLABでは...[略]。
 主要な応用分野としては...[めんどくさいのでスキップ]

影響を与える領域と今後の課題
 これから影響を与えるであろう領域としては...[略]
 今後の課題は:

オープン・クエスチョンとしては... [箇条書きで13個くらい書いてあったけど省略。従来のconstrained clusteringに限らず、もっと領域知識をうまく使う方法を考えたほうがいいんじゃないの、なんて書いてあって、そりゃそうだなあと思った]

 ... やれやれ、疲れた。
 とりあえず概観できたのでありがたいけど、手元に抱えている問題に対してはなんの解決にもなってない... さあどうしよう...

論文:データ解析(2018-) - 読了:Ahmad & Khan (2019) 量質混在データのクラスタリング手法レビュー

rebuilt: 2020年11月16日 22:53
validate this page