« 読了:神嶌(2002,2003) データマイニング分野のクラスタリング手法 | メイン | 読了:de Leeuw & Mair (2009) パッケージSMACOF »
2012年11月 7日 (水)
Bacher, J., Wenzig, K. ,Vogler, M. (2004) SPSS TwoStep Cluster: A first evaluation. Albeits- und Diskussionpapiere 2004-2. Universität Erlangen-Nürnberg.
みんな大好きな SPSS Statistics に搭載されている、TwoStep Clusterという謎のクラスタ分析手法についての解説と検証。仕事の都合で読んだ。最近はどうかしらないけど、もともとSPSSはTwoStep Clusterの詳細な中身を開示していなかったように思う。
前半は解説。TwoStep Clusterというのはデータマイニングでいうところの BIRCH クラスタリングなのだろうと思っていたのだが、細かいところはちがうのかもしれない。直接参考にすべきは開発者たちが書いた Chiu et al.(2001) だそうだが(SPSSのマニュアルで引用されている奴)、どうやらそこにも具体的な実装上のパラメータは説明がないらしく、著者はSPSSのサポートに細かく問い合わせて解明している。さぞや面倒であったことだろう。
後半はシミュレーション。斜め読みだけど、潜在クラス分析(Latent Gold)と比べて性能が悪い。特に変数の尺度が混在しているときに悪い由。まあ、潜在クラス分析とは扱えるデータサイズがちがうわけで、単純に比較してはいかんのだろう。
それよりも... シミュレーションはSPSS 11.5のドイツ語版でやったのだが、SPSS 12のドイツ語版でやっても、さらにSPSS 11.5の英語版でやっても、違う結果になった由。サポートいわく、たぶんアルゴリズムを改善したんでしょう、とのことだそうだ。そういうところが、ヤなんだよなあ....
論文:データ解析(-2014) - 読了:Bacher et al.(2004) SPSS TwoStep Clusterの謎を解く