読書日記: 読了：Bacher et al.(2004) SPSS TwoStep Clusterの謎を解く

« 読了：神嶌(2002,2003) データマイニング分野のクラスタリング手法 | メイン | 読了：de Leeuw & Mair (2009) パッケージSMACOF »

2012年11月 7日 (水)

Bacher, J., Wenzig, K. ,Vogler, M. (2004) SPSS TwoStep Cluster: A first evaluation. Albeits- und Diskussionpapiere 2004-2. Universität Erlangen-Nürnberg.
　みんな大好きな SPSS Statistics に搭載されている、TwoStep Clusterという謎のクラスタ分析手法についての解説と検証。仕事の都合で読んだ。最近はどうかしらないけど、もともとSPSSはTwoStep Clusterの詳細な中身を開示していなかったように思う。
　前半は解説。TwoStep Clusterというのはデータマイニングでいうところの BIRCH クラスタリングなのだろうと思っていたのだが、細かいところはちがうのかもしれない。直接参考にすべきは開発者たちが書いた Chiu et al.(2001) だそうだが(SPSSのマニュアルで引用されている奴)、どうやらそこにも具体的な実装上のパラメータは説明がないらしく、著者はSPSSのサポートに細かく問い合わせて解明している。さぞや面倒であったことだろう。
　後半はシミュレーション。斜め読みだけど、潜在クラス分析(Latent Gold)と比べて性能が悪い。特に変数の尺度が混在しているときに悪い由。まあ、潜在クラス分析とは扱えるデータサイズがちがうわけで、単純に比較してはいかんのだろう。
　それよりも... シミュレーションはSPSS 11.5のドイツ語版でやったのだが、SPSS 12のドイツ語版でやっても、さらにSPSS 11.5の英語版でやっても、違う結果になった由。サポートいわく、たぶんアルゴリズムを改善したんでしょう、とのことだそうだ。そういうところが、ヤなんだよなあ....

論文：データ解析(-2014) - 読了：Bacher et al.(2004) SPSS TwoStep Clusterの謎を解く

読書日記

読んだ本を淡々と記録します

2012年11月 7日 (水)