elsur.jpn.org >

« 読了: Hahsler et al. (2005) arulesパッケージ | メイン | 読了:Lenca, et al.(2008) アソシエーション・ルールの興味深さの指標 »

2013年6月16日 (日)

Goethals, B., Zaki, M. (2004) Advances in frequent itemset mining implementations: Report on FIMI'03. SIGKDD Explorations. 6(1), 109-117.
 R の arules パッケージの解説書に、アソシエーション・ルール抽出のアルゴリズムについてはこれを参照せよ、と書いてあった資料。全然読むつもりなかったんだけど、なんとなく探してみたら、想像とは全然異なる気楽な内容だったので...

 アソシエーション分析の鍵となる頻出アイテムセット・マイニングについてはいろんな研究者がいろんなアルゴリズムを発表してるので、同じデータセット、同じPCで解かせてみて、どれが最強か決着をつけようじゃないか。というので著者らが勝手に開催した世界選手権の報告であった。超難解なレビュー論文を想像していたので、ちょっと笑ってしまった。いや、研究者の方にとっては真剣な話なんでしょうけど。
 18個のプログラムに対して、14個のデータ行列を与え、解を求められるかどうか、そして所要時間を計る。frequent itemsetsの抽出, closed itemsetsの抽出, maximal itemsetsの抽出、という3つの競技部門を用意。難しい記号で書いてあるもんでよくわかんないんだけど、どうやら、順に「俺のsupportは閾値を超えている」「俺のsupportは閾値を超えており俺の上位集合は俺よりもsupportが低い」「俺のsupportは閾値を超えており俺の上位集合は閾値を超えていない」というような意味らしい。
 細かいところはよくわかんないんだけど、Grahne&ZhuさんのFPナントカシリーズが優勝だそうです。なんだかわかんないけどおめでとうございます。
 ... アソシエーション分析のために、主要なアルゴリズムの特徴についてきちんと勉強しておこうかと思ってたんだけど、これを読んだら、そこんところはどうでもいいような気がしてきた(叱られちゃうかもしれないけど)。頑張れ研究者のみなさん、って感じだ。

論文:データ解析(-2014) - 読了: Goethals & Zaki (2004) 頻出アイテムセット・マイニングの世界最強アルゴリズムを決める選手権2003

rebuilt: 2020年4月20日 18:58
validate this page