« 読了: Popper, et al. (2004) あれこれ尋ねると好き嫌いは変わるか | メイン | 読了: Goethals & Zaki (2004) 頻出アイテムセット・マイニングの世界最強アルゴリズムを決める選手権2003 »
2013年6月15日 (土)
Hahsler, M., Grun, B., Hornik, K., Buchta, C. (2005) Introduction to arules - A computational environment for mining association rules and frequent item set.
アソシエーション・ルールとか、そういう機械学習的なやつって、昔から苦手なんだけど、仕事のことなので好き嫌いばかりもいっていられない。というわけで読んだ資料。アソシエーション分析のためのRパッケージ arules の解説。パッケージについていた解説書を読んだのだが、著者らの同題の論文が J. Stat. Software に載っている(そっちのほうが短い)。
えーと、アソシエーション分析ってのは... 巨大な二値データ行列から項目間のif-thenルールを抽出する、というのがお題である。オブザベーションがバスケット、項目が商品アイテム、値が買う/買わないに相当しており、この出現行列から「ビールを買うやつはほにゃららを買う」というようなルールを抽出したいわけだ。基本的に標本特性の話ばかりで、確率分布を推定しようとか、そういう発想はさわやかなまでに欠如している。
arulesパッケージは抽出アルゴリズムとしてaprioriとeclatを搭載。前者は幅優先探索、後者は深さ優先探索とのこと。結果が具体的にどう変わってくるのか知りたかったんだけど、書いてなかった。アルゴリズムの比較についてはGoethals & Zaki (2004) というのを読めとのこと。ご親切にありがとう、読まないけどな。
ほかにも、データ操作や視覚化のための機能をいろいろ積んでいる。知らなかった。アソシエーション分析とは無関係な場面でも、とても便利そうだ。
アソシエーション分析の方面では、ルール if X then Y に含まれるアイテム集合{X, Y}の全事例における同時出現割合をsupport、Xの出現で条件づけたYの出現割合をconfidence、Yの出現割合に対する confidence の比 (すなわち、supprtをXの出現割合とYの出現割合の積で割った値) を lift と呼ぶ。その影響かどうかわからないんだけど、ふたつの二値項目のあいだの因果的関連の強さについて調べている際に (広告接触と購入意向の関連とか)、この lift を用いて分析している例を、何度か見たことがある。
正直いって気持ち悪くて仕方がない。lift は リスク比でもオッズ比でもない。liftはいうなれば、曝露条件下の発症リスクの、全体の発症リスクに対する比だ。リスク比 (非曝露下での発症リスクに対する比) が一定ならば、曝露割合が上がるほど lift は1に近づくはずじゃないですか? 接触率の低い広告のほうが効果があると判断されやすくなりかねない。なんでこんな指標をつかうのかしらん。
論文:データ解析(-2014) - 読了: Hahsler et al. (2005) arulesパッケージ