« 読了: Masyn (2008) イベント発生時間の測定誤差を考慮した離散時間生存モデルを一次マルコフモデルでつくろう (というか、Mplusでつくろう) | メイン | 読了:「聖書考古学」「経済学になにができるか」 »
2013年6月26日 (水)
Tan, P.N., Kumar, V., Srivastava, J. (2004) Selecting the right objective measure for association analysis. Information Systems, 29, 293-313.
先日読んだ Lenca et al. (2008)に引き続き、ふたつの二値変数AとBのあいだの関連性の指標を比較検討する研究。とりあげる指標は:
- ファイ係数
- Goodman-Kruskalのラムダ
- オッズ比
- YuleのQ
- YuleのY
- カッパ
- 相互情報量
- J指標(相互情報量と同じくエントロピー系の指標である由)
- ジニ係数
- サポート
- 確信度(=max(P(B|A), P(A|B))、つまり、いわゆる確信度を行側からと列側からの両方で求め、大きいほうを採っている)。
- Laplace(確信度系の指標)
- Conviction(確信度系)
- Interest(式をみたらリフトのことだった)
- コサイン
- Piatetsky-Shapiro(確信度系)
- Certainty factor(確信度系)
- Added Value( =max(P(B|A)-P(B), P(A|B)-P(A))。中心化した確信度)
- Collective Strength(なんだかわからんがこれも確信度系らしい)
- Jaccard
- Krosgen(上述のAdded Valueを基準化したもの)。
で、こうした指標に期待される性質として、著者らは以下を挙げる。
- Piatetuky-Shapiro(1991, in "Knowledge Discovery in Databases")が挙げた3つの特徴。
- AとBが統計的に独立な時に 0 (ないし、基準化すれば0) となること。
- P(A)とP(B)を固定したとき、P(A, B)とともに単調増加すること。
- P(A,B)とP(B)、ないしP(A,B)とP(A)を固定したとき、残るP(A)ないしP(B)とともに単調減少すること。
- 対称性。つまり、2x2のクロス表を転置しても値が変わらないこと。もっとも、ルール発見という観点からはむしろ変わってくれたほうがよいわけで (if A then B とif B then Aでは違っていて当然だから)、だから必須の特徴とは言いがたい。この論文では、そもそも指標の定義の段階で、どの指標も対称的になるようにしている。
- 行/列の尺度不変性。つまり、行なり列なりをそれぞれ定数倍しても値がかわらないこと。通過できるのは、オッズ比、YuleのQ、YuleのY、のみ。
- 1行目と2行目をいれかえたとき、値は元の値に-1を掛けたものになっていてほしい。これを通過できるのは、ファイ係数、オッズ比(基準化していれば)、YuleのQとY、Piatetsky-Shapiro, Collective strength(基準化していれば)。
- 1行目と2行目を入れ替え、さらに1列目と2列目を入れ替えたとき、値はそのままでいてほしい。これが破られちゃうようじゃかなり困ったことになると思ったが(ローデータのコードを反転させるだけで値が変わることになる)、サポートやJaccard係数だけでなく、コサインもリフトもこれを破っている(ああ、そうか。反省)。もっともバスケット分析のような場面では、「購入」間の関連性と「非購入」間の関連性は異なっているのが自然だけど。
- not Aかつnot Bのセルを変えても値が変わらないこと。つまり、共起は表すけど共-不起は表さないこと。通過するのは、サポート、Jaccard係数、そしてコサイン(うわあ、そうか。反省)。
以上の性質でもって指標を分類すると、以下の6グループにわけられる。
- オッズ比、YuleのQ, YuleのY。
- コサインとJaccard。
- サポートとLaplace。
- ファイ係数、collective strength, Piatetsuky, Shapiro。
- ジニ係数とラムダ。
- リフト、Added value, Klosgen。
- 相互情報量、Certainty factor, カッパ。
著者いわく、3, 6, 7番目のグループはなんだかよくわからんけど、きっと注目した性質が足りないからでしょう、とのこと。
論文の残りの部分は...
- 無数の変数ペアに以上の指標を適用する前に、サポートで足切りすることが多いけど、そうすると何が起きるか。まず、負の連関が見つけられなくなる(そりゃそうだ)。さらに、サポートの天井を設けてしまうと、いろんな指標が類似してくる。
- 周辺分布がいずれも50%になるよう標準化すると何がおきるか。標準化の手順による。いろんな表を用意し、MostellerのIPFという反復的な手順で標準化すると、オッズ比は維持され、すべての指標の値の順位がオッズ比に一致するようになる。他の手順だとまた異なる。云々。
- データセットから少数のクロス表を抽出し、専門家に関連性を評定させ、それに合った指標を選ぶアルゴリズムの提案。面白いことを考えるなあ。
前半がとても勉強になった。いろいろと 反省すること 多かりし。
よくわからないのだが、情報工学の方面では、新しいアルゴリズムかなにかを提案しないと論文になりにくいのかしらん。最後のトピックは論文化のためのツケタリではないかと思う。前半のレビューだけで十分に貢献しているのに。根拠レスな言いたい放題がまかりとおる領域ももちろん不健全だが、こういうのはこういうので、ちょっと健康的ではないような気が...
論文:データ解析(-2014) - 読了: Tan, Kumar, & Srivastava (2004) 2x2クロス表の関連性指標を品定め