elsur.jpn.org >

« 読了: Popper (2008) どんな未来予測でどんな予測手法が使われやすいか | メイン | 読了:VanderWeele & Knol (2014) ハーバード「交互作用」灼熱教室 »

2014年8月 6日 (水)

Guyon, I., Elisseeff, A. (2003) An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182.
 題名通り、変数選択(特徴選択)についての啓蒙的レビュー。変数選択特集号の巻頭論文である。雑誌の性質はよくわからないけど、この論文は被引用頻度がものすごく高いらしい。どこかでみかけた「データマイニング必読論文」リストでも、たしか筆頭に挙げられていたと思う。
 こういう工学分野の文章は苦手なんだけど、勤務先の仕事ときわめて密接に関連する話題なので、メモをとりながら頑張って読了。

1. イントロダクション
 最近は数百~数万個の変数を扱う研究が増えている。その典型例は遺伝子選択とテキスト分類である。変数選択はデータ視覚化とデータ理解を促進し、測定・貯蔵の必要を減らし、訓練時間をへらし、次元の呪いを克服して予測成績を向上させる。
 この特集号の研究は主に、予測のために有用な特徴の選択という課題について扱っている(opp. 関連する変数をすべて見つける課題)。従って、冗長な変数を除外するという点が問題になる。
 まず変数選択のためのチェックリストを挙げよう。

2. 変数ランキング
 入力変数を$x_1, \ldots, x_n$, 出力変数を $y$ とする。変数ランキングとは、$x_i$ と $y$ だけを関数に放り込んで、$x_i$ の価値を表すスコアを出す方法で、変数が直交であればランキング上位の変数群を予測子として選ぶのが最適だし、そうでなくてもランキングがあるとなにかと便利である。
 ランキングの方法としては、$y$との相関を調べるとか、$y$が質的だったらROC曲線のAUCとか。情報理論的な基準を使うという手もある。良くつかわれるのは相互情報量。すなわち、$p(x, y) log \{ p(x, y) /( p(x)p(y) ) \}$ を$x, y$について積分したもの。$x,y$がともに離散変数の場合ならいいけど(積分の代わりに総和すればよい)、連続変数の場合は厄介で、正規近似すると相関係数みたいなものになってしまうので、離散化するか、Parzen windowsというようなノンパラ手法で近似するのだそうだ(←へぇー。カーネル密度推定のことかしらん?)

3. 事例

4. 変数サブセットの選択
 この辺からだんだん未知の話になってくるので、メモも怪しいのだけれど... ええと、変数選択法は次の3つに分類できる。

 うーむ。全変数を叩き込んだランダム・フォレストで変数重要性を評価し、上位の変数を選んでモデリングするというのはどれになるんだろう。フィルター法だということになるんだろうなあ。
 著者いわく、フィルター法をバカにしてはいけない。たとえば、まず線形予測を仮定してラッパー法とかエンベデッド法で変数選択し、やおら非線形予測モデルを組む、とか(前半戦がフィルターになっているわけだ)。情報理論的なフィルターというのもある(マルコフ・ブランケット)。この辺、私には難しいので中略。
 以下、エンベデッド法についての話題。貪欲探索を用いるエンベデッド法の場合、変数追加なり削除なりによる目的関数の変化を予測するわけだが、その方法は3つある。

 目的関数とは、要するに適合度と変数数を組み合わせたものである。これを直接に最適化して、その結果として変数セットを得ようという方法もある。L0ノルム最小化とか(...難しいので中略)。

5. 特徴構築と空間次元縮約
 変数を選ぶんじゃなくて特徴を作り直しちゃうという手もある。これは本来、領域知識が活躍する状況特有的な手法だが、一般的手法がたくさん提案されている。
 特徴構築には二つの目的がある。データの再現と予測の効率化である。前者は教師なしの問題、後者は教師つきの問題である。そもそもの問題が予測なのに、教師なしな視点が入ってくるのは変な感じだが、著者いわく、場合によってはそうする理由がある。たとえば、教師なしの特徴構築のほうがオーバーフィッティングに強い。
 特徴構築の方法としては...

6. バリデーションの方法
 えーと、モデル選択と最終モデル評価は別の問題である。後者の場合、原則として評価用のデータを別に用意する必要がある。ここで論じるのはモデル選択における交差検証の話。

7. 発展的トピックと未解決の問題

8. 結論
 変数選択の手法は発展を遂げ、洗練されたラッパー法やエンベデッド法が登場しているが、そういうのを使ったほうが良いかどうかは場合による。次元の呪いやオーバーフィッティングは依然として怖い。だから、まずはベースラインとして、ランキングか前向き/後向き法で変数選択した線形予測をするのがお勧め。

 ...やれやれ、終わったぞ。
 いっけん難しそうであったが、意外に平易でコンパクトなレビューで、大変助かりました。細部については理解できないところも多いのだが、この論文で勉強するような話ではなかろう。

論文:データ解析(-2014) - 読了:Guyon & Elisseeff (2003) 変数選択入門

rebuilt: 2020年11月16日 22:57
validate this page