読書日記: 読了：Nicodemus (2011) ランダム・フォレストにおけるパーミュテーション・ベースの変数重要度に着せられた汚名をそそぐ

« 読了：Calle & Urrea (2010) ランダム・フォレストにおけるパーミュテーション・ベースの変数重要度はあてにならない | メイン | 読了：横尾(2014) 未来予測の動向 »

2014年7月15日 (火)

Nicodemus, K.K. (2011) On the stability and ranking of predictors from random forest variable importance measures. Briefings in Bioinformatics. 12(4), 369-373.
　先に読んだ Colle & Urrea (2010) への反論に相当するレター。著者はその前に読んだStroblさんの共同研究者らしい。なるほど、どうやらパーミュテーション・ベースの変数重要度をめぐって陣営が分かれているらしい。

　Colle & Urrea はMDA (パーミュテーションで測るmean decrease accuracy) よりMDG (mean decrease Gini) のほうが安定しているっていうけど、MDGはカテゴリ数が多い変数で大きくなるし、予測子の間の相関によってバイアスを受ける。彼らの使ったデータの変数はSNPsだから、カテゴリ数が変数によってちがうし、ナントカカントカ(理解不能)のせいで相関がある。安定してりゃいいってもんじゃないよ。
　 (いま調べてみたら、ゲノムの塩基配列のなかで変異がみられる場所のことをSNPというのだそうだ。知らんがな。生まれながらの文系なのに、なんでこんなの話を読まねばならんのか)

　それに、安定性について考えるんならカテゴリごとの頻度が大事よ。MDGはカテゴリの頻度分布によって影響されちゃうのだ。というわけで、人工データによるシミュレーションでMDAの有用性を示している。面倒になっちゃったのでメモは省略。

論文：データ解析(-2014) - 読了：Nicodemus (2011) ランダム・フォレストにおけるパーミュテーション・ベースの変数重要度に着せられた汚名をそそぐ

読書日記

読んだ本を淡々と記録します

2014年7月15日 (火)