elsur.jpn.org >

« 読了:Calle & Urrea (2010) ランダム・フォレストにおけるパーミュテーション・ベースの変数重要度はあてにならない | メイン | 読了:横尾(2014) 未来予測の動向 »

2014年7月15日 (火)

Nicodemus, K.K. (2011) On the stability and ranking of predictors from random forest variable importance measures. Briefings in Bioinformatics. 12(4), 369-373.
 先に読んだ Colle & Urrea (2010) への反論に相当するレター。著者はその前に読んだStroblさんの共同研究者らしい。なるほど、どうやらパーミュテーション・ベースの変数重要度をめぐって陣営が分かれているらしい。

 Colle & Urrea はMDA (パーミュテーションで測るmean decrease accuracy) よりMDG (mean decrease Gini) のほうが安定しているっていうけど、MDGはカテゴリ数が多い変数で大きくなるし、予測子の間の相関によってバイアスを受ける。彼らの使ったデータの変数はSNPsだから、カテゴリ数が変数によってちがうし、ナントカカントカ(理解不能)のせいで相関がある。安定してりゃいいってもんじゃないよ。
  (いま調べてみたら、ゲノムの塩基配列のなかで変異がみられる場所のことをSNPというのだそうだ。知らんがな。生まれながらの文系なのに、なんでこんなの話を読まねばならんのか)

 それに、安定性について考えるんならカテゴリごとの頻度が大事よ。MDGはカテゴリの頻度分布によって影響されちゃうのだ。というわけで、人工データによるシミュレーションでMDAの有用性を示している。面倒になっちゃったのでメモは省略。

論文:データ解析(-2014) - 読了:Nicodemus (2011) ランダム・フォレストにおけるパーミュテーション・ベースの変数重要度に着せられた汚名をそそぐ

rebuilt: 2020年4月20日 18:57
validate this page