« 読了:Strobl, Hothorn, Zeileis (2009) ランダム・フォレストにおけるパーミュテーション・ベースの変数重要度の新手法 | メイン | 読了:Nicodemus (2011) ランダム・フォレストにおけるパーミュテーション・ベースの変数重要度に着せられた汚名をそそぐ »
2014年7月15日 (火)
Calle, M.L., Urrea, V. (2010) Stability of Random Forest importance measures. Briefings in Bioinformatics. 12(1), 86-89.
この雑誌に載った論文についてコメントしたレター。掲載誌はどういう性質のものだかわからない(IF 5.3だそうだが、この分野でこれは高いのか低いのか見当がつかない)。
その論文(Boulesteix & Slawski, 2009)は、膀胱がんの罹患性と予後における遺伝的要素を同定するためにランダム・フォレストを使っていたのだそうだ。で、ランダム・フォレストの変数重要性指標としては、mean decrease accuracy (MDA) と mean decrease Gini (MDG)、特に前者が広く使われており、その論文でもこの両方を使っていた由。MDAというのは予測の正確さに対する当該変数の貢献をパーミュテーションで測った指標、MDGというのはその変数によるGini指標の低下を測った指標。
さて、MDAやMDGはどのくらいあてになるものだろうか。調べてみました。
別の実データを使い、ジャックナイフ法で安定性を調べてみた。MDGはそこそこ安定しておるが、MDAはぜ・ん・ぜ・ん安定していない。
正解がわかっているデータでシミュレーションしてみた。MDAは滅茶苦茶に成績が悪い。
MDAがひどかった理由を考えるに、当該変数 X 以外の変数の値のせいであろう。つまり、The variables that are below X and their values can vary substantially from one tree to another and from one individual to another だからであろう。(←申し訳ございませんが、これが理由の説明になっているのかどうかさっぱり理解できない。それってMDGでも同じことじゃない???)
論文:データ解析(-2014) - 読了:Calle & Urrea (2010) ランダム・フォレストにおけるパーミュテーション・ベースの変数重要度はあてにならない