elsur.jpn.org >

« 読了:「自発的隷従論」「ガリレオ裁判」「一揆の原理」 | メイン | 読了:Ture et al. (2005) 高血圧患者をいろんな手法で予測してみた »

2015年12月25日 (金)

 仕事の都合で、シンプルな決定木・回帰木モデルをつくることがちょくちょくあるのだけれど、細かい手法選択の場面でいつも困惑する。CARTみたいな感じの二進木と、CHAIDの流れを汲んでゴリゴリ検定統計量をつかうタイプの方法、どういうときにどっちを使えばいいんだろう? 不勉強をさらすようで、恥ずかしいのだけど...

 ま、そもそもRをつかっているのがいかんのだ、という説もありますわね。かつてRを使っていなかった時分には、SPSS AnswerTree 一択であった。CHAIDとCARTの両方が載っていて、深く考えずにその日の気分で使い分けるのである。あの平和な時代が懐かしい。

 決定木モデルのRパッケージとして参考書でよく見かけるのは、rpart(Rの標準パッケージ), mvpart (開発がストップしている模様)、RWeka、あたりだと思う。いま手元にある Kuhn &Johnson本 (かのcaretパッケージの中の人の本)はC50をつかっている。

 CRAN Task Viewの機械学習・統計的学習で、「再帰パーティショニング」の下を見ると、名前を挙げられているパッケージが実にたくさんあって、困惑してしまう。メモしておくと...

というわけで、いろいろあって頭が痛いが、mvpartなきいま、CART系ならrpartパッケージ、CHAID系ならpartyパッケージ、あたりが本命なのであろうか... できることならばすべての開発者のみなさまを鬼界ヶ島に流し、all-in-oneの統一的パッケージをつくるまで京に戻さない、というようなことをしたいものだ。

Hothorn, T., Hornik, K., Zeileis, A. party: A laboratory for Recursive Partytioning.
 というわけで、partyパッケージのvignett。これまで深く考えずにノリで使っていたので、ちょっと反省して目を通した。

 ま、途中で難しくってわけわかんなくなっちゃいましたけどね! あとで調べたら、もっとかみ砕いた解説が下川ほか「樹木構造接近法」に載ってましたけどね!

論文:データ解析(2015-) - 読了:Hothorn, et al. partyパッケージ (と愉快な仲間たち)

rebuilt: 2020年4月20日 18:55
validate this page