« 読了:「ら抜きの殺意」 | メイン | 売上大感謝祭:2010上半期 »
2011年5月10日 (火)
動機や中身は問わず,とにかく論文と名の付くものを読んだら漏れなく記録しておこう。という,何度かめの決意を胸にして...
Wickham, H. (2007) Reshaping Data with the reshape Package. Journal of Statistical Software, 21(12).
Wickham, H. (2011) The Split-Apply-Combine Strategy for Data Analysis. Journal of Statistical Software, 40(1).
前者はRのreshapeパッケージ,後者はplyrパッケージについての解説で,統計学ではなくむしろデータ整形に属する内容。著者はRの世界では有名な人らしい。GGobi の関係者でもあるようだ。
reshapeパッケージというのは,たとえばフィールド{ID, X1, X2, ..., Xk} を持つ100行のデータセットがあるとき,それをまず {ID, varname, value}の3列のみを持つ100*k行のすごく縦長なデータセットに変換してしまい(これをmeltという),そこから必要に応じてデータ行列なり集計表なりを生成すると便利だ (これをcastという) ... というアイデアに基づくデータ整形パッケージ。ながらくSASをつかっているなかで,このような手順でデータを整形することが多かったので,そう悪い発想でもなかったのか,我が意を得たり,という気分である。やたらに行数が多いデータ行列ができるわけで,SASの場合はデータセットへのアクセスに時間を食うのがネックだったのだが,Rはどんなデータセットであれまるごとメモリに展開してしまうようだから,あまり問題にならないのだろう。
plyrパッケージというのは... Rを使い始めて日が浅いけど,いまもっともウンザリしているのがデータの層別処理のわかりにくさだ。apply系だのaggregateだのbyだの,たくさん関数があってどれも微妙に挙動がちがう。このパッケージはもっと整理された体系を提供してくれているようで,いっそ標準の関数は見捨ててこのパッケージだけ使い倒そうかと思い読んでみた。もっとも,このパッケージにもそれはそれでちょっとクセがある模様だ。
論文の最後に標準の関数との対応関係が整理されていて,その記述のおかげで頭が整理できたので,ま,読んでよかったということにしておこう。
見知らぬソフトウェアを新たに使いはじめ,ここがわかりにくい!ここがウンザリだ!と不平不満たらたらなのだが,冷静になってみれば,Rは確かによくできている。俺のような初心者にとってもなかなかわかりやすい代物だ。なにしろ,これまで使っていたSASのことを想えば... ああ,proc tabulate の奇妙さときたら,ODSの取って付けた感ときたら,マクロ言語の冗談じみたわかりにくさときたら。もっとも,いまはあのごった煮がちょっと懐かしいのだけれど。
論文:データ解析(-2014) - 読了:Wickham(2007) Rのreshapeパッケージ; Wickham(2011) Rのplyrパッケージ