« 読了:「プロテスタンティズムの倫理と資本主義の精神」 | メイン | 読了:「インド夫婦茶碗」「月影ベイベ」 »
2014年1月27日 (月)
Wickham, H. (submitted) Tidy data. Journal of Statistical Software.
reshape, reshape2, ggplot2, plyr, RStudioなどで知られるR界の怪人(?) Wickhamさんが最近書いたドラフト。先日リリースされた爆速集計パッケージ(dplyr)の使い方を覚えようと思ってwebを眺めてたら、まあ最初にこれを読んでくれよとの仰せなので、はぁそうですか、と真面目に目を通したのである。でもこれ、dplyrとはあんまり関係ないんじゃないですかね...
著者の考えるところの標準的なデータ形式、すなわちtidy dataについて説明する内容であった。tidy dataとは、変数が列で、オブザベーションが行で、データベースでいうところの正規化されたテーブルを指す概念。ある対象についての時系列が横に並んでいるようなやつは、従ってtidyではない (時間という変数が列になってないから)。はいはい...
論文:データ解析(-2014) - 読了:Wickham (submitted) きれいなデータとはなんぞや