メイン > データ解析
2019年7月 9日 (火)
ビッグデータ統計解析入門 経済学部/経営学部で学ばない統計学
[a]
照井 伸彦 / 日本評論社 / 2018-12-12
著者はマーケティング・サイエンスの有名な先生。副題に「経済学部/経営学部で学ばない統計学」とある。「経済セミナー」誌での連載の書籍化である由。
ちゃんと読んだわけじゃないけど(すいません)、今後必要な時に参照できるように、何が書いてあったかだけメモしておく。
- 1章: イントロ。ビッグデータとはなにか、頻度主義統計学の限界、etc.
- 2章: ベイズ統計の基本。事後分布の評価としてまず共役事後分布について説明し、モンテカルロ積分、解析的近似(変分ベイズ)についてちらっと紹介。
- 3章: 前半はナイーブベイズによる分類。後半はベイジアン・ネットワークのかんたんな紹介。
- 4章: 階層的クラスタリング、k-means法、アソシエーションルール、CART、バギング、ランダムフォレスト、ブースティングについて、それぞれ簡単に紹介。
- 5章: まず線形判別の紹介。実例とともに、感度、ROC曲線、class imbalanceを紹介。ロジスティック回帰の紹介。最後に、SVMの紹介が4p(これは...はじめて読んだ人は狐につままれたような気分になるだろうな...)、計算例。
- 6章: PCAとEFAの紹介(回転についての説明はしてないみたいだ)、主成分回帰とPLS回帰の紹介(へええ... PLS回帰の説明はこの厚さの本にしてはちょっとレアかも)、リッジ回帰とLASSO。最後の実例のところでクロスバリデーションが出てくる。
- 7章: テキスト解析の章。まずワードクラウドを紹介。で、LDAについての説明が実習込みで9p、ここは力が入っている感じ。
- 8章: NNの章。シグモイド関数とsoftmaxを紹介し、多値選択問題を3層NNでモデル化する実習。で、ディープラーニングについてほんのちらっと紹介(1pとちょっと)。
財務諸表から倒産確率を線形判別するモデルをアルトマンモデルというのだそうだ。知らなかった。
Rによる実証分析 ―回帰分析から因果分析へ―
[a]
星野匡郎,田中久稔 / オーム社 / 2016-10-26
刊行時に買ったまま本棚で眠っていたのだけれど、3-6月のセミナーの準備の際に引っ張り出して机の横に積み上げ、しかし残念ながら時間切れで手に取れなかった。本棚に戻す前に、何が書いてあるのかざーっとめくってみた。
前半のうち1-5章は「基礎編」と題して、推測統計学の基礎的な概念の説明をR入門と並行して進める。母集団と標本、記述統計量、確率の基礎、中心極限定理、単回帰と重回帰(まず離散変数のXで層別したYの期待値のプロットを出してこれを「ノンパラ回帰」と呼び、これを線形回帰の導入にする)、仮説検定(μ=0の検定をやったあとでいきなり回帰係数の検定になる。差の検定はやらない)。
6章では、相関と因果は違うんだよという話を枕にして、ルービン的な枠組みを導入して(いきなりトリートメントっていわれて面食らわないかしらん)、ATEを紹介。
7章では内生性について触れ、内生性が生じる原因について、省略変数(omitted variableのこと)、推定誤差、同時性の3つを挙げる。実例として、うまいこと自然実験の形になっていて内生性を克服できた例(Boes & Nuesch, 2001 J.UrbanEcon.), 出生時体重が教育年数に与える効果を一卵性双生児データで推定した例(Behrman & Rosenzweig, 2004 Rev.Econ.Stats.)。
[Boes & Neuschというのはセミナーで使えたな...やっぱり先に読んでおくべきだった...]
後半がこの本のウリだと思う。Angrist-Pischke本のそのまた入門編という感じ。
8章は選択バイアスとランダム化実験。研究例としてテネシー州のProject STARを紹介。[こういうときに教育研究が出てくるというのは、私が院生のころには比較的レアだったような気がする。時代は少しずつ変わっている]
9章はマッチング法。NNマッチング、k-NNマッチング, caliperマッチング, 傾向スコアマッチングもちらっと紹介される。実例はアメリカの絶滅危惧種保護法の効果推定で、野生動物の個体をマッチングする[これおもしろいなあ。Ferraro, McIntosh, Ospina(2007, J.Env.Eco.Mgmt)という論文だそうだ]。
10章はRDD。局所回帰・局所線形回帰で推定する実習。実例はFerreira & Gyourko (2009)という政治学の研究。
11章は操作変数法。2段階最小二乗法をlm()でやる実習(いったんざーっと説明しておいて、あとでRubinの枠組みと結びつけるという順序で進む)。実例はLevitt(1997)という、警察の規模が犯罪件数に与える効果を選挙のタイミングを操作変数にして推定する話であった。
この本が扱う内容とRの基礎トレーニングとは本来全然関係がないので、話を並行して進めるのはちょっと読みづらいんだけど、いろんな制約があるんでしょうね... たぶん学部の講義の教科書として使うことを想定しているのだろう。
後半の各章の末尾にいちいち魅力的な研究例が紹介されているところが勉強になった。毎回うまい例をひっぱってくるのって、なかなか難しいものだと思う。さすがにプロの研究者である。
2019年7月 1日 (月)
リーダブルコード ―より良いコードを書くためのシンプルで実践的なテクニック (Theory in practice)
[a]
Dustin Boswell,Trevor Foucher / オライリージャパン / 2012-06-23
この本、ずっと前から本棚にあって、仕事に気が乗らないときにぱらぱらめくっていたのだけれど(なぜかちょっとだけやる気が出てくる)、このたびついに読み終えてしまった。
2018年7月 3日 (火)
Small Area Estimation (Wiley Series in Survey Methodology)
[a]
Rao, J. N. K.,Molina, Isabel / Wiley / 2015-08-24
ここ2週間ほど、常にこの本を携帯し、少しの時間でもあれば頁を開き、寝ても覚めても小地域推定のことばかり考えていた。仕事の都合での勉強ではあったのだが、いいかげん他の仕事も詰まってきたし、考えれば考えるほど難しくて吐きそうになり、いまや日常生活にも支障が生じ始めた。いったんここでやめて、少し頭を冷やすことにする。
読書ノートはこちら。読み返すと、学力不足で理解に達していない箇所が多い。哀しいことだが、逆にいうと、基本的な数学もわからないのに、よくもまあ読もうという気になったものだ、ちょっとしたドン・キホーテだ。
2018年5月 3日 (木)
ε-δ論法とその形成
[a]
中根 美知代 / 共立出版 / 2010-07-23
たまにふらふらと、絶対に理解できそうにない本を買ってしまうことがある。これもその一つで、微分・積分の歴史についての本。そもそも「ε-δ論法」というのがなんなのかもよくわかっていないのに、なぜこんな本を買おうと思ったのか、自分でもさっぱりわからない。家に帰って袋から出して、ちょっとあっけにとられた。
というわけで、もちろん9割9分9厘までちんぷんかんぷんなのだが、せっかくなので最後のページまでめくった。いくつか印象に残ったところをメモしておく。
- ε-δ論法というのを感情を込めて説明するとこういうことなのだそうだ。「好きなεを持っていらしてください。どんなに小さくても結構ですよ。持っていらしたεに応じて適当なδを出し、所定の不等式が成り立つようにできるだけの準備がこちらにはございます」。へー。
- 著者の先生曰く:「天才数学者ならば、グラフをみて、直ちに一様連続と単なる連続の違いに気がつくのだろうか。ε-δ論法を使いこなしてそのような概念を明確に捉えたのだろうか。数学はそのような天才たちのものなのだろうか。もしそう考えていたら、それは誤りだ。一様収束や一様連続、多変数関数の連続性を把握できなかった偉大な数学者は何人もいた。講義では5分くらいで語られる概念でさえ、それが認識されるためには、大物といわれる数学者複数名の研究が必要だった。直感で捉えにくい概念や定理は、決して天才のとっぴな思い付きやひらめきから着想されたものではない。なんらかの必然性があって、数学者がそのようなことを考えなくてはならないところに追い込まれ、その結果生み出されたのである」。なるほどねえ。そういう風に言っていただけると、それじゃあ勉強しようかという気にもなりますね。
- 18世紀の数学者たちは、$1+x+x^2+x^3+\cdots=1/(1-x)$という公式を受け入れていた。実際には、たとえば$x=2$のときこの公式は成り立たない。そのことに数学者たちはとっくに気が付いていた。それでもこの公式を受け入れていたのである。なぜか。18世紀の数学者たちは、数学の命題は一種の規則であり、規則だから例外もある、という風に考えていた。「ある定理に対して反例が挙がったらその定理は再検討しなければならない」という考え方は19世紀になって生まれたものものなのだそうである。へえええええ!!!
2018年4月28日 (土)
R言語徹底解説
[a]
Hadley Wickham / 共立出版 / 2016-02-10
現勤務先への転職を機に、20年近く使い続けた我が愛しのSASに別れを告げ、泣く泣くRに乗り換えたのであった。たまに自宅でSAS University Editionを立ち上げると、もう懐かしくて仕方ないです。
とはいえRを使い始めてはやX年 (Xの値については考えたくない)、その間ほぼ毎日使っているわけで、こうしてだましだましその場をしのいでいるのもいかがなものか、やはりきちんと勉強したほうがよいのでは... と後ろめたい気分であった。先日ちょっと時間があいたので、刊行時に大枚はたいて買い込んだまま本棚に積んであったこの本に一通り目を通してみた。R界の神様Hadley Wickhamによる有名な解説書。
せっかくなので、読みながら「おおお」と思ったり「へええ」と思ったりしたところをメモしておく。
1. 導入
2. データ構造
- オブジェクトxがベクトルかどうかを判断したいとき、is.vector(x)はだめ。これは「xが名前以外の属性を持たない」ときにTRUEとなる関数なのである。そうそう、これに気が付いたときはあっけにとられた。なんでこんな名前にするかなあ。is.atomic(x) || is.list(x)を使うべし、とのこと。
- かつて因子型ベクトルは文字型ベクトルに比べてメモリ消費量が少なかったが、いまは変わらない。
- comment属性はprintされない。ほんとだー。
3. データ抽出
- (これは本のメモではなくて、本を読みながらふと試してみたんだけど) x <- 1:3; names(x) <- c("a", "b", "a"); としたとき、x["a"]はc(1,3)ではなく黙って1だけ返す。やっぱりそうだったか。名前で絞るのって怖い。
- x <- 1:3として、x[NA]はc(NA, NA, NA)だが、x[NA_real_]はNAである。なるほど。
- アトミックベクトルxに対してx[[1]]とすると、x[1]と違って名前が消える。おおお...
4. ボギャブラリ
5. コーディングスタイルガイド
6. 関数
- 関数のsrcref属性にソースコードが入っている。コメント付きで。
- 「レキシカルスコープ」の「レキシカル」は、英語のlexicalではなく、コンピュータサイエンス用語の"lexing"(字句解析)に由来している。へー。
- レキシカルスコープの4原則。(1)ネームマスキング。(2)名前から値を探す際のルールは値の型に関わらず同一だが、あきらかに関数っぽい名前の場合は例外で、関数しか探さない。(3)フレッシュスタート。関数が呼び出されるたびに新しい環境が生成される。(4)ダイナミックルックアップ。値が探されるのは関数が生成されたときではなく実行されたとき。
- リスト l に対して、sapply(l, function(x) x[2])はsapply(l, "[", 2)とも書ける。なるほど。
- 関数の引数は遅延評価されるから、その関数のなかで生成する変数でデフォルト引数を定義することさえできてしまう。良いやり方ではないけれど。
- 関数にデフォルト値を与えず、未指定かどうかmissing()で調べてどうにかするコードを書くくらいなら、デフォルト値をNULLにしておいてis.null()で調べたほうが良いのでは、とのこと。どれが必須変数でどれが省略可能な変数かわかりにくくなるから。
- 引数を強制評価するときに使うforce()は force <- function(x) xと定義されている。面白い...
- !is.null(x) || stop("a is null")と軽く書けるのは遅延評価のおかげ。そうですね。逆に言うと、いつもこういうとき||演算子を使わずstopifnot(!is.null(x))と書いているのは、気持ちの上で遅延評価に頼るのが怖いからだと気が付いた。
7. オブジェクト指向実践ガイド
- is.object()でオブジェクトが基本型かどうかがわかる。わかりにくい名前だ...
- S3クラスをすべて表示させる方法はない。
- S3オブジェクトのclass属性を変えることができる、変えるべきではないけれど、とのこと。そういわれてみれば、あまり気にしていなかったけど、オブジェクト指向という意味ではclass属性を変えられるのってすごく奇妙ですね。
(7.4 RC はスキップした)
8. 環境
この章がいちばん難しい。きちんと理解できたとは言い難い。
- 環境はフレームと親環境からなる。フレームとは名前と束縛を保存しているものである。ところがフレームという用語は別の意味で使われていることがある。たとえばparent.frame()は親フレームではなくて呼び出し環境にアクセスしている。
- リストの要素にNULLを付値すればその要素は消えるが、環境のなかのオブジェクトにNULLを付値してもNULLに束縛されるだけ。そういわれてみればそうだ。削除にはrm()を使う。
- かつては大きなデータを扱うために環境を使った。修正してもコピーが生じないから。しかしいまではリストを修正しても全要素をコピーしたりしないので、あんまり意味がなくなった。
9. デバッギング、条件ハンドリング、防御的プログラミング
- is.error <- function(x) inherits(x, "try-error"). なるほど、これは便利だ。いつもtry()の返値の判定で戸惑っていたのである。
- 防御的プログラミングの観点からは、subset()は使わないほうがよい(非標準評価しているから)。また[とsapply()には要注意(引数によって出力の型が変わるから)。[にはdrop=FALSEを付け、sapply()のかわりにvapply()を使うべし。
(9.3.2-9.3.4でtryCatch(), withCallingHandlers()について説明しているんだけど、面倒なのでスキップした。いずれ必要に迫られたときに読もう)
10. 関数型プログラミング
- クロージャ c が持っている値をみるためには、as.list(environment(c))とするか、pryr::unenclose(c)を使う。
- ある型のオブジェクトを食う関数をたくさん作ってリスト lf に入れ、それぞれにオブジェクトxを食わせて動かしまくりたいとする。lapply()を使う場合、結局無名関数か名前付き関数を作るしかない。lapply(lf, function(f) f(x))というように。ああ、やっぱりそうだったのか。 なにか特別なやり方があるのかと思っていた。
(10.5 ケーススタディ:数値積分 はスキップした)
11. 汎関数
- 関数を食ってベクトルを返す関数を汎関数(functional)という。たとえばlapply()がそう。
- mtcars[] <- lapply(mtcars, function(x) x/mean(x) ) と書くより、いったんmtmeans <- lapply(mtcars, mean)としてからmtmeans[] <- Map(`/`, mtcars, mtmeans)としたほうがわかりやすいでしょう、とのこと。そ、そうかなあ... 私はふだんMap()使わないのでびびりました。
- 行列aに対して a1 <- apply(a, 1, identity)として、identical(a, a1)はFALSEになる(a1はaの転置になっているから。apply(a, 2, identity)ならTRUEになる)。apply()のこういう性質のことを「べき等性がない」というのだそうだ。
- Reduce()関数。数値ベクトルのリストlがあり、全要素に共通する値を探したい。つまり、intersect(l[[1]], l[[2]]])をとって、それとl[[3]]とのintersectをとって...を繰り返したい。こういうとき、Reduce(intersect, l)と書ける。すげー。私だったらおそらく、数値が整数なら x <- table(unlist(lapply(l, unique)); as.integer(names(x[x == length(l)]))ってやっちゃう...
(11.7 関数族 はスキップした。ちょっと疲れちゃったもので...きちんと読んだらとても勉強になりそうな内容である)
12. 関数演算子
- たとえばdot_every<-function(f,n){なんとかかんとか}と定義したとして(fは関数, nは整数)、呼び出しはdot_every(hogehoge(hogehoge), 10)となるけど、dot_everyと10が離れてしまって読みにくくなる。こういうのをダグウッドサンドイッチというのだそうだ。アメリカのマンガに出てくる、すごく具材の多いサンドイッチのことらしい。知らんかった。というわけで、dot_every <- function(n, f){なんとかかんとか}と定義したほうが良い由。
- f <- function(a) g(a, b=1)と書く代わりに、pryr::partial()というのを使ってf <- partial(g, b=1)と書けるのだそうだ。こういうのを部分関数適用という由。この例では後者を使う意味がないけど、compose()と併用すると便利である由... うーん...
- splat <- function(f){force(f); function(args){ do.call(f, args) };}とすると、たとえばベクトルxに対してargs <- list(list(x), list(x, na.rm=T)); lapply(args, splat(mean))という風に使える、とのこと。なるほどねえ、これは確かに便利かも。
13. 非標準評価
- quote()は引数(表現式)を評価せずそのまま表現式として返す。substitute()は関数の中で使ったときのみ、変数を置換する。pryr::subs()はグローバル環境で使っても置換する。
- Hadley先生はlibrary()やvignette()といった関数が非標準評価を使っていること(つまり、library("ggplot2")ではなくlibrary(ggplot2)と書けること)に批判的。非標準評価を使うと参照透過でなくなるから(引数を値に変えても結果が同じであることが保証されなくなるから)。そのくらいのことなら""で囲めよ、たった2文字だろ、とのこと。
- Hadley先生いわく、非標準評価を使う関数をつくったらその標準評価版もつくりなさいとのこと。たしかに、以前のdplyrパッケージはそうなってましたね、最近なくなっちゃったけど。ってことは、考え方が変わったのかしらん。
14. 表現式
- 表現式(expression)の要素は、定数(constant), 名前(name), 呼び出し(call)。ほかにペアリストというのもあるけど過去の遺産。
- str()はnameをsymbol, callをlanguageと表記する。
(14.5 ペアリスト, 14.7 再帰関数を用いた抽象構文木の巡回 はスキップした)
15. ドメイン特化言語 (スキップした)
16. パフォーマンス
メモは特にないけど、全編にわたって目から鱗が落ちる内容であった。
17. コードの最適化
- コード高速化のために実験するときは、あらかじめ目標の実行速度を決めておくこと。ずるずるやってると時間の無駄になるから。はい、胸に刻みます...
- 10 %in% x よりany(x == 10)のほうがはるかに高速。
- sapply()よりvapply()のほうが速い。
- cut()はlabels=FALSEとすると速い。
- リスト l にas.data.frame(l)とするのは効率が悪い。個々の要素をデータフレームにしたうえでrbind()しているから。l の中身に自信があるなら、いきなりclass(l) <- "data.frame"; attr(l, "row.names") <- .set_row_names(length(l[[1]])); としちゃえば速い。とはいえ、このやり方を見つけるためにはHadleyさんでさえ時間をかけてソースコードを読んだ由。素人にできることではないな。
18. メモリ
19. Rcppパッケージを用いたハイパフォーマンスな関数 (スキップした)
20. RとC言語のインターフェイス (スキップした)
2017年8月22日 (火)
集合知入門 (I・O BOOKS)
[a]
赤間 世紀 / 工学社 / 2014-05-01
2014年の本。どんなことが書いてあるのかなと思ってパラパラめくっただけなので、読了というのも失礼だが、整理の都合上記録しておく。
様相論理の話が妙に充実していた。どういう読者のために書かれた本なんだろう?
2015年12月14日 (月)
Applied Correspondence Analysis (Quantitative Applications in the Social Sciences)
[a]
Clausen / Sage Publications, Inc / 1998-08-01
ちょっと都合があってゆっくり目を通した。わかりやすい本だ。
読了:「Applied Correspondence Analysis」
2015年11月 2日 (月)
カルマンフィルタの基礎
[a]
足立修一,丸田一郎 / 東京電機大学出版局 / 2012-10-10
これもかなり前に読んで、記録していなかった本。単にめくっただけで、理解できていないような気もするが。
2015年5月 9日 (土)
計画策定と意思決定のための予測手法入門
[a]
スピーロス マクリダキス,スティーブンC. フィールライト / 同友館 / 1995-07
数年前に気になって、古本で入手したきり積んであった本。 Marridakis & Wheelwright (1989) "Forecasting Methods for Management", 5th ed. の翻訳。文字通り、ビジネス予測の実務家向け概説書である。
必要な時にぱっと参照できるように、ぱらぱらめくって内容を見渡しただけだけど、いちおう読了にしておく。ちょっと内容が古いけど、いやあ、これは良い本だなあ。手に入れておいてよかった。
2015年3月26日 (木)
Rによるベイジアン動的線形モデル (統計ライブラリー)
[a]
G.ペトリス,S.ペトローネ,P.カンパニョーリ / 朝倉書店 / 2013-05-08
細かいところは全然理解できていないんだけど、一通りめくったということで、読了にしておく。
翻訳はかなり信用できる印象。実は、やたらに難解な箇所があるのは翻訳の問題じゃないかしらんと疑っていたのだが(すいません)、このたび何箇所か原文と照らし合わせて読んでみたところ、いずれも、なるほどこう訳すしかないなという感じであった。
2014年10月27日 (月)
状態空間時系列分析入門
[a]
J.J.F. コマンダー,S.J. クープマン / シーエーピー出版 / 2008-09
An Introduction to State Space Time Series Analysis [a]
Commandeur, Koopman / Oxford Univ Pr / 2007-08-30
Rのコードまで書いて、時間をかけてめくった本。やれやれ。
読了:「状態空間時系列分析入門」「An introduction to State Space Time Series Analysis」
2014年9月19日 (金)
Rによる時系列分析入門
[a]
田中 孝文 / シーエーピー出版 / 2008-06
数学が得意な人には苦手な人の気持ちがわからないし、苦手な人はふつう年を食ってから改めて勉強したりはしないので、結局わたしの気持ちなんで誰にもわかってもらえないのである。(ぼやき)
というわけで、データ解析の諸領域のなかでも鳥肌立っちゃうくらいに苦手な、時系列分析の勉強のために通読した本。論文を読んでいるといつもわけがわかんなくなり、バカ高い参考書を何冊も買っては投げ出し、レベルを落としに落とし、ついにここにたどり着きました。もとは青山学院大の学部の計量経済学の演習資料だそうである。文系の学生諸君よ、ありがとう!
ええと、内容は...
最初の1/3は、経済時系列・超入門、という感じ。
- 1章: Rの基礎知識。冗談抜きの基礎知識である。章末の演習課題は「データフレームをつくろう」だ。
- 2章: 時系列データをグラフに描く。plot()の説明だが、ついでにtsクラスを導入。
- 3章: 増減率を計算する。前期比、前年同期比、年平均増減率。それから、たとえばGDPの増減率に内需の増減率がどれだけ貢献したか、なあんていう話(寄与度分解)。恥ずかしながらこういう話全然知らなかったので、面白く読んだ。いやあ、私の通っていた大学には経済学の講義なんてなかったのですよ (嘘です。通ってなかったのでわからないだけだ)
- 4章: トレンドを抽出する。直線の最小二乗近似について懇切丁寧に説明 (つまりこの教科書は初等統計学入門を兼ねているのだ。講義担当者のご苦労がしのばれる)。
- 5章: 成長曲線。修正指数曲線、ロジスティック曲線、ゴンペルツ曲線 (これって実際にはどのくらい使うのかしらん?)。面白いのは、ロジスティック曲線の近似について、まず最小二乗で(lm()で)無理やりあてはめるやりかたを丁寧に説明し、最後にnls()を紹介する点。そうかー、教えるという観点からはこういう順番になるのか...
- 6章: 季節変動を抽出する。移動平均(filter()), 移動平均を使った古典的な季節調整法(decompose())。
- 7章: 指数平滑法による予測。指数平滑についての説明(filter()を使う)。ホルト・ウィンタース法(HoltWinters())。季節要素の導入。
- 8章: ちょっと話がそれているんだけど、ここで景気循環の話。面白い話で、興味深く読んだ。シュンペーターのいう「好況期」「不況期」と、ミッチェルという人がいう「収縮期」「拡張期」のちがいとか。在庫循環を二次元で視覚化するとか。景気動向指数をどうやって計算するかとか。真面目に大学に通ってりゃよかったな。
中盤(9章-14章)は時系列とはほぼ無関係に、確率統計入門。確率と確率分布、確率変数の特性、正規分布、母集団と標本、積率法と最尤法、標本分布(ここでカイ二乗分布を導入)、推定量の不偏性・一致性・有効性、区間推定(ここでt分布を導入)、仮説検定(t検定とF検定)、単回帰とそのパラメータ推定量、予測値の区間推定、重回帰とそのパラメータ推定量、2次元の同時確率分布(ここでようやく共分散と相関を導入)、条件付き分布と独立性、多変量正規分布(ついでにcontour()を紹介)。通年の講義の1/3で、これだけホントにやるのだろうか。大変だなあ。
終盤、ついに時系列分析っぽくなってまいりまして... ここからは真面目に読んだ。我ながら涙ぐましい。
- 15章: 定常確率過程。確率過程の平均、分散、自己共分散、自己相関係数。弱定常とはなにか。時系列データの特性。標本コレログラム。acf() の紹介。ラグ演算子の導入。差分方程式(1階、2階、p階)とその解。特性方程式をpolyroot()をつかって解く実習。最後に、差分方程式で時系列をつくるシミュレーション。
- 16章: 線形定常過程。まずホワイトノイズを定義し、シミュレーション。で、AR(1)、その特性、シミュレーション。AR(2), AR(p)とその特性。MA(1), MA(2), MA(q)とその特性。ARとMAの関係(MAの反転可能性ってそういう意味だったのか、はじめてわかったよ...)。偏自己相関。pacf()をつかったシミュレーション。最後にARMA(1,1), ARMA(p,q), ARIMA(p,d,q)をちらっと紹介して、arima.sim()で遊ぶ。
- 17章: ARIMAモデルの推定。まず前処理の話。トレンドはとりあえず差分をとって除去(まだ単位根検定の話はしない。そうそう、こういう教え方をしてほしいよね!)。分散非定常ならBox-Cox変換。季節変動は季節階差とか季節調整とか、SARIMAモデルとか(ちらっと触れるだけ)。で、いよいよ推定ですが... 次数の推定には触れず(いろんな次数でモデルを推定して比較なさいとのこと)、尤度関数にも触れず、とにかくarima()で推定・診断してみせる。もちろんコードつきの親切な解説である(arima(), Box.test(), tsdiag())。この辺は仕事であまり使わないのでざっと目を通しただけだが、わかりやすい...
- 18章: ARIMAモデルによる予測。まず条件つき期待値とMSEについて説明。で、ARIMAモデルでの予測。まずコードを真面目に書き下し、最後にpredict()を使って再現。
- 19章: 単位根過程。RWの説明とシミュレーション。ここではじめて和分過程の登場(ARIMAモデルの説明の際には飛ばしていたのである)。確定的トレンド項と確率的トレンド項を区別し、RWに定数を入れてみたり(ドリフトつきRW)、定常過程に定数をいれてみたりする。シミュレーションしてみるとこれが案外区別できない。で、見せかけの回帰(spurious regression)を紹介し(もちろんシミュレーションつき)、いよいよ単位根検定に突入。ADF検定の手順を丁寧に説明。なにかの宗教儀式かというくらいに段取りがややこしいのだが、Rではurcaパッケージのur.df()で簡単に実行できるのだそうで、そのコード例。
- 20章: 周波数領域の分析。この辺の話にはちょっとアレルギーがあるので、今回は読んでいないんだけど... フーリエ変換とスペクトル分析の説明である。いつかそのうちにな。
- 21章: 復習を兼ねた実習。
というわけで、詳しい人は「肝心なところを端折りおって...」と苛立つかもしれないが、私のような宿命的な数学音痴にはぴったりの教科書であった。特に15章から19章、説明の順序がわかりやすいおかげで、はじめて腑に落ちる箇所が多かった。要所要所でシミュレーションコードを示してくれているのも嬉しい。実行してはいないけど、目で追うだけでなんとなくわかったような気がして、助かる。
それにしてもこういう話、少なくとも私にとっては、会社勤めしてはじめて面白みを感じるようになった話題だ。学生の身の上にしてちゃんと勉強できる人って、いったいどういう動機づけを持っているんだろうか。(形を変えたぼやき)
2014年9月13日 (土)
ロジスティック回帰分析: SASを利用した統計解析の実際 (統計ライブラリー)
[a]
丹後 俊郎,高木 晴良,山岡 和枝 / 朝倉書店 / 2013-11-08
昨年に改訂版が出ていたことにようやく気が付き、びっくりして買い込んだ。どんな変更があるか確かめるためにざーっとめくっただけなので、読了というのはおかしいけれど、備忘録として記録しておく。
記憶との照合だからあてにならないけど、レイアウトがちょっと親切になり、ケースコホートみたいなマイナーなデザインの話が追加され、階層データと欠測データの説明がどどーんと追加され、数量化II類の説明が落とされているように思う。
試しに見比べてみよう、と本棚にある旧版(1996)を久々に手に取ったら、ところどころに手垢やら必死な書き込みやら目につき、急にセンチメンタルになってしまった。前の前の会社に拾ってもらって、でも民間企業でなにをしたらいいかわからず当初はヒマを持て余し、仕方がないのでこの本や項目反応理論の本を朝から晩まで読み倒していたのであった。ラララ、そんな日もあったー。
2014年8月 5日 (火)
R.A.フィッシャーの統計理論―推測統計学の形成とその社会的背景
[a]
芝村 良 / 九州大学出版会 / 2004-03
近代統計学の父(?) R.A.フィッシャーの研究とその社会的文脈を辿る、統計学史の本。著者の博論だそうです。
面白かった箇所をメモ:
帰無仮説や有意水準といった新しい概念を導入し、従来明示的でなかった統計的検定の手続きを形式化したフィッシャーの業績は、高度な専門的知識を持たず、農事試験の現場から得られた洞察力を理解する経験を持たない農業従事者と、これらを持つ専門家間での実験結果の解釈をめぐるコミュニケーションの規則としての機能を、有意性検定に付与したといえる。従来、フィッシャーの有意性検定論は専ら「科学的な帰納的推理の論理」から論じられてきたといってよい。しかしながら [...] 農事試験の領域においてフィッシャーによって展開された有意性検定が、この領域で受け入れられていった過程は「科学的な帰納的推理の論理」だけでは説明がつかない。このことは[...]農事試験の目的が、純粋な科学上の目的で行う実験と同一視できないことと関連がある。従って、フィッシャーの有意性検定について論じる際は、それに対して資本化された農業における農事試験の論理が相当程度影響していることに留意する必要がある。(p.87)
[検定論をめぐるフィッシャー-ピアソン論争について、両者の] 相違点は、①検定の目的の違い、②自由度の概念の有無、③有意水準の設定の有無=明確な判定基準の有無、および④帰無仮説の明示化の有無の4点が挙げられる。[...フィッシャーの] 有意性検定では[分散分析の変動の分解を通じた]帰無仮説の棄却=標本特性値の有意性の査定が目的であるのに対し、K. ピアソンの検定論の目的は経験分布と理論分布との乖離=誤差の小ささを確認することであった。[...] つまりK.ピアソンは誤差の存在を観測の失敗ととらえ、誤差を大数観察により減少させようとしたのに対して、フィッシャーは誤差の存在を認め、それを正確に推定しようとしたのであり、ここに誤差に対する認識の相違が確認できる。[...②もここから説明できるという記述があって...] 残る相違点③④からは、フィッシャーが有意性検定の手続きの形式化を志向したことが窺えるが[...] この志向は当時の農事試験が抱えていた問題と関連している。[...フィッシャーは] 誰の手によってもただ一つの結論しか導かれない実験計画法に立脚して農事試験を行うことによって、肥料を購入する人々への説得をより容易にすることを狙ったものと解釈できるのである。(p.108-110)
へぇ-...
とこのように、一貫して数理統計研究と社会的要請との関係を重視して書かれた本であった。勉強になりましたです。
2014年7月28日 (月)
ゲーム理論のあゆみ
[a]
鈴木 光男 / 有斐閣 / 2014-04-17
必要に駆られてゲーム理論の勉強を試みて、学部生レベルの教科書を持ち歩き練習問題を解き、電車の中やコーヒーショップやらで我ながら涙ぐましい姿をさらしているのだが、いっこうに身につかない。悲しみは募る一方。せめて歴史の知識でもあれば少しは楽しくなるかな、と適当に手に取った本。
ところが... 気楽な読み物かと思いきや、著者は1928年生まれ、日本におけるゲーム理論の大先達、フォン・ノイマン&モルゲンシュテルンのあのモルゲンシュテルンの弟子、こないだ大病で入院したときにシャープレーが見舞いに来るというので謝絶した、ナッシュと碁を打ったのが懐かしい... という、まさに生きる伝説級のとんでもない先生なのであった。すみませんすみません。素人なりに背筋を伸ばして読みましたので、どうかお許しださい。
ところで、日本語のゲーム理論の書籍は1970年前後から出版されるようになったとのことで、当時の著者の一人に戸田正直の名前が挙げられている(心理学の超ビッグネーム)。また、著者による70年刊の編著には「性格と囚人のジレンマ」なんて章もあり、著者らは心理学者だ。へええ、心理学と意外な接点があるものだ。
2014年1月 5日 (日)
原因を推論する -- 政治分析方法論のすゝめ
[a]
久米 郁男 / 有斐閣 / 2013-11-13
政治学者が因果推論の方法論をエッセイ風に語る本。大竹文雄「経済学的思考のセンス」の政治学版といった感じである。政治学の面白いところがつまみぐいできるんじゃないかしら、と思って手に取った。アタリでした。楽しく読了。
いくつかメモ:
- マッキンゼーの人が昔書いた「エクセレント・カンパニー」という有名な本があるけど(読んでませんが)、その本の著者は後に「データねつ造して書きました」と告白しておられる由。へー。
- 誰かをあまり強く批判するタイプの本ではないのだけれど、中小企業論の中沢孝夫という方の本についてはかなりはっきりと批判している。「強い企業」の見聞録を読むくらいなら、ローゼンツワイグの「なぜビジネス書は間違うのか」を読みなはれ、とのこと。
- 無作為割り当て実験の例として紹介されていた著者らの実験。ネット調査で、最初にスーパーマーケットなどの写真を見せてから自由貿易の是非について質問すると、最初に工場の写真を見せていた場合に比べて、保護主義的な回答が減ったのだそうだ。それぞれ「消費者としての自分」「生産者としての自分」をプライムしたからだ、という説明らしい。へえ-。面白いなあ。
- 著者は科学的推論について基本的にポパー流の反証主義の立場に立っていて、主要仮説/補助仮説といった話題はほんの数行触れられる程度。そういうものか。
- シングル・ケース研究におけるLeast likely case methodの例としてあげられている研究が面白かった。冷戦期の米ソ軍縮交渉で、科学者のようなtransnationalな行為主体が大きな役割を果たしていた、という指摘があるそうだ(軍事交渉においてさえ非国家アクターの役割が大きい、という意味で国際協調主義を支持するleast likely caseになっている)。Matthew Evangelista という人の"Unarmed Forces" という本が挙げられている。邦訳はなさそう。
- 「社会科学のリサーチ・デザイン」という有名な本があって、かつて論争を呼んだらしいが(「社会科学の方法論争」という本になっている)、著者のまとめによればその論争とは、現象を説明する一般原則の発見に重きを置くか、現象が生じるプロセス自体に関心を持ち、対象を限定した中範囲の理論を目指すか、という対立なのだそうだ。へー。いつかきちんと読まなきゃと思って積んではいるが、どうも大変面倒くさそうな本で。。。
- こういう本を書く政治学者の方は、きっと現実の政治へのコミットを嫌うんだろうなあ、と想像しつつ読んでいたのだが、最終章で日本の政治学の話になって、そうした話題が登場した。政治改革という価値判断に基づく啓蒙主義的な政治学と、経験的・実証的な政治学とは、これまで対立と行き違いを繰り返してきた、とのこと。民主党のブレーンであった山口二郎さんについても頁が割かれている(素人目に文字面だけ読めば、案外に好意的)。現実の政治に対して規範的立場をとるなとか、政策提言するなというわけではないけど、規範的判断と実証的分析とは独立な知的営為なのだ、とのこと。
2013年6月14日 (金)
アート・オブ・Rプログラミング
[a]
Norman Matloff / オライリージャパン / 2012-09-26
この2年ほどほとんど毎日 R をつかっていて(というか、気分としてはRstudioをつかっていて)、ひょっとしたらとんでもない基礎知識が抜けているのではないかと急に不安になり、仕事のあいまに通読。ほんとはこういう本、必要に応じてめくるものなのだろうけど。
2013年4月17日 (水)
Discriminant analysis[a]
Klecka, W.R. / Sage / 1980-9-30
判別分析の入門書。amazonをみてたらなんだか評判がいいので、ためしに目を通した。このくらい古典的な内容だと、古い本のほうがかえってわかりやすいのではないかと思って。
内容は... 判別分析の用途、正準判別関数の導出 (ここはちょっと不親切。いきなり固有値が出てくる)、生の係数・非標準化係数・標準化係数、全構造係数・群内構造係数、固有値を割合にして評価する話、正準相関係数とその解釈(正準相関分析の観点から; 相関比の観点から)、Wilksのラムダとその検定。それから分類の話: 所属確率、事前確率の導入、分類行列とタウ、分割による妥当化。最後に、ステップワイズ変数選択の話(いま関心ないのでスキップ)。
きちんと読んでないけど... テクニカルな内容は、多変量正規性と等分散性という強気な仮定に基づくごく基礎的なレベルであった。求めていたものとはちょっとちがったし、あまり親切な書き方ではないのだけれど、ユーザ向けの良い解説だと思う。勉強になったような気がします。
2012年9月19日 (水)
読了というより,最後までめくった,という表現が正しいのだけれど....
ベイズモデリングによるマーケティング分析
[a]
照井 伸彦 / 東京電機大学出版局 / 2008-09
この本,書店に並んだばかりの頃に,ろくろく中身を確かめずに買い込み,帰路に開いてみたら,薄い本だが中身は難しそうな数式だらけ。帯には「統計数理が消費者行動分析の最先端を切り拓く」なあんて,とても魅力的な文言が踊っているのだが,これでは素人にはとてもじゃないが理解できない。やれやれ,買った私が悪うございました,勝手に切り拓いてくださいな,と悪態をついて書棚にしまい込んでいた。
それからはや数年。このたび必要に迫られ,名著と名高い Rossi, Allenby, McCulloch (2005) "Bayesian statistics in marketing" を読み始めたのだが,ターヘル・アナトミアよろしく一行一行解読を試みても,あまりに難解で歯が立たない。ほとほと疲れ切って書棚を眺め,ふとこの本を手に取ったら! なんと分かりやすい,親切な書き方だろうか! 以前は呪文のようにさえみえた数式が,スルスルと頭に入って来るではないか。
緒言によれば,これはRossi et al. と同じテーマを,しかし「彼らによる著書よりも読者層を広げて読みやすく」扱うことを目的とした本だったのだ。先生,誠に申し訳ありませんでした。自分の能力不足を著者のせいにするの,やめます。
というわけで,Rossi et al. よりも道具立てを絞って平易に書き下ろされたこの本のおかげで,少しは前進できた。この本の内容をすべて理解したとは言い難いし,実をいうと最終章の分析事例で俄然話が難しくなり挫折してしまったのだが,いや!もう文句は申しません!それはどうせ私の頭が悪いからです,ええ!
とにかく,著者の先生に感謝,日本語でこういう本が読めることに感謝。
Rによるベイズ統計分析 (シリーズ 統計科学のプラクティス)
[a]
照井 伸彦 / 朝倉書店 / 2010-03
上記の本を読んでいて,そもそも基礎がよくわかってないことに気づき,いったん中断してめくった本。動学的ベイズモデルの章は難しすぎてスキップ。
もうちょっとRのコード例が載ってたら,もっと助かったんですが... いや!文句は申しません!
読了:「ベイズモデリングによるマーケティング分析」「Rによるベイズ統計分析」
2012年8月18日 (土)
宇宙怪人しまりす 医療統計を学ぶ 検定の巻 (岩波科学ライブラリー)
[a]
佐藤 俊哉 / 岩波書店 / 2012-06-06
さきほど帰路に本屋に寄って,面陳されているこの本に気づき,しまったまだ読んでなかった,と慌てて購入。6月には並んでいたはずなのに,うかつであった。
で,さきほどパラパラめくり始めたが最後,一気に引き込まれてしまい,吹き出したり痺れたり感動したりしながら読了。
高名な医学統計家がなぜか物語形式でお送りする,ユーモラスかつ斬新な医療統計入門,その第二弾。前著にも大変感銘を受けたのだが,この続編も負けずに素晴らしい。
この本がいかに奇妙なユーモアと斬新なアイデアに満ちているかを,なにかの拍子にこのブログをお読みの奇特な方にご理解頂くために(そしてあわよくばクリックしてご購入いただくために),冒頭の「これまでのあらすじ」を一ページまるごと引用する。先生,お許し下さい。
平和を愛するりすりすは [←みよ,この想像を絶する書き出しを],戦争ばかりしている星々を征服し,平和化するために統治していた。進んだ科学力をバックに地球を平和にするため,りすりす星から地球征服にやってきた宇宙怪人しまりす。地球を征服した後には人類を健康に保たなければならない。しかし,かぜや腹痛以外病気らしい病気のないりすりす星では,疫学,医療統計学といった病気の原因を追究して予防に役立てたり,新しいくすりや治療法の効果を調べるための学問だけは遅れていたのだった。このため宇宙怪人しまりすは,地球を征服する前にまず医療統計を勉強するという使命を負っていた。
このときひとりの医療統計家が地球征服に対し敢然と立ち上がった。医療統計家の先生は,よなよな研究室を訪れる宇宙怪人しまりすに対し医療統計の限りをつくして壮絶な戦いを演じた。タイムマシン,イエッサーと科学の粋を尽くしたしまりすの攻撃を,「割合」と「率」の違いにはじまり,「ランダム化」「交絡」といった大技をくりだし,さらには教育的配慮でかわす先生。[←未読の方は信じがたいだろうが,これは前作についての適切な要約なのである] 両者死力を尽くした戦いののち,自らの卒業発表に征服相手の先生を招くという失策を犯して敗北を喫したしまりすは,りすりす大学みけりす学長の命を受け京都大学に医療統計留学することになり,専門職学位課程の学生として日夜医療統計を学んでいる。
宇宙怪人しまりすは医療統計専門家になれるのか,はたして地球は征服されてしまうのか。それとも...。ここに再び宇宙怪人と先生の死闘が幕を開ける。
というわけで,今回のテーマはなんと,いっけん簡単にみえてよく考えるととてつもなくややこしいテーマ,統計的仮説検定である。著者は死力を尽くし,検定とその周辺の諸問題をバランス良く,かつこれでもかとわかりやすく説明してくれる。なんともぜいたくな一冊である。仕事の都合上,統計学のわかりやすい参考書を紹介するよう求められることが時々あって,検定に関してはこれまで吉田寿夫「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本」を紹介していたのだが,これからは一緒にこの本を紹介しようと思う。どんな極端な統計嫌いでも,これなら喜んで読んでくれるだろう。
個人的に勉強になった点をいくつかメモしておくと...
- 研究計画書を添削するくだり,これはホントに勉強になった。題材は医療統計だが,実証を伴うどんな分野にも通じる教訓が含まれていると思う。
- 第一種の過誤と検出力についての説明は案外あっさりしている。そうか,この分量での説明だったら,そこは割り切っちゃっていいのか...
- 信頼区間について他人に説明する際は,いつもちょっと緊張するのだが(正しく説明するのは案外大変である),この本ではスタンダードな解釈を後回しにして,所与のデータについてもし帰無仮説を動かしながら検定を繰り返したら...という風に説明している。意外な順序での説明で,ちょっとびっくりした。こういうやりかたがあるのか。
- RCTにおけるintention-to-treatの原則について説明するくだり,実に実に丁寧である。こうやって順を追って説明すれば,どんな人でも納得してしまうだろう。さすがにプロフェッショナルは違う。
- 恥ずかしながら,CONSORT声明についてよく知らなかった。勉強しなければ。
- 臨床試験の脱落者を追跡するためにわざわざタイムマシンを使っちゃうところ,そうくるだろうと思ってはいたのだが,やっぱり爆笑!
その学問的誠実さゆえにいつも胃に穴を開けそうな「先生」が,エピローグでは意外な決断をする。地球の運命はどうなっちゃうんでしょうか。どうやら第三弾も期待して良さそうだ。
2012年6月14日 (木)
Interpreting and Using Regression[a]
Christopher H. Achen / Sage Publications, Inc / 1982-11-24
仕事の都合で、前職で書きかけて途中で放置していた原稿を引っ張り出したら、その準備の際にAchenの本の最終章をめくって感銘を受けたことを思い出した。いまさら82年刊の本を読んでどうするんだという気もするけど、温故知新、これを機にひとつあの本を全部読んでおこう、と思った次第である。
大学図書館などに行くと必ず並んでいる緑色の薄っぺらい本のシリーズ(QASS)の一冊。回帰分析そのものではなく、社会科学において回帰分析を用いることの意義と注意点について述べる本である。著者はUCBの政治学者。決して長い内容ではないんだけど(本文は79頁)、昔風の美文調なので、ちょっとめんどくさい。
社会科学がおおむねその名に値するものであるかどうかと、社会科学の現状が称賛に値するものであるかはどうかは別の話である。あらゆる社会的領域において、多かれ少なかれ、無意味な統計の売り子たちが蔓延している。理論と称する空虚な駄弁の書き手たち。論理的に擁護可能な理論と証拠の誠実な使用を目指す長い行軍などそれ自体不道徳、ないしもともと絶望的だ、などという生気論的な(vitalist)教義を声高に唱える信徒たち。経済学という比較的に狭い領域の外側には、真剣な社会理論はほとんどないし、経済学においてさえ、その正確性は怪しいところだ。しかしこうした現象は、自然科学史をみればありふれたものであり、大事なポイントはいささかも変わらない。社会的思考の主たる目的、それは科学的説明を目指すことなのである。
この主張はしかし、ある責務を伴う。よしんば科学的思考の多くがその精神において科学的であるとしても、実際に科学的であることは決して多くない。社会科学者はアカデミアの良き市民であるという宣言は、もしそのことばが「我々は悔い改めねばなりません」という敬虔な望み以上のものでないならば、限られた価値しか持たない。善行なき信仰は死ぬのだ。
。。。なあんてね。この無闇な格調高さときたら。単語がわからんので大変面倒だが、ちょっと楽しい面もある。
面白かったところをメモ:
- 社会科学において、理論構築はふつう、関数的関係を特定しない(non-functionally-specific)仮説から始まる。たとえば、Eric Veblenという人の投票と新聞記事の関係についての研究では、報道の偏向が投票に影響しているという仮説を、回帰分析で手を代え品を代えて示しているが、それはどこまでいっても統計的記述であって、真の関数的関係を推定しようというつもりはない。(Chap.2) ←なるほど、いわれてみればその通り。これは統計学の教科書にはなかなか出てきにくい話だ。
- 回帰分析について、最小二乗推定量が不偏であるとか、線形不偏推定量のなかで分散最小であるとか、そういう話は社会科学者にとってはどうでもよい。ポイントは、回帰係数が一致推定量である、ということだ。そのために必要な前提は、独立変数間に共線性がないこと、fixed-in-repeated-samples samplingであること、モデルが正しいこと(=誤差項の期待値が0であること)、の3つだけだ。誤差の正規性も、独立変数間の独立性も、誤差の独立性も等質性も、モデルの因果的な正しさも仮定されていないことに注意。(Chap.3)
- いっぽう係数の標準誤差の推定のほうは非現実的な前提を必要とする。だから、「信頼区間や有意性検定といった、回帰の慣用的な計算につきものの、確率分布に基づくあの豪勢な諸手法は、その本質において決定的というより例示的なものだ。それらの基盤にある諸想定は現実のデータにおいては全くあり得ないものである。仮に想定が正しいとしてもそれはたまたまだ」「標準誤差はたいてい間違っている。ふつうそれは狭すぎる」(Chep.4) ... というわけで、話はジャックナイフ推定や検定批判に進んでいく。
- 統計的な変数選択手法への批判。係数が有意でない独立変数をモデルから削除するというような「有意性検定は、関数として正しいモデルを指定するという望みのない探索へとエネルギーを振り向けてしまい、データについての管理可能な記述を定式化し競合する記述を排除するという真の課題から注意をそらしてしまう。仮説の検証と対立仮説の除去というプロセスは、決まりきったやり方に落とし込むことができない微妙なスキルなのだ」(Chap.5)
- 「R二乗は回帰によって『説明された分散の割合』を表す。たいていの社会科学者にとって、この表現の意味するところは疑わしいが、修辞的な価値は高い。この数字が大きかったら、その回帰の適合度は良く、さらに変数をさがす必要はあまりない、などと云われている。また、異なるデータセット間で回帰式を比べ、R二乗が低いときにはその回帰式にはあまり満足がいかない、あまり強力でない、などと云われている。こんな主張は全く支持できない。R二乗はせいぜい、回帰における点の幾何的形状の特徴づけであり、それ以上のものではない。[...] R二乗が低いとき、点が形作る雲は短くて太く、オリバー・ハーディよりもスタン・ローレルに似ている、ということなのだ。(←戦前のコメディアンですね。調べてみると、ハーディがデブでローレルが細いらしいので、逆のような気がするのだが) [...] R二乗は [...]独立変数の恣意的な分散に劇的に影響される。社会科学者が最も頻繁に問うのは、この関係は因果的に強いものだろうか、ということだが、R二乗はその答として信用できない」(Chap.5) ← ああ、そうか、相関係数であれ決定係数であれ、標準化偏回帰係数であれ変数追加時の決定係数の増分であれ、とにかく標準化している指標はダメだと云っているのだ。なるほどー。
- というわけで、モデルの評価のためにはSERやCp統計量を使うように、との仰せである(Cp統計量は予測のMSEの推定量だから)。しかし、もちろん変数選択は機械的であってはならない。「政治的、社会的、伝統上の理由により、その由来があまり立派でないような変数もモデルに含めなければならないことがある。たとえば、ある人の知見がその分野の伝統的知識と対立するような場合、仮に一般に受け入れられている考え方がろくな証拠を持っていないとしても、標準的な反論や他の研究者による知見などなどに対処する必要が生じるだろう。そのせいで、推定された予測誤差を減少させるためのなんらかの変数を含める必要が生じることはよくあることだ」(Chap 5.) ←これもなかなか他では読めない話だ...
この本の白眉はなんといってもChap 6、独立変数の重要性という概念を整理するくだりで、このたった8頁のおかげでどれだけ視野が広がったかわからない。こういうことがあるから、本というのは恐ろしい。内容のメモは省略するが、この恩恵はどうにかして形にしたいと思う。
Chap.7 (結論) における先生の名台詞。「経験のない人は、統計的研究をすべて信じたり、全く信じなかったりしがちである。それよりも賢くなること、それが実証的社会科学者の課題である」「方法論がどれだけ洗練されても問題の本質は変わらない。社会科学は、厳密な理論、経験に基づく判断、そしてひらめきに満ちた推量の、 驚くべき混合物でありつづける。そして結局のところ、それが社会科学の魅力である」ひゃー、かっこいいー。
読了: Interpreting and Using Regression
2012年2月13日 (月)
行動計量学への招待 (シリーズ〈行動計量の科学〉)
[a]
/ 朝倉書店 / 2011-09-15
仕事の足しになるかと思って読んだ本。行動計量学会編でただいま刊行中の10巻シリーズの第1巻。錚々たる大家による分担執筆。実務家では,ビデオ・リサーチの森本栄一さんも執筆しておられる。
こういう本には社史ならぬ学会史編纂という側面があるから,実質的な勉強のためには他の本をあたった方がよいと思うのだが,読み物として面白かった。いくつかメモ:
- 行動計量学会といえば林知己夫,というわけで,林の数量化理論についてはもちろん一章が割かれている(執筆は飽戸弘)。先生の回想によれば,かつて「マーケティングの分野や,社会心理学,社会学などの分野では,数量化理論は一世を風靡し,調査結果は数量化またはせめて多変量解析を施さないと報告書として通用しない,という状況に達していた」のだそうだ(この辺の感覚は,私の世代にはもう十分に理解できなくなっていると思う)。ところが,かの「数量化理論第 I 類」「第 II 類」... という分類名は,林自身ではなく飽戸(1964)によるものであって,「原作者である林はたいへん不本意であった」由。でも普及しちゃったものは仕方がなく,「林から夜中に電話があり,『飽戸君か,II類ってどれのことかね』 などと問い合わせがあった」りしたのだそうだ。ははは。
- 意思決定についての章(松原望) の,効用理論について説明するくだりによれば,ベルヌーイの対数効用関数は「心理学の『ウェーバー-フェヒナーの刺激-反応法則』あるいは別領域ではあるが『限界効用逓減の法則』へ継承されたとみてよいが,学説史的には明白なつながりはない」由。えー,ないんだ...すいません,私よく知らずにウソついてました。
- 計量政治学の章(猪口孝)によれば,著者は日本とソ連のサケ・マス漁業交渉について状態空間や重回帰を使ったモデルを作ったことがあって,交渉妥結量をすごく正確に予測できたのだそうだ。へえー。
- 医療統計の章(宮原英夫)によれば,「筆者の周囲では,増山元三郎,高橋晄正らが,1960年代から,今でいうEBMとほぼ同じ主張を繰り返していた」が,受け入れられなかった由。とはいえ読み進めていくと,医療費削減という要請からくるものではなかったようだし,診断・治療を超えて医療行政に至るもっと大きな主張だったようだし,当時といまとではデータベースの整備の程度がちがうだろうと思う。この辺,なにをもって「ほぼ同じ主張」とみなすか,というところが問われるなあと思った。
- 正直いってこの本は最終章(木下富雄)が目当てで買ったのだが(すいません),この章はやはりとても面白く,啓発的であった。データ解析のアルゴリズムに対する解析ユーザの立場について触れた部分で,因子分析の主流が直交解から斜交解に移行しているという話に触れたついでに,じゃあかつて因子の直交性を前提としてつくられた類型論はどうなっちゃうのかしらね,とコメントしておられる。三隅のPM理論とか。そ,そうか...!
2012年1月 3日 (火)
Rによる空間データの統計分析 (統計科学のプラクティス)
[a]
古谷知之 / 朝倉書店 / 2011-06-10
仕事の都合で通読。空間データの話にはほとんど全く触れたことがなかったもので,なんというか,いちいち新鮮だった。「地理的加重回帰モデル」なんていうのがあるのですね。パラメータの空間的異質性とデータの自己相関の両方を一気に扱うのだそうだ。
細かい式の導出が理解できないのはしかたがないにしても,8章の空間点過程のところに出てくる統計量の説明のくだりで話について行けなくなってしまったのは,ちょっとまずいかもしれない。別の本を読んでから出直そう。
2011年10月10日 (月)
医学と仮説――原因と結果の科学を考える (岩波科学ライブラリー)
[a]
津田 敏秀 / 岩波書店 / 2011-09-16
疫学の先生が書いた「私の考える科学哲学」に,疫学の基礎概念についての紹介をちょっと付け加えた本。前者は,いわゆる実験室実験原理主義に対する批判が柱になっている。
こ,この本は,ええとその,どうなんだろうか... 少なくとも,俺が院生の頃に読んだクワインの「経験主義の二つのドグマ」と,この先生のお読みになったクワインとはかなりちがうようだ。実験批判の議論も,科学全般の話と医学の話とが混在しているので,ちょっとその,混乱するというか,なんというか。
でもまあ,学者としてできあがっちゃった人が,自分の専門領域を軽々と越境し,自由な主張の羽を広げ自由な空にバタバタと飛び立っていくのを,誰も止められないですよね。
2011年7月12日 (火)
オークション理論の基礎―ゲーム理論と情報科学の先端領域
[a]
横尾 真 / 東京電機大学出版局 / 2006-06
仕事の都合で読んだ。前半は、ゲーム理論やゲーム木探索のすごく入門的な紹介。後半はオークション理論の紹介。こちらはまったくはじめて接する話題なのでレベルがよくわからないのだが、はたして入門書の範囲内に収まっているのか,どうか...。細かいところは飛ばして読んだ。総じてわかりやすい説明だったとは思うけれど。
オークションの研究の多くは片方向オークション(買い手と売り手のうち一方が単数、他方が複数である場合)についてのもので、証券取引のようなダブル・オークションの研究は少ないのだそうだ。一般にダブルオークションでは、誘因両立性(正直が最良の策であること)、パレート効率性(「これ以上誰かをハッピーにするためには他の誰かに泣いてもらわなきゃ」という状態のこと)、個人合理性、の3つを同時に満たす取引プロトコルは存在しない由。ふうん。
ちょっと笑っちゃったところをメモ:二人でじゃんけんして、グーで勝ったら「グリコ」で3歩進む、パーなら「パイナツプル」チョキなら「チヨコレート」でそれぞれ6歩進む、という遊びをゲームとして分析すると,グーで勝った場合の利得が1、チョキないしパーで勝った場合の利得が2であるようなゼロサムゲームになっており、ナッシュ均衡はグー40%, チョキ40%, パー20%の混合戦略である。。。という説明のあとで、「ただし、自分の子供を相手にこのゲームをプレイしている場合には、子供が勝つまで家に帰れないなどのほかの問題が生じますので、むやみに勝っても自分の効用は最大化されません」。ははは。子ども同士の場合でも、あんまり距離が開いちゃうと、勝っている側もなんだかさみしくなっちゃいますね。次第に日が暮れて,相手の手がみえなくなっちゃったりして。
2011年6月24日 (金)
Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書)
[a]
服部 哲弥 / 化学同人 / 2011-05-30
著者は数学者で,amazon.co.jpの売上ランキングがどのように決まっているかに関心を持つのだが,データを広く集めたりamazonに取材したりする気はさらさらない。なんと,著者は(1)アマゾンはこうやってランキングを決めているにちがいない(1冊でも売れたらそれを1位にジャンプさせているにちがいない)という一見素っ頓狂な仮説を設け,(2)この仮説に基づいて数理モデルをつくり,(3)このモデルに基づいて「アマゾンはロングテールビジネスではない」と主張するのである。
これはなかなかの奇書だなあ... と,ところどころでケタケタ笑いながら読み進めていたのだが,途中ではた,と気がついた。著者の先生は大真面目なのだ。だってこれ,自然科学の方法論としては当然のことだ。この大自然をどうやってつくったんですか,と神様に聞くわけにもいかないし。
というわけで,途中から心を入れ替えて真剣に読んだのだが,残念ながら数学音痴の俺には,6章の専門的な議論はもはやちんぷんかんぷんだった。でも,まあ,少し頭が良くなったような気がするので,よしとしよう。
それにしても,先生はなかなか人を食ったことを仰る方で... ポワソン分布について説明するくだりで,本筋から脱線して交通事故の分析の話を紹介しはじめるのだが,先生いわく,「ポワッソン分布を重視する理由となる『小さな確率の原因が多数ある』という視点が,社会現象の分析のどこに隠れているかについての例題という建前だが,誰もが関心を持ちそうな話題で読書欲を維持する目的が本音である」 いや!先生!そこまでセキララに書かなくてもいいから!
2011年4月11日 (月)
Rの基礎とプログラミング技法
[a]
U.リゲス / シュプリンガー・ジャパン(株) / 2006-10-22
R初心者のためのABC
[a]
A.ジュール,E.イエノウ,E.ミースターズ / シュプリンガー・ジャパン株式会社 / 2010-12-22
この種の本を「読み終える」というのも変な話なのだが。。。
諸事情により、いよいよ R を覚えないといけない事態になった。新しい事柄に取り組むのは、もはや大変におっくうなのだが。なるほど、確かに、年を取ったわけだ。
で、あれこれ検討したうえ、しっかりした内容の解説書を2冊選び、キーボードには触らず、ノートを取りながら端から端まで全部読んだ。これはかなりシンドイ作業で、コーヒーがぶ飲み、ボトルガム食べ放題でも精魂尽きる。いや、最近では精魂が尽きる前に眠くなってしまうのだが。
こういう勉強の仕方はあまり普通ではないかもしれない。ディスプレイに向かって時折コードを打ち込みながら、徐々にマスターしていく、というのが常道であろう。しかし、本気で覚えたいのならまずは本を読み通すことだ、それが当然だと、なぜか固く信じて疑わなかったのである。
なぜ疑わなかったのだろう? いま考えるに、これはおよそ20年前の記憶から来ているのかもしれない。SASというシステムについてマスターしようと決意した私は、元旦朝に大学に行き、机の上にSAS Version 6 の分厚いマニュアルを三冊並べ、三が日を費やして読み通した。たしかにその正月休みで私はSAS言語の全体像を理解したが、しかしそれが効率的な勉強方法だと思っていたわけではない。そうせざるを得なかったのである。当時SASは大学のメインフレームにアクセスし課金の下で走らせるものであり、そうそう気軽に使えるものではなかったのだ。
思うに、私は過去の体験に縛られ、今回もまた本を読むことから始めたのだと思う。やれやれ、過去の成功体験に縛られるというのならばともかく、そもそも成功とは言い難い過去に縛られるとは。哀しくてやりきれない。
読了:「Rの基礎とプログラミング技法」「R初心者のためのABC」
2010年11月22日 (月)
偶然とは何か――その積極的意味 (岩波新書)
[a]
竹内 啓 / 岩波書店 / 2010-09-18
なんというか,偉い先生だけに許されるスタイルの本で,あまりに広い視野に基づいて書かれているが故に,ちょっと散漫な印象も受けてしまう。いっぽう,ああそうか,なるほど。。。と目を見開かされるような部分もあった。
- 偶然現象を発生させるメカニズムとして,(1)初期状態のわずかなちがいが結果に大きなちがいをもたらす場合,(2)互いに無関係な複数の因果関係が同時に働いている場合,(3)微細な多数の原因が働いている場合,の3つが挙げられる。で,三番目の変動は正規分布に従うとみなされることが多いが,それは多数の変動が加法的に累積されることを前提としていることに注意しなければならない(1章)。なるほど。。。
- 客観確率だとか主観確率だとかというのは確率の意味づけであって確率論ではない。確率の数学理論は,確率の抽象的定義と少数の公理の上に成り立つのであって,確率という概念がどのような意味を持っているかという点とは独立に展開される(2章)。そうか。。。
- 「ネイマンは統計的方法は帰納論理を表すものでなく『帰納的行動』を示すものであると主張したが,ネイマンの考え方は統計的品質管理のように大量生産工場において多数のロットを処理する場合にあてはまる。これに対してフィッシャーの考え方は,実験結果から客観的判断を下すときの論理を表すものであり,またベイジアンの論理は偶然変動をふくむ場に直面して行動する主体(個人,企業)の立場を表していると考えられる。だからそれらを同じレベルで互いに相容れない立場を表しているものと見る必要はない」(3章)。そうなのか。。。
2010年5月 5日 (水)
Latent Class Analysis [a]
McCutcheon, A.L. / Sage / 1987-08-27
Sageが出している緑色の薄い本のシリーズ(Quantitative Applications in the Social Science, 略してQASSというのだそうだ)。薄めの本を一冊読んでおきたいと思って選んだのだが,読み進めるにつれ,どうも先日読んだ論文集の章と内容が似ているなあ,と気になり始め...半分くらい読んでからようやく,同じ著者であることに気がついた。悔しいから最後までめくったが,論文集のほうに出ていなかった話題はガットマン尺度項目を分析する話くらいしかなかった。時間の無駄だったような気がする。ぐうう。
例題をデータファイルにして,Mplusで試しに解いてみたりしながら読み進めていたのだが,ふと検索してみたら,UCLAの相談センターがすでにそういうページを公開していた。ぐおおおおお。
2010年4月 5日 (月)
宇宙怪人しまりす医療統計を学ぶ (岩波科学ライブラリー (114))
[a]
佐藤 俊哉 / 岩波書店 / 2005-12-06
いま俺は主にサーヴェイ調査のデータ解析の仕事をしているが,そこで心理統計の華麗なる(?)知識が活躍するかというと,これが案外そうでもない。むしろ役に立つのは,意外にも,医療統計の知識である。従属変数が質的で,かつひとつしかなくて,独立変数がいっぱいあって,実験的統制ができないのに因果的推論が求められる,という状況では,医療統計学の精緻な議論に勝てる分野はないと思う。もっとも,たとえば従属変数の数が増えたり量的になったりすると,心理畑の知識が俄然役に立つのだが。
この本の著者は有名な医学統計家で,俺も学会で何度かナマで拝見し,俺のようなど素人にもわかりやすく説明する手腕に感銘したことがある。この本の存在も前から知っていたのだけれど,この妙な題名にちょっと二の足を踏んでしまい,本屋でぱらぱらめくって,まあこれは読まなくてもいいや,と放っていた。アサハカであった。。。これはスゴイ。たくさん買って周囲に配りたいくらいだ。
観察データに基づく因果的推論では,もしこの人が別の状況にいたら...という反事実的な発想が必要になると思う。そこが初心者にとってのハードルのひとつだと思うのだが,その点をこの本は革命的アプローチで乗り越える。生徒役の宇宙怪人しまりすは(後半で「宇宙怪人」が姓であることがあきらかになる),タイムマシンと服従装置「イエッサー」を持ち,平和を愛するが自由意志は尊重しないので,たとえば喫煙者を捕まえ,過去にさかのぼって喫煙をやめさせて,肺ガンになる確率の変化を実証的に調べる,といった暴挙が可能なのである。
このしまりすも危険な生物だが,宇宙の果てのりすりす大学に招かれ,卒業発表会で思わず正論を述べてしまりすの卒業を阻止してしまう京大の先生も,恐れを知らぬ危険な男であるといえよう。爆笑しつつ読み進めるうちに,いつのまにか感度・特異度やリスク比・オッズ比といった概念まで頭に入ってしまう,という寸法である。恐るべき読み物。続編を書いてくださらないかしらん?
2009年8月24日 (月)
Excelで学ぶ遺伝的アルゴリズム
[a]
伊庭 斉志 / オーム社 / 2005-11
備忘のために,専門書や仕事関連の本もこまめに記録しておくことにしようと思う。
この本は,遺伝的アルゴリズムの一般向け入門書。デモ用のソフトが公開されていて,いじっているととても楽しい。細かいところはわかんないけど,勉強になりました。仕事の役に立つと良いのだが。。。
2008年2月10日 (日)
心理学やデータ解析の本は,仮に読んでもここには書かないのだが(たいてい部分的に読むだけで読み通していない,という事情もある),一度に2冊もめくった記念に:
Q&Aで知る統計データ解析―DOs and DON’Ts (心理学セミナーテキストライブラリ)
[a]
繁桝 算男,森 敏昭,柳井 晴夫 / サイエンス社 / 2008-02
この本はデータ解析の日本語の解説書には珍しく,(専門家でも初心者でもなく)中級者を対象にした大変に貴重な本で,困ったときにどれだけ助けられたかわからない。おかげで日々めくりにめくり読みに読み,もう言い回しさえ覚えてしまった箇所があるくらいだ。その名著の,なんと第二版が出版された。やっぱし売れてたんだろうなあ。
布団に寝転がって改訂箇所をチェックしたが,新しい項目が増えていたり,わかりにくかった箇所が書き換えられていたり,ますますパワーアップされている。修士一年あたりでこの本を読む奴がいるかと思うと,実に妬ましいことだ。
それにしても,こうして端から目を通していくと,知らない話やまだよく理解できていない話題が多くて,だんだん暗い暗い気分になる。もう別に研究者ってわけじゃないけど,でも勤務時間中はstatisticianでございって顔をしているんであって。。。もうどうしたものかと。。。
Statistics Hacks ―統計の基本と世界を測るテクニック
[a]
Bruce Frey / オライリー・ジャパン / 2007-12-26
すっかり落ち込んで,ついでに買ったこの本をぼんやりめくっていたら,こっちはほとんど知っている話ばかりで,おかげでなんだか元気が出た。まあこんな風に面白可笑しく書く能力があるわけじゃないけどね。
いま流行のlife hacks本の体裁をとっているけれど,要するに統計学の入門書に毛が生えたような内容である。変にやさしく書かれているので,真面目に勉強したい人には向かないし,でもやっぱり「楽しくてしかたがない」という内容でもないので,初心者向け勧誘書とも言いがたい。ちょっと中途半端な感じだ。
書き手に心理・教育系の人がいるせいで,テストの話なんかが出てくるところが可笑しい。しまいには単語の連想強度表や,トヴァツキーのリンダ問題なんかが登場する始末である。うーん,まあstatisticsといえなくもないか。
2007年11月 8日 (木)
データ解析への洞察―数量化の存在理由 (K.G.りぶれっと)
[a]
西里 静彦 / 関西学院大学出版会 / 2007-07
薄いブックレット。会社を抜け出して著者の講演を聴きに行ったので,これを機に読んでみた。はじめての和書なんだそうだ。
リッカートスケールの問題点について初学者向けに諄々と説く,という内容。とても勉強になりました。双対尺度法の紹介はごく簡単に済まされていて,その点は残念であったが,勉強したけりゃ英語で読め,ってことなのだろう。
2007年10月 5日 (金)
組合せ最適化「短編集」 (シリーズ「現代人の数理」)
[a]
久保 幹雄,松井 知己 / 朝倉書店 / 1999-01
仕事の都合で組み合わせ最適化の勉強をする必要に迫られ(なぜ数学嫌いの俺が?),何冊か買い込んだ本のなかの一冊。ごく初心者向けの読み物を意図しているのだが,話を易しくするためのたとえ話が途中から暴走するところが面白く,一気に読み終えてしまった。ナップザック問題の章では,ナップザックにできるだけ高価な盗品を詰め込もうとする二人の泥棒が登場するのだが,その後輩格のほうは大学の応用数学科卒業という設定で,先輩に対して噛んで含めるような説明を繰り広げる。結局二人はつかまるが,今度は先輩が留置所で「最適化ハンドブック」を猛勉強し,より高度な解法を噛んで含めるように説明するのである。もう可笑しくてたまらない。
2007年4月 9日 (月)
統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)
[a]
宮川 雅巳 / 朝倉書店 / 2004-04
こういう技術的な専門書を指して読了というのも変なものだし,そもそも全て読み込めたわけではないんだけれども,ここのところしばらく,この本とEdwardsの本に没頭していたので,記念に記録しておく。
統計データから因果関係を分析する,という問題について正面から述べた本。正直言って,最初の数章で膝を打ちまくり,以降の数章で目から鱗がぽろぽろと落ちる,という案配であった。不勉強を恥じなければならないが,これまでは「この独立変数は従属変数の原因にちがいないし,独立変数間の相関も低いから,偏回帰係数は因果的影響の強さを表すと言って良いでしょう」,などと間抜けなことを口走っていたのである。私が間違っていました。原因か否かという定性的判断と,因果的影響の強さの定量的把握とは,なるほど別の話なのだ。
基本的に数学の専門書であるから,途中でどうしても理解できない箇所があり,なんともつらい。バックドア基準をめぐる議論なども,理解できたとは言い難い。それでも,回帰モデル構築に際して有向独立グラフが強力な武器になる,という点は胸に染みた。共変量の選び方について,はじめて明確な指針を得た思いである。
ああ,俺のこの感銘など,専門の人から見たら児戯に等しいものであろう。この数学音痴が,勤務先ではなぜか解析の専門家を気取っているのである。切なくて涙がでてきちゃいますね。
2007年3月 6日 (火)
グラフィカルモデリング (統計ライブラリー)
[a]
宮川 雅巳 / 朝倉書店 / 1997-02
よんどころない事情により本日は仕事にならなかったもので,午後いっぱいかけてこの本を読んだ。少し飛ばしたところもあるけれど(グラフィカル対数線形モデリングのところとか),読み終えたことにしておこう。
耳慣れないグラフ理論の概念が導入されるところで挫折しそうになったが,それは俺が数学が大の苦手だからであって,この本自体はわかりやすいと思った。著者の書き方も良いのだろうけれど,そもそもグラフィカルモデリングという手法そのものの敷居が低いじゃないかと思う。重回帰を勉強する前にグラフィカルモデリングを学んだほうが良いんじゃないか,というようなことを誰かが書いていたけれど,調査データを相手にする限り,それは当たっていると思う。
最終章で紹介されるTipsには,相関構造のちがう2群について別々に無向グラフを描いて比較する,というような話が書いてあった。へえー,そんなのもありなのか。。。
2006年9月18日 (月)
なるほど高校数学 三角関数の物語―なっとくして、ほんとうに理解できる (ブルーバックス)
[a]
原岡 喜重 / 講談社 / 2005-05-20
会社で数理系の論文を読んでいたら,三角関数を使った簡単な式に躓いてしまって,泣きそうになったのであった。帰りに買ってコーヒーショップで読了。数学がからきし出来ない俺が,会社では多変量解析の専門家ということになっているのだから,なにがなんだかわからない。