elsur.jpn.org >

« 2015年11月 | メイン | 2016年1月 »

2015年12月28日 (月)

Elith, Leathwick, Hastie (2008) A working guide to boosted regression trees. Journal of Anomal Ecology, 77, 802-813.
 タイトル通り、ブースティング回帰木(boosted regresion trees, BRT)の使い方についての素人向けガイド。ええと、良く知らないけど、Rでいうとgbmとか、流行りのxgboostとかのことですかね。正直なところ機械学習の話は、学校出たてのチェックのシャツを着たお兄さんたちに任せておきたいんだけど、仕事となるとそうも言っていられない。
 動物生態学についてはなんの知識もございませんが、こういう分野向けの啓蒙的文章は助かる。イントロによると、生態学では種の分布を予測したりするときにGLMやGAMをよく使うけど、機械学習手法はあまり使わない、ましてやBRTなんて... という感じらしい。そりゃそうでしょうね、何やってんだかわかんなくて気持ち悪いもん。

 まず、決定木について。
 決定木は、予測子の空間を矩形に分割し、それぞれに定数をフィットさせる。矩形は反応変数において等質的であることを目指してつくる。定数といっているのは、分類器ならばクラスだし、回帰木ならば平均である。
 決定木に人気があるのは、なんといってもそのわかりやすさ。さらに、予測子の型を選ばない、単調変換なら影響なし、はずれ値に強い、交互作用をモデル化している、といった美点がある。いっぽう、滑らかな関数の表現が苦手、訓練データのちょっとした違いで構造がかわっちゃう、という弱みもある。

 ブースティングについて。
 根底にあるのは、ラフな目安をたくさんつくって平均する、というアイデア。兄弟分であるバギング、stacking、モデル・アベレージングとちがうのは逐次的に進むという点。モデルを訓練データに適合させ、うまくいかなかったケースの重みを増して...というのを繰り返す。
 もともとブースティングは2クラス分類に注目していたので(AdaBoostとか)、機械学習の分野でブースティングについて論じる際には、重みをどう変えるかという観点から論じる傾向がある。でもここでは回帰木に関心があるのでちょっと違った観点からとらえてみよう。要するに、ブースティングとは一種の関数的勾配降下(functional gradient descent)である。ここになんらかの損失関数があるとしよう(たとえばデビアンス)。ブースティングは損失関数を最小化させる最適化テクニックで、それぞれのステップで、損失関数の勾配を降りるような木を追加する。
 具体的にBRTの場合について考えると、まず最初の回帰木は、与えられたサイズの木のなかで、損失関数をもっとも減少させるような木である。次の木は最初の木の残差に適合させる。当然ながら変数も分割も全然違う。二本の木による予測は、それぞれの予測に学習率をかけて合計して求める。三本目の木は二本の木の残差に適合させる。これを延々繰り返す。一旦作っちゃった木は直さない、というのがポイント。なお、反応変数の型はいろいろ扱える(損失関数を反応の型にあわせて選べば済む話だから)。
 ユーザの観点からいうと、BRTの特徴は以下の通り。

 後半はケース・スタディ。ニュージーランドにおけるAnguilla australisの分布を予測する(調べてみたところ、日本の魚市場ではオーストラリアうなぎと呼ばれている由)。各観測地点で捕獲されるかどうかを11個の予測子で予測する。ソフトはRのgbmパッケージ。内容はこんな感じ。

 そんなこんなで、付録に詳細なチュートリアルをつけたから読みなさい、とのこと[すいません、読んでないです]。

 ...というわけで、あんまりきちんと読んでないけど、勉強になりましたです。
 xgboostなどを使っていると、ついつい細かいことを考えて混乱しちゃうわけだけど、割り切って考えちゃえばブースティングなんて最適化のテクニックに過ぎないわけで、シュリンケージ・パラメータ(eta)なんかについてあれこれ悩んでいるのはある意味で不毛というか、なんというか... いずれはパラメータを勝手にうまいこと決めてくれるようなソフトも出てくるんじゃないかと思う。

論文:データ解析(2015-) - 読了:Elith, Leathwick, Hastie (2008) ブースティング回帰木ユーザーズ・ガイド

2015年12月27日 (日)

Ture, M., Kurt, I., Kurum, A.T., Ozdamar, K. (2005) Comparing classification techniques for predictiong essential hypertention. Expert Systems with Applications. 29, 583-588.
 高血圧のリスク予測をいろんな分類手法でやってみました、という話。いま決定木手法の比較に関心があって、足しになるかと思ってざっと目を通した。

 疾患の結果予測を分類手法でやるってのはいくつか先行研究があって、

 で、本研究は... 694人(うち高血圧患者452人)を後ろ向き(retrospective)に分析し、高血圧群/統制群を予測する。独立変数は、年齢、性、家族病歴、喫煙、リポプロテイン[高脂血症かなんかの指標らしい]、トリグリセリド[中性脂肪のことらしい]、尿酸、コレステロール、BMI。

 選手入場。

 データの75%で学習して残りで検証。検証群における敏感度[高血圧群に占める、それと予測できた人の割合、ということね]、特異度[統制群に占める、それと予測できた人の割合]、適中率を比べると、敏感度はLR, FDA, FDA/MARS,MLPが僅差で勝利、特異度はFDA, MLP、適中率はCHAIDが勝利。学習群における3つの成績をみると、{CART, MLP, RBF}グループ(特異度と適中率が高い)、{FDA, CHAID}グループ(中くらい)、{FDA/MARS,LR.QUEST}グループ(低い)、にわかれる。[←おいおい、それは学習時の話で、検証の成績は全然ちがうじゃん...]
 考察。CHAID, QUEST, CARTは予測についての理解に適するけど、成績がいいのはMLP, RBF。もっと使えばいいんじゃないですか、データを足して学習しつづけることができて便利だし。云々。

 はあ、そうですか...。
 シニカルにいえばこの研究は、持ってるソフトでいろいろやってみたらこんなん出ました、という話である。 もちろんモデリング手法の特徴を知ることはとても大事だし、実データを使った比較研究はそのための大事な手段だ。でも、この論文で取り上げた手法のいずれも、それぞれパラメータ次第でどんどんパフォーマンスが変わってしまうし、実装によっても挙動が異なる。このデータセットでの結果が他のデータセットに対して一般化できるかどうかもよくわからない。勝手な想像だけど、この手の研究に対し、玄人筋の評価は高くならないのではなかろうか。
 いっぽう、私のような無責任なデータ解析パッケージ・ユーザからすると、気楽に読めるという意味で、こういう報告はありがたい面もある。なまじ厳密だが限定的な話をされるより、どこまで信じていいのかわかんないけど親しみが持てる話のほうが、なんとなく得をしたような気がするものである(「示唆が得られた」「考えさせられた」云々)。こういう性向のことを「実務的」と呼ぶ人もいるだろうし、知的な退廃と捉える人もいるだろう。

論文:データ解析(2015-) - 読了:Ture et al. (2005) 高血圧患者をいろんな手法で予測してみた

2015年12月25日 (金)

 仕事の都合で、シンプルな決定木・回帰木モデルをつくることがちょくちょくあるのだけれど、細かい手法選択の場面でいつも困惑する。CARTみたいな感じの二進木と、CHAIDの流れを汲んでゴリゴリ検定統計量をつかうタイプの方法、どういうときにどっちを使えばいいんだろう? 不勉強をさらすようで、恥ずかしいのだけど...

 ま、そもそもRをつかっているのがいかんのだ、という説もありますわね。かつてRを使っていなかった時分には、SPSS AnswerTree 一択であった。CHAIDとCARTの両方が載っていて、深く考えずにその日の気分で使い分けるのである。あの平和な時代が懐かしい。

 決定木モデルのRパッケージとして参考書でよく見かけるのは、rpart(Rの標準パッケージ), mvpart (開発がストップしている模様)、RWeka、あたりだと思う。いま手元にある Kuhn &Johnson本 (かのcaretパッケージの中の人の本)はC50をつかっている。

 CRAN Task Viewの機械学習・統計的学習で、「再帰パーティショニング」の下を見ると、名前を挙げられているパッケージが実にたくさんあって、困惑してしまう。メモしておくと...

というわけで、いろいろあって頭が痛いが、mvpartなきいま、CART系ならrpartパッケージ、CHAID系ならpartyパッケージ、あたりが本命なのであろうか... できることならばすべての開発者のみなさまを鬼界ヶ島に流し、all-in-oneの統一的パッケージをつくるまで京に戻さない、というようなことをしたいものだ。

Hothorn, T., Hornik, K., Zeileis, A. party: A laboratory for Recursive Partytioning.
 というわけで、partyパッケージのvignett。これまで深く考えずにノリで使っていたので、ちょっと反省して目を通した。

 ま、途中で難しくってわけわかんなくなっちゃいましたけどね! あとで調べたら、もっとかみ砕いた解説が下川ほか「樹木構造接近法」に載ってましたけどね!

論文:データ解析(2015-) - 読了:Hothorn, et al. partyパッケージ (と愉快な仲間たち)

2015年12月21日 (月)

Bookcover 自発的隷従論 (ちくま学芸文庫) [a]
エティエンヌ・ド・ラ・ボエシ / 筑摩書房 / 2013-11-08
16世紀のフランス貴族、モンテーニュの無二の親友であったラ・ボエシの著書。なんでも16歳ないし18歳のときに書いたのだそうで、なんでそんなもん読まねばならんのよ... と思いながらうっかり買っちゃったんだけど、これがとても面白かった。

 先日出張に行った地方都市で、商店街をふらふら歩いていて、たまたま通りかかった本屋さんに入ったら、おそらくその街に名だたる老舗書店なのだろうと思うのだけれど(岩波の本をずらっと並べているところなどから察するに)、広い店内は閑散としており、蛍光灯の光が虚ろに白かった。ああ、一つの文化の形がこうして消えようとしているのだな... と感傷に駆られて、つい買っちゃったのが上記のラ・ボエシである。いやいや、そんなら単行本買えよ。

Bookcover 一揆の原理 (学芸文庫) [a]
呉座 勇一 / 筑摩書房 / 2015-12-09

Bookcover ガリレオ裁判――400年後の真実 (岩波新書) [a]
田中 一郎 / 岩波書店 / 2015-10-21

ノンフィクション(2011-) - 読了:「自発的隷従論」「ガリレオ裁判」「一揆の原理」

計算待ちの間に、最近読んだ本の記録。

Bookcover うめざわしゅん作品集成 パンティストッキングのような空の下 [a]
うめざわしゅん / 太田出版 / 2015-12-11
短編集。良いマンガだと思うけれど... 新井英樹さんの絵柄にそっくり、あまりにそっくりで、読んでいて落ち着かない気分であった。どういう関係なのだろうか。

Bookcover 花のズボラ飯(3)(書籍扱いコミックス) [a]
久住昌之(原作),水沢悦子(漫画) / 秋田書店 / 2015-11-16

コミックス(2015-) - 読了:「パンティストッキングのような空の下」「花のズボラ飯」

2015年12月17日 (木)

 なんというかその、判別モデルや回帰モデルを組んだ時、「で、どの説明変数が重要でしたか?」って聞かれること、あるじゃないですか。いやいや、ひとことで「重要」っていってもいろいろありましてですね... と交互作用や非線形性の話をしても、ある意味、煙に巻くようなもんじゃないですか。素朴な気持ちとしては、こっちも内心では 「いやあこの変数は効くなあ」なんて思っているわけだし。なんだかんだいいながら、どうにかして変数を選ばないといけないわけだし。
 魚心あれば水心で、世の中には実にいろんな変数重要度指標があり、誠に困ったことである。さらに困ったことに、こういう話は仕事の中で不意に顔を出すので、いつかきちんと調べます、では間に合わない。
 とりあえず、いろんなタイプの予測モデルを統合したパッケージである、R の caret パッケージが実装している重要性指標についてメモしておこう。出典はこちら。純粋に自分用の覚え書です。

 まずは、モデルに依存しないタイプの指標。

モデルに依存するタイプの指標。

 ふうん...
 ランダムフォレストのような協調学習の分野では、変数重要性をpermutationベースで求めるとき、ふつうにその変数だけかきまぜちゃっていいのか (いわばmarginalな重要度になる)、それとも共変量で層別して層の中だけでかきまぜるべきか (conditionalな重要度になる)、という議論があるらしい。これは他の手法でもいえることであって、その辺のところが知りたいんだけど、caretパッケージではさすがにそこまで面倒はみてくれないようだ。

雑記:データ解析 - 説明変数の重要度指標のいろいろ (by caretの中の人)

2015年12月16日 (水)

Olden, J.D., Koy, M.K., Death, R.G. (2004) An accurate comparison of methods for quantifying variable importance in artificial neural networks using simulated data. Ecological Modeling, 178, 389-397.
 仕事の都合でざざっと目を通した。
 人工ニューラルネットワークにおける説明変数の寄与を定量化する手法について検討します。すでにGevrey et al (2003, Ecological Modelling) が実データで手法比較しているんだけど、シミュレーションできちんとやり直します。という論文。

 扱うのは、隠れ層ひとつのフィード・フォワード型ネットワーク、ノードの数は入力側から5, 5, 1。バックプロパゲーションで学習。
 まず母集団をつくる。10000ケース、反応 y と説明変数 x1, x2, ... の相関は、それぞれ0.8, 0.6, 0.4, 0.2, 0.0。説明変数間の相関は0.2。ここから50件抽出してネットワークを推定して重要性を測る、というのを500回反復。各回の重要性の順位を真の順位と比べる。
 お待たせしました、選手登場です。

 結果。Connection weightが一番当たる。前向きステップワイズ、後ろ向きステップワイズは成績が悪く、Garsonは超悪い。
 結論。Garsonはやめとけ。

 。。。えーっ? Connection weightsがいちばん計算が楽じゃないですか。そんな単純なやりかたでいいの?

 この論文では、説明変数の真の重要性とは母集団における目的変数との相関の順位なわけだが、入出力の関連性が非線形だったり、入力変数間の交互作用があったり、といった場合はどうなるのだろうか。もっともその場合は、真の重要性を定義するのも難しくなるんだろうけれど。

論文:データ解析(2015-) - 読了:Olden, Koy, & Death (2004) ニューラル・ネットワークの説明変数の重要性を測る最良の方法(それは意外にも...)

2015年12月14日 (月)

Bookcover 湿地 (創元推理文庫) [a]
アーナルデュル・インドリダソン / 東京創元社 / 2015-05-29
久々に解禁した海外ミステリ。アイスランドを舞台にした、暗くて重い小説であった。

Bookcover シェイクスピア全集27 ヴェローナの二紳士 (ちくま文庫) [a]
W. シェイクスピア / 筑摩書房 / 2015-08-06
これ、シェイクスピアの初期作品じゃなかったら、とっくに忘れ去られていただろう。なんというか、ひどしもひどし、ええかげんにしなさい、という感じ。
 それでも、終盤のジュリアの嘆きの台詞、「さあ、影にすぎない私が、絵姿という影を運ぶのよ」...というくだりは、ちょっと良いなあ。

フィクション - 読了:「ヴェローナの二紳士」「湿地」

Bookcover Applied Correspondence Analysis (Quantitative Applications in the Social Sciences) [a]
Clausen / Sage Publications, Inc / 1998-08-01
ちょっと都合があってゆっくり目を通した。わかりやすい本だ。

データ解析 - 読了:「Applied Correspondence Analysis」

Bookcover 学校の戦後史 (岩波新書) [a]
木村 元 / 岩波書店 / 2015-03-21

心理・教育 - 読了:「学校の戦後史」

Bookcover GDP――〈小さくて大きな数字〉の歴史 [a]
ダイアン・コイル / みすず書房 / 2015-08-26
軽い気持ちで手に取ったんだけど、この本はアタリであった。GDPのなりたちと限界についてコンパクトに語る啓蒙書。
 気になったところをメモ:GDPではイノベーションを測るのが難しい、という話のなかで触れられていたのだが、商品の多様化そのものが消費者にもたらす価値を定量的に調べた研究があるのだそうだ。Hausman(1994, NBER Working Paper) というのが挙げられている。へー。
 
Bookcover 井上ひさしの劇ことば [a]
小田島 雄志 / 新日本出版社 / 2014-09
井上ひさしの戯曲を辿るエッセイ。世田谷文学館での講演が基になっているとのこと。
 著者によれば、井上ひさしの戯曲の第一のピークは「藪原検校」。これにはあまり異論がないと思うのだけれど、評伝劇で「頭痛肩こり樋口一葉」「組曲虐殺」、ほかに「化粧」「父と暮らせば」あたりを高く評価しておられて、興味深い。東京裁判三部作はあまり買っていない模様。そうかなあ、「夢の痂」は素晴らしいと思うし、評伝劇ならなによりもまず「イーハトーブの劇列車」じゃないかなあ... ま、こんな風にあれこれ考えるのもなかなか楽しい。
 それにしても、著者が指摘するように、井上ひさしの戯曲は「父と暮らせば」あたりから大きく様相が変わる。著者の言葉を借りれば「テーマとことばがぴったり一致していきます。劇ことばは深い湖のようになってきたのです」(流石、素晴らしい表現だ)。こういう変化がこの段階で起こりうる、というところが不思議だ。すでに大作家なのにね。

Bookcover イスラーム法とは何か? [a]
中田 考 / 作品社 / 2015-10-31

Bookcover 日本外交への直言――回想と提言 [a]
河野 洋平 / 岩波書店 / 2015-08-29

Bookcover 誰が「橋下徹」をつくったか ―大阪都構想とメディアの迷走 [a]
松本 創 / 140B / 2015-11-13
橋下さんという現象についての腑に落ちる謎解きがようやく登場した、という印象。読んでいてだんだん気持ちが悪くなってきた。橋下人気は衰退するかもしれないけれど、きっとこれから、第二、第三の橋下さんが現れるだろう、そのときいったいどうすればいいのか...

ノンフィクション(2011-) - 読了:「GDP」「日本外交への直言」「イスラーム法とはなにか?」「井上ひさしの劇ことば」「誰が『橋下徹』をつくったか」

Bookcover 世界の辺境とハードボイルド室町時代 [a]
高野 秀行,清水 克行 / 集英社インターナショナル / 2015-08-26
発展途上国を得意とするノンフィクション作家と、日本史専門家の対談。とても面白かった。最後まで気がつかなかったけど、タイトルは村上春樹「世界の終わりとハードボイルド・ワンダーランド」が元ネタなのであろう。

Bookcover ステキな奥さん ぶはっ [a]
伊藤理佐 / 朝日新聞出版 / 2015-10-20

Bookcover 自由を耐え忍ぶ [a]
テッサ モーリス‐スズキ / 岩波書店 / 2004-10-15

Bookcover 米・百姓・天皇 日本史の虚像のゆくえ (ちくま学芸文庫) [a]
網野 善彦,石井 進 / 筑摩書房 / 2011-01-08
「日本社会の歴史」を上梓したばかりの網野善彦と、碩学・石井進との対談集(原著は2000年刊)。私のような素人にはわからないくだりも多いんだけど、プロ同士の緊張感が感じられて面白い。

Bookcover 商店街はなぜ滅びるのか 社会・政治・経済史から探る再生の道 (光文社新書) [a]
新 雅史 / 光文社 / 2012-05-17

ノンフィクション(2011-) - 読了:「ステキな奥さん ぶはっ」「自由を耐え忍ぶ」「世界の辺境とハードボイルド室町時代」「米・百姓・天皇」「商店街はなぜ滅びるのか」

Bookcover 損したくないニッポン人 (講談社現代新書) [a]
高橋 秀実 / 講談社 / 2015-09-17

Bookcover ヨーロッパ覇権史 (ちくま新書) [a]
玉木 俊明 / 筑摩書房 / 2015-10-05

Bookcover 男は語る: アガワと12人の男たち (ちくま文庫) [a]
阿川 佐和子 / 筑摩書房 / 2015-03-10
87-89年の作家インタビュー集。

Bookcover ブルデュー 闘う知識人 (講談社選書メチエ) [a]
加藤 晴久 / 講談社 / 2015-09-11
こういう評伝を読んでないで、本人の著書を読むべきなんだろうけど...

Bookcover ヒョウタン文化誌――人類とともに一万年 (岩波新書) [a]
湯浅 浩史 / 岩波書店 / 2015-09-19

Bookcover ルポ コールセンター 過剰サービス労働の現場から [a]
仲村和代 / 朝日新聞出版 / 2015-10-20
ううむ。これで本になっちゃうのか、とちょっと驚いた。ノンフィクションは冬の時代だろうとは思うが、著者は取材費に事欠くフリーの人ではないわけだし、もう少し突っ込んだ内容にできなかったものなのかしらん。

ノンフィクション(2011-) - 読了:「ヨーロッパ覇権史」「男は語る」「損したくないニッポン人」「ブルデュー 闘う知識人」「ルポ・コールセンター」「ヒョウタン文化誌」

Bookcover 女子攻兵(7) (BUNCH COMICS) [a]
松本 次郎 / 新潮社 / 2015-12-09
一番気になっていた連載のひとつが、無事に完結。
 妻殺しの汚名を着せられた刑事タキガワは、懲罰兵として巨大兵器に乗り込み泥沼の戦場を生き抜くのだけれど、この兵器はなぜか女子高生の形をしていて、パイロットは次第に精神を汚染され女子高生になってしまい、最終的には発狂してしまう。このわけのわからないキャッチーな設定に目を奪われて中盤まで気がつかなかったのだけど、これ、「地獄の黙示録」の現代版なんですね。
 兵士たち(外見は巨大な女子高生)は戦場の果て、カーク大佐(に相当する女子高生)が築いた幻想の平和ニッポンに閉じ込められ、終わらない日常のなかで精神の平衡を失っていく。絶望の中で死を選ぶ兵士(くどいけど、外見は女子高生)が哀れでしかたがない。
 掲載誌がマイナーなせいか、あまり評判になっていなけれど、いやあ、これは傑作だと思う。

コミックス(2015-) - 読了:「女子攻兵」

Bookcover 中間管理録トネガワ(1) (ヤンマガKCスペシャル) [a]
福本 伸行,橋本 智広,三好 智樹 / 講談社 / 2015-12-04

Bookcover 娘味―福満しげゆき初期作品集 [a]
福満 しげゆき / 青林工藝舎 / 2015-11-30

Bookcover いぬやしき(5) (イブニングKC) [a]
奥 浩哉 / 講談社 / 2015-11-20

Bookcover ランド(2) (モーニング KC) [a]
山下 和美 / 講談社 / 2015-11-20

Bookcover 聖☆おにいさん 通常版(12) (モーニング KC) [a]
中村 光 / 講談社 / 2015-11-20

Bookcover きのう何食べた? 通常版(11) (モーニング KC) [a]
よしなが ふみ / 講談社 / 2015-11-20

Bookcover 分校の人たち(2) [a]
山本 直樹 / 太田出版 / 2015-11-19
...ずーっとセックスしてはる...

コミックス(2015-) - 読了:「中間管理録トネガワ」「娘味」「いぬやしき」「らんど」「聖☆おにいさん」「分校の人たち」「きのう何食べた?」

Bookcover ホクサイと飯さえあれば(1) (ヤンマガKCスペシャル) [a]
鈴木 小波 / 講談社 / 2015-04-06
Bookcover ホクサイと飯さえあれば(2) (ヤンマガKCスペシャル) [a]
鈴木 小波 / 講談社 / 2015-11-06

Bookcover アルテ 4 (ゼノンコミックス) [a]
大久保圭 / 徳間書店 / 2015-11-20

Bookcover 辺獄のシュヴェスタ 2 (ビッグコミックス) [a]
竹良 実 / 小学館 / 2015-11-12

Bookcover オリオリスープ(1) (モーニング KC) [a]
綿貫 芳子 / 講談社 / 2015-10-23

Bookcover 木曜日のフルット 5 (少年チャンピオン・コミックス) [a]
石黒正数 / 秋田書店 / 2015-12

Bookcover 服なんて、どうでもいいと思ってた。 1 (MFコミックス フラッパーシリーズ) [a]
青木U平 / KADOKAWA/メディアファクトリー / 2015-02-23
うーん... これはもう少し面白くなりそうなものなのに。

コミックス(2015-) - 読了:「ホクサイと飯さえあれば」「服なんて、どうでもいいと思ってた。」「アルテ」「辺獄のシュヴェスタ」「オリオリスープ」「木曜日のフルット」

Bookcover 乙嫁語り 8巻 (ビームコミックス) [a]
森 薫 / KADOKAWA/エンターブレイン / 2015-12-14

Bookcover あさひなぐ 17 (ビッグコミックス) [a]
こざき 亜衣 / 小学館 / 2015-11-30

Bookcover BLUE GIANT 7 (ビッグコミックススペシャル) [a]
石塚 真一 / 小学館 / 2015-11-30

Bookcover ギフト±(2) (ニチブンコミックス) [a]
ナガテ ユカ / 日本文芸社 / 2015-10-19

Bookcover 俺の姫靴を履いてくれ (1) (MFコミックス フラッパーシリーズ) [a]
須河篤志 / KADOKAWA/メディアファクトリー / 2015-10-23

Bookcover 火の鳥(5) (手塚治虫文庫全集) [a]
手塚 治虫 / 講談社 / 2011-12-09

Bookcover 火の鳥(4) (手塚治虫文庫全集) [a]
手塚 治虫 / 講談社 / 2011-11-11

コミックス(2015-) - 読了:「乙嫁語り」「あさひなぐ」「BLUE GIANT」「ギフト±」「俺の姫靴を履いてくれ」「火の鳥」

Bookcover MUJIN -無尽- 1巻 (ヤングキングコミックス) [a]
岡田屋鉄蔵 / 少年画報社 / 2015-02-28
Bookcover MUJIN ―無尽― 2巻 (コミック(YKコミックス)) [a]
岡田屋鉄蔵 / 少年画報社 / 2015-10-30
幕末遊撃隊の伊庭八郎を描く。著者については全く知らないんだけど、これ、面白いなあ...

Bookcover エバタのロック 3 (ビッグコミックス) [a]
室井 大資 / 小学館 / 2013-06-28
Bookcover エバタのロック 4 (ビッグコミックス) [a]
室井 大資 / 小学館 / 2013-11-29

Bookcover 忘却のサチコ 3 (ビッグコミックス) [a]
阿部 潤 / 小学館 / 2015-08-28
Bookcover 忘却のサチコ 4 (ビッグコミックス) [a]
阿部 潤 / 小学館 / 2015-11-30

Bookcover いちえふ 福島第一原子力発電所労働記(3) (モーニング KC) [a]
竜田 一人 / 講談社 / 2015-10-23

Bookcover ど根性ガエルの娘 (1) [a]
大月悠祐子 / KADOKAWA/アスキー・メディアワークス / 2015-11-26

Bookcover 毎日かあさん12 母娘(ははこ)つんつか編 [a]
西原 理恵子 / 毎日新聞出版 / 2015-11-11

Bookcover インド夫婦茶碗 (21) (ぶんか社コミックス) [a]
流水 りんこ / ぶんか社 / 2015-11-05
ここまでつきあうと、もはや面白いかどうかというより、親戚の近況の便りを読んでいるような気分だ。

コミックス(2015-) - 読了:「無尽」「エバタのロック」「忘却のサチコ」「いちえふ」「ど根性ガエルの娘」「毎日かあさん」「インド夫婦茶碗」

なにも仕事で徹夜してるときにブログを書くことはないのだが、計算待ちでヒマなので...最近読んだマンガ。

Bookcover よつばと! (13) (電撃コミックス) [a]
あずまきよひこ / KADOKAWA/アスキー・メディアワークス / 2015-11-27
現代日本を代表するマンガのひとつ。毎度なにかしら感心する箇所があるんだど、今回は「ばーちゃん」との別れの場面に感心した。

Bookcover 桜玉吉絶叫四コマ作品集 さらばゲイツちゃん (ビームコミックス) [a]
桜玉吉 / KADOKAWA/エンターブレイン / 2015-11-24

Bookcover 闇金ウシジマくん 35 (ビッグコミックス) [a]
真鍋 昌平 / 小学館 / 2015-11-30

Bookcover 亜人ちゃんは語りたい(1) (ヤンマガKCスペシャル) [a]
ペトス / 講談社 / 2015-03-06

Bookcover アイアムアヒーロー 18 (ビッグコミックス) [a]
花沢 健吾 / 小学館 / 2015-11-30

Bookcover イムリ 18 (ビームコミックス) [a]
三宅 乱丈 / KADOKAWA/エンターブレイン / 2015-11-24

Bookcover たそがれメモランダム 1 (ビッグコミックス) [a]
田村 茜 / 小学館 / 2015-03-12

コミックス(2015-) - 読了:「よつばと!」「たそがれメモランダム」「イムリ」「アイアムアヒーロー」「亜人ちゃんは語りたい」「闇金ウシジマくん」「さらばゲイツちゃん」

2015年12月 3日 (木)

Zyphur, M.J., Oswald, F.L. (2015) Bayesian Estimation and Inference: A User's Guide. Journal of Management, 41(2), 390-420.
 この雑誌のこの号は「経営科学におけるベイジアン確率・統計学」という特集号で、この論文は編者による啓蒙的内容。ちょっと事情があって目を通したんだけど、これ、31頁もあるやんか...

 この号の所収論文の題名をメモしておくと:

ほかに、Gigerenzerさん, Gelman大先生、Galavottiという人のEditorial Commentaryがついている。

 著者曰く、
 社会科学におけるベイジアン革命の意義は:(1)検証可能な仮説の範囲を広げ、帰無仮説有意性検定(NHST)に依存しない直観的な解釈を可能にする。(2)事前の知見と新データを結合できる。その結果は自動的にメタ分析となる。(3)事前の知見を使うことで、より小標本の研究を可能にする。(4)伝統的な推定方法なら複雑すぎて失敗するようなモデルでも推定できるようになる。
 伝統的アプローチは頻度主義の確率理論に依存している。そのせいで、ORにおいてはp値と信頼区間の混同が起きたり、小標本研究が抑制されたり、多くの統計モデルが推定不能になっていたりする。ベイジアン・アプローチをお勧めしたい。
 ふたつのアプローチを比較しよう...

 ...というわけで本編が始まるのだが、初心者向けの概観なので、以下メモは簡単に。

 前半の話の流れはこんな感じ。
 まず、ベイジアンはパラメータをデータの下での確率変数として捉えるのよという話。次にベイズのルールの話をして、事前分布$P(\theta)$, 尤度$P(z|\theta)$、事後分布$P(\theta|z)$を導入。
 事前分布を決めるのが難しい。次の3つがある。

  1. 情報事前分布。利点:過去の研究の知見を利用できる;小標本研究を促進;手元のデータから得られる尤度を事前分布で補うことができる。
  2. 経験事前分布。利点:たとえばマルチレベルモデリングで、全データでグループ平均を推定し、かつ一部のデータでパラメータを推定することができる。いっぽう、シングルレベルモデルではデータで尤度と事前分布の両方を推定していることになり、これはおかしい。
  3. 無情報事前分布。標準的なルールでつくった無情報事前分布のことを「客観事前分布」と呼ぶこともある。

 事前分布をどう更新するかというのを、コイン投げを例に紹介。[ここ、眠くて読んでない]
 いきなり、MCMCってのがあるんだよ、と紹介。詳しくは参考書を読め。[共役事前分布の話とかしないんだ... 時代だなあ]
 ベイジアン推論の例として2つ紹介。

  1. パラメータの事後分布から信用区間を求める。頻度主義的な信頼区間との違いを説明。
  2. モデル比較。posterior predictive checkingについて紹介。[この説明だけ読んでもよくわかんないけど、PPPってやつですね。モデル比較と云えばベイズ・ファクターの話になるかとおもったら、そっちは省略している。DICにもほとんど触れていない。へー、そういうものか]

 最後に、頻度主義との違いを整理。

  1. 頻度主義では確率は観察に適用されるのであってパラメータに適用されるのではない。
  2. 事前分布がない。
  3. サンプルサイズが小さいと、効果が大きくても帰無仮説を棄却できない。

 後半は、自分の昔の研究を取り上げてベイジアンでやりなおすというデモンストレーション。

 例1はSEM。5指標1因子(社会的身分)、その因子に外生変数(テスタトロン)からのパスが刺さるというモデル。Mplusで残差共分散を片っ端からベイズ推定したら(事前分布の分散は思い切り小さくするわけね)、テスタトロンの効果が小さくなった、とかなんとか。ちゃんと読んでないけど。[編者がこんなにMplus推しの解説をしているのと同じ号に、Stromeyer et al. のMuthen批判が載ったのか... すごいな]

 例2はANOVA。これは面白いのでちゃんとメモを取ろう。
 元論文は、先行する自己制御が将来のパフォーマンスに与える影響を調べたもの。自我消耗理論によれば、自己制御能力とは限定的な資源であり、使いすぎると枯渇してしまう。そこで実験。学生に{楽しい, 悲しい}ビデオを見せて、{感情的反応を抑圧するように教示(自己制御群), 非教示(統制群)}。で、陸軍の戦闘シミュレーションをさせて、判断の正しさ、課題遂行の所要時間、調べた属性の平均個数[←なんだかわからん]を測定。つまり、従属変数は3つ、2x2の被験者間2要因実験だ。対象者は全部で80人。
 元論文では各従属変数についてOLS回帰をかけた。いずれの変数でも、ビデオ種別と交互作用は有意でなかった。判断の正しさにおいてのみ、自己制御群が有意に低かった。これが一番大事な結果変数だったので、自我消耗理論の予測が支持されましたね、という結果ではあった。
 さて、欠点が二つある。まず、理論も先行研究もあるのに分析で使ってない。自己制御群は課題遂行時間が短くなり属性数が減るという仮説があるのに。また、小標本だったので、model-wideな最尤推定値ではなくてOLS推定値を使っている。ほんとうは3本まとめたパス解析をやったほうがいいのに。
 というわけで、Mplusでやりなおしましょう。自我消耗のメタ分析研究に基づき、パラメータと残差分散の情報事前分布を決める[うっわー。求め方が細かく書いてあるけどパス]。パス解析すると、果たして、どの変数においても要因の効果の信用区間は0を含みませんでした。つまり理論的予測がさらに強力に支持されました、云々。

 [うぐぐぐぐ。素朴な疑問なんだけど、こういう分析の意義はなんだろう? 先行研究のメタ分析から事前分布をつくって実験データで更新するという分析も確かに面白いけど、もし先行研究に知られざる系統的誤謬があったら、それを末永く引きずることになるわけで...早い話ですね、戦前のアメリカには「黄色人種は知能が劣る」という実証研究があったと聞いたことがあるけど、もし戦後の知能研究者が先行研究のメタ分析から事前分布をつくり、新たな実験データでそれを更新してたら、たとえ個々の実験データを単独でみたときには人種間に有意差がなかったとしても、「黄色人種は知能が劣る」という知見が量産されていたことになりませんかね? 言い換えると、すべての報告において過去知識のベイズ更新を試みるという姿勢は、社会なり組織なりにとって健全なのだろうか。ううむ...]

 考察。
 研究者は事前分布の選択において誠実でなければならない。ある事前分布を十分に正当化できないならばいろんな事前分布を使って報告しなければならない[←これ、よくいう話ですけど、ほんとにそういうことをやっているの、あんまり見たことないですけどね...]。
 もちろん、ベイジアン事前分布はbad faithとして働きうる。もっとも頻度主義アプローチだって結果を知ったうえで仮説を組んでいるわけで、これだってbad faithだ。ベイジアン・アプローチのほうが透明なぶんまだましだ。云々。[←どうも話をずらされているような気がするんだけど...]
 これから複雑なモデルを扱う人はベイジアンにならざるを得ないだろう。昔と違っていい本がたくさん出ているから読め。云々、云々。

論文:データ解析(2015-) - 読了:Zyphur & Oswald (2015) 経営科学のためのベイジアン統計学ユーザーズ・ガイド

« 2015年11月 | メイン | 2016年1月 »

rebuilt: 2020年11月16日 22:41
validate this page