elsur.jpn.org >

« 2014年6月 | メイン | 2014年8月 »

2014年7月28日 (月)

Bookcover シェイクスピア全集 (〔18〕) (白水Uブックス (18)) [a]
ウィリアム・シェイクスピア / 白水社 / 1983-01
シェイクスピア先生の爆笑喜劇、だと思うんだけど、正直なところ、これは活字ではよくわからない... 動いているのを観ないと面白くないんだろうなあ、きっと。フォルスタフが洗濯かごで逃げる場面とか。

Bookcover 女のいない男たち [a]
村上 春樹 / 文藝春秋 / 2014-04-18
今年春刊行の短編集。「ドライブ・マイ・カー」が一番良いと思った。

こうしてみると、最近小説を読んでいないなあ。残念なことだ。

フィクション - 読了:「ウィンザーの陽気な女房たち」「女のいない男たち」

Bookcover ゲーム理論のあゆみ [a]
鈴木 光男 / 有斐閣 / 2014-04-17
 必要に駆られてゲーム理論の勉強を試みて、学部生レベルの教科書を持ち歩き練習問題を解き、電車の中やコーヒーショップやらで我ながら涙ぐましい姿をさらしているのだが、いっこうに身につかない。悲しみは募る一方。せめて歴史の知識でもあれば少しは楽しくなるかな、と適当に手に取った本。
 ところが... 気楽な読み物かと思いきや、著者は1928年生まれ、日本におけるゲーム理論の大先達、フォン・ノイマン&モルゲンシュテルンのあのモルゲンシュテルンの弟子、こないだ大病で入院したときにシャープレーが見舞いに来るというので謝絶した、ナッシュと碁を打ったのが懐かしい... という、まさに生きる伝説級のとんでもない先生なのであった。すみませんすみません。素人なりに背筋を伸ばして読みましたので、どうかお許しださい。
 ところで、日本語のゲーム理論の書籍は1970年前後から出版されるようになったとのことで、当時の著者の一人に戸田正直の名前が挙げられている(心理学の超ビッグネーム)。また、著者による70年刊の編著には「性格と囚人のジレンマ」なんて章もあり、著者らは心理学者だ。へええ、心理学と意外な接点があるものだ。

データ解析 - 読了:「ゲーム理論のあゆみ」

今月読んだマンガのつづき。

Bookcover BLUE GIANT 1 (ビッグコミックススペシャル) [a]
石塚 真一 / 小学館 / 2013-11-29
Bookcover BLUE GIANT 2 (ビッグコミックススペシャル) [a]
石塚 真一 / 小学館 / 2014-03-28
ジャズに青春を捧げる少年の話。なるほど、最初から成功を前提として描くのか...

Bookcover Sunny 5 (IKKI COMIX) [a]
松本 大洋 / 小学館 / 2014-05-30
Bookcover Sunny 4 (IKKI COMIX) [a]
松本 大洋 / 小学館 / 2013-10-30

コミックス(2011-) - 読了:「Sunny」「BLUE GIANT」

Bookcover クレイジー・ライク・アメリカ: 心の病はいかに輸出されたか [a]
イーサン ウォッターズ / 紀伊國屋書店 / 2013-07-04
著者はアメリカのジャーナリスト。アメリカ流精神医学の海外輸出に疑いを投げかけるノンフィクション。時間がないのでメモは書かないけど、大変に興味深い内容であった。圧巻は、グローバル製薬企業が日本をいかに抗うつ剤(SSRI)の巨大市場に仕立てたかという話。
 話はちがうけど、この本の翻訳は実に緻密で、まあ原文と照らし合わせたわけじゃないから正確さの度合いはわからないけど、いちいち原資料に戻って補足修正する努力、誠に頭が下がる思いであった。奥付によればプロの研究者の方らしい。

心理・教育 - 読了:「クレイジー・ライク・アメリカ」

Bookcover やくざと芸能と 私の愛した日本人 [a]
なべおさみ / イースト・プレス / 2014-05-09
往年の人気コメディアン・なべおさみさんの回顧談、なんだけど、やくざとの交流とか、自民党の政治家の手先になって飛び回る描写とか、(著者としては極めて真剣な) 芸能民俗史の知識の披瀝とか... ううむ。一種の奇書であった。

ノンフィクション(2011-) - 読了:「やくざと芸能と」

Bookcover ナショナリズム入門 (講談社現代新書) [a]
植村 和秀 / 講談社 / 2014-05-16
世界のナショナリズムを俯瞰しようとするあまり、話が広範に渡ってしまい、ちょっとついて行けなくなってしまった。すいません。マイネッケって面白そうだ、というのが収穫。

Bookcover メディア社会―現代を読み解く視点 (岩波新書) [a]
佐藤 卓己 / 岩波書店 / 2006-06-20
本棚にあった本。2004年頃の新聞での時評連載を基にした本で、出てくる話は小泉劇場とかライブドア事件とか... このころはまだ震災がなかったんだよなあ、時間が経っちゃったなあ、と変な感慨を覚えた。
 カペラ&ジェイミソンという人たちは、政治を解釈する前提に政治家の自己利益追求やマキャベリズムを置くタイプの報道が、政治家とメディアと大衆の三者が相互に不信感をぶつけ合う「冷笑の螺旋」を産み出している、と述べているそうだ。こうした冷笑主義と不信が、一般的信頼感という社会関係資本を減少させている、とのこと。なるほどー。<世の中が××なのはマスメディアのせいだ>流の悪口雑言にはもううんざりしているのだけれど、この視点には説得力があるなあ。「政治報道とシニシズム」という翻訳が出ているらしい。

Bookcover 儒学殺人事件 堀田正俊と徳川綱吉 [a]
小川 和也 / 講談社 / 2014-04-25
ミステリみたいなタイトルだけど、日本思想史の研究者による堅い真面目な内容の本。綱吉の代での大老・堀田正俊暗殺を軸に、儒学と権力との思想的緊張を描く。大変面白い本であった。
 堀田正俊は朝鮮からやってきた使節に儒学の解釈を巡って教えを請う。両者の間には外交辞令を超えた知的交流が生まれていた。そんな国際交流があったのね...

Bookcover 娼婦たちから見た日本 [a]
八木澤 高明 / KADOKAWA/角川書店 / 2014-07-11

Bookcover ルポ イチエフ――福島第一原発レベル7の現場 [a]
布施 祐仁 / 岩波書店 / 2012-09-28

ノンフィクション(2011-) - 読了:「儒学殺人事件」「娼婦たちから見た日本」「イチエフ」「ナショナリズム入門」「メディア社会」

Bookcover シャルル・ドゴール:民主主義の中のリーダーシップへの苦闘 [a]
渡邊 啓貴 / 慶應義塾大学出版会 / 2013-07-14
ドゴールの評伝。フランス近代史なんてろくに知らないから、勉強になった本ではあったのだが(ドゴールっててっきり68年の学生の反乱で失脚したのだと思っていた)...
 読み終えての最大の感想は、嗚呼、校正って本当に大事だなあ、ということであった。基本的に著者のいうことをそのまま信じるしかない一般読者としては、普仏戦争の敗北で公用語としてのフランス語を失うアルザスのフランス系住民の悲劇を描いた戯曲を「イヨネスコの有名な戯曲『最後の授業』」なんて書かれているのを見つけちゃうと、本の残りの部分まで全く信用できなくなってしまうのである。もし作者がイヨネスコだったら、生徒たちはフランス語を失うどころでは済まない、まさに命の危機だ。こういうのは優秀な校正者がいれば潰せたミスだろう。せっかくの碩学の著書が、もったいないことだ...

Bookcover 街の人生 [a]
岸 政彦 / 勁草書房 / 2014-05-31
社会学の若い研究者とその学生による聞き書き集。

Bookcover 魚で始まる世界史: ニシンとタラとヨーロッパ (平凡社新書) [a]
越智 敏之 / 平凡社 / 2014-06-13
運悪く、考え事をしながら適当に読み飛ばしちゃった本なんだけど、なかなか面白かった。カソリックの「金曜日は魚の日」という伝統の背後には海軍力の問題があったりした由。

Bookcover イギリス史10講 (岩波新書) [a]
近藤 和彦 / 岩波書店 / 2013-12-21
シェイクスピアの史劇をちびちび読んでいる、その手助けにと思って読んだのだが、かの国の歴史のわかりにくいことといったら、もうね...

Bookcover パンの文化史 (講談社学術文庫) [a]
舟田 詠子 / 講談社 / 2013-12-11
大変面白い本だったのだが、しかし腹が減って困った。

ノンフィクション(2011-) - 読了:「パンの文化史」「街の人生」「魚で始まる世界史」「シャルル・ドゴール」「イギリス史10講」

Bookcover 鉄楽レトラ 5 (ゲッサン少年サンデーコミックススペシャル) [a]
佐原 ミズ / 小学館 / 2014-05-12

Bookcover 百鬼夜行抄 23巻 (Nemuki+コミックス) [a]
今 市子 / 朝日新聞出版 / 2014-07-08

Bookcover おひとり様物語(5) (ワイドKC Kiss) [a]
谷川 史子 / 講談社 / 2014-05-13

Bookcover 夜とコンクリート [a]
町田 洋 / 祥伝社 / 2014-02-03

Bookcover リバースエッジ 大川端探偵社 (5) (ニチブンコミックス) [a]
ひじかた 憂峰 / 日本文芸社 / 2014-07-04

Bookcover プリニウス (1) (バンチコミックス45プレミアム) [a]
ヤマザキマリ,とり・みき / 新潮社 / 2014-07-09

Bookcover ドロヘドロ 19 (BIC COMICS IKKI) [a]
林田 球 / 小学館 / 2014-06-30
正直なところストーリーは全く理解できなくなってしまっているのだが、この作家独特の奇想天外な絵柄が楽しくて読み続けている。見知らぬ遠い国の絵本を読んでいるような気分である。

コミックス(2011-) - 読了:「鉄楽レトラ」「百鬼夜行抄」「おひとり様物語」「夜とコンクリート」「ドロヘドロ」「リバーズエッジ 大川端探偵社」「プリニウス」

最近読んだコミックス:

Bookcover 海街diary(うみまちダイアリー)6 四月になれば彼女は (フラワーコミックス) [a]
吉田 秋生 / 小学館 / 2014-07-10
純粋な好き嫌いでいえば、これはものすごく嫌いなマンガなんだけど、良い作品であることは否めない。

Bookcover 千と万(2) (アクションコミックス(コミックハイ! )) [a]
関谷 あさみ / 双葉社 / 2014-07-10
中学生の娘と父親の二人暮らしを描く日常コミック、なんだけど、可愛らしい少女の小狡く嫌らしい側面も描いていて、この作家さんは油断できないなあと思う。

Bookcover ZUCCA×ZUCA(8) (KCデラックス モーニング) [a]
はるな 檸檬 / 講談社 / 2014-06-23

Bookcover いとへん (Feelコミックス) [a]
宇仁田 ゆみ / 祥伝社 / 2014-05-08

Bookcover 87CLOCKERS 5 (ヤングジャンプコミックス) [a]
二ノ宮 知子 / 集英社 / 2014-06-10

Bookcover とりぱん(16) (ワイドKC モーニング) [a]
とりの なん子 / 講談社 / 2014-05-23

Bookcover 南国トムソーヤ 3 (BUNCH COMICS) [a]
うめ / 新潮社 / 2014-07-09

Bookcover アイアムアヒーロー 15 (ビッグコミックス) [a]
花沢 健吾 / 小学館 / 2014-06-30

コミックス(2011-) - 読了:「ZUCCAxZUCA」「海街diary」「いとへん」「87 Clockers」「とりぱん」「南国トムソーヤ」「アイアムアヒーロー」「千と万」

2014年7月25日 (金)

Offerman, T., Sonnemans, J., van de Kuilen, G., Wakker, P.P. (2009) A truth serum for non-bayesians: Correcting proper scoring rules for risk attitudes. The Review of Economic Studies, 76, 1461-1489.
 主観的信念を調べる方法として、真実開示が最適戦略になるようなインセンティブを回答から算出する方法がある(proper scoring rule)。従来の提案は期待効用理論に基づいていた。これを非期待効用理論に拡張します。という論文。
 難しすぎて死にそうだ、と恐怖しながらめくったのだが、やはり超難しかった。こんなの、素人が手を出せる代物ではない。死ぬ死ぬ死んでしまう。というわけで、ざっと目を通しただけだけど、読了にしておく。

論文:予測市場 - 読了: Offerman, Sonneman, van de Kuilen, Wakker (2009) 非期待効用理論のもとでのプロパー・スコアリング・ルール

しばらく前のメモ。整理がつかないので読了にしておくけど、これをもって読了と呼ぶのってどうなのか? 映画開始30分で眠りはじめ、終了と同時に目覚めて「うーんいまいちだったなあ」なんていうのと同じことではないか。

Becker, G.M., DeGroot, M.H., Marschak, J. (1964) Measuring utility by a single-response sequential method. Behavioral Science. 9(3), 226–232.
 WTP測定方法の一つであるBDM法のオリジナル論文。ちょうど半世紀前の論文を、切羽詰ったこの期に及んで読むだなんて、どんな好事家か... と思うが、引用したいんだから仕方ない。掲載誌は現在 Systems Research and Behavioral Science という誌名になっている模様。IFは0.47だそうだから、メジャー誌ではなさそうだが、当時どうだったかはわからない。

 ええと...
 被験者に「確率pでaドルを得る、確率1-pでbドルを失う」(これを (a, p, -b)と書く) のとなにもしないのとどっちを選びますかという聴取を繰り返す、という実験はすでにあった(Mosteller & Nogee, 1951)。この手法で効用関数を求めることができるけど、いくら試行を繰り返しても対象者の選択確率は同じであるという仮定が必要だし、pは既知でなければならない。そこで、(y, p, z)の最低の売値 s を設定させて... 以下、BDM法の提案。あまりに眠いので、メモは省略...

論文:予測市場 - 読了: Becker, DeGroot, & Marschak (1964) Becker-DeGroot-Marschak法のご提案

少し前に読みかけて忘れていた奴。整理がつかないので、残りにざざっと目を通した。

Baldinger, A.L., Cook, W.A. (2006) Ad Testing. in Grover, R., Vriens, M. (eds.) "The Handbook of Marketing Research", Chapter 23.
いわゆる広告テストについての概説。仕事の関連で、ちょっと頭を整理したくて読んだもの。第一著者の肩書はコンサルタント。第二著者はARFのえらい人らしい。
内容は...

どうでもいいけど、主要な広告調査会社として脚注で挙げられていたのは以下の会社であった:

2006年刊の本に挙げられているリストでこれなんだから... 諸行無常って感じですね。

論文:マーケティング - 読了:Baldinger & Cook (2006) 広告テスト概説

横尾淑子(2014) 世界における予測活動の最近の動向. 科学技術動向, 144.
 調べものをしていてたまたま見つけた短い記事。科学技術予測調査という、国が昔からやっているデルファイ法を使った調査があるけど、あれを実施しているのが文科省直轄の科学技術・学術政策研究所(NISTEP)というところで、掲載誌はそこが出している隔月刊誌、著者は科学技術予測調査の担当者の方らしい。
 えーっと、予測活動は技術フォーキャストからイノベーション・フォーサイトへと移行しているのだそうである。へー。

論文:マーケティング - 読了:横尾(2014) 未来予測の動向

2014年7月15日 (火)

Nicodemus, K.K. (2011) On the stability and ranking of predictors from random forest variable importance measures. Briefings in Bioinformatics. 12(4), 369-373.
 先に読んだ Colle & Urrea (2010) への反論に相当するレター。著者はその前に読んだStroblさんの共同研究者らしい。なるほど、どうやらパーミュテーション・ベースの変数重要度をめぐって陣営が分かれているらしい。

 Colle & Urrea はMDA (パーミュテーションで測るmean decrease accuracy) よりMDG (mean decrease Gini) のほうが安定しているっていうけど、MDGはカテゴリ数が多い変数で大きくなるし、予測子の間の相関によってバイアスを受ける。彼らの使ったデータの変数はSNPsだから、カテゴリ数が変数によってちがうし、ナントカカントカ(理解不能)のせいで相関がある。安定してりゃいいってもんじゃないよ。
  (いま調べてみたら、ゲノムの塩基配列のなかで変異がみられる場所のことをSNPというのだそうだ。知らんがな。生まれながらの文系なのに、なんでこんなの話を読まねばならんのか)

 それに、安定性について考えるんならカテゴリごとの頻度が大事よ。MDGはカテゴリの頻度分布によって影響されちゃうのだ。というわけで、人工データによるシミュレーションでMDAの有用性を示している。面倒になっちゃったのでメモは省略。

論文:データ解析(-2014) - 読了:Nicodemus (2011) ランダム・フォレストにおけるパーミュテーション・ベースの変数重要度に着せられた汚名をそそぐ

Calle, M.L., Urrea, V. (2010) Stability of Random Forest importance measures. Briefings in Bioinformatics. 12(1), 86-89.
 この雑誌に載った論文についてコメントしたレター。掲載誌はどういう性質のものだかわからない(IF 5.3だそうだが、この分野でこれは高いのか低いのか見当がつかない)。

 その論文(Boulesteix & Slawski, 2009)は、膀胱がんの罹患性と予後における遺伝的要素を同定するためにランダム・フォレストを使っていたのだそうだ。で、ランダム・フォレストの変数重要性指標としては、mean decrease accuracy (MDA) と mean decrease Gini (MDG)、特に前者が広く使われており、その論文でもこの両方を使っていた由。MDAというのは予測の正確さに対する当該変数の貢献をパーミュテーションで測った指標、MDGというのはその変数によるGini指標の低下を測った指標。

 さて、MDAやMDGはどのくらいあてになるものだろうか。調べてみました。
 別の実データを使い、ジャックナイフ法で安定性を調べてみた。MDGはそこそこ安定しておるが、MDAはぜ・ん・ぜ・ん安定していない。
 正解がわかっているデータでシミュレーションしてみた。MDAは滅茶苦茶に成績が悪い。
 MDAがひどかった理由を考えるに、当該変数 X 以外の変数の値のせいであろう。つまり、The variables that are below X and their values can vary substantially from one tree to another and from one individual to another だからであろう。(←申し訳ございませんが、これが理由の説明になっているのかどうかさっぱり理解できない。それってMDGでも同じことじゃない???)

論文:データ解析(-2014) - 読了:Calle & Urrea (2010) ランダム・フォレストにおけるパーミュテーション・ベースの変数重要度はあてにならない

読んだものは何でもメモしておこう、ということで...

Strobl, C., Hothorn, T., Zeileis, A. (2009) Party on! A new, conditional variable-importance measure for random forests available in the party package. The R Journal, 1(2).
 著者らはRのpartyパッケージの開発者。分類木・回帰木(rpartパッケージ)やランダム・フォレスト(randomForestパッケージ)の標準的手法では、連続変数やカテゴリ数の多いカテゴリカル変数が選ばれやすくなる。さらに、予測子に相関がある場合、従来の重要性指標にはバイアスが生じる。partyパッケージではこれらの問題に対処したぞ。という記事。
 
 ええと... 復習しておくと、分類木で分岐点を計算するときに良く用いられる方法のひとつは、Gini指標を最小化する分岐点を探すことだ。ノード t に落ちた個体がクラス $i$ に属する確率を $p(i | t)$ として、Gini指標とは
 $GI = 1 - \sum_i [ p( i | t) ]^2 $
である。

 著者いわく... Gini指標に基づく変数重要度は予測子のカテゴリ数や尺度がちがうときにバイアスがかかる。そこで使われているのがパーミュテーション重要度である。予測子のパーミュテーション重要度とは、out-of-bagケース(学習に使ってないケース)に対する正分類率と、当該の予測子の値だけをぐちゃぐちゃにかきまぜたときの正分類率との差である。ただし、randomForestではこれをSEで割った値(z得点)を重要度としている。
 さて、パーミュテーション重要度は相関なんかと同じく、周辺的(marginal)な重要性指標である。つまり、ある変数がそれ自体の効果を持っていないに他の予測子と相関しているせいで重要度が高くなる、ということがありうる。この点、偏相関や偏回帰係数のような条件つき(conditional)な重要性指標とは異なる。
 そこで我々(Strobl et al., 2008, BMC Bioinformatics)は条件つきパーミュテーション重要度を提案している。これはですね、データを共変量Zで層別し、層のなかだけでかきまぜるのである。Zに含める変数、ならびに連続変数の場合の離散化は、ランダム・フォレストのそれぞれの木で決める。この機能はpartyのvarimp()に積んである。
 ユーザへのアドバイス。

論文:データ解析(-2014) - 読了:Strobl, Hothorn, Zeileis (2009) ランダム・フォレストにおけるパーミュテーション・ベースの変数重要度の新手法

 こんなことを書くと年寄りだと馬鹿にされちゃうかもしれないんですけど、ふだんRというオープンソースのソフトウェアを使っていて、やはりふと不安になることがある。このパッケージ、本当に正しい結果を返してくれているのだろうか、という不安である。たとえばMASSパッケージやsurvivalパッケージのような標準パッケージならともかく、歴史の浅いマイナーなパッケージの場合、プログラムが多少誤っていたとしてもなかなか気づかれないだろうし、開発者はテヘペロで済ませてしまうのではなかろうか。その点、プロプライエンタリな分析ソフトの老舗・SASならば、万が一プロシジャがちょっとしたバグを含んでいたりマニュアルに誤りがあることが露見しようものならば、嵐のようなフラッシュと怒号の中で役員たちが泣き崩れ、開発者とその一族郎党犬猫に至るまでが釜ゆでの刑に処せられ、ノースカロライナ州の本社敷地にまたひとつ慰霊碑が立つ。(すいません嘘です)
 というわけで、ふだん使っているRパッケージについては、なにかこうオフィシャルな... っていうんですかね、そういう種類の文章に目を通しておこないと、なんだか落ち着かない。もちろん、別に読んだからどうってことはないんだけど、まあ気持ちの問題である。

Karatzoglou, A., Meyer, D., Hornik, K. (2006) Support Vector Machines in R. Journal of Statistical Software, 15(9).
 サポート・ベクター・マシンのRパッケージを比較した論文。最初にSVMの原理を説明(だんだん頭が煮えてくる)、さまざまなカーネルを紹介(だんだんどうでもよくなってくる)、そして実データを用いながら各パッケージの特徴を詳細に紹介(もはやほとんど理解できない)。速度を比較し、最後にまとめの比較表。
 紹介されているのは、kernlabパッケージのksvm(), e1071パッケージのsvm(), klaRパッケージのsvmlight(), svmpathパッケージのsvmpath()。うぐぐぐ。なんだかよくわからんが、まあ素人はkernlabかe1071を使っていればいいのだろうか。前者はカーネルがいろいろ選べる、後者はスパース・マトリクスがそのまま食える、とかなんとか。

論文:データ解析(-2014) - 読了:Karatzoglou, Meyer, Hornik (2006) サポート・ベクター・マシンのRパッケージ品定め

2014年7月11日 (金)

Hu, Y., Du., Y., Damangir, S. (2014) Decomposing the impact of advertising: Augumenting sales with online search data. Journal of Marketing Research, 51(3), 300-319.
 先日読んだDu & Kamakuraが勤務先の仕事にジャストミートだったので、関連した論文を探していて見つけた、同じ著者の論文。ここでもGoogle Trendを使って分析してみせているのだが、さらに斜め上というか、なんというか。
 背景・目的をすっとばして内容からいえば(だって著者らの発想からいえば、目的なんか後付けですよきっと)、売上を広告支出で説明する市場反応モデルの中間変数としてGoogle Trendの時系列データを使う、という論文。よくもまあ、そういう変なことを...

 著者ら曰く、売上反応モデルに態度・行動変数を統合しようという提案はすでにある: Srinivasan, Vanhuele, Pauwels (2010, JMR), Bruce, Peters, Naik (2012, JMR)。調査ベースの指標を統合し、購買の手前の思考・感情への広告の影響をモデル化している。これに対し本研究では、購買の手前の情報探索への広告の影響に注目する。だからGoogle Trendを使うのだ、という理屈である。
 Google Trendを使った先行研究:

 モデル。例によって自動車メーカーのGoogle Trendの時系列を使う。
 時期 t において ブランド j を検索した未購入者数を Q_{jt} とする。Q_{jt} のうち当該時期に j を買った人の割合を R_{jt}, 人数を Y_{jt} = Q_{jt} R_{jt} とする。二台買う人はいないと考え、また検索しないまま買っちゃった人 Q'_{jt} も無視すれば、Y_{jt} が売上である。
 Q_{jt}としてGoogle Trend(検索量)を使いたいんだけど、もちろん検索量がすべて購入検討者の検索というわけではない。ではどうするかというと、これが案外人を食っていて、Google Trendで"(ブランド名) -used -parts -recall -repair" と入力した由(ははは)。さらに、"Autos & Vehicles"というカテゴリを選ぶか、もしくは"Vehicle Shopping"というフィルタをかける。前者の結果をG_{jt}, 後者の結果をS_{jt}とする。
 以下、I_{jt} = ln(Q_{jt})とする。つまり、購買と関連した関心の強さを表す潜在変数である。で、以下のモデルを立てる。
 ln(S_{jt}) = I_{jt} + v^S_{jt}, ただし v^S_{jt} \sim N(K^S_j, V^S_j)
 ln(G_{jt}) = I_{jt} + NI_{jt} + v^G_{jt}, ただし v^K_{jt} \sim N(K^K_j, V^K_j)
NI_{jt} というのはまた別の潜在変数で、購買と関係のない関心の強さである。
 さらに、検索から購買へのコンバージョンについて
 ln(R_{jt}) = C_{jt} + \varphi_j I_{jt} + v^Y_{jt}, ただしv^Y_{jt} \sim N(0, V^Y_j)
時系列的に変動するベースラインCから、I_{jt}の何割かが引かれる、という発想である(つまり、\varphi_jは負だと期待されている)。たとえばキャンペーンなんかで関心が高まっても、関心から購買へのコンバージョンは高くならない、むしろ落ちる、と考えているわけである。

 で、I, NI, Cに時系列構造を入れます。
 I_{jt} = \alpha^I_{jt} + \beta^I_j X_{jt}
\alpha^Iがトレンド項。X_{jt}は外生変数ベクトルで、前期売上 Y_{j, t-1} の対数、消費者信頼感係数、ガソリン価格、季節調整項が入っている。ここで前期売上を入れるのは、購入者が検索しそうだから。
 \alpha^I_{jt}
 = \delta^I_{j1} \alpha^I_{j,t-1}
 + \delta^I_{j2} \sum_{j' \neq j} \alpha^I_{j',t-1}
 + \delta^I_{j3} ln(A_{jt})
 + \delta^I_{j4} ln(\tilda{A_{jt}})
 + w^I_{jt}
さあ、深呼吸して... 第一項は前期の\alpha^Iで、つまり基本的には一次の自己回帰モデルである。第二項は前期の他のブランドの\alpha^Iの総和で、競合への関心からのラグつきのスピルオーバーを表す。第三項のA_{jt}は自社の広告支出。第四項の\tilda{A_{jt}} は他社の広告支出の総和。第5項は攪乱項で、\sim N(0, W^I_j) と書いてあるんだけど、いっぽう競合への関心からのラグなしスピルオーバーは w^I_{jt}とw^I_{j' t} の相関で表すと説明している... 最後に状態空間表現に書き換えたときに共分散を考えているらしい。
 NI_{jt}, C_{jt} についても、I_{jt} と同形のモデルを組む。パラメータの上添字が全部変わるだけ。

 自社広告支出 A_{jt} は、前期の売上や上のモデルと同じ外生変数の影響を受ける。つまり内生性の問題が生じる。しょうがない、A_{jt}もモデルを組もう、というわけで、
 ln(A_{jt}) = \alpha^A_{jt} + \beta^A_j X_{jt} + v^A_{jt}, ただし v^A_{jt} \sim N(0, V^A_j)
\alpha^A_{jt}が広告支出のトレンド項。もう一度深呼吸!
 \alpha^A_{jt}
 = \delta^A_{j1} \alpha^A_{j, t-1}
 + \delta^A_{j2} ln (Y_{j, t-1})
 + \delta^A_{j3} ln (\tilda{A_{j,t-1}})
 + w^A_{jt}
1次の自己回帰に、前期売上と前期の競合広告支出の総和が乗っている。あれれ? 前期売上の対数 ln (Y_{j, t-1}) は外生変数ベクトル X_{jt} にも入っているから、\beta^A_j の当該要素か \delta^A_{j2} を固定しないと、これ識別できないんじゃない? なにか誤解しているのだろうか...。

 以上のモデルとは別に、Google Trendを使わない売上モデルもつくる。省略。
 モデルの推定は、状態空間表現に書き換えて、ベイジアン動的線形モデルとみなし、Gibbsサンプラーを用いて... 云々云々。そんなん、いちいち読んでたら死ぬ、悶え死ぬ。パス。

 データ。自動車21ブランド。月次売上はAutomotive Newsというサイトから、月次広告支出はKantor Media様から、検索量はGoogle様から、消費者信頼感係数はミシガン大から、ガソリン価格は役所から、季節調整項はそれぞれの変数の自動車全体についてのデータから、頂いてくる。

 結果。Google Trendを使わないモデルよりも優れている(AICと予測性能を比較)。パラメータを読んでいくと、

 ううむ。正直いって、モデル自体にはあまり魅力を感じない。自分で代替案を出して推定できるわけでもないのに、ハタから好き勝手いうのは、品がないかもしれないけれど...。
 著者らも脚注で触れているけど、モデルのうち G や NI は本質ではなく、なんなら省略できる部分である。さらに広告や外生変数の効果を取り除き、モデルの根幹を見ると、著者らは、あるブランドへの購買関連的関心の高さ (I) と、関心から購買へのコンバージョンしやすさ(C)という2つの潜在変数を考え、「購買関連的検索量は Iが高いと高くなる」「購買関連的関心から購買へのコンバージョンは C が高いと高くなり I が高いと低くなる」と考えているわけである。
 ちょっといやらしいなあ、と思うのは後者の発想である。マクロレベルでの現象としては、確かにそうだろう、キャンペーンなどによる関心者の一時的増大は購買へのコンバージョン率を下げるだろう。でもこのモデル、もはや消費者行動のモデルではなくなってきているように思う。本来は、もともとのブランド・エクイティが高い人ほど、関心も持ちやすくコンバージョンもしやすいはずである。
 こういう奇妙な話になるのは、消費者の異質性を正面からモデル化していないからである。潜在顧客のブランド j に対する事前のエクイティ x_j を確率変数と捉えて分布を考え(たとえばベータ分布とか)、個人の検索確率をその人の x_j と広告効果で説明し、個人において検索が生起した際の購買の条件付き確率を その人のx_j と広告効果で説明する... というモデルを立てて、データからx_j の分布パラメータと広告効果の時系列モデルを推定するほうが、ずっと素直なんじゃなかろうか。

 それはともかく、発想自体はすごく面白いと思った。売上に対する広告効果モデルに、中間変数として調査データの指標を入れようというのならまだしも、Google Trendの時系列を入れちゃおうという発想は、たとえば私などがたまたま口走っても、そんなん誰が検索してんのかわかんないじゃん、と鼻で笑われてしまうだろうと思う。こういう自由な発想を持ちたいものだと思う。

論文:マーケティング - 読了:Hu, Du, & Damangir (2014) 売上への広告の効果をGoogle Trendを使って分解する

2014年7月10日 (木)

仕事関連で目を通した論文のメモを総ざらえ。これでたぶん全部だと思うんだけど...

Brown, S.P., Stayman, D.M. (1992) Antecedents and consequences of attitude toward the ad: A meta-analysis. Journal of Consumer Research, 19, 34-51.
 有名な雑誌に載っていた広告プリテストに関する研究報告に目を通してみたら、これがもうなにがなんだか分からない内容で、お嘆きであった皆様(俺だ)、お待たせしました。類似した問題を扱っている断然マトモな論文を発見。救われた思いである。

 たとえばARF copy testing projectの研究報告では(←こないだ読んだ奴だよ、全くもう)、広告効果の最良の指標は広告への好意度であると示唆された。ああいう報告はどのくらい頑健なのか。広告への態度がブランドへの態度に及ぼす影響は、なにに媒介されていて、どのくらい強いのか。メタ分析しましょう。という論文。

 広告への態度を測っている43本の論文を集めた。ここ、ちょっと面白いのでメモしておくと... 集めた期間は1981年から1991年6月まで。なぜ1981年かというと、広告への態度という構成概念が登場したのが、Mitchell & Olson (1981, JMR), Shimp (1981, J.Adv.)なのだそうである(←意外に歴史が浅い...)。まずは、JCR, Adv.Cons.Res., JMR, J.Adv., J.Adv.Res., J.Mktg, J.Acad.MS., Current Issues & Res. in Adv. の8誌から集めた。さらにABI InformとPsychlitを探したが、もう見つからなかった(前者はProQuestが持っているDB。後者はかつてAPAが出してたPsycLITのことでは?)。さらに、bibliographiesや個人的伝手で探したのを追加した。とのこと。
 研究の数は47個。2変数の関連性の効果量指標として単相関を使う。不幸にして単相関が報告されていない場合は検定統計量から無理矢理でっちあげる(詳細略)。

 研究の特性として次の11点に注目する。(1)広告への態度を測っている項目は単一か複数か。(2)対象者は学生か。(3)広告への感情(feeling)を操作しているか、個人差を調べているだけか。(4)単一の感情を調べているか、複数の感情を調べているか。(5)提示するブランドは既知か。(6)製品は一般的な反復購買製品か。(7)広告は印刷物かTVか。(8)広告は他の材料のなかに埋め込まれているか。(9)広告に対するあなたの反応を調べますと教示しているか。(10)被験者内計画か被験者間計画か。(11)研究の関心の中心は広告への態度か。

 結果。
 関連性を検討されることが多い5つのペアについてみると(研究数は12~33件)、測定誤差修正後の相関係数の中央値は、<広告への態度-ブランドへの態度>間で0.68, <感情-広告への態度>0.55, <広告の認知-広告への態度>0.48, <広告への態度-購入意向>0.36, <広告への態度-ブランドの認知>0.32。(←ここでいう認知(Cognition)って、どういう項目なんだろう?)
 相関係数の等質性を調べると、どのペアでも等質性がない。そこで、11個の特性のそれぞれで研究を分割し、サブグループごとに相関の分布を調べて比較する(←分割した結果、研究数1なんて箇所も出てくるんだけど、結構強気に読み解いている...)。その結果は:

 以上を回帰分析で再検討(省略)。また、4つのパスモデルを比較して、dual mediation 仮説というのを支持している。すなわち、広告認知→広告態度というパスと、ブランド認知→ブランド態度→購入意向というパスがあって、広告態度からブランド認知とブランド態度の両方にパスが刺さる(でもブランド態度からの広告態度への逆向きのパスはないし、広告態度から購入意向へのパスもない)、というモデル。

 dual mediation 仮説という考え方のどこが面白いのかピンとこなかったのだが、考察を読んでみると、どうやら対抗馬としてフィッシュバイン・モデルがあるようだ。ああそうか、フィッシュバイン流にいえば、ブランドへの態度はブランド属性についての信念と評価で形成されるわけだから、広告への態度からブランドへの態度に直接パスが刺さるという示唆はこれに反するわけだ。とはいえ、このパスはあまり強くない点に注意せよ、むしろブランド認知を経由した間接効果が大きいのだ、とのこと。
 その他、結果のひとつひとつについて丁寧に考察しているけど、省略。

 なるほどねえ。。。
 この論文だけでは、個別の構成概念を測定している項目についてイメージしにくいのだけれど、それは私がこの種の研究を読みつけていないからであろう。この論文でのメタ分析の手法が現在でも通じるかどうか、よくわかんないけど、まあそれも枝葉の話だ。ともあれ、頭がすっきりしました。
 だいたい「広告プリテストで得られる指標のうち購入意向と最も関連しているのは広告への好意度か?」なんて、ああいう問いの立て方自体が軽薄なんだよな!と意を強くした次第である。実務家だからどんなナイーブな問いを立てても良いってことにはならないですよ。答えはブランドの既有知識によっても広告メッセージの精緻化レベルによっても財の性質によっても変わってくる。その構造を理解することが、結局は実務的にも有用な示唆をもたらすのだ。うむ!

論文:マーケティング - 読了:Brown & Stayman (1992) 広告への態度は何に影響され何に影響するのか

2014年7月 9日 (水)

伊庭幸人(2006) ベイズ統計の流行の背後にあるもの. 電子情報通信学会技術研究報告. ニューロコンピューティング. 106(279), 61-66.
 いつも拝読しているブログの記事で紹介されていた論文。読んでみたいなあ、ciniiで読めるのか、ログインしてみよう... と流れるようにクリックしていて、あっというまに購入してしまった(もちろん私費である)。怖い~cinii怖い~。

 学会の招待講演の原稿らしく、ちょっとくだけた感じの文章であった。
 途中で「カーネルしおまねき」っていうイラストが出てくる(カーネルトリックを使う場合カーネルの設計が重要、つまり最初が大変になるという主旨で、片方のハサミがすごく大きいカニが描かれる)。なぜにカニ?と思って検索してみたら、シオマネキって、片手がほんとに大きいのね! 知らなかった。名前からして、扇で優雅に潮を招くような感じの、もうちょっと優雅な姿を想像していた。

 ええと、内容のほうは難しくてわからない部分も多く、特に最後の「生成モデルと判別モデル」のところが私には難解だったのだが、でも勉強になりました。
 著者のいう生成的モデリングというのは、データの生成過程全体をモデリングし、観測値の同時分布の式をベイズの定理でひっくり返してパラメータを推定するという方針のことを指している。いっぽう判別モデリングとは、必要な部分だけモデル化するアプローチで、たとえば分類だったら観測値の下でのクラス所属確率を直接にモデル化する。ううむ、難しいなあ。たとえば顧客満足とか製品選好の研究で、満足なり選好なりを生成する心的過程を包括的に捉えんという意気込みの下、壮大なSEMのモデルを組んだ末に最尤推定することがあるけど、ああいうのはどっちなんだろう?

論文:データ解析(-2014) - 読了: 伊庭(2006) ベイズ統計の流行の背後にあるもの

Cohen-Cole, E., Fletcher, J. (2008) Detecting implausible social network effects in acne, height, and headaches: Longitudinal analysis. BMJ, 337.
 昨日、ふとしたきっかけで「社会的ネットワーク上で幸福が感染する」と主張する論文に目を通し(Fowler & Christakis, 2008)、そ、そうなの?... と思いながら試しにwebを検索してみたら、結構な話題になった研究らしく、日本語での紹介記事がいっぱいあった。その多くは自己啓発系の超くだらないブログ記事であった。幸せになるためには幸せのオーラを出しましょう、とか。ああいう文章を書いている人の頭の中って、どうなってんでしょうね。
 しかし、なかにはまともな紹介もあって、そのひとつであるwiredの翻訳記事によれば、研究の方法論に対しては批判もある由。なんと、同年のBMJに真正面からの批判が載っていた。いやー探してみるものねー。

 いきさつとしては、誰かが「××は社会的に感染する」という研究を世に出すと、他の人が追いかけてって「いや普通に分析すりゃ感染してないよ」と批判する、というのが繰り返されているらしい。「肥満が感染する」(Christakis & Fowler, 2007, NEJM) に対して「いやそれピア効果だから」(Cohen-Cole & Fletcher, 2008, J. Health Econ.)。「薬の処方は感染する」(Coleman, et al., 1966, "Medical Innovation")に対して「いやそれマーケティングの効果だから」(Van den Blute & Lilien, 2001, Am.J.Soc.)。

 著者らいわく。
 健康の研究においてネットワーク効果(ある人の状態が、その人とつながっている他の人の状態に影響すること)を取り出すのは難しい。理由1: homophily (健康な人同士、不健康な人同士はリンクを持ちやすい)。理由2: confounding (同一の準拠集団に属している人はある環境を共有している)。
 これに対する対処法がいくつかある。homophilyに対しては、ランダム割付(大学の新入生の寮の部屋割りをランダム割付した研究があるらしい。頭いいなあ。Sacerdote(2001, Q.J.Econ.))。そしてラグつき変数をいれた統計モデル。confoundingに対しては、共通の環境を表すいろんな変数の統計的統制。
 ところが、統計的な対処ってのはなかなか難しい。ここ、さらっと書いてあるけど大事だと思うのでメモを取っておくと、

実証研究におけるシンプルなやりかたは、データセットにおいて利用可能な情報がなんであれ、それこそが人々が生きている社会環境を記述する情報なのだ、と仮定してしまうことである。特に、それらの変数こそが環境内の交絡因子(confounders)を真のネットワーク効果から区別するために適切な変数なのだ、と仮定するのはよくある話である。問題は、そこで使われているデータセットがこの種の分析のために構築されたものであることはまずないという点である。[データセットに含まれている] 個人特性・集団特性は、ふつうは個人レベルの健康上のアウトカムを評価するために適切なものであって、集団レベルの相互作用を評価するためのものではない。たとえば、肥満に対するネットワーク効果と交絡因子を区別するためには、その社会的ネットワークにとって利用可能なファスト・フード店のパターンとか、学校のカフェテリアのメニューのカロリーといったことを知る必要があるだろう。個人の人種や年収などの変数は、ある種の研究にとっては合理的な代理変数になるかもしれないが、環境は異なるが他の点では似ている2つの集団を区別する助けにはならない。ある学校の隣にファスト・フード店があり他の学校の隣にはないとき、この顕著な情報を含まない回帰の推定は、どんなタイプのものであれ [偽りの]「ネットワーク効果」を示してしまうだろう。

ははは。前半のご批判、ネットワーク効果に限らない話で、耳が痛いですね。

 Christakis&Fowlerの肥満の研究では、人の体重の回帰式にその友人の体重を入れるだけではなく、友人の過去の体重を投入することでhomophilyを分離したと主張しているが、これは怪しい。たとえば、友人関係が自尊心のような諸特性に基づいて形成されているとしよう。で、自尊心が現在の体重と将来の体重に異なる形で影響しているとしよう。この場合、友人の現在の体重を統計的に調整しても、自尊心に基づくhomophilyが将来の体重に及ぼす影響を分離したことにはならない。また、禁煙しようかなと思っている喫煙者は、この人は将来禁煙できそうだなと彼らが思っている人を友達にするのかもしれない。ここで個人の喫煙状態を統計的に統制しても、homophilyを分離したことにはならない。
 confoundingのほうも怪しい。学校の隣にファスト・フード店があるのにそのことを統制していないと、同じ学校に通っている二人は友達であることが多いから、偽りのネットワーク効果が生じてしまう。リンクの向きを調べても解決にはならない。いまAくんがBくんを友達だと考え、しかしBくんがAくんを友達だと思っていなかったら、Aくんには偽りのネットワーク効果が生じBくんには生じないが、どのみち偽りであることにはかわりない。

 実例をお見せしましょう。Add Health (青少年の健康についての全米規模の縦断研究)のデータを使う。どうみても社会的に感染しない変数である、肌のトラブル、頭痛、身長に注目する。3時点分のデータをつくって分析。自分の状態を説明する回帰モデルで、自分と友達の前時点での状態を投入しても、友達の現時点での状態が有意になってしまう。つまり、偽りのネットワーク効果である。性別・年齢・人種などなどを投入してはじめて効果が消える。

 ううむ、なるほどね。
 この批判はネットワーク効果の推定に向けられたものだが、より広く捉えれば、観察研究においてある変数の効果を示すために、「それと交絡している変数をすべて統計的に統制しました」と誰かが主張したとき、その「すべて」ってのはなにを根拠にしているの?... というタイプの批判である。面白味がないので見過ごされがちだが、忘れてはならない視点だと思う。
 正直、耳やら胸やらがかなり痛む。観察集団におけるYの分散が、ほかのいかなる変数のせいでもなくX1のせいだと示すために、X2, X3, ... を片っ端から投入した傾向スコア調整を行った、というような経験は私にもある。受け手の人は「ああそれならX1のせいだ」とわりかし簡単に信じてくださるんですが、この話、ホントはX2, X3, ... の豊かさ次第、選び方次第なのです。

 というわけで、著者らの批判には仰せの通りと同意するしかないし、Christakis&Fowlerの示したネットワーク効果が真水の値かどうかは怪しいところだと思うんだけど、ではこれがChristakis&Fowlerの「幸福の感染」という主張を完全に打ち崩しているかというと、そうとも言いがたい。統制できていない交絡変数があるかもしれないよね、という批判と、いや統制できていると思いますよ、という反論は水掛け論に終わるからだ。そうこうしているうちに、「ハーバード大学の研究によれば、幸せな人に出会うとあなたは以前よりxx% も幸福になる」なあんて、Christakis&Fowlerの示した数値が一人歩きしていくわけで、ポピュラー・サイエンスというのは大変に難しいものだと思う。言うても詮無いことではありますが、いま私が生計を立てているビジネス・データ解析にもそういう面はあって、胸が痛む次第である。

 思うに、勝手に形成され変容するネットワークのノード状態の変化を、その原因を押さえないままにひたすら観察している限り、いくらリッチな縦断データであっても、ネットワーク効果をhomophilyやconfoundingから区別するのは困難なのではないだろうか。
 逆にいえば、ネットワーク自体が変容しないくらいの短期間の勝負で、変化の原因があるノードにしか影響しないと言い切れるような局面なら、縦断データからネットワーク効果を取り出せるのではないかと思う。住民同士の交流がさかんな団地やマンションに研究者が入っていって住民の幸福感を追跡し、誰かが内緒で飼っている室内犬が死ぬのを待つのはどうだろうか。

論文:心理 - 読了:Cohen-Cole & Fletcher (2008) 幸福が感染するって? その理屈だとニキビも感染することになるけど?

2014年7月 8日 (火)

Fowler, J.H., Christakis, N.A. (2008) Dynamic spread of happiness in a large social network: Longitudinal analysis over 20 years in the Framingham Heart Study. BMJ, 337.
 このたび、Facebookの中の人がやっていた実験が倫理的批判を浴びてニュースになった。好奇心でその論文を眺めていたら、感情感染のフィールド研究をいくつか挙げる中で、フラミンガムでの研究というのに言及していて、正直、目を疑った。それって、現代医学にその名を轟かせるフラミンガム・コホートのことか。マジか。
 マジでした。フラミンガム研究(1940年代から続く大規模地域コホート研究)のデータを用いた社会ネットワーク分析。著者らの名前をよく見たら、この先生方、Petty & Cacioppoのあのカシオポと孤独感の研究してた人たちだ(←芸能人みたいな言い方だなあ。チャゲアンド飛鳥のアスカ、みたいな)。

 フラミンガム子孫コホート(フラミンガム研究の第二世代コホート)の対象者をegoと呼ぶ。手書きの管理シートに、それぞれの家族、近隣住民、同僚、友人などが記載されているそうで、ここに登場した人をalterと呼ぶ(あるegoがほかの人のalterになることもある)。フラミンガム研究全体で、12067名のegoとalterのネットワークを構築できた由。住所はフラミンガム市に限らない。で、1983年から幸福感を聴取しているので、83年から2003年まで追跡できた4739人のegoとそのalterを分析対象とする。幸福感はCES-Dからとってきた4項目で、ここから1因子を得る。
 ネットワークを調べると、幸せ(不幸せ)な人は幸せ(不幸せ)な人とつながっている傾向がある(3次のつながりまで効果がある)。幸せな人は中心性が高い。云々。

 いま、ネットワーク上でつながっている2人の幸福感のあいだに関連性があったとして、その理由は3つ考えられる。(1)induction. 一方の幸せが他方の幸せを引き起こした。(2)homophily. 幸せな奴は幸せな奴とつながりやすい。(3)confounding. つながっている二人は同時に同じことを経験する(景気後退とか)。
 そこで、ある調査時点におけるegoの幸福感を従属変数にしたGEE回帰モデルを組み、そこに本人の前時点での幸福感、alterの同時点での幸福感、デモグラ情報etc. を投入するだけでなく、alterの前時点での幸福感も投入する(homophilyの効果を分離するため)。また、alterのタイプを投入して、友達の方向性に注目する。もしconfoundingだったら、「alterはegoの友達だが逆は真ならず」だった場合とその逆だった場合で差が出ないはずだ、とかなんとか。詳細は付録を読めとのこと。
 その結果: alterが幸せだとegoも幸せである。特にnearby mutual friendが幸せだと最強で、next door neighbourがこれに続く。同僚の幸せは効かない(ははは)。nearby ego-perceived friendが幸せである効果のほうが、nearby alter-perceived friendが幸せである効果よりも大きい(クラスの人気者が幸せだったら、彼ないし彼女を勝手に友達だと思っている教室の隅の目立たない人も幸せになるが、逆はそれほどでもないってことですね)。物理的な距離の効果、時間差のパターン、SESの類似性が効かないところなどをみるに、これは幸せの感染であると考えられる。とかなんとか、いろいろ分析しているけど、面倒なので省略。

 うーん... 著者らはこれを明確に、幸福の社会的感染として捉えているのだが、分析のロジックになにかもやもやした印象が残り、正直、いまいち納得できなかった。付録を含め、丁寧に熟読しなければならない論文だと思う。残念ながら読みませんけど。
 それにしても、フラミンガム・コホートでこういうデータも取っていたとは知らなかった。日本には久山町研究という超有名なコホートがあるけど、社会的ネットワークに関するデータはとっているのかなあ。

論文:心理 - 読了:Fowler & Christakis (2008) 幸福の感染 in フラミンガム・コホート

2014年7月 7日 (月)

Zhang, Z., Hamaker, E.L., Nesselroade, J.R. (2008) Comparisons for four methods for estimating a dynamic factor model. Structural Equation Modeling, 15, 377-402.
 いわゆる動的因子分析のうち、測定モデルにはラグがはいらないが因子が自己回帰するモデル(direct autoregressive factor score model; DAFSモデル)の推定方法を比較しました、という論文。えーと、時点 $t$ における観察変数のベクトル $y_t$ について
 $y_t = \Lambda f_t + e_t$
 $f_t = \sum_s B_s f_{t-s} + v_t$
という感じのモデルである。

 比較する推定方法は次の4つ。

というわけで、中身はよくわかっていないのだが、いいよもう!一生パッケージユーザのまま生きていくから!

 で、シミュレーション。2因子6指標ラグ1のモデルで、時系列の長さと測定誤差分散を動かす。細かいところは読み飛ばしたが、KFはDolan(2005)のMKFM2というプログラム、BTはDFAというプログラムで行列を作ってMplusで推定、BEはWinBUGS、LSはBrowne & Zhang のDyFAというプログラムを使った由。探したところ、コードをこちらに公開しておられる。
 結果は... いろいろ説明してあるけどパス。要するに、どれでもまあ似たようなもんなので、あなたが使いやすい奴を使いなさい、とのことであった。

論文:データ解析(-2014) - 読了: Zhang, Hamaker, & Nesselroade (2008) 動的因子分析の地上最強の推定方法はどれだ

2014年7月 6日 (日)

Molenaar, P.C.M., Ram, N. (2009) Advances in dynamic factor analysis of psychological processes. Valsiner et al.(eds), "Dynamic Process Methodology in the Social and Developmental Sciences." Chapter 12.
 先日読んだDu & Kamakura でお勧めされていた、動的因子分析についてのレビュー。苦手分野なので、メモを取りながら読んだ。

 著者らいわく:
 心理学における統計的分析は、ふつう標本における個人差の構造を分析しそれを母集団に一般化するわけだけど[←スキナリアンの方は異論がおありでしょうね]、それらは対象者の等質性という想定に依存している。この想定は古典的エルゴード定理に基づいている。(←ここで放り投げて寝ちゃおうかと思ったけど、我慢我慢)
 たとえば時間に注目しよう。心理学が探求しているのは、知覚、感情、認知、生理、などの下位システムを含む高次元の動的システムである。システムの振る舞いを特徴づける時間依存変数の集合は、ある高次元空間における座標として表現できる。この空間のことを行動空間と呼ぼう。
 行動空間において個人間変動は以下のようにして定義される:

  1. 変数の固定された下位集合を選択し、
  2. 固定された測定時点をひとつないし複数個選択し、
  3. その変数のその時点の得点の、対象者を通じた変動を決定する。

これに対し、個人内変動は以下のように定義される:

  1. 変数の固定された下位集合を選択し、
  2. ある固定された対象者を選択し、
  3. その変数におけるその対象者の得点の、時点を通じた変動を定義する。

前者はCattellいうところのRテクニック、後者はPテクニックである。
 プロセスが定常で(つまり平均が一定で系列的依存性が時間不変)、かつそれぞれの個人が同一のダイナミクスに従っているとき、このプロセスはエルゴード性があるという。Rテクニックの結果とPテクニックの結果に法則的な関係が生じるのは、エルゴード性が満たされているとき、そのときに限られる。これが古典的エルゴード定理である。
 古典的エルゴード定理は心理学における統計手法すべてに影響する。たとえば、発達過程は定常でない。研究者は平均における変化について考えるが、本当は変化というのは分散や系列的依存性のなかにひそんでいるのかもしれないのだ。

 さて、動的因子分析とは単一の被験者の多変量時系列の因子分析である。これはCattellのPテクニックの一般化である。Pテクニック因子分析についてはMolennar & Nesselroade (2008, MBR)をみよ。
 時点 $t$ における $p$ 個の変量のベクトル $y(t)$ について考える。時点 $t$ におけるその平均を $E[y(t)] = \mu(t)$ とする。時点$t_1$と$t_2$の系列共分散を $\Sigma(t_1, t_2) = cov[ y(t_1), y(t_2)' ]$ とする。$\mu(t)$が定数で、$\Sigma(t_1, t_2)$が $t_1-t_2=u $にのみ依存していたら、$y(t)$は弱定常であるという。
 心理学において最初に動的因子分析を用いたのはワシじゃ(Molenaar, 1985)。あれは弱定常多変量ガウシアン時系列のモデルじゃった。
 $y(t) = \mu + \Lambda(0) \eta(t) + \Lambda(1) \eta(t-1) + \ldots + \Lambda(s) \eta(t-s) + \epsilon(t)$
$\eta(t)$は$q$個の因子系列。$\Lambda(u)$は$(p,q)$行列でラグ$u$の因子負荷を表す。$\Lambda(0) \eta(t)$ から $\Lambda(s) \eta(t-s)$までの線形結合を畳み込みという。
 なお、$s=0 $のケース、すなわち
 $y(t) = \Lambda(0) \eta(t) + \epsilon(t)$
は状態空間モデルとかプロセス因子モデルとか言われておる。
 共分散については
 $cov[ \epsilon(t), \epsilon(t-1)' ] = diag-\Theta(u)$
 $cov[ \eta(t), \eta(t-1)' ] = \Psi(u)$
と考えておった。$diag-A$ってのは正方対角行列のことね。
 ちょっとややこしい話になるが、ラグの最大値 $s$ が$0$以上であり、かつすべての$\Lambda(u)$ を自由推定する場合、$\eta(t)$の共分散関数は識別できなくなる。そこでワシは
 $cov[ \eta(t), \eta(t-1) ] = \delta(u) I_q $
とした。$\delta(u)$はクロネッカーのデルタってやつで、$u=0$のとき$1$, でなければ$0$である。つまり、$\eta(t)$はランダム・ショック、ないしホワイト・ノイズだとしたのである。もっとも他の定式化も可能である。Molennar & Nesselroade (2001, Psychometrika)をみよ。
 いっぽう、ラグの最大値が$0$だったら(状態空間モデル)、ないし検証的なモデルで$\Lambda(u)$ が固定されていたら、$\eta(t)$の共分散関数は識別可能となる。このときは$\Psi(u)$を自由推定できる、ないし$\eta(t)$のパラメトリック時系列モデルを推定できる(自己回帰モデル $\eta(t) = B \eta(t-1) + \zeta (t)$ とかね)。
 状態空間モデルを考えちゃうのは都合は良いが、$\eta(t)$が$y(t)$に及ぼす効果が遅延している場合には不適切で、お勧めできない。いっぽう、$\eta(t)$と$y(t)$のあいだにあんまりヤヤコシイ関係を考えなくてもいい。(実例省略)
 こういう定常多変量ガウシアン時系列モデルを推定する方法はいろいろあって:

 ここで動的因子分析のイノベーティブな応用をご紹介しよう。複数の対象者から得た多変量時系列を使い、個人記述的な観察から法則定立的な関係性を導き出すのだ。(→以下、ご自身の研究の紹介。妊娠中の気分の変化の分析。ブロック・トープリッツ行列を使う。原論文がどれなのかいまいちはっきりしないんだけど、たぶんNesselroade, et al.(2007, Measurement)。省略)

 さあ、こんどは定常性の問題を考えよう。定常性をどうやって検証したら良いか、また非定常系列をどうモデル化するか。
 状態空間に基づき、こう考えよう。
 $y(t) = \Lambda[\theta(t)] \eta(t) + v(t)$
 $\eta(t+1) = B[\theta(t)] \eta(t) + \zeta(t+1)$
 $\theta(t+1) = \theta(t) + \xi(t+1)$
 $\theta(t)$は長さ $r$ の時間変動パラメータ・ベクトルで、ガウシアン・ホワイトノイズ $\xi(t)$ によってランダム・ウォークする。因子負荷も自己回帰ウェイトも $\theta(t)$ に依存する。共分散行列は以下の通りとする。(←なんでこんなややこしい記号の振り方をするんですかね。$\xi$の共分散を$diag-\Xi$にすりゃいいのに)
 $cov[ v(t), v(t-u)' ] = \delta(u) diag-\Xi$
 $cov[ \zeta(t), \zeta(t-u)' ] = \delta(u) diag-\Psi$
 $cov[ \xi(t), \xi(t-u)' ] = \delta(u) diag-\Phi$
推定にはEMアルゴリズムと拡張カルマンフィルタを使う... (略)。シミュレーションの結果を見てくれたまえ... (略)。

 まとめ。動的因子分析の将来はチャレンジングである。非エルゴード的な心理過程の研究においては、古典的エルゴード定理により、個人内変動の構造に焦点を当てなければならんからである。云々、云々。

 いやー、Molenaar先生という方の癖なのかもしれないけど、ちょっと肩肘張った感じの文章で辛かった。
 いちばん勉強になった点は... Molenaar先生に由来するといわれているタイプの動的因子分析では、潜在変数と観測変数の間にラグ付きのパスをひきまくり、たくさんのパス係数(因子負荷)を推定するのだけれど、しかし潜在変数の時系列には構造を考えない。これは「しょせん人間なんて根っこのところでは定常で、変動なんてただのホワイトノイズさ、でも指標においていろいろ遅延が生じるせいで、見た目上複雑な時系列的連関を示す多変量時系列が生まれちゃうのさ」というシニカルな視点があるのかと思っていた。なんというか、強力な仮定の下での分析だなあ、という印象だったのである。
 でもこの論文での説明をみる限り、まず最初に「観測変数がそれぞれ異なる遅延を抱えている」という実質的な信念があって、それを探索するためにとりあえず時系列構造のない潜在変数系列を考えるけど、でもそれは方便で、もし遅延の構造について見通しが立ったら、因子負荷行列に検証的な制約を与え潜在変数についての時系列モデルを組むのも良い... という感じだ。いやー、なんか君のことを誤解してたような気がするよピーター。(←大きな態度)

論文:データ解析(-2014) - 読了:Molenaar & Ram (2009) 動的因子分析レビュー

2014年7月 3日 (木)

多変量時系列データの分析手法を指す、「動的因子分析」とか「ダイナミック・ファクター・モデル」とかいう言葉があるけど、この言葉で指しているモデルの形式が人によってバラバラであることに気が付いた。ちょっと混乱しちゃったので、メモしておく。どうも恥をさらしているような気がしないでもないんだけど...

 なぜ混乱しちゃったかというと、次の2つのタイプのモデルが、両方とも動的因子分析と呼ばれているからである。

 Bを「動的因子分析」と呼ぶのは何となく違和感があるんだけど、そう呼んでいる例も少なくないのである。以下、順不同でメモしておくと...

ほか、気になるけど、どっちだかわかんないやつ: Du Toit & Browne (2001, in Cudeck et al.(eds.)), Wood & Brown (1994, Psych.Bull.), Browne & Zhang (2007, in Cudeck & MacCallum(eds.)), Molennar, De goooijer & Schmitz(1992, Psychometrika)

雑記:データ解析 - 動的因子分析ってなんですか

2014年7月 2日 (水)

Bookcover 女殺油地獄/出世景清 (岩波文庫 黄 211-3) [a]
近松 門左衛門,藤村 作 / 岩波書店 / 1938-07-01
6月の一時期は、頭の中はもう女殺油地獄で一杯だったのである。この近松という人、絶対にトシを偽っている。どう考えても現代劇作家だ。それもジェームズ・ケインかパヴェーゼの影響を受けている作家に違いない。
 で、ずっと考えていたのですが(ヒマなのか俺は)、お吉という女は、与兵衛との間には本当になんにもなかったのだけれど、でもそのなにもないということを心密かに楽しんでいるというか、与兵衛と接しているときはほんの少しだけ気持ちが浮き立つというか、そういうところがあったんじゃないか、と思うのである。そこに彼女の悲劇の種があった、とまではいえないかもしれないけれど、とにかくそこんところが胸を抉る次第である。誰に説明しているのかわかんないけど。

Bookcover シェイクスピア全集 (〔11〕) (白水Uブックス (11)) [a]
ウィリアム・シェイクスピア / 白水社 / 1983-01
シェイクスピアのなかでは非常にマイナーな演目だと思うが、意外に面白かった。優柔不断な権力者って面白いですよね。

フィクション - 読了:「女殺油地獄・出世景清」「リチャード二世」

いま数えてみたら、最近はほんとに、本を読んでいない。いろいろ思い当たるフシはあるのだけれど、ひとつの理由は、やはりスマホにある。反省。移動時間中もこまめに本を読まないと。

Bookcover 瞽女うた (岩波新書) [a]
ジェラルド・グローマー / 岩波書店 / 2014-05-21

Bookcover 明恵上人伝記 (講談社学術文庫 526) [a]
平泉 洸 / 講談社 / 1980-11
学部生時代だと思うけど、河合隼雄「明恵 夢を生きる」がきっかけで読み始めて挫折していた本。このたび本棚を整理していてふと手にとり、さらりと読了してしまった。やはり、本の読み方に真剣さがなくなったのだと思う。仕方のないことではあるけれど...

Bookcover イノベーション戦略の論理 - 確率の経営とは何か (中公新書) [a]
原田 勉 / 中央公論新社 / 2014-03-24
MOTっていうんでしょうか。イノベーションを産み出す経営戦略とは、というような内容であった。

Bookcover ヒトラー演説 - 熱狂の真実 (中公新書) [a]
高田 博行 / 中央公論新社 / 2014-06-24

Bookcover 不干斎ハビアン―神も仏も棄てた宗教者 (新潮選書) [a]
釈 徹宗 / 新潮社 / 2009-01

Bookcover 近松門左衛門名作文楽考1 女殺油地獄 [a]
豊竹 咲大夫,尾嵜 彰廣 / 講談社 / 2011-03-31
近松「女殺油地獄」についての豊竹咲太夫さんの芸談とDVD、文楽の見巧者の方(神宗という老舗の佃煮屋さんのご主人だそうだ)による解説をあわせた造りの本。「女殺油地獄」を読んですっかり心奪われ、あれに関する本なら何でも読む!と買いあさった本。

ノンフィクション(2011-) - 読了:「近松門左衛門名作文楽考・女殺油地獄」「不干斎ハビアン」「ヒトラー演説」「イノベーション戦略の論理」「瞽女うた」「明恵上人伝記」

最近読んだマンガの記録、つづき。

Bookcover たそがれたかこ(2) (KCデラックス BE LOVE) [a]
入江 喜和 / 講談社 / 2014-05-13
入江喜和さんが描く、たとえば下町の老婆、45歳社員食堂のパートの女、その無口な娘。凄まじいほどの存在感をもって迫ってきて、背筋が寒くなるほどだ。
 この作家は平凡な女性の内的葛藤と解放を執拗に描き続けていて、それは私自身とはちょっと縁遠いテーマなのだけれど、それでも胸が締め付けられるような気がすることがある。「昭和の男」の主人公の妻が泣く場面とか、近作「おかめ日和」のいくつかのシーンとか。

Bookcover 続 数寄です! 1 (愛蔵版コミックス) [a]
山下 和美 / 集英社 / 2014-06-25

Bookcover 田中雄一作品集 まちあわせ (KCデラックス アフタヌーン) [a]
田中 雄一 / 講談社 / 2014-06-23
講談社アフタヌーン誌で時々掲載していたSF短編を集めたもの。この人、デビュー作以来、カブトムシの幼虫が巨大化したような異様な生物ばかりを描き続けている... どれもとても質の高い作品ばかりだが、さすがに食欲がちょっとなくなったぞ。

Bookcover おにぎり通信 2 〜ダメママ日記〜 (愛蔵版コミックス) [a]
二ノ宮 知子 / 集英社 / 2014-05-23

コミックス(2011-) - 読了:「おにぎり通信」「まちあわせ」「続・数寄です!」「たそがれたかこ」

2014年7月 1日 (火)

Bookcover 僕だけがいない街 (4) (カドカワコミックス・エース) [a]
三部 けい / KADOKAWA/角川書店 / 2014-06-02

Bookcover イノサン 5 (ヤングジャンプコミックス) [a]
坂本 眞一 / 集英社 / 2014-06-19

Bookcover 働かないふたり 1 (BUNCH COMICS) [a]
吉田 覚 / 新潮社 / 2014-05-09

Bookcover ブラック・ラグーン 10 (サンデーGXコミックス) [a]
広江 礼威 / 小学館 / 2014-05-19
人気ガン・アクション・シリーズ、久々の新刊。てっきり中断のまま終わっちゃったのかと思っていた。

Bookcover ラブやん(20) (アフタヌーンKC) [a]
田丸 浩史 / 講談社 / 2014-05-23

Bookcover 女子攻兵 5 (BUNCH COMICS) [a]
松本 次郎 / 新潮社 / 2014-06-09
なぜかセーラーの女子高生の姿をした巨大ロボットが血みどろの闘いを繰り広げるのだけど... という、大変に独創的なマンガ。なんというか、毎度読むたびに途方に暮れてしまう。

Bookcover あれよ星屑 1 (ビームコミックス) [a]
山田参助 / KADOKAWA/エンターブレイン / 2014-04-25
個性的ゲイ漫画家による一般誌連載。なるほど、評判になるわけだ...

Bookcover 道草日和 (ビッグコミックススペシャル) [a]
山川 直人 / 小学館 / 2014-04-30
Bookcover 夜の太鼓 (ビームコミックス) [a]
山川直人 / KADOKAWA/エンターブレイン / 2014-04-25

Bookcover あとかたの街(1) (KCデラックス BE LOVE) [a]
おざわ ゆき / 講談社 / 2014-06-13

コミックス(2011-) - 読了:「僕だけがいない街」「イノサン」「働かないふたり」「ブラック・ラグーン」「ラブやん」「女子攻兵」「あれよ星屑」「道草日和」「夜の太鼓」「あとかたの街」

 午前三時、遅い晩飯の素麺をうっかり一束多めに茹でてしまい、腹が張って寝られない。きっと私はいずれ成人病に捕まり、きっと辛い辛い経過の末に悲惨な死を遂げるのだ。悲しい。
 仕方がないので、最近読んだマンガを記録しておく。

Bookcover かばんとりどり (ゼノンコミックス) [a]
ウラモトユウコ / 徳間書店 / 2014-05-20

Bookcover 満ちても欠けても(2)<完> (KCデラックス Kiss) [a]
水谷 フーカ / 講談社 / 2014-05-13
ラジオ局を舞台にしたハートフルコメディ、完結巻。正直なところ一巻の段階では、どうかなあ、という印象だったんだけど、意外に洒落た内容であった。
 そうそう、最近ときどき、カバーにバーコードがなく、シュリンクパックにバーコードシールを貼っているコミックスをみかける。これもそうだ。講談社は徐々にそういう形態のコミックスを増やしているらしい。

Bookcover いちえふ 福島第一原子力発電所労働記(1) (モーニング KC) [a]
竜田 一人 / 講談社 / 2014-04-23

Bookcover 月影ベイベ 3 (フラワーコミックスアルファ) [a]
小玉 ユキ / 小学館 / 2014-05-09

Bookcover いぬやしき(1) (イブニングKC) [a]
奥 浩哉 / 講談社 / 2014-05-23

Bookcover 娘の家出 1 (ヤングジャンプコミックス) [a]
志村 貴子 / 集英社 / 2014-05-09

Bookcover 闇金ウシジマくん 31 (ビッグコミックス) [a]
真鍋 昌平 / 小学館 / 2014-05-14

Bookcover 聖☆おにいさん(10) (モーニング KC) [a]
中村 光 / 講談社 / 2014-05-23

Bookcover オールラウンダー廻(14) (イブニングKC) [a]
遠藤 浩輝 / 講談社 / 2014-06-23

Bookcover 孤食ロボット 1 (ヤングジャンプコミックス) [a]
岩岡 ヒサエ / 集英社 / 2014-06-10

コミックス(2011-) - 読了:「かばんとりどり」「満ちても欠けても」「いちえふ」「月影ベイベ」「娘の家出」「いぬやしき」「闇金ウシジマくん」「聖☆おにいさん」「オールラウンダー廻」「孤食ロボット」

« 2014年6月 | メイン | 2014年8月 »

rebuilt: 2020年11月16日 22:42
validate this page