2014年6月30日 (月)
Kramer, A.D.I, Guillory, J.E., Hancock, J.T. (2014) Experimental evidence of massive-scale emotional contagion through social networks. PNAS, 111(24), 8788-8790.
心理学に感情感染(emotional contagion)という話題があるけど、Facebook上のフィールド実験で再現しちゃいました、という研究。第一著者はFacebookの人。この論文、発表直後から大きな話題になっている模様。原文をみたらたった3pしかないので、昼飯のついでに目を通した。
まず問題設定。感情感染は実験室実験では確立している(Hatfield, Cacioppo, Rapson, 1993, Curr. Dir. Psych. Sci というのを引用している。彼女たちは94年に感情感染についての本を出してたはずだから、その要旨であろうか)。いっぽうフィールドでは、研究はあるんだけど(Fowler, Christackis, 2008, BMJ; Rosenquist, Fowler, Christakis, 2011, Mol. Psychiatry. 前者はなんとフラミンガム研究らしい。まじか)、そもそもなんかの文脈変数で引き起こされたただの相関かもしれないし、単なる他者感情への曝露だけで感染が起きるのか社会的相互作用が大事なのかがわからないし、非言語的手がかりがどのくらい効くのかもわからない。FBでの感情感染の研究もあるんだけど(Proceedingsを2本挙げている)、それらも観察研究だ。
というわけで実験をやりました。実験期間は2012年1月の一週間。対象者は英語でFacebookを見てる人、約69万人(ははは)。えーっと、Facebookにログインするとニュース・フィードというのがあって、友達の投稿が並んでいるわけだけど、ひとつひとつの投稿がLIWCでいうところのポジティブ語やネガティブ語を含んでいるかどうかを前もってカウントしておく。投稿の22%がネガティブ語、46%がポジティブ語を含んでいた。
実験条件は次の4つ: (1)ポジティブ非表示群、(2)ポジティブ統制群、(3)ネガティブ非表示群、(4)ネガティブ統制群。非表示群では、ポジティブ投稿なりネガティブ投稿なりをある確率で非表示にしちゃう(確率は10%から90%まで、対象者にランダムに割り振る)。統制群は、対応する非表示群で非表示にしたのと同じ割合の投稿をランダムに非表示にする。うーむ、非表示群で非表示にされる投稿の割合は蓋をあけてみないとわかんないと思うので、たぶん非表示群と統制群を個人ベースでマッチングして制御したのだろう。
ニュースフィードからポジティブ投稿ないしネガティブ投稿を非表示にしていくと、それにつれて対象者の投稿の総語数も減ってしまった(ポジティブ投稿を非表示にするほうが効き目が大きい)。そこで、対象者ごとに期間中投稿の総語数におけるポジティブ語ないしネガティブ語の割合を出し、これを実験/統制条件を表すダミー変数で説明するWLS回帰モデルを組んだ。ウェイトは非表示にされた投稿の割合。(なぜそんなモデルを組むのかなあ。単に非表示確率を独立変数にしてはいかんのか。線形モデルでオッケーなのか。語数ベースでのネガ語ないしポジ語の割合じゃなくて投稿数ベースでのポジ投稿ないしネガ投稿の割合を使った方がよかないか、投稿の長さが何で決まってんのかわかりゃしないんだから)
結果: ポジティブ非表示群ではポジティブ語が減りネガティブ語が増え、ネガティブ非表示群ではネガティブ語が減りポジティブ語が増えた。効果量には差がなかった。
考察: (1)ニュースフィードの投稿は誰に向けたものというわけでもない。つまり感情感染は社会的相互作用ぬきでも起きる。(2)感情感染はテキスト情報だけでも起きる。(3)ある方向の投稿を非表示にしたことで逆向きの投稿が増えているんだから、これはただの模倣ではない。(4)ポジティブ投稿の非表示とネガティブ投稿の非表示の効果量が同じくらいだということは、内容だけの問題じゃないということだ(内容が効くんだったらネガティビティ・バイアスが出るはずだから)。(5)社会的比較か何かにより、他人のポジティブな投稿のせいでネガティブ感情が生じると予想する向きがあるが、結果はその逆だった。(6)効果量はすごく小さいけど (d=0.001くらいしかない!)、FBくらいの大きさの社会的ネットワークだと、公衆衛生に対するインパクトは馬鹿にならない。
うーん... 勉強になりましたですが...
実験室実験における感情感染の研究なら、「みんなが笑うとつい自分の口角も上がっちゃう」というような表出レベルでの影響を示すだけで十分に価値がある。そのメカニズムの性質がある程度特定できるし(自動的・非認知的であろうとか)、顔面フィードバック仮説によれば感情表出は感情の主観的経験と切り離せないからだ。しかし、こういう高次な認知課題(投稿)を指標にした研究だと、いったいどういうメカニズムで、対象者のなにが変わっているのか、という点がシビアに問われると思う。
著者らの意図としては、これは社会的ネットワークを通じた感情感染の実証実験なわけで、最後に公衆衛生との関係に触れているところからみても、ただの投稿行動の変容だとは思っていないのだろう。その観点からいえば、これはいわばメディア強力効果論に一票入れる研究であって、その限りにおいては、著者のいうとおり、たとえ効果量が小さくても社会に対する示唆は大きいかもしれない。
でも、この研究でいちばん気になるのは、もしかするとユーザは単に空気を読んで同調的に投稿しているだけで、主観的経験としての感情は別に影響を受けてないんじゃないか、という点である。たとえば、ユーザはニュース・フィードがネガティブなムードのときはポジティブな投稿を自重し、ネガティブな投稿で調子を合わせているだけなのかもしれない。かわりにインスタグラムにはものすごいハッピーな写真を載せてたりしてね。はっはっは、嫌な奴だなあ。
その意味では、どちらの非表示群でも投稿総語数が減っているという知見のほうが、むしろ面白いと思った。投稿数が減ったのか、投稿が短くなったのか。もしかすると、投稿をもっとも促進するムードのバランスというのがあるのかもしれない。もっと面白い従属変数は、ニュース・フィード上のムードに同調させる必要のない行動変数、たとえば友達のwallへの書き込み、ダイレクト・メッセージやチャットの利用、はたまた広告クリックやFB閲覧そのものなのではないかしらん。もしネガティブ非表示群で広告クリック率が上がってたりしたら、これは研究的にもビジネス的にもビッグ・ニュースだ。きっと調べているんだろうなあ。
ところで、この研究がいま話題になっているのは、内容というよりむしろ倫理的な側面からである。単に論文をさらっと読んだだけだからよくわかんないけど、確かに、うええ、同意取らずにこれやるの、そりゃあナイよ... という印象である。研究の目的よりも、友達の投稿の表示/非表示をその感情価で操作しちゃっているという点が気持ち悪い。しかし、それは結局Facebookの運営上の問題だから、共著者の大学の倫理委員会は通っちゃうだろうとも思う(実際、第三著者が所属するCornell大の委員会をパスしているらしい)。それに、仮にこういう論文を出せないようにしたところで、SNS事業者がひそかにこういう実験をやってサービスを最適化するのを止めるのは難しそうだ。ううむ。
どうでもいいけど、この論文のエディタは偏見の研究で有名なフィスクさん。取材に対して、いやぁ通しちゃったけどこれって微妙だったかもね、というようなコメントをしていて、おいおい、と笑ってしまった。エディタが後からこういうことを言いだすのって、すごいですね。風通しが良くて良いことだと思うけど、日本的な感覚だと、その言い方は無責任じゃないか、と妙な批判が集まりそうだ。
論文:心理 - 読了: Kramer, Guillory, Hancock (2014) Facebook上での感情感染
2014年6月28日 (土)
Du, R.Y., Kamakura, W. (2012) Quantitative Trendspotting. Journal of Marketing Research, 49, 514-536.
我にGoogle Trend かそんな感じのなにかを与えよ。さすれば動的因子分析(DFA)によって消費者トレンドを抽出してごらんにいれよう... という論文。
魅力的な題名に惹かれてざっと目を通していたのだけど、都合によりきちんと読みなおした。いやあ、これ、面白い。
まずはDFAを使った研究のレビュー。実用例は少ないという印象があったのだが、やはり少ないっす。
- もともとDFAは計量経済学から出てきたのだそうだ。知らなかった。Gweke (1977), Engle & Watson (1981, JASA), Harvey (1989, 書籍), Litkepolh(1991, 書籍"Introduction to Multiple Time Series Analysis") が挙げられている。
- 計量心理では、Molenaar(1985,Psychometrika)が早い。ある対象者の複数の生理指標の時系列分析に使った由。ほかにMolenaar, Gooijer, Schmitz(1992,Psychometrika).
- Zuur, et al.(2003, Environmetrics): 生物・環境系の多変量時系列から、共通の軌跡を見つけるという話だそうだ。
- Ludvigson & Ng (2007, J.Financial Econ.): 株式市場の研究。あー、そうか。いかにもありそうな話だ。
- Aruoba, Diebold, Scott (2009, J.Business & Econ. Stat.): ビジネス環境についてのaggregateレベルでの多変量時系列をリアルタイムで追いかけて... という話らしい。ほへー。
- Doz & Lenglart (2001): これもリアルタイムの話。欧州の産業調査から得た30本の時系列を一因子DFAで追いかけ、周期変動を見つける。
著者は触れてないけど、社会心理方面ではDFAを使った研究がそこそこあるんじゃないかしらん。前にEmotionに載っているのを読んだことがある。前の前の職場でぼーっとしてた頃だ、懐かしい。
近年の進展については、Croux, et al.(2004, J. Econometrics), Molenaar & Ram (2009, 論文集)をみよとのこと。後者のほう、面白そう。
著者らいわく、マーケティング分野で使っているのを見たことがない由。そうなんですか?
著者らいわく、おおざっぱにいってDFAには二種類ある。
- ひとつは、状態空間モデルでいうところの観測方程式 (SEMでいう測定モデルね) は普通の因子分析モデルであって、時点 $t$ の観測値は時点 t の因子によって決まるのだが、状態方程式 (SEMでいう構造モデルね)のほうにラグがはいってくる、というもの。Engle & Watson, Zuur, et al. などがそうで、本論文もこのタイプ。
- もうひとつは、状態方程式のほうにはラグは入らず、観察方程式のほうにラグがはいるもの。例として、Sargent & Sims(1977), Forni et al(2000, Rev. Econ. Stat.), Stock & Watson(2002, J.Business & Econ. Stat.).
本研究で、なぜベクトル自己回帰(VAR)とかベクトル自己回帰移動平均(VARMA)を使わないのかというと、時系列の本数がやたらに多くなったときに耐えられないから。最近ではBayesian VARというのがあるけど、事前分布を決めるのが難しいし、本研究では共通のトレンド曲線を抽出するのが目的なのに、そういうのを出力してくれない。
で、著者らが開発したstructural DFA (SDFA) のご紹介。なんでstructuralかというと、構造モデルのほうを単なる自己回帰とかにしないで、計量経済でいうところの構造的時系列分析をやるからだ、との仰せである。あああ、苦手な話になってきた...
時点 $t$ における、$n$ 個の指標のベクトルを $y_t$ とする。これを次の順に分解する。
- $y_t = B + L f_t + u_t$. $f_t$が因子のベクトルである。$u_t$ は平均$0$, 分散$\Sigma_u$の正規分布。以下、誤差項については同様なので省略する。
- $f_t = \alpha_t + \gamma_t$. $\alpha_t$はトレンド要因、$\gamma_t$が季節要因。
- $\alpha_t = \alpha_{t-1} + \beta_{t-1} + \epsilon_t$. でました、一次ラグの登場です。$\beta_t$ がトレンドの傾きである。
- $\beta_t = \beta_{t-1} + \delta_{t-1} + \eta_t$. $\delta_t$ はトレンドの傾きの変化。
- $\delta_t = \delta_{t-1} + \zeta_t$. やれやれ、やっとランダムウォークになりました。
- $\gamma_t = -\sum_{j=1}^{s-1} \gamma_{t-j} + \xi_t$. 変形すると$\sum_{j=0}^{s-1} \gamma_{t-j} = \xi_t$, つまり任意の$s$期を足しあげると期待値$0$になるわけで、なるほど季節要因である。
いまここで、$\gamma_t$ を取っ払い、3本目を単純化して$\alpha_t = \epsilon_t$ としたら、これは通常の因子分析である。$\alpha_t = \alpha_{t-1} + \epsilon_t$ としたら普通のDFAである。
分析例。Google Trendで、自動車ブランド38個のUSでの検索数の、約6年間の時系列曲線を取得。推定手続きは付録を読めとのこと、一応めくってみたが、カルマンフィルタとか出てきて頭痛くなりそうなのでパス。BICでもって7因子解を採用。バリマクス回転。
因子の解釈は順に、
- 「外国車マス」(ホンダ、ニッサン、トヨタ、VW, Miniなど)、
- 「米国車マス」(シボレー、フォード、クライスラーなど)、
- 「欧州車高級」(ポルシェ、MB, BMWなど。ニッサンのインフィニティも負荷が高い)、
- 「GM車の生き残った奴」(ビュイックなど)、
- 「レクサス」(レクサスが正の負荷、Ramが負の負荷を持つ)、
- 「スバル」(スバルが正の負荷、マツダとサターンが負の負荷を持つ)、
- 「GMの打ち切られた奴といすず」(サーブ、ハマー、いすずなどが正の負荷、ヒュンダイ、キア、スズキが負の負荷を持つ)。
うーむ、負の負荷ってのはなかなか解釈が難しいっすね。
\alpha_t をみると、経済情勢からみていかにもそれらしい曲線になっている...云々。因子7は低落のトレンドにあって、つまりいすずの検索数が減るのと裏返しに韓国車とスズキの検索数が増えているわけである。$\beta_t, \delta_t$ に分解して観察すると...云々。
綺麗に分解しているので今後を予測するのも簡単で、ホールドアウトの予測は、ARIMA, VAR(1), Bayesian VAR(1)より良かった由。とはいえ、これは使ったデータがこの手法向きだったということだろう。著者らも、将来予測は主目的ではないし、ARIMAみたいな手法のほうがうまくいくこともあるだろう、と述べている。
各ブランドの実際の月次売上を説明してみると、そのブランドの検索数で説明するより、7因子を全部使った回帰式で説明したほうが、決定係数が劇的に高い。なるほどねえ、これは面白いなあ。著者らいわく、これは自分たちもちょっとびっくりで、一般化できるか要検討だとのこと。
トレンドへのショック、すなわち$\epsilon_t$を見てみると、数か所だけ0から大きく離れる箇所がある。たとえば、「米国車マス」と「GM車の生き残った奴」が2005年6月ごろにどーんと正に振れていて、ちょうどこの時期に大規模な割引があったのだそうだ。直後に負に振り戻しており、つまりは売上を先食いしたのでしょう、とのこと。
さらには、\alpha_tを失業率、ACSI, ガソリン価格などで説明するモデルを組んで、インパルス応答関数を出したりなんかして... ガソリン価格が上がると米国車マスは下がり外国車マスが上がるが、どちらも2か月しか続かない、とか... 個別の検索数の残差項 u_t の曲線の形状も個々の会社の事情でいちいち説明できるとか...
いやあ、もうお腹一杯です。さすがはアメリカの研究者、肉食ってる人は違うなあ。
というわけで、ものすごく!面白い論文であった。仕事でこういうものすごく大きなパネルデータを扱うことがあるのだけど、DFAを探索的に使う、というのは不思議なくらいに思いつかなかった。DFAって因子負荷については確認的に制約するのだという気がしていたのだ。
あれこれ応用を思い浮かべて、読み進めるのに困るくらいだったのだが、あまりに仕事に密着しすぎているので、ちょっとここには書けない。
文系読者ならではの素朴な疑問としては... もしこういう分析を明日までにやれといわれたら、まず時点xブランド名の行列を素直にEFAにかけ、得られた因子得点についてやおら時系列分析を始めるだろう、と思う。もちろんパラメータ推定や標準誤差の推定にはバイアスがかかるだろうけど、それはいったいどのくらい深刻なのだろうか。直感的には、個々のブランドの独自性が小さく、因子数が正しく、かつ因子数がブランド数に対して十分に少なければ、こういう二段階作戦でもたいして問題なかったりしませんかね... そんなことないですかね?
さらなる素朴な疑問として... データの性質によるとは思うけど、季節変動の分離は因子分析の前にやった方がよかないか。 たとえばメーカーの決算期を反映した季節変動があるかもしれないし。そんなので因子が形成されちゃったらたまんない。
それから... 著者も最後に述べているけど、因子構造が変わっちゃったことにどうやって気が付くか、という問題は面白いなあ。誰か頭の良い人が考えてくれるといいんだけど。
論文の内容からは離れるけど、こういう多変量時系列から因子を抽出するのがアリならば、潜在クラスを抽出するのもアリだろう。全然気がつかなかったけど、もっと時点数が少なくて本数が多いパネルデータに、LCGMなりGMMなりを適用する、というのもオオアリだし、 McArdleのLDSMなんてまさにぴったりだ。具体的にはいいにくいけど、そういうデータ、メーカーのマーケターもある種の調査会社のみなさんも、毎日触っているではないか。
私はある時期、朝から晩まで子どもの学力の成長モデルのことばかり考えて過ごしていたことがあるので、この種の視点には相当アンテナが立っている方だと思っていたけど、恥ずかしながら、この論文は目から鱗であった。いやあ、良い研究というのは素晴らしいものである。
論文:データ解析(-2014) - 読了:Du & Kamakura (2012) 多変量時系列のなかに消費者トレンドをみつける
2014年6月24日 (火)
Halay, R.I. & Baldinger, A.L. (2000) The ARF copy research validity project. Journal of Advertising Research, 40(6), 114-135.
アメリカの広告業界団体ARFが、80年代、広告クリエイティブのプリテスト(コピー・テスト)の妥当性を検証する委員会というのを設け、3年間かけて実証研究をやった、その総括。仕事の都合で目を通したのだが、これがもう、辛い辛い論文で...
冒頭にあるいきさつによれば、最初は各企業が持っているデータを集めようと思ったんだけど、やはり無理だった。次に、ある広告についていろんな種類のプリテストをやって、その結果とその後の売上との関係を調べようとしたんだけど、それも無理だった。結局、「その後の売上が良い広告と悪い広告」のペアを作り、それらについていろんなテストをやる、という形にした。
その後もいろいろあって(資金が尽きたとかなんとか、実に言い訳がましい)、結局は5つのTV CFのペアを使用。ブランド名は非開示だが消費財。ペア内でブランドは同じらしい。要するに、CFのsplit cable test(地域で分けたA/Bテストであろう)をしているメーカーを探し、データを出してもらった、ということだと思う。
実験したテスト手法は6通り。うち3つがon-air test、これが上記のデータであろう。詳細は公開できない由。ほか3つはoff-air test, こっちはこの委員会が自分たちで会場調査したもので、
方法1. 提示→説得指標を聴取→再生課題→診断指標を聴取
方法2. 提示→programについて質問→再提示→説得指標を聴取→再生課題→診断指標を聴取
方法3. 説得指標を聴取→提示→説得指標を聴取→再生課題→診断指標を聴取
提示するのは10分間の番組で、そのなかに当該CFと別のCF2本がはいっている。説得指標とはブランド選択とか購入意向とか(つまり、方法3はpre-postデザインなのだ)。再生課題とは、製品カテゴリ名を提示してブランドを再生させる、など。診断指標とは、役に立つ広告でしたとか、退屈な広告でしたとか。
というわけで、(CFが5ペア) x (手法が6個) =30セル。対象者はセルあたり400ないし500人。予算も尽きるわけだ。
結果。これがまた、実務家向けチャートはこっちで研究者向けチャートはこっち、なあんてごちゃごちゃと言い訳がましいのである。出してくる数字もなんだかわけがわからない。各ペアの差について有意水準0.20で検定しまくり、有意になったペアの割合を0.20で割る、なんていう指標を作っている。有意差が出るチャンスレベルが0.20だから、とのこと。理解に苦しむ。この時代にはメタ分析という概念はなかったのかしらん?
まあいいですよ。研究者向けと称するチャートから主な結果をピックアップすると、
- 説得系の指標は、ブランド全体評価(6件法)が売上と関連する。平均でもTBでもたいして変わらない。次がconsideration frame (どういう設問なのか書いてない)。購入意向(絶対、比較)、恒常和法は効かない。pre/postの比較になると、consideration frame, 購入意向(絶対, 比較), 恒常和、いずれも効かない。おいおい。
- 広告自体の顕著性に関する指標は、非助成第一想起が売上に効く。非助成想起全体、助成想起はろくに効かない。pre/postの比較はろくに効かない。
- 広告内容の再生に関する指標は、製品カテゴリを手がかりにしたブランド名再生などが効くが、ブランドを手掛かりにした内容再生は効かない。
- コミュニケーション系の指標は、広告が伝えようとしていたポイントについて尋ねる設問が売上に効く、とかなんとか。パス。
- 広告の印象評定系の指標が、意外にも効きまくる。
そのほか、指標を組み合わせて売上の良し悪しを判別してみたり、因子分析してみたり... 面倒なのでスキップ、スキップ。
手法に関しては以下の通り。on-airとoff-airを比べると、off-airは売上を予測しました、on-airはよくわかりません(ごちゃごちゃ言い訳)。pre/post比較よりpostのみのほうがよさそうでしたがよくわかりません(ごちゃごちゃ言い訳)。複数回見せるのはいいことかもしれないしそうでもないかもしれないです(ごちゃごちゃ言い訳)。いやー好意度って大事ですね。とかなんとか、とかなんとか。
ええい!!!スキップだーーー!
この人たち、なんでこんなにダラダラした文章を書くのか? なぜ実験結果について述べている途中で昔話を割り込ませたりするのか?
というわけで、心底イライラし、後半2/3は読み飛ばした。読了とは言い難いが、悔いはない。おしまい! 次に行きましょう次に!
追記: この論文、1991年に発表されたもので、私が読んだのはこの雑誌の2000年の「古典的論文」特集での再録らしい。古典ねえ...
論文:マーケティング - 読了: Halay & Baldinger (2000) ARF広告プリテスト妥当性プロジェクト
Grun, B., Hornik, K. (2001) topicmodels: An R package for fitting topic models. Journal of Statistical Software, 40, 13.
Rの topicmodels パッケージの解説。ぱらぱらめくっただけだけど、整理の都合上読了にしておく。
細かいことだけど、モデル選択のくだりで説明されているperplexityについてメモ(これ、訳語はあるのかしらん?)。単語集合$w$のperplexityは
$Perplexity(w) = \exp \{ - \log(p(w)) / \sum_d \sum_j n^{(jd)} \}$
$n^{(jd)}$というのは文書dで語jが出現する回数。ホールドアウトした$w$に対してperplexityが低いとありがたい。ふうん。要するに、語の尤度を均して負にしたようなもんだろうな。
論文:データ解析(-2014) - 読了: Grun & Hornik (2001) topicmodels パッケージ
2014年6月22日 (日)
先日リリースされたMplus 7.2の改訂点を、こちらで公開されているPDFからメモしておく。すいません、純粋に自分のためのメモです。
一番大きな追加機能は、混合モデルで非正規分布を指定できるようになったこと。ANALYSISコマンドでTYPE=MIXTUREのときDISTRIBUTIONオプションで指定する。NORMAL(正規分布), SKEWNORMAL(歪正規分布), TDISTRIBUTION(t分布), SKEWT(歪 t 分布)から選べる。数値積分時は不可。うーむ、まだ使い方が良くわからない... Web Note #19を読めばいいのだろうか。
なお、ESTIMATOR=BAYES;POINT=MODEのときにモード推定のための反復回数の上限をDISTRIBUTIONオプションで与えることができるけど、それと同名だがちがうオプションである。あれれ、じゃ「TYPE=MIXTURE; ESTIMATOR=BAYES;POINT=MODE;」としたらDISTRIBUTIONオプションはどちらの意味になるのだろうか。今度試してみよう。
実はこの非正規分布の指定、TYPE=GENERALのモデルでも指定できるのだが、そちらは実験版である由。
この新機能と関係していると思うのだが、OUTPUTコマンドにH1MODELオプション、ANALYSISコマンドにH1STARTSオプションが追加された。まだよく理解できていない。
MODEL INDIRECTコマンドの変更。因果推論の観点から定義された直接効果・間接効果が出力されるようになった。こないだ読んだ奴に書いてあった話だ。
INDコマンドで、一番右の変数が連続変数であるとき、その後ろにかっこをつけて比較する2つの水準を指定できるようになった。
媒介変数(メディエータ)があるときの特別な間接効果を出力するMODオプションが追加された。メディエータ、メディエータの水準指定、外生モデレータ、外生モデレータのとる値の範囲、原因変数とメディエータの交互作用変数、外生モデレータとメディエータの交互作用変数、原因変数がとる値の2つの水準の指定、をカバーしている。なにもそこまでしなくても...
潜在クラスモデル・潜在遷移モデルで、二値ないしカテゴリカルな指標の残差共分散を指定できるようになった。ANALYSISコマンドのPARAMETERIZATIONオプションでRESCOVARIANCESを指定する。たとえばMODELコマンドで「%OVERALL% u1 WITH u3;」とだけ指定すると、u1とu3の残差共分散がクラス間等値制約のもとで推定される。さらにクラス別に追記して、あるクラスでだけ残差共分散を自由推定したりできる。そうそう、これ、これまでできなかったんだよな...
連続時間生存モデルの見直し。
まず、VARIABLEコマンドのSURVIVALオプションが変わった。生存時間変数を t として、「SURVIVAL = t;」とすると、従来は定数ハザードが推定されたのだが、改訂後はCox回帰みたいなノンパラメトリック・ベースライン・ハザード関数が推定される。ただし、もし t から連続潜在変数にパスが延びていたり、マルチレベルモデルだったり、モンテカルロ数値積分をするモデルだったりすると、セミパラメトリック・ベースライン・ハザード関数となる。このとき、10個の時間間隔が勝手に決定されるが、「SURVIVAL = t(10);」とか「SURVIVAL = t(4*5 1*10);」という風に時間間隔を明示的に指定することもできるし、「SURVIVAL = t (ALL);」とするとデータ中の時間間隔がすべて用いられる。「SURVIVAL = t (CONSTANT);」とすると定数ハザードになる。
これに伴い、ANALYSISコマンドのBASEHAZARDオプションも変わった。従来は、ONでパラメトリックなベースライン・ハザード、OFFでノンパラメトリックなベースライン・ハザードで、OFFのときのみ、その後ろの(EQUAL)ないし(UNEQUAL)でクラス間等値制約の有無を指定できた。改訂後は、パラかノンパラかではなくて、モデル・パラメータかどうかを指定するためのオプションとなった。デフォルトはOFFで、このときベースライン・ハザード関数のパラメータはモデルのパラメータではなく補助的なパラメータになる。ONにするとモデル・パラメータになり、MODELコマンドで t#1, t#2, ..., [t]が指定できる。またONでもOFFでも、後ろに(EQUAL)ないし(UNEQUAL)を指定できる。
とこのように、同名のオプションの使用方法が変わっちゃったのでややこしい。たとえば単純なCox回帰は、これまでVARIABLEコマンドで「SURVIVAL = t (ALL);TIMECENSORED = tc (0 = NOT 1 = RIGHT);」、ANALYSISコマンドで「BASEHAZARD = OFF;」であったが、改訂後はSURVIVALオプションの(ALL)は不要となり(事情がない限りノンパラになるから)、BASEHAZARDオプションは不要となる。
DEFINEコマンドが微妙に変わったらしい。 ちゃんと読んでないんだけど、たとえば、CENTERオプションのあとで交互作用変数をつくると、これまでは中心化される前の変数が使われたけど、改訂後は中心化された後の変数が使われるようになった、とかなんとか。
DEFINEコマンドなどで使うDOオプションがネストできるようになった。ふーん。
以上!
追記: いやいや、まだ細かい続きがあったのを見落としていた。
- 二値指標でALIGNMENTオプションを使うとき、従来はBAYES推定のみ可だったのが、ML推定も可能になったらしい。
- ML推定でALGORITHM=INTEGRATIONのとき、ブートストラップ標準誤差と信頼区間が表示されるようになったらしい。
- WLS推定でDeltaパラメタライゼーションのとき、TECH4で標準誤差が表示されるようになったらしい。それからTECH4でz検定やp値が表示されるようになったらしい。お、おう... (意味がよく理解できていない。WLSでDeltaって、カテゴリカル指標で多群ってことでしょう? TECH4って潜在変数の要約統計量だと思うのだが... 個々のカテゴリカル指標の裏に仮定されている潜在変数についてSEやpが出るということだろうか。それっていったいどういう意味があるのだろう)
- WLS推定のとき、共変量を伴うモデルで標準化係数と標準誤差が表示されるようになったらしい。(これまで表示されていなかったっけ?)
- プロットの新機能。推定分布とか、中央値・モード・パーセンタイルの推定値とか、個々の残差の散布図とか。
- モンテカルロシミュレーション、TYPE=TWOLEVEL、ESTIMATOR=BAYESのとき、真の因子得点と推定された因子得点の相関やMSEが表示されるようになった、とか... ALIGNMENTオプションを使ったモンテカルロシミュレーションで、真の因子得点と推定された因子得点の相関やMSEが表示されるようになった、とか...(正直、理解できていない。実物を見ないとわからないなあ)
- SAVEDATAコマンドにRANKINGオプションが追加された。ALIGNMENTオプションで実データのとき、RANKINGオプションでファイル名を指定すると、群の因子平均に基づく群のランキングと、因子平均の差の有意性が、CSVファイルに保存されるようになった由。(PISAデータの解析のような状況を想定しているのだろう。ずいぶんマニアックな機能だなあ)
- 識別できないパラメータ名が表示されるようになった (これ、従来はパラメータ番号が表示されていたところで名前が表示され、TECH1と照らし合わせなくて良くなったということかしらん。そりゃ助かる)
- 複数行コメントアウトが可能になった。!*と*!で囲む。(これ、ネストできるのだろうか。SASの/* */みたいにネストできないコメントアウトって、すごく不便だと思うんですよね)
- Mac版のエディタの新機能。
2014年6月21日 (土)
芳賀麻誉美(2005) 調査は製品開発に役立つか? 3-step researchによる統合的製品開発. マーケティング・ジャーナル, 98, 48-69.
ずっと前に読んでいたのだけど、このたび仕事の都合で再読。著者は市場調査分野では知らない人のいないアクティブな研究者である。
著者いわく、製品開発に役立つリサーチが行われない理由は:
- どの場面でどんな手法を使うのかという経験や知識が欠けている
- MRへの期待が高くない
- 製品開発に関わる人の立場がばらばら(強力なブランド・マネージャーの不在)
で、3-step researchというフレームワークの提案。製品開発のためのリサーチを、質的発見のステップ、消費者の評価構造を探索し市場を把握するステップ、効果を確認するステップにわけて考える。調査手法のカタログをつくるんじゃなくて、まず製品開発の一般的プロセスを考え、フェイズを特定し、各フェイズにツールをテンタティブにくっつけていく考え方で、グローバル消費財メーカーさんが整備しているプロトコルに近い。
最初のステップで紹介されている手法は評価グリッドとテキストマイニング。次のステップは、いわゆるU&A調査とベンチマーク調査にあたるものだと思う。3番目のステップはいわゆるアセスメント・テストなんだけど、単なるgo/no-goゲートウェイの役割だけじゃなくて、2番目のステップで同定した消費者の評価構造を使った選好シミュレーションまでをスコープとする。
後半は実例の紹介。前に読んだときも思ったんだけど、これ、ほんとに勉強になります。
最初のステップの実例で、ラダリングで得た評価構造を図にしたり、QFDでいうところの品質表に整理したり、消費者言語の辞書にしたりグラフにしたりしている例を紹介しているのだけれど、共通部分を抜き出すことだけでなく、数名しか挙げていない評価項目を把握することも大事である、という説明がある。そうだ、まさにそこんところが課題なのだ...
※発行年が誤っていたので修正しました。失礼しました!
論文:マーケティング - 読了:芳賀(2005) 製品開発のための 3-step research
杉田善弘(2003) 新製品開発のマーケティング. 学習院大学経済論集, 40(3), 211-223.
仕事の都合で目を通した。新製品開発の初期段階、いわゆるfuzzy front endに関するマーケティング観点でのレビュー。
ビジネス書にありがちな逸話の羅列ではなく、市場機会発見、アイデア創出、アイデア評価に分け、プロセスの特徴と成功率との関係についての実証研究を概観している。そんな研究があるのか... と、勉強になりました。Goldenberg et al.(2001, Mgmt Sci.)というのを読むと良さそうだ。
展望のところで、von Hippelのリードユーザ分析が紹介されている。von Hippel(1986, Mgmt Sci.)というのが挙げられている。先端的消費者に注目しようというアイデアが、そんな昔からあるとは、ちょっとびっくり。
論文:マーケティング - 読了:杉田(2003) 新製品開発初期段階研究レビュー
2014年6月17日 (火)
Muthen, B., & Asparouhov, T. (Forthcoming) Causal effects in mediation modeling: An introduction with applications to latent variables. Structural Equation Modeling.
Muthen先生、哀れなSEMユーザたち向けに、近年の因果推論研究に基づく、媒介変数があるときの因果効果の推定について解説するの巻。と同時に、先日リリースされたMplus 7.2の新機能、MODEL INDIRECTセクションにおける MOD 文右辺のカッコ指定についての紹介でもある。
近年の因果推論研究ってのは、counterfactualな概念が出てくるというような意味合いではないかと思うのだけれど...。Robins, Greenland, Pearl, VanderWeele, Vansteelandt, Imai ほかの研究、とある。(←これ、どういう順序かしらん。年齢の高い順だったりして、ははは)
さあ、導師が誇る素人向け説明パワーが火を噴くぞ、と期待したのだが、目を通した限りでは、ちょっとわかりにくい。草稿だからかもしれない(誤字もあるし)。途中でちょっと混乱してしまったので、Appendixを参照して話を先取りしておくと、要するにこういう話である。
処理条件と統制条件を比較する実験を考える。 アウトカム Y は処理の有無 x の関数と考えられるので、Y(x) と書く。処理の総合効果とは、共変量を固定した下での(←以下省略)、Y(処理) の期待値と Y(統制) の期待値との差である。
さて、媒介変数 M があるとしよう。Yは処理の有無とMの関数で、Mもまた処理の有無の関数である。総合効果は Y(処理, M(処理)) の期待値と Y(統制、M(統制))の期待値との差である。ではここで間接効果とはなにか。
ふたつの考え方がある。ひとつは Y(処理, M(処理)) の期待値と Y(処理, M(統制)) の期待値との差だという見方で、Muthen先生はこれを total の間接効果と呼ぶ。もうひとつは、Y(統制, M(処理)) の期待値と Y(統制, M(統制))の期待値の差だという見方で、先生はこれを pure の間接効果と呼ぶ。
些細な違いというなかれ、場合によっては、これは実質的な違いを生むのだ。
本文に戻ると ... まずは、問題を直観的にわかりやすい形でご説明します、とのこと。
例1, 処理変数-連続媒介変数の交互作用。
次のようなモデルを考える。外生二値変数 $x$ から 連続変数 $m$ にパスが刺さっており (係数 $\gamma_1$), $m$ から 連続変数 $y$ にパスが刺さっている($\beta_1$)。また、$x$ から直接 $y$ に刺さるパスもある ($\beta_2$)。ランダム化統制試験で処理の効果を媒介する変数があるというような場合だ。さらに、$y$ に対して $m$ と $x$ の交互作用効果がある($\beta_3$)。嫌なモデルだが、まあ現実的ではある。
$x$ で条件づけた $y$ の期待値は、$m, y$ の切片をそれぞれ $\gamma_0, \beta_0$ として
$E(y | x) $
$= \beta_0 $
$+ \beta_1 \gamma_0$
$+ \beta_1 \gamma_1 x $ (←A)
$+ \beta_3 \gamma_0 x$ (←B)
$+ \beta_3 \gamma_1 x^2$ (←C)
$+ \beta_2 x$ (←B)
上式の C の項は、$\beta_3 m x$ の $m$ に $\gamma_1 x$ を代入したものである。
さあ、$x$ の $y$ に対する間接効果と直接効果はどうなるでしょうか。
上式の項のうち A は、$m$ を経由しているパスに対応しているから、これは間接効果である。またBは、$m$ を通っていないから、これは直接効果である。問題はCだ。ふつうに考えれば間接効果だが ($m$ を通っている面があるから)、$m$ によって引き起こされている効果だけを間接効果というのだ、という観点からは直接効果である ($m$ を通っていない面もあるから)。
項Cを含めた間接効果を Total Natural Indirect Effect (TNIE), 含めない間接効果を Pure Natural Indirect Effect (PNIE)という。また項Cを含めた直接効果をPure Natural Direct Effect (PNDE), 含めない直接効果を Total Natural Direct Effect (TNDE)という。もちろん
Total Effect = PNDE + TNIE = TNDE + PNIE
である。
例2, 上のモデルで、$y$ が二値だったとき。
例によって、二値変数 $y$ の裏には連続潜在変数 $y*$がいて、$y*$がある閾値を超えたら $y=1$になるのだと考える。これは $y$ のプロビット回帰モデルだと考えてもロジスティック回帰モデルだと考えてもいい (誤差分布についての仮定のちがいにすぎない)。
話を簡単にするために、交互作用項を取り払って
$E(y* | x) = \beta_0 + \beta_1 \gamma_0 + \beta_1 \gamma_1 x + \beta_2 x$
$V(y* | x) = \beta^2_1 \sigma^2_2 + c$
ここで $\sigma^2$ は $m$ の残差分散。$c$ は $y$ の残差分散で、プロビット回帰では1, ロジスティック回帰では $\pi^2/3$ と仮定される。面倒なので、以下プロビット回帰についてのみ考える。
さて、効果の定義は結構ややこしい。従属変数は $y*$ だ、と割り切っちゃえば話は簡単である。SEMユーザはふつうそう考えますね、ロジスティック回帰モデルの偏回帰係数に注目するわけだから。でも、因果効果の研究者は、従属変数が $y$ だというところにこだわる。すると、標準正規分布関数を $\Phi$ として
$P (y = 1 | x) = P(y*>0 | x) = \Phi[ E(y*|x) / \sqrt( V(y* | x) ) ] $
と、やたらにややこしくなる。
$E(y* | x)$ のみに注目して、
$x = 1$ のとき、$\beta_0 + \beta_1 \gamma_0 + \beta_1 \gamma_1 + \beta_2 $
$x = 0$ のとき、$\beta_0 + \beta_1 \gamma_0 $
この差が総合効果である。問題は間接効果だ。
$x = 1$ のとき、$\beta_0 + \beta_1 \gamma_0 + \beta_1 \gamma_1 $
$x = 0$ のとき、$\beta_0 + \beta_1 \gamma_0 $
この差が間接効果だという見方と、
$x = 1$ のとき、$\beta_0 + \beta_1 \gamma_0 + \beta_2 + \beta_1 \gamma_1 $
$x = 0$ のとき、$\beta_0 + \beta_1 \gamma_0 + \beta_2 $
この差が間接効果だという見方ができる。どちらも差は $\beta_1 \gamma_1$ でしょう? と思うところだが (ここですごく混乱した)、今問題にしているのは期待値そのものの差ではなく、それらを標準正規分布関数に放り込んで得た確率の差なので、どちらの見方をとるかによって話が変わってくるのである。前者の定式化がPNIE, 後者の定式化がTNIEである。
例3はYがカウントだったらという話(省略)。いったいなにを説明しようとしているのか、ここまで読んでようやくわかってきた...。いわゆる間接効果と直接効果というのが意外にあいまいな概念なので、反事実的な概念を用いて、PNIEとTNDEとして再定義しているのだ。
フォーマルな議論に突入。
対象者 $i$について、処理変数 $X$ と 媒介変数 $M$がそれぞれ $x, m$ にセットされたときの潜在的アウトカムを $Y_i (x, m)$ とする。実際には、$i$ についていろんな $x, m$ の下でのアウトカムを観察できるわけではないので、これは反事実的な概念である。
直接効果の定義について考える。簡略のため $x$ は0 ないし 1とする。
- controlled direct effect: $CDE (m) = E[ Y(1,m) - Y(0,m) ]$. 媒介変数がなんらかの値に固定された状態での処理の効果だ。行動科学ではあまり役に立たないが、政策評価においては意味を持つことがある由(うーん、どういう場面だろう)。
- pure natutal direct effect: $PNDE = E [ Y(1, M(0)) - Y(0, M(0)) ]$. 処理がなされたけど、(なんらかの理由で)媒介変数は変わらなかった、という場合の処理の効果。なるほど。
- total natual direct effect : $TNDE = E [ Y(1, M(1)) - Y(0, M(1)) ]$.
対応する間接効果の定義を考える。
- total natural indirect effect: $TNIE = E[ Y(1, M(1)) - Y(1, M(0)) ]$. 「処理はなされたけどなんらかの理由で媒介変数が変わらなかったとき」をベースラインにとった処理の効果である。PNDEと足すと総合効果になる。
- pure natual indirect effect: $PNIE = E[ Y(0, M(1)) - Y(0, M(0)) ]$. TNDEと足すと総合効果になる。
以上を上記の例1, 例2に当てはめて説明している。メモは省略。
後半は、$X, M, Y$ が潜在変数である場合の話。
媒介変数が潜在変数だと何が起きるか。媒介変数が単一の観察変数(測定誤差を含む) である場合、複数の観察変数の合計である場合、複数の観察変数で測定される潜在変数である場合、を比較するモンテカルロ・シミュレーションを紹介。項目の信頼性と項目数を動かし、TNIE, PNDEの推定バイアスを調べている。信頼性が低いとTNIEは小さめ、PNDEは大きめに歪む。複数の項目を足しあげても少ししか改善しない。しかし潜在変数にするとこのバイアスを取り除くことができる。
ほかに実際のランダム化フィールド実験データの再解析例が載っているけど、パス。
というわけで、SEMユーザの諸君、因果推論研究を学びなさい、勉強になりますよ。それから測定誤差には気をつけなさい。という論文であった。ハハァー、勉強になりましたですー(平伏)。
論文:データ解析(-2014) - 読了: Muthen & Asparouhov (Forthcoming) SEMユーザの諸君に贈る、直接効果・間接効果への反事実的アプローチ
2014年6月10日 (火)
Rowe, G. & Wright, G. (2001) Expert opinions in forecasting: The role of the Delphi technique. In Armstrong, J.S. (ed.) “Principles of Forecasting; A Handbook for Researcher and Practitioners.” Kluwer.
デルファイ法について知識を整理する必要に迫られ、困ったなあと思いながら本棚をみたら、Armstrongの分厚いハンドブックにデルファイ法の章があった。いやあ、なにがいつ役に立つかわかったもんじゃない。
内容のメモは別にとったので省略。
著者らいわく、デルファイ法の実証研究は「他の手法とどっちが良いか」タイプの実験ばかりである由(当然ながら結果は"It depends"になりがちである)。プロセスの研究はあまりないのだが、その少ない例として、デルファイ法での反復聴取を通じた意見変化のプロセスは「本物の専門家は意見を変えない、そうでない人が意見を合わせる」だという説と、「自信がある人は意見を変えない、自信のない人が意見を合わせる」だという説があるのだそうだ。おおお、そりゃ面白いなあ。前者としてParente &Anderson-Parente (1987, in Wright&Ayton(eds.) "Judgmental Forecasting"), Rowe & Write(1996, Int.J.Forecasting), 後者としてSchiebe, Skutsch & Schofer(1975, in Linstone&Turoff(eds.)"The Delphi Method")というのが挙げられている。