2014年8月29日 (金)
Ishihara, M. & Ching, A. (2012) Dynamic Demand for New and Used Durable Goods without Physical Depreciation: The Case of Japanese Video Games. Working Paper, Rotman School of Management, December 15, 2012.
ちょっときっかけがあって目を通した論文。ほとんどの部分をすっ飛ばしてめくったのだが(すみません)、正直、圧倒的な知識不足のせいで、8割くらいは理解できない感じだ。8割っていうと、10行に8行は墨塗りされている状態ですからね。敗戦直後の教科書よりすごいぞ。
CD・DVDとかビデオゲームとかは、中古品の市場のせいでメーカーの利益が低下してるんじゃないか(代替効果)という見方と、消費者は先々に売ることを見越して買うから新品の売上はむしろ伸びてんじゃないか(転売効果)という見方があるんだそうだ。面白いっすね。
というわけで、消費者の新品・中古品の売買についてのモデルを組む。といっても、日頃おなじみの、個人レベルの購買行動データなり調査データなりコーザルデータなりを組み合わせてSEMのモデルを組みましたという牧歌的な話ではなく、まず個人の最適行動の動的モデルをも・の・す・ご・お・く苦労して作り、最後にパラメータを累積レベルのデータから推定する... なんというか、そういう大変難しい奴である。
消費者をi, ゲームのタイトルをg, 時点をtとする。t=1が発売時点で、当然ながら消費者はタイトルgを持ってないし、中古品も売られていない。
ある時点において、ある消費者は、あるタイトルについての決定を行う。その時点でそのタイトルを持っていない消費者の決定を j = {0,1,2} で表す。0は「買わない」、1は「新品を買う」、2は「中古品を買う」である。持っている消費者の決定を k = {0, 1} であらわす。0は「売らない」, 1は「売る」である。
あるタイトルを売った消費者はそのタイトルの市場から消える。また、あるタイトルの市場は t = T において閉鎖される (実際、チャートをみると、ゲームというのは発売した週にどかんと売れ、急激に下がって、発売10週くらいで全然売れなくなるらしい。おそろしい世界だ...)。
添え字を省略して、新品の価格をp_1、中古品の価格をp_2、中古の引取価格をrとする。業者の中古品在庫量をY、購入からの経過時間を \tau とする。えーと、需要と供給にunobserved shockがあると考え、新品需要で\xi_1, 中古需要で\xi_2, 中古供給で\xi_sとする。そのタイトルが発売されてから発売されたゲームのタイトル数をCとする。
消費者は各時点で割引期待効用を最大化するように決定すると考える。
ある時点でのあるタイトルの効用とはなにか。
時点 t において手持ちのタイトル g から引き出せる主観的価値を v^g (t, \tau)とする。つまり、価値はタイトルの特徴、発売からの時間、購入からの時間で決まり、新品で買ったか中古で買ったかとは無関係だ、というわけである。個人差も無視する。
v^g (t, \tau)をどう定式化するか。発売時点で買ったときの価値を v^g(1, 0) = \gamma^g とする。で、購入が遅れるごとに目減りすると考える。割引率を\varphi(t)として、v^g(t+1, 0) = (1 - \varphi(t)) v^g(t, 0)。
割引率についてはこう考える(論文にはもっとかっこよく書いてあるけど、私向けに平たく書き直します)。まず発売の翌時点については、
\varphi(1) = logit^{-1} (\phi_1)
それ以降は
\varphi(t) = logit^{-1} (\phi_2 + \phi_3 ln(t-1))
logitの逆関数 (すなわち exp(x) / {1+exp(x)}) で変換しているのは、要するに0から1の間に落としたいからであろう。発売の次の時点だけ特別扱いしているのは、実際にゲームの売り上げって発売から少したつと売上ががた落ちするから。
次に、持っている期間による目減り。割引率を\kappa(X_{g\tau})として、
\kappa(X_{g\tau}) = logit^{-1} X'_{gr} \delta
X'_{gr}は製品特性のベクトルで、具体的には、ゲームが物語に基づいているか、マルチプレーヤーか、批評家の平均評価、ユーザの平均評価、そして\tau そのものであるとのこと。
買いの決定によってその時点に得られる効用 u^g_{ijt} について考えよう。
- 新品を買ったら(j=1)、効用は
v^g(t, 0) - \alpha p^g_{1t} + \xi^g_{1t} + \rho D^g_t + \epsilon^g_{i1t}
逃げちゃだめだ逃げちゃだめだ。第1項は当期の主観的価値。第2項はコストで、\alphaは価格感受性。以下、新品価格は変わらないと考えp^g_{1t}=p^g_1とする。第3項は需要の潜在ショック。\xi_1はタイトルと時点を通じてIIDで、N(0, \sigma_{\xi_1})に従うとする。第4項は季節効果で、D^g_tは季節ダミーのベクトル。ほら怖くない怖くない。(と自分に言い聞かせる) - 中古品を買ったら(j=2)、効用は
v^g(t, 0) - \alpha p^g_{2t} + \xi^g_{1t} + \rho D^g_t - l_Y (Y^g_t; \lambda_i) + \epsilon^g_{i1t}
第4項は中古品取引コスト。
l_Y (Y^g_t; \lambda_i) = \lambda_{0i} + \lambda_1 exp(-lambda_2 Y^g_t)
とする。ええと、中古品を買うにあたっての心理的コストに個人差があり(\lambda_{0i})、それが在庫量 Y^g_t に応じて下がる、というわけだ。 - 買わなかったら(j=0)、効用は
l_C(C^g_t; \pi) + \epsilon^g_{i0t}
第1項は"the competitive effect from other newly introduced games" で、
l_C(C^g_t; \pi) = \pi_0 + \pi_1 + ln(C^g_t)
と仮定する。ここ、かなり面食らったのだが、<ある製品を買わないという決定から得られる効用があります、それは「その製品よりも新しい競合製品」が多いときに大きくなります>と考えているわけだ。うむむむむ。そういう風に考えるのか... 「買わないことの効用」というのは、なんだか不自然な感じがするんだけど、たしかにこう定式化すれば、ある製品を買うかどうかに競合製品の存在が及ぼす影響を、(製品間選択を正面からモデル化するのではなく)ある製品の購買有無だけをモデル化する枠組みのなかで表現できますね。そういう方便だと思えばいいのかしらん。
なお、誤差項\epsilon^g_{ijt}は極値分布に従うと考え(あとでロジットモデルに入れる気だからでしょうか)、消費者と時点を通じてはIIDだけど、選択肢 j を通じては相関があると考える。ええと、まず買うか買わないか決めて、次に新品か中古か決める、というネステッド・ロジットの形にするそうです。詳細略。
さあ、今度はもっているタイトルの効用だ!くじけるな!
購入から \tau 経過した手持ちタイトル g から得られる当期の効用 w^g_{ikt}(\tau) について考える。
- 売ったら(k=1)、効用は
\alpha r^g_t - u_i + \xi^g_{st} + e^g_{i1t}
第2項は売ることのコスト。個人差があると考える。第3項は供給の潜在ショックで、タイトルと時点を通じてIIDにN(0, \sigma_{\xi_s})に従う。 - 売らなかったら(k=0)、効用は当然ながら
v^g(t, \tau) + e^g_{i0t}
なお、誤差項e^g_{ikt}はIIDに極値分布に従う。
以下、添字g は適宜省略する。
ここまではある時点の効用である。でもややこしいことに、消費者は決定にあたって先読みするので、その価値を考えないといけない。さあ、深呼吸して...
まず売りの決定から。関係するパラメータは引取価格 r_t, 在庫量 Y_t, 供給ショック \xi_{st}, 時点 t , 保有期間 \tau だ。これをベクトル s_{t, \tau} にまとめる。
選択肢 k の価値を W_{ik} (s_{t, \tau})とする。で、"the integrated value function(or Emax function)" をW_i (s_{t, \tau})とする。なんと訳すのかわからないが、「売る」(k=1)ことの価値と「いまは売らない」(k=0)ことの価値をひっくるめたもの、というような意味合いらしい。素養がなくてわからないが(ベルマン方程式というそうだ)、結局
W_i (s_{t, \tau}) = ln {\sum_k W_{ik} (s_{t, \tau})}
となる由。要するに合計みたいなもんだろう。わかりました、信じます。
- 「売る」 (k=1) ことの価値は話が簡単で、
W_{i1} (s_{t, \tau}) = \alpha r_t - u_i + \xi^g_{st} - 問題は「いま売らない」(k=0) ことの価値だ。今期の効用だけでなく、来期の価値の期待値も考えないといけない。
W_{i0} (s_{t, \tau}) = v(t, \tau) + \beta E[W_i\alpha r_t - u_i + \xi^g_{st}
あああ、気が狂う。まあとにかく、これでそれぞれの選択肢の価値がわかった。選択確率はふつうの選択モデルみたいに、
Pr (k | s_{t, \tau}; i) = exp(W_{ik} (s_{t, \tau})) / (分子の和)
とする。
買いの決定。パラメータは新品価格 p_{1t}, 中古価格 p_{2t}, 引取価格 r_t, 在庫量 Y_t, 競合量 C_t, 需要ショック(\xi_{1t}, \xi_{2t}), 時点 t。これをベクトル b_t にまとめる。"integrated value function"を V_i(b_t), 各選択肢の価値を V_{ij}(b_t)とする。今回も
V_i(b_t) = ln {\sum_j exp(V_{ij}(b_t))}
となる。よくわかんないけど、はい、信じます。
- 「新品を買う」(j=1) ことの価値。今期の価値に、来期の売り物としての価値の期待値を足して、
V_{i1}(b_t) = v(t, 0) - \alpha p_{1t} + \xi_{1t} + \beta E[W_i (s_{t+1, 1}) | s_{t, 0}]
あれ? 今期の価値から季節効果の項が落ちている。脚注によると、別に季節効果の推定をしたいわけじゃないので、この式にはいれないんだそうだ。ふーん、そういうもんですか。 - 「中古を買う」(j=2)ことの価値。上と同じで、
V_{i2}(b_t) = v(t, 0) - \alpha p_{2t} - l_Y(Y_t; \lambda_t) + \xi_{2t} + \beta E[W_i (s_{t+1, 1}) | s_{t, 0}] - 「いまは買わない」(j=0) ことの価値。ここがまた面白いんだけど、いまは買わないと来期もまた買うか買わないかの決定を迫られるわけで、そのことの価値を足すのだ。そういう風に考えるのか...
V_{i3}(b_t) = l_C)(C_t; \pi) + \beta E[V_i(b_{t+1}) | b_t]
選択確率は、3択の選択モデルではなく、まず買うか買わないか決める、次に新品か中古か決める、という2段階の選択と考える。ややこしいので略。
最後に、売上のモデル化。
消費者がタイプ1, 2, ..., l に分かれていると考える。タイプlの割合を\psi_lとする。タイプlのまだ買っていない消費者のサイズをM^d_{lt}とする。これは各期の購入率Pr(1|b_t; l)+Pr(2|b_t; l)ぶんだけ目減りしていくんだけど、同時に市場が大きくなって新規参入する人もいるとする。市場への新規参入者はタイプ別割合\psi_lを守って各タイプに参入してくるものとする。そのサイズをN_{lt+1}とする。結局
M^d_{lt+1} = M^d_{lt}(1-\sum_{j=1}^2 Pr(j|b_t; l)) + N_{lt+1}
タイプlの所有者の、所有期間別のサイズを M^s_{lt}(\tau)とする。まず \tau=1の場合。非所有者に購入確率をかければ良い。すなわち
M^s_{lt+1}(1) = M^d_{lt} \sum_{j=1}^2 Pr(j|bt; l)
\tau>1になると、これが徐々に目減りしていく。あっ、そうか... tではなく\tauについて考えているからそうなるんだ。頭いいなあ。
M^s_{lt+1}(\tau) = M^s_{lt}(\tau-1) Pr(k=0 | s_{t, \tau-1}; l)
というわけで、時点 t における新品・中古品の需要は、上のM^dに購入確率をかけ、タイプを通じて足し上げ、誤差をつけたものになる。いちおうメモしとくと
Q^d_j (bt) = \sum_l M^d_{lt} Pr(j, b_t; l) + \epsilon_{jt}
うわー、ほんとに累積レベルの売上にたどり着いてしまった。魔法を見ているようだ。
データ。2004-2008年に日本で発売された20個のビデオゲームに注目。各タイトルの新品・中古価格の売買数量などなどを、週刊ファミ通のバックナンバーなどから収集。ゲームとは縁がないので見当がつかなかったんだけど、平均価格は新品7600円くらい、中古品4500円くらい、買上価格は2800円くらい、中古品の売上数量は新品の1割くらい、だそうだ。へええ、本とはずいぶん違うんだなあ。古本屋さんが7600円の本を2800円で引き取ってくれることはなさそうだ。
推定方法はパス(読んだところで理解できそうにない)。推定結果もパス(すいません、力尽きました)。結論によれば、新品と中古品にはあんまり代替性がないことがわかったんだそうです。いっぽう転売効果はあって、だから単純に中古品取引を禁止しちゃうとメーカーの利益も下がりかねない由。
マーケティングサイエンスにおける構造推定アプローチ(っていうんでしょうか?)ってどんなものなのか、という好奇心から手に取ったのだが、仕事に生かせるかどうか別にして、モデリングの発想がとても面白かった。商品間の選択はモデル化せず、個別の商品のことだけ考え、新品を買う、中古を買う、買わない、売る、売らない...という決定の合理的なモデルを時間軸に沿って考えていくのだ。ほとんど魔法を見ているようであった。経済学者の先生って、物事をこういう風に考えるのか-。すげーなー。
論文:マーケティング - 読了: Ishihara & Ching (2012) ビデオゲームの動的需要モデル
2014年8月28日 (木)
Flom, P.L., Cassell, D.L. (2007) Stopping stepwise: Why stepwise and similar selection methods are bad, and what you should use. The NorthEast SAS Users Group (NESUG), 2007.
単なるSASユーザ会の資料なのだが、読んだものはなんでも記録しておこう、ということで... 気分転換にディスプレイ上で読んだ奴。
タイトル通り、回帰分析におけるステップワイズ変数選択を批判(といっても、きちんとした説明とは言い難い)。代替案を紹介: (1)選択なんかしない(←はっはっは)、(2)実質的な知識で選ぶ、(3)たくさんモデルをつくって、係数をAICかなんかで重みづけ平均する、(4)選ばないでPLS回帰、(5)LASSO、(6)LAR、(7)クロスバリデーション(代替案というかなんというか...)。で、最近のSAS/STATに載っているGLMSELECTプロシジャの紹介。
ごくごく粗っぽい内容で、特に読まなきゃいけないようなものでもないんだけど(すいません)、実務家らしいユーモラスな言い回しが何個かあって面白かった。"Solving statistical problems without context is like boxing while blindfolded. You might hit your opponent in the nose, or you might break your hand on the ring post." だってさ。
ともあれ、この分野についてはHastie&Friedmanの本 (こないだ翻訳が出たやつかな)、Harrellの本、Burnham & Andersonの本、あたりを参照すると良さそうだ。調べたらどれも良いお値段だ、参るなあ...
論文:データ解析(-2014) - 読了: Flom & Cassell (2007) ステップワイズ変数選択は使うな (でもGLMSELECTは使っていいよ)
2014年8月27日 (水)
Hampton, K.N., Rainie, L., Lu, W., Dwyer, M., Shin, I., & Purcell, K. (2014). Social Media and the ‘Spiral of Silence.’ Pew Research Center, Washington, DC.
ピューリサーチセンターの自主調査報告。今日twitterでたまたまリリースを見かけ、あまりに面白そうなので報告書まで探して読んでしまった(なにをやっておるのか)。第一著者のHamptonって人はいまこの分野で活躍している社会学者らしい。
一言でいっちゃえばSNS利用についての単発の横断調査なんだけど、目のつけどころがすっばらしい。痺れました。
重要な政治的問題について、人は自分の意見を他者に公開したがるか。かの沈黙の螺旋理論に言わせれば、自分の意見が少数派だと感じるとき、人は自分の意見を公開したがらなくなる。でもSNSの登場により、少数派であっても自分の意見を自由に公表しやすくなり、公共的議論の幅は広がったのではなかろうか。
というわけで、去年の夏、スノーデン事件を題材に約1800人にRDD調査。主な知見は:
- 政府の監視プログラムの問題について会話したいという意向は、対面よりSNSのほうで低い。エビデンス: 状況別に意向を4件法で聴取。top2boxは、たとえば家庭で74%, 職場でさえ 65%なのに、FBでは42%, twitterでは41%。[報告書の構成がわかりにくいのでメモしておくと、サマリーのp.4-5, 本文のp.14-15]
- SNSは公共的議論の新たなるプラットホームを提供したりしてはいない。エビデンス: すべての対面状況で会話意向がbottom2boxだっ人が14%いるんだけど、そのうちFBないしtwitterでの会話意向がtop2boxだった人はたった0.3%。[同上]
- 会話意向は関心の高さ・意見の強さ・知識と関連する。エビデンス: 関心と知識は4件法で聴取。意見の強さは、政府への賛否を4件法で訊いて、両端かどうか。で、各状況での会話意向を2値に落としてロジスティック回帰する。デモグラ、情報源、メディア使用、他者との意見一致性判断 etc.をコントロールしても、なお関心・意見の強さ・知識が効く [本文p.16-18, 付録Table B] (←この項、あたりまえにも思える話だが、状況によって係数がちょっとちがうところが興味深い。職場での会話意向は知識の多寡と関連するのに対し、FBでの会話意向は意見の強さと強く関連しているみたいだ)
- FBユーザは他者が自分と同じ意見を持っていると思う傾向がある。エビデンス: 自分の意見に他者が「同意してくれると思うか」を4件法+DKで訊く。top2boxは配偶者が86%, 同僚が64%, FBフォロワーが63%, 近所の人が47%, などなど。これをロジスティック回帰すると、デモグラ、関心・意見の強さ・知識、メディア使用 etcをコントロールした状態で、家族・友人が「同意してくれると思う」にFB投稿頻度が、家族・FBフォアーが「同意してくれると思う」にいいねボタン押し頻度が、それぞれわずかに効いている。[本文p.20-23, 付録Table C] (←これはまぁ、ちょっと弱いかな...)
- 「沈黙の螺旋」はSNSにも当てはまる。エビデンス: たとえば「同僚が自分の意見に同意してくれると思うか」で層別すると、職場での会話意向は「同意してくれると思う」層で2.92倍高い。このやり方で分析して、家族が同意してくれると思う人は家族との会話意向が1.90倍, フォロアーが同意してくれると思う人はFBでの会話意向が1.91倍。[サマリーp.6-7, 本文p.23] (←おもしれー!! これおもしれー!!)
- もともとSNSユーザはオフラインで自分の意見を公開しない傾向があるが、SNS上で同意してもらえないとなおさらそうなる。エビデンス: たとえば友人との会話意向は、ネットユーザをベースにして、FBユーザでは0.53倍。さらにフォロアーが自分の意見に同意してくれると思っている人に絞ると0.74倍。[サマリーp.5-6, 8, 本文24-25]
いやー、ものすごく面白い。もちろんスノーデン事件に限った話だから、むやみに一般化しちゃいけないんだけど、ソーシャルメディアは多様な議論を支えてなどいないんじゃないか、むしろ世論形成の「沈黙の螺旋」メカニズムの一端を担っているんじゃないか... と考えさせられる分析結果である。
いやはや。プロの研究者の方を相手に失礼な言い方かもしれないが、正直云って、ちょっと悔しい。たった約10問、1800人の調査でコレなのである。
ノエル=ノイマンの「沈黙の螺旋」という概念を知っている人は多いだろう。また、世の中に広報目的の自主調査をやっている会社はたくさんあるし(市場調査会社もね)、実査だけみればこのくらいの調査は容易である。でも、思いつかないよなあ、この切り口。つくづく思うに、調査の価値ってのは目の付け所で決まるのだ。
論文:その他 - 読了: Hampton, et al. (2014) ソーシャルメディアと「沈黙の螺旋」
2014年8月24日 (日)
金曜の夜にwebをぼんやり眺めていて、因果推論の巨匠 Pearl 先生が公開しておられるすごく面白い文章を見つけた。難解をもって知られる主著"Causality"の第二版に収録されている文章で、第一版の訳書にはみあたらない。
あまりに面白い文章なので、ずるずるとメモをとっていたら、結局だいたい訳出してしまった。貴重な休日の午後を費やし、俺はいったいなにをしておったのか、と窓の外が暗くなってから我に返ったが、あとの祭りとはこのことである。実際、今日は近所で夏祭りがあったらしい。
せっかくなのでメモを以下に載せておきます。ご関心あるかたはぜひ原文にあたってくださいませ。
この文章、博士論文の審査という架空の場面で書かれてはいるが、データから因果的主張を引き出そうとするすべての人に関係する内容だと思う。
アンケート調査を一発やって、SEMのモデルを組んで、ここをどうにかすればここがきっとこうなるでしょう、云々... とやたらに強気な主張をするタイプの分析者に対して「なんだかなあ」というモヤモヤ感を抱いたことのある、全国1000万人(推定)のリサーチ関係者のみなさん、これはホントに勉強になります。
意地悪であったはずのEX博士が、紙面の都合からか途中から急に物わかり良くなっちゃうところも見所であります。
敵対的な審査者との対話、あるいは SEM サバイバル・キット
話を簡単にするために、次のように想定しよう。あなたの論文の中に出てくるモデルは、次の 2 本の式からなっている。
y = bx + e1 (1)
z = cy + e2 (2)
e2 と x は無相関である。あなたの論文はパラメータ c の推定を主題にしており、あなたは最善の SEM 手法によって満足のいく推定値を得た。c=0.78 という推定値である。さらに、あなたはこの知見について因果的な解釈をおこなった。
さて、意地悪な審査者、EX博士があなたの解釈について質問を始める。
EX博士: あなたがいう「 c について因果的に解釈できる」というのは、どういう意味ですか?
あなた: y の 1 単位の変化が、Z の期待値 E(Z) における c 単位の変化をもたらす、という意味です。
EX博士: その「変化」とか「もたらす」というのはいやな感じですね。科学的にいきましょう。あなたが言っているのは E(Z|y) = cy + a っていうこと? それならわかります。Z の y の下での条件つき期待値 E(Z|y) は数学的にきちんと定義できるし、それをデータから推定する方法もわかる。でも「変化」とか「もたらす」というのはわけがわからない。
あなた: 私は実際に「変化」という意味で言っております。「条件つき期待値における増大」という意味ではありません。私が言っているのはこういうことです。いま、y をなんらかの定数 y1 に固定する物理的な手段があったとします。そしてその定数を y1 から y2 に変化させることができるとします。そのとき、E(Z)において観察される変化は c(y2-y1) でしょう、ということです。
EX博士: いやいや、それはちょっと形而上学的な話になってませんか? 私は統計学の講義で「固定する」なんて言葉を聞いたことがないよ。
あなた: あ、すみません、先生は統計学がご専門ですね。でしたら先程の解釈を次のように言い換えさせてください。いま y を無作為に割り付けた統制実験を行うことが可能だとして、統制群の y を y1 に、実験群の y を y2 にセットしたとします。このとき、E(Z)において観察される差は、y1 と y2 がなんであれ、(統制群と実験群におけるzの測定値をZ1とZ2として) E(Z2) - E(Z1) = c(y2 - y1) であろう、ということです。[脚注: EX博士が「あなたの主張はそれだけ?」と尋ねたら、こう付け加えること。付け加えますと、確率変数 Z1 - cy1 の分布が確率変数 Z2 - cy2 の分布と同じであろう、ということです。]
EX博士: だいぶわかりやすくなってはきたけれど、でもひっかかりますね。あなたの話は途中ですごくジャンプしているように思える。あなたのデータは実験によるものではないし、あなたの研究のどこにも実験なんて出てこない。あなたは、観察研究から得たデータをSEMのソフトでどうにかすれば、無作為化統制実験から得られるであろう結果を予測できる、といいたいの? 冗談でしょう! 実験研究をそんなSEMの魔法に置き換えることができたら、国中でどれだけの予算が削減できると思う?
あなた: 魔法じゃありません、先生、易しい論理です。SEMのソフトを使った私の分析のインプットにあたるものは、非実験データだけではありません。インプットは2つの要素からなっています。すなわち、データと因果的想定です。私の結論はこの2つの要素からの論理的帰結です。標準的な実験研究には2つめの要素が欠けていて、だから実験研究にはお金がかかるのです。
EX博士: なに的想定だって? 「因果的」? そんな変な言葉は聞いたこともない。私たちはふつう、想定を数学的に表現します、同時密度の条件とか、共分散行列の特性といった形で。あなたの想定を数学的に表現してもらえますか。
あなた: 因果的想定というのはそういうものではないのです。密度関数や共分散行列と言った語彙では表現できません。ですから、そのかわりにモデルで表現しているのです
EX博士: 式(1)(2)のことですね。新しい語彙なんて見当たらないけど。ただの数式じゃないですか。
あなた: 先生、これは通常の算術的な数式ではありません。これは「構造方程式」です。正しく読めば、ここから一連の想定を読み取れます。それらは先生もよくご存じの、母集団に対して仮説的な無作為実験を行った結果についての諸想定です。私たちはそれらを「因果的」想定、ないし「モデリング上の」想定と呼んでいます、そちらのほうが良い言い方なので。ですが、それらはさまざまな無作為化実験のもとで母集団がどのように振る舞うかということについての諸想定として理解できます。
EX博士: ちょっと待って! あなたがいう因果的想定というのがなんなのか、だんだんわかりかけてきたけど、そのせいで余計に混乱してきた。いいですか、無作為化実験の下での母集団の振る舞いについて、あなたがなんらか想定することができるなら、なぜわざわざ研究しなきゃならないの? 「yを無作為に割り付けた無作為化実験で、E(Z)において観察される差は c'(y2-y1) だ」(c'は適当な数字) と直接想定しちゃえば、なにも何ヶ月も苦労してデータを集めたり分析したりしなくて済むじゃないですか。もしあなたが検証されていない想定から話を始めるのであれば、いっそE(Z2) - E(Z1) = c'(y2-y1)という想定から話を始めてしまえばいい。前者を信じてくれる人なら後者も信じてくれるでしょう。
EX博士: そうではありません、先生。私のモデリング上の想定は、研究の結論である E(Z2) - E(Z1) = 0.78(y2 - y1) という言明よりもはるかに弱い想定です。
- 第一に、私の結論は量的なもので、c=0.78 という特定の値にコミットしていますが、いっぽう私のモデリング上の想定は質的なものです。
- 第二に、先生を含め多くの研究者にとって、私の想定は受け入れやすいものだと思います。なぜなら、それらは世界がどのようになっているかという常識的理解と一般的な理論的知識に合致しているからです。
- 第三に、私の想定のうち大部分は、y の無作為割り付けを含まない実験によって検証可能なものです。つまり、yの無作為割り付けが高価ないし不可能であるとしても、もう少し手を付けやすい他の変数を統制することで想定を検証できるわけです。
- 最後に、これは私の研究にはあてはまらない点なのですが、モデリング上の想定は非実験研究で検証可能ななんらかの統計的含意を持っていることが多く、もしその検証が成功すれば(これを「適合」といいます)、そのことによってそれらの想定の妥当性がさらに確認できたことになるからです。
EX博士: 面白くなってきましたね。ではその「因果的」想定、モデリング上の想定とやらをみせてもらいましょうか。それが弱い想定かどうか判断しましょう。
あなた: 承知しました、ではモデルをご覧ください。ここで、
- z は、最終試験における学生の得点
- y は、学生が宿題に費やした時間
- x は、(教師がアナウンスした)最終評価における宿題のウェイト
です。このモデルを論文に書いたとき、私は心のなかに2つの無作為化実験を思い描いていました。一つ目は x が無作為割り付けされる実験で(つまり、教師が宿題のウェイトを無作為に割り付ける実験)、二つ目は宿題に費やした時間 (y) が無作為に割り付けられる実験です。これらの実験について考える際に私が設定していた想定とは:
- 1. yに関する線形性と除外: E(Y2) - E(Y1) = b(x2 - x1)、ただしbは未知 (Y2とY1は、アナウンスされた宿題のウェイトがそれぞれx2, x1であるときの宿題所要時間)。また、この式からzを除外することで、私は得点 z が yに影響しないと想定していることになります。そう想定する理由は、y が決定される時点で z は未知だからです。
- 2. zに関する線形性と除外: すべての x について E(Z2) - E(Z1) = c(y2 - y1)、ただし c は未知。言い換えれば、xは yを経由して z に影響するかもしれないが、それを別にすれば z には影響しない、という想定です。
付け加えますと、非実験研究という条件の下で x を支配する、測定されていない諸要因についても私は質的な想定を行っています。すなわち、x と z の両方に影響する共通の原因はないという想定です。
EX先生、ここまでの想定になにか反論をお持ちですか?
EX博士: いいでしょう、それらの想定が弱いものだということには同意します。あなたの論文の結論である言明 E(Z2) - E(Z1) = 0.78(y2 - y1) に比べればね。こういう弱い想定によって、(実験場面における) 宿題の得点への実際の影響についての大胆な予測を支持することができるというのは面白いと思います。しかし、あなたがいうところの原因についての常識的な想定には、まだ納得できません。宿題の重要性を強調する教師は、同時に情熱的で効果的な教師でもあり、そのためあなたの想定に反し、e2 (ここには教授の質といった要因が含まれています) は x と相関しているのではないでしょうか。
あなた: EX先生、先生もSEMのリサーチャーのような話し方をなさるようになりましたね。手法と哲学を攻撃する代わりに、私たちはいまや実質的な諸問題について議論し始めています... たとえば、教師が効果的である程度と、その教師が宿題に付与するウェイトとのあいだに相関がないと想定するのは合理的か、といった問題についての議論です。私は個人的には、宿題を気に掛けずにはいられない立派な教師に出会いましたし、またその逆の教師にも出会いました。
しかし、私の論文はそのことについての論文ではないです。私は、教師が効果的である程度が、教師が宿題を重視するかどうかと相関していない、とは主張していません。その問題については、他の研究者が今後検証してくれればと思っています(あるいは、すでに検証されているかもしれませんね?)。私が主張しているのは次の点に過ぎません。教師が効果的である程度と教師が宿題を重視する程度とが無相関であるという想定を受け入れる研究者であれば、その想定とデータから論理的に次の結論が導かれるということに関心を持つでしょう。すなわち、宿題にかける時間が一日あたり1時間増えれば、得点が(平均して)0.78点増大する、という結論です。そして私のこの主張は、もし宿題の量(y)を無作為に割り付けた統制実験が可能ならば、実証的に検証できる主張です。
EX博士: あなたは自分のモデリング上の想定が真だと主張しているわけではなくて、単にそのもっともらしさについて述べ、その副産物について説明しているだけだ、というわけですね。それはよかった。そう言われると反論できません。しかし、今度は別の質問があります。あなたはさっき、あなたのモデルは統計的な含意を持たない、だからデータとの適合性という観点から検証することはできない、といいましたね。なぜそうだとわかったのですか? それは問題にはならないのですか?
あなた: そうだとわかったのは、私がグラフをみて欠けているリンクについて検討したからです。d-分離と呼ばれる基準を用いれば (11.1.2節「涙なしのd-分離」を参照)、SEMを用いる研究者は、グラフを一目見ただけで、グラフに対応するモデルが変数間の偏相関を消失させる形式でのなんらかの制約を含意しているかどうかを決定することができます。統計的含意は(すべてではありませんが)たいていの場合この性質を持っています。私たちの例では、モデルは共分散行列についてのいかなる制約も含意していません。ですから、それはどんなデータに対しても完全に適合し得ます。私たちはこういうモデルを「飽和している」と呼んでいます。
SEMの研究者のなかには、統計的検定の伝統を振り払えず、モデルが飽和していることをモデルの欠陥であるとみなす人もいます。でもそれは正しくありません。飽和したモデルを手にしているということは、ただ単に、その研究者がありそうもない因果的想定を行うのを避けたいと思っているということ、彼ないし彼女が持ちたいと思っている弱い想定があまりに弱すぎて統計的含意を生み出せないということ、を意味しているのです。こういう保守的な態度を非難してはいけません、むしろ褒めるべきです。
もちろん、自分のモデルが飽和していなかったら... たとえば e1 と e2 が無相関だったら、それは私は喜ぶだろうと思いますよ。でもここではそれは事実ではありません。常識的に考えて e1 と e2 は相関しています。データからもそれは伺えます。試しに cov(e1, e2)=0 という想定を置いてみたのですが、適合度はひどかったです。「飽和していない」モデルだという称号を手に入れるためだけに、保証のない想定を行ってもよいものでしょうか? いいえ! むしろ私は、合理的な想定を行い有益な結論を得て、私の結果と私の想定を並べて報告することを選びます。
EX博士: でも、同じくらいのもっともらしさを持った想定に基づく飽和したモデルが他にも存在し、そのモデルからは c の異なる値が導かれるとしたらどうですか? あなたの当初の想定のうちいくつかが間違っていて、そのため c=0.78 というあなたの結論も間違っている、という可能性については気になりませんか? あなたがあるモデルではなく別のモデルを選び取るとき、それを助けてくれるものはデータにはないわけだから。
あなた: その問題についてはとても気にしています。実のところ、こうした競合モデルのすべてについて、その構造をすぐに列挙することができます。たとえば、図11.15の2つのモデルがそれですし[xからzへの片矢印パスがあるモデルと、xとzのあいだに両矢印パスがあるモデル]、他にも挙げることができます(ここでもd-分離基準を用いることができます)。しかし、ご注意いただきたいのですが、競合モデルが存在するからといって、「モデルMの質的想定を受け入れる研究者ならば c=0.78 という結論を受け入れざるをえない」という先程の私の主張がいささかも弱まるわけではありません。この主張は論理的にみて無敵のままです。それだけではありません。この主張は、それぞれの競合するモデルからの結論を、そのモデルの背後にある想定と一緒に報告することで、さらに精緻化することができます。結論はこんな形になります:
もし想定集合 A1を受け入れるならば、c=c1 が含意される。
もし想定集合 A2を受け入れるならば、c=c2 が含意される。
...
EX博士: わかりました。でも、そうした条件付きの言明を超えて先に進み、さまざまな想定集合のなかからどれを選ぶかを決めるということに踏み込みたい場合、その試みを支援してくれるSEMの手法はないのですか? 統計学において通常直面する問題では、競合する2つの仮説は、いかに弱いものであろうが、なんらかの検証にはかけられるものですが。
あなた: これが統計的データ分析とSEMの根本的なちがいです。統計的仮説とは、定義上、統計的手法によって検証可能なものです。いっぽうSEMのモデルは因果的な想定に依存しており、それらの想定は定義上、統計的検証ができません。もし2つの競合モデルが飽和していたら、私たちにできることは結論を上で述べたような条件付きの形で報告することだけですし、そのことがあらかじめわかるわけです。しかし、もしその競合が、同じぐらいのもっともらしさを持ちつつも統計的には異なるモデル間の競合であるならば、私たちはモデル選択という一世紀にも及ぶ古い問題に直面することになります。モデル選択に関しては、これまでにAICのようなさまざまな選択基準が提案されてきました。しかしここでは、モデル選択という問題に新しい因果的な変化が生じています... ここでの私たちのミッションは、適合度を最大化することでも予測力を最大化することでもなく、cといった因果的パラメータの推定をより信頼できるものにすることだからです。全く新しい問題領域が登場したわけです(Pearl, 2004を参照)。
EX博士: 興味深いですね。私の同僚の統計学者たちがSEMの方法論に出会ったとき、混乱し疑い深くなり、敵意さえ持った理由がわかりました (たとえば Freedman 1987; Holland 1988; Wermuth 1992)。最後の質問です。あなたはさっき、私が統計学者だといことを知ってから無作為化試験の話を始めましたね。統計学者ではない人に対しては、あなたはSEMの戦略をどう説明するのですか?
あなた: 平易なことばでこういいます。「もし私たちが、yをなんらかの定数y1に固定する物理的手段を持っており、その定数を y1 から y2に変えることができるとしたら、そのとき E(Z)において観察される変化は c(y2 - y1)でしょう」と。たいていの人は「固定する」ということがどういうことかを知っています。なぜなら、それは政策決定者の心についての概念だからです。たとえば、宿題が成績に与える効果について関心を持っている教師は、宿題の無作為割り付けという観点から考えたりはしません。無作為割り付けとは、固定することの効果を予測するための間接的手段に過ぎません。
実際には、私が話す相手が本当に賢明な人であるならば (多くの統計学者がそうです)、反事実的な語彙に訴えて次のように言うことさえあります。たとえば、宿題に y 時間を費やした後で試験で z 点を取った生徒は、もし宿題に y+1 時間かけていたら z+c 点とっていたはずだ、と。正直にいえば、式 z = cy + e2 を書いたとき(ここで e2 は生徒のそのほか全ての特性を表し、モデルにおいては変数名を与えられず、y の影響は受けません)、私が心に抱いていたのは、本当はこの考え方なのです。私はE(Z)については考えもしません。単にある典型的な生徒の z について考えます。
反事実的条件は、科学的関係の意味を表現するために我々が持っている最も正確な言語的道具です。しかし、統計学者と話すときには、私は反事実的条件には触れないようにしています。残念ながら統計学者は決定論的な概念や即座に検証できないような概念に疑いを持つ傾向があり、そして反事実的条件はそういう概念だからです (Dawid 2000; Pearl 2000)。
EX博士: SEMについていろいろ教えてくれてありがとう。質問は以上です。
あなた: 恐縮です。
論文:データ解析(-2014) - Pearl(2009) 敵対的な審査者との対話、あるいは SEM サバイバル・キット
2014年8月17日 (日)
知らず知らず、世間の夏休みムードに感染しているようで、ここんところフィクションが多めである。
黒い裾 (講談社文芸文庫)
[a]
幸田 文 / 講談社 / 2007-12-10
幸田文は父・幸田露伴を巡るエッセイの書き手として出発し、51歳にして小説「流れる」を発表するんだけど、これはその前に出していた短篇集。エッセイから小説へと徐々に移行している段階だったのだろう。
表題作の短編「黒い裾」が抜群に面白いと思った。喪服小説というか、葬式小説というか... ある女の一生を、葬式の経験だけをつなぎ合わせるようにして描いた作品である。
シェイクスピア全集 (2) ロミオとジュリエット (ちくま文庫)
[a]
W. シェイクスピア / 筑摩書房 / 1996-04
数年前に小田島訳で読んでいたのを、このたび松岡訳で再読。
不思議なもので、読み直すと印象が変わってくるものだ。この先生の訳の特徴のせいか(いったん下品になるととことん下品になる)、小田島訳に比べて猥雑さが増し、マキューシオがより粗雑で頭の悪い青年になった、ような気がする。
この芝居で特に面白いなあと思うのは、ジュリエットが生涯最期の数日間で急速に成長していくところなのだけれど、でもつくづく思うに、ひたむきさと分別とは別の問題なのである。
そんなこんなで、やっぱりこの作品は非常に面白い。あれこれ考え始めると興趣が尽きない。よい本の徳である。
スミヤキストQの冒険 (講談社文芸文庫)
[a]
倉橋 由美子 / 講談社 / 1988-01-27
二十一の短編 ハヤカワepi文庫
[a]
グレアム・グリーン / 早川書房 / 2005-06-09
再読。
ぼくを忘れたスパイ〈上〉 (新潮文庫)
[a]
キース トムスン / 新潮社 / 2010-09-29
ぼくを忘れたスパイ〈下〉 (新潮文庫)
[a]
キース トムスン / 新潮社 / 2010-09-29
最近ボケはじめた父親が、実は往年のスパイにして国家機密の持ち主。漏洩を心配した邪悪な政府機関に親子共々命を狙われるが、たまに正気を取り戻すと父は「ボーン・アイデンティティ」なみのアクションヒーローと化し、敵をばったばったとなぎ倒す...というお気楽極楽なB級アクション・スリラー。ついつい読んじゃいました。
フィクション - 読了:「ロミオとジュリエット」「黒い裾」「ぼくを忘れたスパイ」「二十一の短編」「スミヤキストQの冒険」
感情とは何か: プラトンからアーレントまで (ちくま新書)
[a]
清水 真木 / 筑摩書房 / 2014-06-04
こ、これは、ちょっと... 申し訳ありませんが、ちょっとついていけなかったです。
私の素養が足りないからなんだろうけど、たとえば総括として「すべての感情は『悦び』であり、すべての感情の経験は、快楽として受け取られることによりはじめて、その本当の姿を私たちの前に表します。なぜなら、感情とは、真理の記号だからです」なあんて断言されちゃうと、窓の外の空を眺めながら、いったい私たちがある事柄を論証するというのはどういうことなのだろう... という思いに浸ってしまうわけです。感情とは真理の記号だという見方が成立することは理解しました、それが哲学史のなかで由緒正しい見方であることも納得いたしました、でも断言されちゃうと困ります、という感じ。
ともあれ、認知社会心理学的な感情研究に大変批判的であることはよくわかりました。入出力関係のみに注目して感情を語るのは通俗的感情観を追認する知的パズルだ、というのは確かに仰せの通りだ。では、戸田正直みたいな大掛かりな適応論的議論はどうなのかしらね。感情の科学には違いないと思うんだけど。
まあいいや。ヒューム「人間本性論」のくだりが面白かったので、いつかきちんと読んでみたいと思う。
善き書店員
[a]
木村俊介 / ミシマ社 / 2013-11-13
6人の書店員に対するロング・インタビュー。書店そのものというより、働くということ自体に焦点を合わせた内容で、いわばスタッズ・ターケル「仕事」の日本版(たまたま全員書店員)というところ。興味深い本であった。
「悪」と闘う (朝日新書)
[a]
宇都宮健児 / 朝日新聞出版 / 2014-08-08
スターリン - 「非道の独裁者」の実像 (中公新書)
[a]
横手 慎二 / 中央公論新社 / 2014-07-24
ノンフィクション(2011-) - 読了:「『悪』と戦う」「スターリン」「善き書店員」
ブラック・ジャック創作(秘)話~手塚治虫の仕事場から~ 5 (少年チャンピオン・コミックスエクストラ)
[a]
宮崎 克 / 秋田書店 / 2014-08-08
最終巻。最後のエピソードで、アシスタントの脳裏に手塚と手塚を巡る人々の熱い日々が蘇る場面、これはさすがに、ぐっときますね...
チェイサー 2 (ビッグコミックス)
[a]
コージィ 城倉 / 小学館 / 2014-07-30
昭和元禄落語心中(6) (KCx(ITAN))
[a]
雲田 はるこ / 講談社 / 2014-08-07
トラップホール 4 (Feelコミックス)
[a]
ねむようこ / 祥伝社 / 2014-08-08
こちらも最終巻。この連載、ヒロインは私にとってはもう全く共感できない女性で(こういう自分探しは大変迷惑である)、まぁそれはそれで感心して読んでいたのだけれど、ターゲットである女性読者の感想を聞いてみたいところだ。
コミックス(2011-) - 読了: 「昭和元禄落語心中」「ブラック・ジャック創作秘話」「チェイサー」「トラップ・ホール」
2014年8月11日 (月)
Verworn, B., Herstatt, C., Nagahira, A. (2008) The fuzzy front end of Japanese new product development projects: Impact on success and differences between incremental and radical projects. R&D Management, 38(1), 1-19.
前に調べものをしたときに見つけて積読の山のなかに入れていた奴。別にいま読まんでもいいのだが、整理がつかないのでざざーっと目を通した。著者らについても雑誌についても全く見当がつかないが、google scholarさんによれば引用件数131件。第三著者は東北大教授の長平彰夫さんという方だそうです。
新製品開発の初期段階のことをfuzzy front endっていうけど (Smith & Reinertsen, "Developing Products in Half the Time", 1991 というのが初出らしい。翻訳はなさそうだ)、日本企業の新製品開発におけるFFEの影響を定量的に調べました、という研究。
背景のお話は3つ。(1)新製品開発においてFFEが重要だという研究は山ほどあるが、それらの多くは理論研究か探索的研究である。(2)ふつうの漸進的な新製品開発のfuzzy front endと、ほんとにイノベーティブな新製品開発のそれとがどう違うか、という点が問題になっている。(3)日本企業はドイツの企業と比べ、fuzzy front end における不確実性を減少させるためによりフォーマルなアプローチをとっている、という指摘がある。
えーっと、まず先行研究に基づき概念モデルをつくる。これがどのくらい説得力のあるモデルなのか、私には皆目わからないんだけど、とにかくこういうモデルである。
FFEについて3つの因子を考える。(1)市場の不確実性の減少。つまり、顧客のニーズ・ウォンツや価格感受性を理解すること、また市場の魅力を理解すること。(2)技術的な不確実性の減少。(3)計画立案におけるインテンシブな議論。
いっぽう、新製品開発の成功についての2つの因子を考える。(4)効率性。つまり、FFEにおいて計画されていた財務的・人材的資源が、実際に必要となった資源と一致していた程度。(5)有効性。つまり、利益目標に到達した、顧客満足を得た、競争優位性を得た、といったアウトカム。
で、モデルは:
- 市場の不確実性が減ると、新製品開発の効率性が上がるし(H1)、有効性も直接に上がる(H2)。
- 技術的な不確実性が減ると、新製品開発の効率性が上がるし(H3)、有効性も直接に上がる(H4)。
- 計画のintensityが高いと、市場の不確実性が減り(H6), 技術的な不確実性も減る(H7)。また、新製品開発の効率性も直接に上がる(H5)。
- 効率性が上がれば有効性が上がる (H8)。
新製品開発を漸進的な奴とラディカルな奴に分ける。ここでは、コスト削減、リポジショニング、製品改善を前者、全くの新製品の場合を後者とし、ライン拡張は除外する。
- FFE段階が終わるとき、市場の不確実性はラディカルな新製品開発で高く(H9)、技術的不確実性もラディカルな新製品開発で高い(H10)。でも計画のintensityは変わらない(H11)。
実証研究。要するに質問紙調査である。
日本の製造業のR&Dディレクターに対する郵送調査、497票を分析。各因子につき数個の項目を7件法で聴取している。
で、AmosでSEMのモデルを組む。あれれ、効率性って2項目しか指標がないけど、大丈夫なのかなあ(説明を見落としているかもしれない)。因子間パスがH1~H8に対応しているわけだが、H1以外は全部支持。H1が支持されなかったのは(市場理解が新製品開発の効率性を上げなかったのは)、回答者の多くが産業材メーカーで、新製品開発が顧客との協同で進められているからだろう、とのこと。
次に、ケースを漸進的新製品開発とラディカルな新製品開発に分け、群間で各項目を比較。t 検定をひたすら繰り返す。えええ、多群分析するんじゃないの? それに多重比較法も使わないの? と面食らったけど、このへんは分野によってカルチャーも違うんでしょうね。ちゃんと読んでないけど、H9はある程度支持、H10は不支持、H11は支持、とのこと。H10に関しては、ラディカルな新製品開発のほうが出発時点では技術的不確実性が高いんだけど、FFEを通じて減るんじゃないか、云々。
まとめとしては... FFEは新製品開発の成功の一定部分を説明する。漸進的新製品開発もラディカルな新製品開発も、FEEはそんなに変わらないんじゃないか。云々。
全くのど素人なので、ちゃんと理解できているかどうかわからないのだけど、フガフガと楽しく読了。世の中にはこういう研究をしている方々がいらっしゃるんですね、勉強になりましたです。
それにしても、「新製品開発」というのがどこまで等質的なカテゴリなのか、だんだんわかんなくなってきた。著者らも最後に触れているけど、なんてったって産業財と消費財では、メーカーの市場理解も開発プロセスも違うだろう、という気がするわけで...。
本筋とは全然関係ないけど、非回答バイアスは大きくないですという主張のために、郵送回収が早かった票と遅かった票を比べて違いがないことを示している。うむむ。昔そういう考え方があったと聞いてはいたが、実物を見るのははじめてだ。Armstrong & Overton (1977, JMR)が挙げられている。
論文:マーケティング - 読了: Verworn, Herstatt, Nagahira (2008) 新製品開発の初期段階とその後の成功との関係
2014年8月 8日 (金)
先日、勤務先の若い人に、重回帰や分散分析でいうところの交互作用(interaction)についてちょっと話す機会があったのだけれど、説明する順序をぼんやり考えていて、ふと疑問に思ったことがあった。
交互作用というのは統計的現象の名前で、それを引き起こすメカニズムは多様である。たとえば、 $X_2$ が$X_1$にとってのモデレータになっていたら交互作用が生じる (誤差項を省いて $Y = a + bX_1, b = c + dX_2$とか)。$X_2$が$X_1$にとってのメディエータになっていても交互作用が生じることはある ($Y = a + b_1 X_1 + b_2 X_2, X_2 = c + dX_1$とか)。$X_1$と$X_2$の線形和がある閾値を超えると発火する二値潜在変数があって、それが$Y$にボーナスを与えるので結果的に交互作用が生じる、なんていう状況も容易に想像できる($Y = a + b_1 X_2 + b_2 X_2 + b_3C$, $logit(Prob(C=1))=c + d_1X_1 + d_2X_2$とか)。他にもいっぱいありそうだ。いったい何種類あるんだろう? 類型化できないものかしらん。
VanderWeele, T.J., & Knol, M.J. (2014) A tutorial on interaction. Epidemiological Methods.
... というようなことを考えながらwebを眺めていて拾った、近刊の論文。掲載誌はまだ3号しか出ていないオープン誌で、性質がよくわからないのだが、ハーバード大の疫学部門の紀要みたいなものなのかなあ?
タイトル通り、疫学における交互作用についての啓蒙論文。えらく長いのだが(著者も前半と後半にわけて読んだほうがいいよといっている)、現実逃避の一環として持ち歩いてだらだらめくり、なんとなく読み終えてしまった。
まず前半。わりかし易しい内容である。
交互作用について調べる動機はたくさんある。まず、介入のためのリソースが限られているので、介入の効果が大きい下位集団を特定したいから(←マーケティングでいうところのセグメンテーションとターゲティングですね)。アウトカムを引き起こすメカニズムについて洞察を得たいから。主効果を調べる際の検定力を上げたいから。あるリスク要因に対する介入が不可能なので、せめて交互作用のある共変量に介入してどうにかしたいから。そして、単にモデルの適合度をあげたいから。
交互作用をどうやって測るか。二値アウトカム$D$について考える。原因変数として$G, E$があって(とりあえず2値だとして)、$Prob(D=1 | G=g, E=e)$ を$p_{ge}$と略記する。交絡とか共変量調整とかは当面忘れよう。大きく分けてふたつの測り方がある。
- 加法的に測る。効果を確率の差で測るなら、交互作用とは$p_{11}-p_{00}$ と $(p_{10}-p_{00})+(p_{01}-p_{00})$ との差である。つまりは$p_{11}-p_{10}-p_{01}+p_{00}$である。
- 乗法的に測る。効果を確率の比で測るなら、交互作用とは$(p_{11} p_{00})/(p_{10} p_{01}$)である。$p_{00}$をベースにとったリスク比を$RR_{ge}$と書けば、交互作用とは$RR_{11}/(RR_{10} RR_{01})$である。
加法的交互作用と乗法的交互作用が逆になったり、一方ではあるのに他方ではなかったり、ということはごくあたりまえに起きる。たとえば、非喫煙者の肺がんリスクがアスベスト非曝露で0.1%, 曝露で0.7%, 喫煙者では非曝露で1.0%, 曝露で4.5%だとしよう。加法的にみれば交互作用は4.5-1.0-0.7+0.1=2.9で、2要因が揃うとリスクが上積みされることになるし、乗法的にみれば(4.5x0.1)/(0.7x1.0)=0.45/0.7=0.64で、2要因が揃うとリスクが割り引かれることになる。
どっちを使うべきかは後述するが、公衆衛生上の観点からは、ふつうは加法的に測ったほうがよい。なお、
- ケース・コントロール研究だとオッズ比を使うので、交互作用を$OR_{11}/(OR_{10} OR_{01})$として乗法的に測ることがある。
- リスク比しかわからないけど交互作用は加法的に測りたい、という場合もある。上の加法的交互作用を$p_{00}$で割ると$RR_{11}-RR_{10}-RR_{01}-1$。これはrelative excess risk due to interaction (RERI), ないしinteraction constract ratio (ICR)と呼ばれている(←へー)。$p_{00}$が既知でない限りRERIのサイズの評価は困難だが、すくなくとも加法的交互作用の向きはわかる。なお、RRのかわりにORをつかうこともある。
現実の場面では、なにかのモデルを通じて交互作用を測ることも多い。信頼区間がわかるので気分がいい。たとえば
$p_{ge} = \alpha_0 + \alpha_1 g + \alpha_2 e + \alpha_3 eg$
$log(p_{ge}) = \beta_0 + \beta_1 g + \beta_2 e + \beta_3 eg$
$logit(p_{ge}) = \gamma_0 + \gamma_1 g + \gamma_2 e + \gamma_3 eg$
いうまでもなく線形モデルの $\alpha_3$ は $p_{11}-p_{10}-p_{01}+p_{00}$である。対数線形モデルの主効果 $\beta_1$ と $\beta_2$ は対数リスク比で、$\beta_3$は$RR_{11}/(RR_{10} RR_{01})$の対数である。ロジスティックモデルの主効果$\gamma_1, \gamma_2$は対数オッズ比で、$\gamma_3$は$OR_{11}/(OR_{10} OR_{01})$の対数である。
上の3本のモデルのうち最初の2本は、共変量をいれたとき(とくに連続的共変量をいれたとき)ML推定が収束しないことがある。だから3本目のロジスティックモデルが良く使われている。だけど加法的交互作用をみることも大事だ。そこで! ロジスティックモデルで推定した交互作用パラメータと信頼区間をRERIに変換する方法を伝授するぜ!
共変量入りのロジスティックモデル
$logit(P(D=1|G=g,E=e,C=c) = \gamma_0 + \gamma_1 g + \gamma_2 e + \gamma_3 eg + \gamma'_4 c$
を考えると、ORベースのRERIは
$RERI = OR_{11} - OR_{10} - OR_{01} + 1 = exp(\gamma_1+\gamma_2+\gamma_3) - exp(\gamma_1) - exp(\gamma_2) + 1$
だ。標準誤差を求めるSASとStataのコードを付録に載せたから使ってくれ! Excelシートも別途配ってるから持ってってくれ!
なになに、コホート研究でアウトカムがレアじゃないから、ORベースじゃなくてRRベースのRERIを使いたいって? オーケー、そんなら対数線形モデルを使いたまえ。収束しないって? ポワソンモデルという手もあるから使ってみてくれ。weightingアプローチというのもあるから俺の論文を読んでくれ。
なになに、曝露が二値じゃないって? 気にすんな、考え方は同じだ。ただし、RERIの算出はややこしくなるから注意な。それからEとGがどこからどこに動くと考えるかでRERIが変わってくるから注意な。グッドラック! (柳澤慎吾風に)
(前半戦がまだまだ続くので、テンションを元に戻して)
交互作用を加法的に測るか乗法的に測るかという話に戻ろう。ベストアンサーは「両方のやり方で測る」である。しかし実際にはロジスティックモデルで乗法的に測っていることが多い。これは由々しき事態だと思っておる。
加法的交互作用を支持する理由は:
- 公衆衛生上の観点からは、どっちのサブグループに介入したら何人助かるかに関心がもたれるから。
- 単に統計的な交互作用を調べるのではなく、mechanisticな交互作用について調べる場合。つまり、「2つの曝露が揃わないと発症しない」人がいるかどうかを調べる場合。
- 加法的交互作用の検出よりもパワフルだから。
乗法的交互作用を支持する理由は:
- 簡単だから。ロジスティック回帰のソフトは入手しやすいし。
- リスク差よりもリスク比・オッズ比のほうがheterogeneity が小さい、という説がある。そんなことが一般的にいえるかどうかはわからないのだけれど、もしそれが本当で、かつそれがなんらかの生物学的な仕組みの反映だとするならば、そのときはそりゃあ乗法的に測りたいとおもうわね。
- 疫学の教科書によっては、「因果性の評価」には比がふさわしい、と書いてあるのもある。この発想はCornfield et al.(1959)による喫煙と肺がんの研究にまでさかのぼることができるのだそうだ。もっとも、落ち着いて考えてみると、一概には言いがたい。
というわけで、ベスト・アンサーは「両方測れ」だ。原則的には、一方の方法でふたつの曝露の効果が見つかったら、他方の方法では交互作用も必ず見つかるわけで(←絵を描いてみて納得。そりゃそうだ)、交互作用の有無を単純に問うてはならない。最初に分析の目的をきちんと定めることが重要なのだ (←なるほど...)。
そのほかの話題。
- 交絡の話。たとえば薬の効き目が患者の髪の色によって違うとしよう。投薬有無がなにかと交絡しているかもしれない。そこで、共変量を入れて交絡を統制した(ないし投薬有無を無作為化した)。さて、ここで得られた交互作用は、髪の色で定義された層の間で投薬の効果が異なるという意味では正しい。しかし、ホントに髪の色が投薬の効果に影響しているのかどうかはわからないし、髪の色に介入して投薬の効果を最大化できるかどうかもわからない。こういう交互作用を「効果の異質性」とか「効果の修飾」という。
さて、実は投薬の効果に影響しているのはなにかの遺伝子で、髪の色はその代理変数だ、ということがわかったとする。ここまで来たのを「因果的交互作用」と呼ぶ。
実際にはこれらの用語はあいまいに使われているので、目くじら立ててもしかたないんだけど、とにかく、ある統計的な交互作用があるとき、どちらの変数も交絡の可能性があるか、片方だけ交絡が統制されているか、両方とも統制されているか、という点を区別することが大事である。 - 報告のしかた。上の喫煙とアスベストの話で言うと、アスベストのリスク比を喫煙者と非喫煙者のそれぞれについて報告する、というのはよくない。ベースラインが比較できないから。非喫煙非曝露を参照水準にして3つのリスク比を報告すること。云々。
- サブグループ間で効果の向きがちがうことを、特に「質的交互作用」とか「クロスオーバー交互作用」ということがある(←医学統計に特有な言い回しじゃないかしらん...)。この場合、仮にリソースが無限大でも全体に介入してはいけないわけで、その発見はより重要である。質的交互作用の存在について検定する方法もある。云々。
- mechanisticな交互作用について。これは「2つの曝露が揃わないと発症しない」交互作用のことで、sufficient cause 交互作用、相乗作用 (synergism) ともいう。$p_{11}-p_{10}-p_{01} \gt 0$ということだから、これはただの正の加法的交互作用よりも狭い概念である。以下、あんまり関心ないのでパス。
ふぅー。以上が前半戦。
後半戦はマニアックな話が多いし、やたらに眠いので流し読みになってしまった。
- mechanisticな交互作用がある場合でさえ、うかつにそれを「生物学的交互作用」とか「機能的交互作用」なんていわないように。遺伝要因G1とG2があり、G1=1のときにプロテイン1が作られず、G2=1のときにプロテイン2が作られないとしよう。で、どちらのプロテインも存在しないときにアウトカムDが発生しうる、としよう。これはmechanisticな交互作用だが、プロテインが生理学的に交互作用してアウトカムが発生してるわけじゃない(そもそもプロテインは存在してないんだから)。云々、云々。(←なんだか言葉遊びのようで実感が持てないが、生物系の人にとっては切実な話なのかな)
- 二つの曝露が揃うことによるリスク差なりリスク比なりオッズ比なりを、2つの曝露変数とその交互作用の計3つに分解する、という話。
- ケース・オンリー・デザイン。仮にケースだけが手に入っていたとしても、2つの曝露変数の独立性が仮定できるなら、交互作用は曝露変数のクロス表のみから推定できる。つまり、喫煙有無となにかの遺伝子型が独立だとして、肺がん患者だけを調べれば、肺がんに対する喫煙と遺伝子型の交互作用がわかるわけだ。(←意外に簡単で拍子抜けした。なにか仕事にいかせないかなあ...)
- アウトカムが連続変数だったらどうなるか。もはや加法的か乗法的かという問題はがらっと様相を変えてしまい、アウトカムの分布に依存して決めたほうが良い話になる。
- 層別する共変量の候補が複数あるとき、介入すべきサブグループを同定する、という問題。これは面白いのでちゃんとメモしておこう。
まず考えられるのは、実質的知識でもって共変量を選ぶ方法。それから、ひとつづつ共変量を選んで層別し交互作用を調べていく方法(なんならボンフェローニ法で調整する)。共変量が連続変数だと厄介である。
そこで登場するのが「効果スコア」という考え方。対象者を曝露群と非曝露群にわけ、それぞれについて、共変量でアウトカムを説明する回帰モデルをつくる(全然ちがうモデルでかまわない)。で、各対象者について、この2つのモデルでアウトカムを予測し、予測値の差を「効果スコア」と呼ぶ。で、効果スコアがある閾値を越えている人をターゲットにする。Zao et al.(2013, JASA)というのを読めとのこと。
このアプローチの難点は、オーバーフィッティングとモデルの誤指定。いずれも対策が提案されている由。Cai et al.(2011, Biostatistics)というのを読めとのこと。
ううむ、そんな発想があるのか。。。たしかに、モデリング上は曝露変数と共変量との交互作用を無視しているけど、結果的に交互作用を見つけていることになるわけだ。。。 - 交絡に対する敏感性の分析の話。パス。
- 交互作用の検定力と標本サイズ算出の話。パス。
やれやれ、長かった。
一番面白く勉強になったのはやはり、著者が力を入れて書いている加法的交互作用と乗法的交互作用の話であった。私の勤め先の仕事でいうと、2時点間の確率変化を条件間で比較するときにこの話が火を噴く。リスク差を比べるのとリスク比を比べるのでは別の結果になってしまうという問題は、多くの人を混乱の淵に叩き込む。差をみるか比をみるかってのはすごく慎重に決めないといけないのだ。
論文:データ解析(-2014) - 読了:VanderWeele & Knol (2014) ハーバード「交互作用」灼熱教室
2014年8月 6日 (水)
Guyon, I., Elisseeff, A. (2003) An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182.
題名通り、変数選択(特徴選択)についての啓蒙的レビュー。変数選択特集号の巻頭論文である。雑誌の性質はよくわからないけど、この論文は被引用頻度がものすごく高いらしい。どこかでみかけた「データマイニング必読論文」リストでも、たしか筆頭に挙げられていたと思う。
こういう工学分野の文章は苦手なんだけど、勤務先の仕事ときわめて密接に関連する話題なので、メモをとりながら頑張って読了。
1. イントロダクション
最近は数百~数万個の変数を扱う研究が増えている。その典型例は遺伝子選択とテキスト分類である。変数選択はデータ視覚化とデータ理解を促進し、測定・貯蔵の必要を減らし、訓練時間をへらし、次元の呪いを克服して予測成績を向上させる。
この特集号の研究は主に、予測のために有用な特徴の選択という課題について扱っている(opp. 関連する変数をすべて見つける課題)。従って、冗長な変数を除外するという点が問題になる。
まず変数選択のためのチェックリストを挙げよう。
- 領域知識を持っているか? 持っていたら、アドホックな特徴のセットをつくれ。
- 特徴は同じ基準で測られているか? でなければ基準化を検討せよ。
- 特長に相互依存性はありそうか? もしそうなら、連言特徴なり特徴の積なりを可能な限り含めよ。
- 入力変数を極力減らす必要はあるか? もしないなら、選言特徴なり特徴の重み付け合計なりを可能な限り含めよ。
- 特徴をそれぞれ評価したいか? もしそうなら変数ランキングをやれ。でなければまずベースラインの結果を得よ。
- 予測変数が必要か? そうでないなら中止せよ。
- データは「汚い」かもしれないか(無意味な入力パターンとか、ノイズのある出力とか)? もしそうなら変数ランキングをつかって外れ値を見つけよ。
- 最初に試すべきことが分かっているか? そうでないならまずは線形予測を試せ。プローブ法を停止規準にした前向き選択法か L0ノルム最小化法を使え。さらに、同じ性質の予測変数を追加して特徴のサブセットを大きくしていけ。それで成績が上がるようなら非線形予測を試せ。
- 変数選択の新しいアイデア、時間、計算資源、十分な事例を持っているか? もしそうなら、いろいろ試してモデル選択をやれ。
- 安定した解がほしいか? もしそうなら、サブサンプルをとってブートストラップしろ。
2. 変数ランキング
入力変数を$x_1, \ldots, x_n$, 出力変数を $y$ とする。変数ランキングとは、$x_i$ と $y$ だけを関数に放り込んで、$x_i$ の価値を表すスコアを出す方法で、変数が直交であればランキング上位の変数群を予測子として選ぶのが最適だし、そうでなくてもランキングがあるとなにかと便利である。
ランキングの方法としては、$y$との相関を調べるとか、$y$が質的だったらROC曲線のAUCとか。情報理論的な基準を使うという手もある。良くつかわれるのは相互情報量。すなわち、$p(x, y) log \{ p(x, y) /( p(x)p(y) ) \}$ を$x, y$について積分したもの。$x,y$がともに離散変数の場合ならいいけど(積分の代わりに総和すればよい)、連続変数の場合は厄介で、正規近似すると相関係数みたいなものになってしまうので、離散化するか、Parzen windowsというようなノンパラ手法で近似するのだそうだ(←へぇー。カーネル密度推定のことかしらん?)
3. 事例
- ランキングに基づく変数選択は冗長な変数セットをもたらしかねないわけだが、しかし、いっけん冗長な変数でも、それを追加することでノイズ縮減とより良い分類が得られることがある... という例を3つ紹介。ええと、2変数2クラス(散布図上で右上と左下)の分類課題で、クラス内で無相関の場合、クラス内で相関+1に近い場合(この場合はさすがに1変数でよろしい)、クラス内で相関-1に近い場合。いずれも周辺分布は同じなので、結局、各変数を単独に評価していると最適な変数群を選び損ねるかもしれないわけだ。
- とはいえ、ランキングで役に立たなそうな変数をフィルタアウトしたいと思うのが人情なのだが(オーバーフィッティングが怖いからね)、しかしいっけん役に立たなそうな変数でも実は役に立つことがある... という例を2つ紹介。ええと、2変数2クラス(散布図上で左右)の分類課題でクラス内で相関がある場合と (なるほど、周辺からみると縦軸は役立たずにみえる)、2変数4クラスの分類課題でクラスがXORに並んでいる場合(当然ながら、周辺からみると縦軸でも横軸でもクラス判別できない)。
4. 変数サブセットの選択
この辺からだんだん未知の話になってくるので、メモも怪しいのだけれど... ええと、変数選択法は次の3つに分類できる。
- フィルター。前処理の段階で変数を選択する。ランキング上位の変数セットを選ぶとか。
- ラッパー。いま関心を持っている学習器(決定木とかナイーブ・ベイズとか最小二乗線形予測とかSVMとか)をそのままブラックボックスとして使い、所与の変数セットにスコアを与える。実際には、すべての変数セットを総当たりするのはふつう無理なので、探索方略をいろいろ工夫する(Kohavi & John, 1997, AI を読めとのこと)。もっとも、オーバーフィッティングの恐怖という意味では、精緻な探索方略よりも貪欲探索が良い。
- エンベデッド。学習のプロセスにおいて変数を選択する。ラッパーより効率が良い。このアイデア、別に新しいものではなくて、たとえばCARTはエンベデッド法である。
うーむ。全変数を叩き込んだランダム・フォレストで変数重要性を評価し、上位の変数を選んでモデリングするというのはどれになるんだろう。フィルター法だということになるんだろうなあ。
著者いわく、フィルター法をバカにしてはいけない。たとえば、まず線形予測を仮定してラッパー法とかエンベデッド法で変数選択し、やおら非線形予測モデルを組む、とか(前半戦がフィルターになっているわけだ)。情報理論的なフィルターというのもある(マルコフ・ブランケット)。この辺、私には難しいので中略。
以下、エンベデッド法についての話題。貪欲探索を用いるエンベデッド法の場合、変数追加なり削除なりによる目的関数の変化を予測するわけだが、その方法は3つある。
- ほんとに追加・削除してみて、目的関数の変化を調べる。
- 削除の場合、コスト関数の二次近似を求める方法がある。
- 目的関数における変数の敏感性を調べる(←これも削除の場合かな?)
目的関数とは、要するに適合度と変数数を組み合わせたものである。これを直接に最適化して、その結果として変数セットを得ようという方法もある。L0ノルム最小化とか(...難しいので中略)。
5. 特徴構築と空間次元縮約
変数を選ぶんじゃなくて特徴を作り直しちゃうという手もある。これは本来、領域知識が活躍する状況特有的な手法だが、一般的手法がたくさん提案されている。
特徴構築には二つの目的がある。データの再現と予測の効率化である。前者は教師なしの問題、後者は教師つきの問題である。そもそもの問題が予測なのに、教師なしな視点が入ってくるのは変な感じだが、著者いわく、場合によってはそうする理由がある。たとえば、教師なしの特徴構築のほうがオーバーフィッティングに強い。
特徴構築の方法としては...
- クラスタリング。階層的クラスタリングやk-means法なんかで変数をクラスタリングし、セントロイドを特徴にしちゃうわけだ。テキスト処理で用いられることが多い(語のクラスタリング)。
- 行列因子化。特異値分解しちゃうとか。
- 教師つきの特徴選択。ニューラルネットワークの中間層とか。ほかにも2つ紹介されているけど、難しいのでパス。
6. バリデーションの方法
えーと、モデル選択と最終モデル評価は別の問題である。後者の場合、原則として評価用のデータを別に用意する必要がある。ここで論じるのはモデル選択における交差検証の話。
- よく用いられるのはleave-one-out法だが、楽観的な結果になりがち。
- 最近ではmetric-based法というのがあって、ある変数セットを使ったモデルとその部分セットを使ったモデルについて、正解ラベルのないデータでのモデル間の差が訓練データでのモデル間の差に比べて大きいとき、これって小さいモデルのほうがいいんじゃね?と考える由。ふうん。
- プローブ法というのもある。簡単にいっちゃうと、データの中に乱数をいれておいて(これがプローブ)、前向き変数選択でこれが選ばれちゃったらストップ、というようなアイデア。(←なるほどねー。ランダム・フォレストのパーミュテーション重要性みたいなものか)
7. 発展的トピックと未解決の問題
- 変数選択における分散の問題。変数選択が安定しているとは限らないわけで、ブートストラップ法で調べるとか、「ベイジアン変数選択」(←ナンダソレハ)というようなアイデアがある。
- 他の変数がある文脈における変数ランキング。最近傍アルゴリズムによるランキング、なんていう提案がある由。
- 教師なし変数選択。信頼性とかスムーズネスとか、そういう基準で変数選択するという提案があるのだそうだ。
- 前向き選択がよいか後向き選択がよいか。後向き選択のほうがよいという意見がある($x_1, x_2, x_3$があって、最良解は$x_1とx_2$、次が$x_3$のみという場合、前向き選択だと$x_3$だけで停止するから)。
- 多クラス分類。2クラス分類から簡単に拡張できる方法と(フィッシャー基準でのランキングとかね。結局ANOVAのF値だから)、そうでもない方法がある。
- 特徴選択と特長構築の関係は、パターン選択とパターン構築の関係に等しい。とかなんとか。
- 単に予測するんじゃなくて、結果を引き起こす因果メカニズムについて推測する、という問題。このxはyの原因なのか結果なのか、というような。(←そりゃ難しそうですね...)
8. 結論
変数選択の手法は発展を遂げ、洗練されたラッパー法やエンベデッド法が登場しているが、そういうのを使ったほうが良いかどうかは場合による。次元の呪いやオーバーフィッティングは依然として怖い。だから、まずはベースラインとして、ランキングか前向き/後向き法で変数選択した線形予測をするのがお勧め。
...やれやれ、終わったぞ。
いっけん難しそうであったが、意外に平易でコンパクトなレビューで、大変助かりました。細部については理解できないところも多いのだが、この論文で勉強するような話ではなかろう。
論文:データ解析(-2014) - 読了:Guyon & Elisseeff (2003) 変数選択入門
Popper, R. (2008) How are foresight methods selected? Foresight, 10(6), 62-89.
役所や研究機関や企業が未来予測 (foresight) を行うことがあるけど、EUの欧州委員会の下に世界中の未来予測を集めてデータベース化している機関があり、そのデータベースを使って「未来予測の手法がどうやって選ばれているか」を調べました、という論文。いささか酔狂な問題設定のような気もするが、まあこんな研究はそうそうできないだろう。
調べた未来予測事例は886件。なにをもって一件と呼ぶのか、具体例がないのでピンとこないんだけど、たとえば文科省の科学技術予測調査を一件と数える、という理解で正しいかしらん。それとも、あるアドホックなプロジェクト(ナンタラ審議会の提言とか)をもって一件と数えるのかなあ。
各事例は単一ないし複数の未来予測手法を使っている(平均6個だそうだ)。
さて、著者は未来予測の手法を整理する枠組みというのを持っていて("Forecast Diamond")、それによれば、これらの事例で使われていた手法は24個に分類される。それぞれの手法は、定性的手法、定量的手法、準定量的手法、に分類できる(「性質」)。さらに、それぞれの手法について、情報源がcreativity, expertise, interaction, evidenceのどれか(4つを足すと100%)という特徴が与えられている(「ケイパビリティ」)。この枠組みに基づいて件数を集計しましょう。
さらに、各事例にも属性をふる。
- 「ジオR&D文脈」属性 (要するに地域。欧州大国、北米、アジア、欧州中規模国、豪、欧州小国、南米の7つ)
- 「予測領域」属性(8つ)
- 「テリトリスケール」属性(地域レベルか国際レベルか)
- 「時間スケール」属性(2010まで, 2011-2020, など5つ)
- 「スポンサーシップ」属性(政府、非国家機関、調査機関、ビジネス)
- 「ターゲット集団」属性(政府、リサーチコミュニティ、企業、NGOなど8つ)
- 「参加スケール」属性(オープンか否か)
- 「アウトプット種類」属性(政策提案、トレンド分析、シナリオ、など6個)
- 「手法ミックス」属性(異なる手法をどうやって組み合わせて使っているか)。
で、各属性ごとに件数を集計しましょう。
結果はいろいろと長いのだが、申し訳ないけど本題にはあんまり関心がないので省略。チャートをみていると、アジア(日韓)はあんまり文献レビューをやらず、ブレインストーミングやモデリングやインタビューが大好きなんだそうです。
というわけで、後半はパラパラめくっただけで済ませたんだけど、むしろ関心があるのは、24個の未来予測手法、そしてそれを整理する著者の枠組み "Foresight Diamond" である。事例において使用頻度が高い順に、Diamond上の位置を拾っていくと...
- 文献レビュー。4つの情報源のうち、これはevidenceに基づく手法である。
- 専門家パネル。expertise。
- シナリオ。creativity。
- トレンド外挿/メガトレンド。過去-現在-未来のトレンドを考える。evidenceだがexpertise寄り。
- 未来ワークショップ。interaction。
- ブレインストーミング。interaction。
- インタビュー。ちょっとevidence寄りのexpertise。
- デルファイ。interaction寄りのexpertise。
- キー技術。これからキーとなるであろう技術のリストをつくる。expertise。
- 質問紙/サーヴェイ。これは4つのケイパビリティに対してニュートラル。
- 環境スキャニング。社会とか技術とか経済とかについて、観察して検討して監視して体系的に記述する手法。evidence。
- エッセイ。ある未来イメージについて、そこに至ったトレンドとか、ステークホルダーの役割とかを詳細に記述する手法。creativity。
- SWOT分析。ニュートラルだがややcreativity寄り (なぜだろう?)
- 技術ロードマッピング。expertise。
- モデリングとシミュレーション。もちろんevidence。
- バックキャスティング。ある想像上の未来から出発し、そうなった道のりを逆向きに考える手法。expertiseだがcreativity寄り。
- ステークホルダー・マッピング。どのステークホルダーにとってなにが利益か、を分析していく。interation。
- クロスインパクト/構造分析。「この変数はこの変数に影響するよね」というふうに書きこんで行ってマトリクスをつくる手法、だそうである。interactionだがevidence寄り。
- ビブリオメトリクス。文献の定量分析。evidence。
- 形態分析。問題とその解決策をマッピングする手法、とのことである。ニュートラル。
- 市民パネル。interaction。
- リレバンスツリー。問題から出発して階層的に分解していく手法だそうな。QCで使う魚の骨みたいなやつかなあ。expertise。
- 多基準分析。いろんな施策について、複数の基準で星取表のようなものをつくるらしい。ニュートラル。
- ゲーミング。説明を読んでいると、どうやら机上演習というような意味合いらしい。creativity。
へー。いろいろあるものね。
論文:マーケティング - 読了: Popper (2008) どんな未来予測でどんな予測手法が使われやすいか
2014年8月 5日 (火)
見えない日本の紳士たち (ハヤカワepi文庫)
[a]
グレアム グリーン / 早川書房 / 2013-04-30
ハヤカワ文庫のG.グリーンの新訳シリーズのうち、短篇集はこれと「二十一の短編」「国境の向こう側」の三冊だと思う。どういう基準で分けているのかしらん。
長いこと時間を掛けて読んでいたのだけれど、えーっと、この短篇集では表題作「見えない日本の紳士たち」が印象に残った。あとは、ドタバタ喜劇「諸悪の根源」、幻想譚「庭の下」かなあ。全体に、グリーンらしくないというか、この作家の幅の広さを思い知らされるセレクションであった。
R.A.フィッシャーの統計理論―推測統計学の形成とその社会的背景
[a]
芝村 良 / 九州大学出版会 / 2004-03
近代統計学の父(?) R.A.フィッシャーの研究とその社会的文脈を辿る、統計学史の本。著者の博論だそうです。
面白かった箇所をメモ:
帰無仮説や有意水準といった新しい概念を導入し、従来明示的でなかった統計的検定の手続きを形式化したフィッシャーの業績は、高度な専門的知識を持たず、農事試験の現場から得られた洞察力を理解する経験を持たない農業従事者と、これらを持つ専門家間での実験結果の解釈をめぐるコミュニケーションの規則としての機能を、有意性検定に付与したといえる。従来、フィッシャーの有意性検定論は専ら「科学的な帰納的推理の論理」から論じられてきたといってよい。しかしながら [...] 農事試験の領域においてフィッシャーによって展開された有意性検定が、この領域で受け入れられていった過程は「科学的な帰納的推理の論理」だけでは説明がつかない。このことは[...]農事試験の目的が、純粋な科学上の目的で行う実験と同一視できないことと関連がある。従って、フィッシャーの有意性検定について論じる際は、それに対して資本化された農業における農事試験の論理が相当程度影響していることに留意する必要がある。(p.87)
[検定論をめぐるフィッシャー-ピアソン論争について、両者の] 相違点は、①検定の目的の違い、②自由度の概念の有無、③有意水準の設定の有無=明確な判定基準の有無、および④帰無仮説の明示化の有無の4点が挙げられる。[...フィッシャーの] 有意性検定では[分散分析の変動の分解を通じた]帰無仮説の棄却=標本特性値の有意性の査定が目的であるのに対し、K. ピアソンの検定論の目的は経験分布と理論分布との乖離=誤差の小ささを確認することであった。[...] つまりK.ピアソンは誤差の存在を観測の失敗ととらえ、誤差を大数観察により減少させようとしたのに対して、フィッシャーは誤差の存在を認め、それを正確に推定しようとしたのであり、ここに誤差に対する認識の相違が確認できる。[...②もここから説明できるという記述があって...] 残る相違点③④からは、フィッシャーが有意性検定の手続きの形式化を志向したことが窺えるが[...] この志向は当時の農事試験が抱えていた問題と関連している。[...フィッシャーは] 誰の手によってもただ一つの結論しか導かれない実験計画法に立脚して農事試験を行うことによって、肥料を購入する人々への説得をより容易にすることを狙ったものと解釈できるのである。(p.108-110)
へぇ-...
とこのように、一貫して数理統計研究と社会的要請との関係を重視して書かれた本であった。勉強になりましたです。
沈みゆく帝国 スティーブ・ジョブズ亡きあと、アップルは偉大な企業でいられるのか
[a]
ケイン岩谷ゆかり / 日経BP社 / 2014-06-18
ルポ 終わらない戦争――イラク戦争後の中東
[a]
別府 正一郎 / 岩波書店 / 2014-03-15
ノンフィクション(2011-) - 読了:「沈みゆく帝国」「ルポ 終わらない戦争・イラク戦争後の中東」
消費者の歴史 ― 江戸から現代まで
[a]
田村正紀 / 千倉書房 / 2011-05-02
江戸時代にはじまる「消費者の通史」。これ、どういう読者層に向けた本なのだろうか...
リメイク 1 (マッグガーデンコミックス EDENシリーズ)
[a]
六多 いくみ / マッグガーデン / 2013-04-13
派遣OLからデパートの美容部員に転職した25歳独身女性が主人公。版元はマッグガーデンだが、掲載誌はエンターブレインのwebマガジンであった模様(おそらく途中で打ち切り、移籍して再開したのだろう)。
いやー、なんというか、総体として女子力が高い人たちの話で、恐ろしいわ...
不器用な匠ちゃん 4 (MFコミックス フラッパーシリーズ)
[a]
須河篤志 / KADOKAWA/メディアファクトリー / 2014-02-22
不器用な匠ちゃん 5 (MFコミックス フラッパーシリーズ)
[a]
須河篤志 / KADOKAWA/メディアファクトリー / 2014-07-23
ええ年こいた社会人たちの初恋ラブコメディという面白い設定なのだが、上記の美容部員さんマンガと読み比べると、落差が凄まじい。このマンガ、女性からみてどうなんですかね。こんな初々しいヒロイン、やはり男性の妄想に近いのだろうか。
とも路
[a]
谷口 ジロー,荻原 美和子 / 双葉社 / 2014-08-02
世界的コミック作家、谷口ジローさんの久々の新作... なのだけど、どうも様子がおかしい。実在の女性の半世紀らしいのだが、なぜか少女時代の描写ばかりで話を終えてしまうし、有名な人のはずなのに誰だかさっぱりわからないし、主人公の人柄があまりに出来過ぎている。
最後まで読んでやっと得心した。発表媒体は真如苑という宗教団体の機関誌、主人公は教祖の奥さんなのだそうです。そういう仕事であったか。
めしばな刑事タチバナ 14 (トクマコミックス)
[a]
坂戸 佐兵衛 / 徳間書店 / 2014-07-31
ままごとは、ほんのむし。 (SPコミックス)
[a]
たからもも。 / リイド社 / 2014-07-25
ZUCCA×ZUCA(9) (KCデラックス モーニング)
[a]
はるな 檸檬 / 講談社 / 2014-07-23
あさひなぐ 12 (ビッグコミックス)
[a]
こざき 亜衣 / 小学館 / 2014-07-30
好きだけじゃ続かない (ビームコミックス)
[a]
松田洋子 / KADOKAWA/エンターブレイン / 2014-05-24
BLUE GIANT 3 (ビッグコミックススペシャル)
[a]
石塚 真一 / 小学館 / 2014-07-30
大ヒット作「岳」の作家の最新作、三巻目。このマンガで大変興味深いと思うのは、単行本で読んでいる限り、読者は主人公の高校生がやがて世界的なミュージシャンになるであろうという前提で物語を追うことになる、という点である。なぜそういう仕掛けにしてあるのだろう?
おそらく、このマンガが描こうとしているのはひとつのきわめて爽やかな青年の生き方であって(「岳」と同じだ)、余計な葛藤に注意を割かれたくないからではないかと思う。ハッピーな未来が見えていれば、物語全体が説話的な穏やかさに覆われる。もっとシニカルにいうと、主人公は受験も就職も一切考えず、ただプロのミュージシャンになることを信じ、自宅近所の川縁で日がな一日サックスを吹きつづけている高校三年生なわけで、もしこの子の将来が見えてないとしたら、ちょっと痛々しくて読んでられないかもしれない。
コミックス(2011-) - 読了:「BLUE GIANT」「好きなだけじゃ続かない」「あさひなぐ」「ZUCCAxZUCA」「ままごとはほんのむし」「とも路」「めしばな刑事タチバナ」「不器用な匠ちゃん」「リメイク」
Jurca, R., Falting, B. (2008) Incentives for expressing opinions in online polls. EC '08: Proceedings of the 9th ACM conference on Electronic commerce.
いま一番気になる男(私の中で)、GoogleスイスのR. Jurcaさんの研究。小さいフォントで10pある論文だが、要するに、Prelecのベイジアン自白剤(BTS)をオンライン化しました、というものである。オンライン化というのはつまり、調査終了まで待たずとも報酬が決まるという意味。
面倒なので一部端折って読んでいるのだけれど... 理解した限りで、提案手法を平たく言い換えると、こんな感じである。
例として、2択の設問に対するオンライン投票を考える。「世界経済は不況に突入するでしょうか?」というような、正解のない設問でかまわない。
「世界経済は不況に突入すると思いますか? 賛成か反対かでお答えください。なお、この調査に対してあなたよりも前に答えた人たちの賛成率はX%です。
さて、これから回答していただくわけですが、回答とあわせて、あなたの『参照回答者』を決めてください。決め方は次のどちらかです。(1)『次の回答者』と指定する。このとき、あなたの次に回答した人があなたの参照回答者になります。(2)『閾値θ』を指定する。θは、もしあなたの回答が『反対』ならば0%とX%の間の値、あなたの回答が『賛成』ならばX%と100%の間の値でなければなりません。この指定を選んだ場合、あなた、あなたの次の回答者、あなたの次の次の回答者...が回答するたびに、その時点での賛成率を再計算し、その値がX%とθの間に入るまで待機します。賛成率がこの範囲に入り次第、その次の回答者があなたの『参照回答者』になります。
さて、この調査に回答してくださった報酬は次のルールで決まります。もしあなたの『参照回答者』の回答とあなたの回答が一致していたら、報酬が支払われます。報酬額は、もしあなたの回答が賛成ならあなたが回答した直後の反対率、あなたの回答が反対ならあなたの回答の直後の賛成率に、ある定数を掛けた値になります。いっぽう、もしあなたの『参照回答者』の回答とあなたの回答が異なっていたら、報酬はゼロです。
それでは回答してください。賛成ですか、反対ですか?」
著者らいわく、この報酬メカニズムは"very simple"とのこと。嘘をつけっ!
えーと、この仕組みによって、調査対象者の真の賛成率が明らかになるのである。以下、その説明。
次のように想定する。すべての対象者は、全対象者の意見の分布についての事前分布を共有している。さらに、対象者 i は自分の意見 s_i ={0,1} を持ち、これをシグナルとして全対象者の意見の分布をベイズ更新する。意見 w={0,1}についての s_i の下での事後分布を Pr[w | s_i] とする。BTSと同じセッティングですね。
t 番目の回答者の意見を s_t, この回答者の回答を r_t, そこまでの賛成率を R_t, 報酬を \tau_t(s_t)とする。対象者 t には R_{t-1}が提示されるわけである。
さて、共通の事前分布を自分の意見でベイズ更新しているのだから、Pr[1|0] < Pr[1|1] である。ということは、提示されるR_{t-1}は次の3通りあって...
- (1) R_{t-1}がPr[1|0] より小さい場合。このとき、t 番目の回答者は自分の意見とは無関係に賛成と答えるのが合理的である。なぜなら、現状の賛成率 R_{t-1}は不当に低い。もし自分が反対と答えたら賛成率R_t はさらに低くなる。すると、t+1 番目の回答者はきっと賛成と答え、反対率 1-R_t に応じた報酬を狙うだろう。従って、次の人が参照回答者なら自分の報酬はゼロになる。もっと先の人が参照回答者になったとしても、やはり賛成率が低いぶんだけその人は賛成と答えやすく、自分の報酬はゼロになりやすい。ここは賛成と答えるのが合理的だ。
- (2) R_{t-1} がPr[1|1] より大きい場合。このとき、上と同じ理屈で、t番目の回答者は自分の意見とは無関係に反対と答えるのが合理的である。
- (3) R_{t-1} がPr[1|0] とPr[1|1]の間にある場合。仮にこの回答者の意見 s_t が 反対だとしよう。いま、この状況で私が誠実に答え、ほかの人も誠実に答えるとすると、参照回答者が j 番目の人だとして、その人にとっても、やはりR_{j-1}はPr[1|0]とPr[1|1]の間にあるはずだから、やはり誠実に答えるはずだ。従って j 番目の回答者と回答が一致する確率は確率はPr[0|0] = 1-Pr[1|0]だ (※ここがよくわからない。なぜs_j = 0 と言い切れるのか?)。このとき利得は(1-Pr[1|0]) \tau_{t-1} (0) である(※おかしい。\tau_t (0)の間違いではないか)。いっぽう、この状況で私が嘘をつき賛成と答える、しかし j 番目の人は嘘をつかないとすると、利得はPr[1|1] \tau_{t-1} (1) である。これを解くと、誠実な回答のほうが利得が大きい。s_t が賛成だったとしてもそうである。従って回答者は誠実に答えるのが合理的である。
...という戦略がナッシュ均衡になる。なお、わざわざ参照回答者として次の回答者ではなく未来の回答者を指定できるようにしているのは、人数が少ないとき、(1)の状態が(2)の状態にオーバーシュートしちゃったりするかもしれないからである由。
さて、このとき投票の最終結果は真の意見分布に収束する。なぜなら、中間集計された賛成率 R_t がPr[1|0]とPr[1|1]の間にある限り対象者は誠実に回答するし、外側にあったらそれを内側に動かすように回答するからである。
なお、全員が反対と答え続ける、賛成と答え続ける、ランダムに答え続ける、といった戦略もナッシュ均衡ではあるがそういうことは起きないだろう、共謀にも抵抗できるだろう、云々という説明がある。パス。
ちゃんと読んでないのに申し訳ないのですが... 通常のオンライン投票にこういう報酬スキーマを追加するのは、さすがに現実的でないような気がする。参加者にとっては複雑すぎて理解できないのではないか。いっぽう、たとえばデルファイ法のような専門家の知識集約の仕掛けとして使う、予測市場に類した意見集約ゲームとして使う、といった場面ならば想像しやすいと思う。
論文:予測市場 - 読了:Jurca & Falting (2008) オンライン自白剤
2014年8月 4日 (月)
Faltings, B., Li, J.J., Jurca, R. (2012) Eliciting Truthful Measurements from a Community of Sensors. 3rd International Conference on the Internet of Things.
ベイジアン自白剤について調べていて見つけたもの。仕事とは直接関係ないので、別に読まなくてもいいんだけど、あまりにナナメウエな発想に呆れて、つい目を通した。第三著者のRadu Jurcaさんという方、チューリッヒのgoogleにお勤めらしいのだが、こういう(私から見て)想像の範囲を超えた突拍子もない研究をしていて、気になる人である。
いろんなモノがネットでつながる時代になると、個々人が所有するモノから広く情報を集めて活用したくなる。そういうのをコミュニティ・センシングという。ところが、個々人が正しい値を報告してくれるとは限らない。もしあとで正解がわかるなら、それと突き合せて報酬を渡すこともできるだろうが、ふつう正解はわからない。そこで、真実申告にインセンティブを与えるメカニズム、その名も「ピア自白剤 peer truth serum」を考えました。という論文。
たとえば、大気汚染を測っているセンサーについて考えよう。ある場所と時点において、大気汚染のレベル V がN段階で表現できるとする。すなわち V = {v_1, ... v_N}。
各エージェントは観察 o に基づきレポート s を刻々とセンターに送りつづける。センター側は集めた情報をモデルに入力し(それがどんなモデルかはこの際どうでもよい)、地域 l, 時点 t における汚染がレベルvである確率 R^{l,t}(v) を出力する。
各エージェントは、次の時点でセンターが出力する汚染レベルが v である確率 R^{l, t+1}(v) について、自分なりの信念を持っている。o を測定する前の信念(事前信念)をPr^{l, t}(v), 測定した後の信念(事後信念)を Pr^{l,t}_o (v) とする。以下、上添字 l, t は略記する。
各エージェントがどうやって信念を更新しているのかは問わないが、ベイズの定理に従って、次のような意味で「合理的に更新」していると想定する。
[命題1] Pr_x(x) / Pr(x) > Pr_x(y) / Pr(y)
すなわち、センサーが「あっ汚染度高っぽい!」と観察したとして、「汚染度は高だ」という主観確率は変わるだろうし、ひょっとしたら「汚染度は中だ」の主観確率も変わるだろう。それはどうでもいいけど、「汚染度は高だ」の主観確率の増大率は、「汚染度は中だ」の主観確率の増大率よりも高くなきゃおかしい、という話である。
さて、ピア自白剤の基本的なアイデアは以下のとおり。
事前確率分布 R が共有されているとしよう(←なかなかぴんとこなかったのだが、センターが発表した最新の確率分布だと考えればよいのだと思う)。さらにセンターは、誰かのレポート m を参照値としているとしよう(←これも意味がよくわからなかったのだが、エージェントがそう信じているという点がポイントで、実際に誰の測定値を参照値にしているかはどうでもよい)。
レポート s を報告してきたエージェントに対する報酬を、\alpha + \beta \tau (s, m, R) とする。ただし、\alphaと\betaは正。\tau(s, m, R)は、s=mのときに 1/R(m), それ以外のときに0とする。
つまり、「あなたのレポートsがセンター側の参照値 mと一致しているときのみ、m の共有事前確率に反比例した報酬を払いますよ」というルールである。
これがなぜ真実申告メカニズムなのかというと...
まず、すべてのエージェントの事前信念が、共有事前分布とある程度一致している場合について考えよう。任意のvについての事前信念 Pr(v)の上下±\epsilonの範囲内に、共有されている事前確率 R(v)が入っているものとする。すなわち
Pr(v) + \epsilon > R(v) > Pr(v) - \epsilon
さて、oを観察し s をレポートするエージェントの報酬の期待値は
pay(o, s) = \alpha + \beta \sum_x Pr_o (x) \tau (s, x, R) = \alpha + \beta Pr_o(s) / R(s)
これが真実申告メカニズムであるとは、任意の v について pay(o, o) ≧ pay(o, v) であるということだ。上の式を代入して
Pr_o(v) / R(v) ≦ Pr_o(o) / R(o)
逆数をとって
R(v) / Pr_o(v) ≧ R(o) / Pr_o(o)
左辺分子のR(v)の下限は Pr(v) - \epsilon, 右辺分子の上限はPr(o) + \epsilonだから、この式は
(Pr(v)-\epsilon) / Pr_o(v) ≧ (Pr(o)+\epsilon) / Pr_o(o)
のときに成り立つ。つまり、エージェントの事前信念と共有事前分布 のあいだのずれが \epsilon 未満であれば、ピア自白剤ルールは真実申告メカニズムになる。イエーイ。
この \epsilon の値は単純な算術で求められる。つまり、すべての v, o (v \neq o) において
( Pr(v)Pr_o(o) - Pr(o)Pr_o(v) ) / ( Pr_o(v) + Pr_o(o) )
を求めた、その最小値が \epsilon である。
... ほんまかいな。試してみましょう。いま、大気汚染のレベルが{低, 中, 高}の3段階で、
エージェントの事前信念は{0.2, 0.6, 0.2}
「低」を観察したエージェントの事後信念は{0.6, 0.3, 0.1}
「中」を観察したエージェントの事後信念は{0.1, 0.8, 0.1}
「高」を観察したエージェントの事後信念は{0.1, 0.3, 0.6}
としよう(これは合理的更新である)。計算すると \epsilon = 1/9なので、共有事前分布をたとえば {0.25, 0.5, 0.25} とする(ズレは\epsilon未満におさまっている)。あるエージェントが「低」を観察したとしよう。「低」と報告したら報酬の期待値は 0.6/0.25 = 2.4。「中」と報告したら 0.3/0.5 = 0.6。「高」と報告したら0.1/0.25=0.4。真実申告において期待値最大である。「中」「高」を観察した場合でもそうなる。
さあ、ここからがすごく厄介です。
エージェントの事前信念が共有事前分布と一致しているとは限らない。たとえば上の例で、共有事前分布が{0.5, 0.1, 0.4}だとしよう。エージェントが「低」を観察したとして、「低」と報告したら報酬の期待値は 0.6/0.5 = 1.2, 「中」と報告したら0.3/0.1=3, 「高」と報告したら0.1/0.4=0.25。「低」を観察したにも関わらず、「中」と報告したほうが期待値が大きい。つまり、エージェントは嘘をつく動機を持っている。
ところが... ここでまた呆気にとられたのだけど、著者はこう主張する。こういう場合は「中」と報告してもらったほうがいいのではないか? だって、エージェントは「現に目の前で交通渋滞が起きている」というような、センターが知らないことを知っているのかもしれないのだから。
真の分布 Q(\dot) を想定する。すべての v において共有事前分布 R(v) よりも事前信念 Pr(v)のほうが真の分布 Q(v)に近いとき、事前信念 Pr (\dot) は"informed"であると呼ぶことにする。
ここの段落、すごくわかりにくいので逐語訳。
こうした場合、公共的なマップ R がなるべく早くプライベートな信念へと収束することがもっともhelpfulだろう。そこで以下では次のことを示す。ピア自白剤はhelpfulな報告にインセンティブを与える。すなわち、必ずしもtruthfulではないやりかたで、公共的なマップを真の分布へと近づけていく報告にインセンティブを与える。
したがって、収束は2つの段階を通じて生じる。
1) まず、さまざまなプライベートな事前分布と、公表されている汚染マップが、同一の分布へと収束し、共通の参照枠を構築する。
2) この参照枠が構築されると、インセンティブはtruthfulな報告に与えられるようになり、公共的マップとプライベートな事前分布が真の分布へと漸近的に収束する。
こうした2段階プロセスはコミュニティ・センシングにとってとても意義あるものである。なぜなら、センサーはふつうシステムにある長い時間にわたって存在し、その初期フェイズはネットワークに参加する際に通過しさえすればよいからである(since a sensor is usually present in the system for an exteded period of time and will only have to pass the initial phase once when joining the network)。
ううむ、なにをいっているのかさっぱりわからない。truthfulな報告とは、客観的真実に近い報告という意味ではなく、観察をそのまま報告するということでしょう? ピア自白剤がhelpfulかどうかはともかく、ピア自白剤がtruthfulな報告を引き出すとはいえないのではないか?
まあとにかく、ピア自白剤がhelpfulだという説明を追いかけよう。
すべてのエージェントの事前分布がinformedだという想定の下で、次の命題が成り立つ。
[命題2] Pr(a)/R(a) > Pr(b)/R(b) ならば、aを観察したエージェントがbと報告することはない。
証明。あるエージェントが a を観察したとする。このエージェントが「参照値 m は真実である」と信じているとしよう。このときは、aを報告する期待値は Pr_a(a) / R(a)。aを観察してbを報告する期待値はPr_a(b) / R(b)。前者のほうが大きいことは簡単に示せる(略)。したがってこのエージェントはbではなくaを報告する。
では、このエージェントが「参照値 m を報告しているエージェントはなんらかのinformedな事前分布のせいで嘘をついている」と信じていたらどうなるか。この場合でも、そいつがaを観察しているにも関わらずbと報告することはない。だからやはり、このエージェントはbではなくaと報告する。証明終わり。
現在の共有事前分布Rにおいて、エージェントから見て過小評価されている (R(a)<Pr(a)) 値の集合をA, 過大評価されている値の集合をBとする。informedな事前分布を持っているエージェントについて、次の命題が成り立つ。
[命題3] Bの報告総数は、そのエージェントのPr(b)の和を超えない。
証明。aにおいてR(a)/Pr(a)<1, bにおいてR(b)/Pr(b) ≧1である。命題2より、Aのなかにはいっている値を観察したエージェントがBのなかの値を報告することはない。したがって、Bの報告総数は、Bの値の真の頻度の和 \sum Q(b) を超えない。このエージェントはinformedだから、\sum Pr(b)は \sum R(b)よりも \sum Q(b)に近い。ということは、\sum Q(b) ≦ \sum Pr(b) ≦ \sum R(b) という順に並ぶ。ということは、Bの報告総数は、そのエージェントのPr(b)の和を超えない。証明終わり。
すでに狐につままれているが、まだ続くぞ!
[命題4] 有限回の更新を通じて、R(b) < Pr(b) + \epsilon, R(a) > Pr(a) - \epsilonである。
証明。命題3より、Bの報告総数はエージェントの事前信念の和を超えない。したがって共通事前確率は次第に減少し事前信念に近づく。逆にAの報告総数はエージェントの事前信念の和以上である。したがって共通事前確率は次第に増大し事前信念に近づく。証明終わり。
というわけで、エージェントがinformedな事前信念を持っていれば、ピア自白剤の下での報告を集積してつくった共通事前分布はその事前信念に近づいていく、というわけである。
ぐぬぬぬぬ。全然納得できない。すごく騙されているような気がするんだけど、どこで騙されたのかわからない。。。
ここで当然の疑問となるのは、エージェントの事前信念がinformedでなかったらどうなるのさ? という点であるが... 全訳しよう。
プライベートな事前分布がinformedでない場合、こうした収束は生じるかもしれないが保証されない。もっとも、そんな事例は現実的でない。エージェントがセンターの知らない背景情報を持っていたら事前信念はinformedであるはずだし、そうでないならそのエージェントはセンターが示した分布を信じるはずだから。また、これとは別の問題として、エージェントのプライベートな事前分布がinformedではあるがお互いに著しく異なっていたらどうなるか、という問題もある。
どちらの場合にせよ、合理的なエージェントなら、モデルの出力についての彼らの信念を、公表された分布 R へと徐々に近づけていくはずである。したがって、それらはいずれ単一の分布へと収束する。もっともこうした収束は遅すぎるかもしれないが。
ううううむ。そうか?そうなのか?
論文は、このあと簡単な数値例を示し、正解を使ったproper scoring ruleよりも提案法のほうが優れていることを示している。省略。
いやあ、最初から最後まで奇想天外、話がどう転がるか全くわからない論文であった。
そもそも、タイトルにはeliciting truthful measurement と書いてあるけれど、ある報告において真実申告が均衡解になるようなメカニズムを提案しているわけではないのである。
よくわからないんだけど、あるエージェントがものすごく奇妙な、informedでない事前信念を持っていたとして(「日付に3のつく日は大気汚染がひどくなるはずだ、だから空気は綺麗だけど汚染度高って報告しちゃうぞ」とか)、報酬と確率分布Rをフィードバックするということを繰り返したとして、このエージェントが事前信念を修正するという保証はどこにあるのだろうか。合理的なエージェントならばベイズの定理に従う、とはいえるだろう。合理的なエージェントならば各時点における期待効用の最大化を図るはずだ、ともいえるだろう。でも、合理的なエージェントならば報酬のフィードバックの繰り返しを通じて変な外部情報に頼るのをやめてくれるはずだ、といえる理由はあるのだろうか?
まあとにかく、こんな問題と発想があるのかという意味で、大変勉強になりました。