elsur.jpn.org >

« 2014年7月 | メイン | 2014年9月 »

2014年8月29日 (金)

Ishihara, M. & Ching, A. (2012) Dynamic Demand for New and Used Durable Goods without Physical Depreciation: The Case of Japanese Video Games. Working Paper, Rotman School of Management, December 15, 2012.
 ちょっときっかけがあって目を通した論文。ほとんどの部分をすっ飛ばしてめくったのだが(すみません)、正直、圧倒的な知識不足のせいで、8割くらいは理解できない感じだ。8割っていうと、10行に8行は墨塗りされている状態ですからね。敗戦直後の教科書よりすごいぞ。

 CD・DVDとかビデオゲームとかは、中古品の市場のせいでメーカーの利益が低下してるんじゃないか(代替効果)という見方と、消費者は先々に売ることを見越して買うから新品の売上はむしろ伸びてんじゃないか(転売効果)という見方があるんだそうだ。面白いっすね。
 というわけで、消費者の新品・中古品の売買についてのモデルを組む。といっても、日頃おなじみの、個人レベルの購買行動データなり調査データなりコーザルデータなりを組み合わせてSEMのモデルを組みましたという牧歌的な話ではなく、まず個人の最適行動の動的モデルをも・の・す・ご・お・く苦労して作り、最後にパラメータを累積レベルのデータから推定する... なんというか、そういう大変難しい奴である。

 消費者をi, ゲームのタイトルをg, 時点をtとする。t=1が発売時点で、当然ながら消費者はタイトルgを持ってないし、中古品も売られていない。
 ある時点において、ある消費者は、あるタイトルについての決定を行う。その時点でそのタイトルを持っていない消費者の決定を j = {0,1,2} で表す。0は「買わない」、1は「新品を買う」、2は「中古品を買う」である。持っている消費者の決定を k = {0, 1} であらわす。0は「売らない」, 1は「売る」である。
 あるタイトルを売った消費者はそのタイトルの市場から消える。また、あるタイトルの市場は t = T において閉鎖される (実際、チャートをみると、ゲームというのは発売した週にどかんと売れ、急激に下がって、発売10週くらいで全然売れなくなるらしい。おそろしい世界だ...)。
 添え字を省略して、新品の価格をp_1、中古品の価格をp_2、中古の引取価格をrとする。業者の中古品在庫量をY、購入からの経過時間を \tau とする。えーと、需要と供給にunobserved shockがあると考え、新品需要で\xi_1, 中古需要で\xi_2, 中古供給で\xi_sとする。そのタイトルが発売されてから発売されたゲームのタイトル数をCとする。
 消費者は各時点で割引期待効用を最大化するように決定すると考える。

 ある時点でのあるタイトルの効用とはなにか。
 時点 t において手持ちのタイトル g から引き出せる主観的価値を v^g (t, \tau)とする。つまり、価値はタイトルの特徴、発売からの時間、購入からの時間で決まり、新品で買ったか中古で買ったかとは無関係だ、というわけである。個人差も無視する。
 v^g (t, \tau)をどう定式化するか。発売時点で買ったときの価値を v^g(1, 0) = \gamma^g とする。で、購入が遅れるごとに目減りすると考える。割引率を\varphi(t)として、v^g(t+1, 0) = (1 - \varphi(t)) v^g(t, 0)。
 割引率についてはこう考える(論文にはもっとかっこよく書いてあるけど、私向けに平たく書き直します)。まず発売の翌時点については、
 \varphi(1) = logit^{-1} (\phi_1)
それ以降は
 \varphi(t) = logit^{-1} (\phi_2 + \phi_3 ln(t-1))
logitの逆関数 (すなわち exp(x) / {1+exp(x)}) で変換しているのは、要するに0から1の間に落としたいからであろう。発売の次の時点だけ特別扱いしているのは、実際にゲームの売り上げって発売から少したつと売上ががた落ちするから。
 次に、持っている期間による目減り。割引率を\kappa(X_{g\tau})として、
 \kappa(X_{g\tau}) = logit^{-1} X'_{gr} \delta
X'_{gr}は製品特性のベクトルで、具体的には、ゲームが物語に基づいているか、マルチプレーヤーか、批評家の平均評価、ユーザの平均評価、そして\tau そのものであるとのこと。

 買いの決定によってその時点に得られる効用 u^g_{ijt} について考えよう。

なお、誤差項\epsilon^g_{ijt}は極値分布に従うと考え(あとでロジットモデルに入れる気だからでしょうか)、消費者と時点を通じてはIIDだけど、選択肢 j を通じては相関があると考える。ええと、まず買うか買わないか決めて、次に新品か中古か決める、というネステッド・ロジットの形にするそうです。詳細略。

 さあ、今度はもっているタイトルの効用だ!くじけるな!
 購入から \tau 経過した手持ちタイトル g から得られる当期の効用 w^g_{ikt}(\tau) について考える。

なお、誤差項e^g_{ikt}はIIDに極値分布に従う。

 以下、添字g は適宜省略する。
 ここまではある時点の効用である。でもややこしいことに、消費者は決定にあたって先読みするので、その価値を考えないといけない。さあ、深呼吸して...
 まず売りの決定から。関係するパラメータは引取価格 r_t, 在庫量 Y_t, 供給ショック \xi_{st}, 時点 t , 保有期間 \tau だ。これをベクトル s_{t, \tau} にまとめる。
 選択肢 k の価値を W_{ik} (s_{t, \tau})とする。で、"the integrated value function(or Emax function)" をW_i (s_{t, \tau})とする。なんと訳すのかわからないが、「売る」(k=1)ことの価値と「いまは売らない」(k=0)ことの価値をひっくるめたもの、というような意味合いらしい。素養がなくてわからないが(ベルマン方程式というそうだ)、結局
 W_i (s_{t, \tau}) = ln {\sum_k W_{ik} (s_{t, \tau})}
となる由。要するに合計みたいなもんだろう。わかりました、信じます。

あああ、気が狂う。まあとにかく、これでそれぞれの選択肢の価値がわかった。選択確率はふつうの選択モデルみたいに、
 Pr (k | s_{t, \tau}; i) = exp(W_{ik} (s_{t, \tau})) / (分子の和)
 とする。

 買いの決定。パラメータは新品価格 p_{1t}, 中古価格 p_{2t}, 引取価格 r_t, 在庫量 Y_t, 競合量 C_t, 需要ショック(\xi_{1t}, \xi_{2t}), 時点 t。これをベクトル b_t にまとめる。"integrated value function"を V_i(b_t), 各選択肢の価値を V_{ij}(b_t)とする。今回も
 V_i(b_t) = ln {\sum_j exp(V_{ij}(b_t))}
となる。よくわかんないけど、はい、信じます。

選択確率は、3択の選択モデルではなく、まず買うか買わないか決める、次に新品か中古か決める、という2段階の選択と考える。ややこしいので略。

 最後に、売上のモデル化。
 消費者がタイプ1, 2, ..., l に分かれていると考える。タイプlの割合を\psi_lとする。タイプlのまだ買っていない消費者のサイズをM^d_{lt}とする。これは各期の購入率Pr(1|b_t; l)+Pr(2|b_t; l)ぶんだけ目減りしていくんだけど、同時に市場が大きくなって新規参入する人もいるとする。市場への新規参入者はタイプ別割合\psi_lを守って各タイプに参入してくるものとする。そのサイズをN_{lt+1}とする。結局
 M^d_{lt+1} = M^d_{lt}(1-\sum_{j=1}^2 Pr(j|b_t; l)) + N_{lt+1}
 タイプlの所有者の、所有期間別のサイズを M^s_{lt}(\tau)とする。まず \tau=1の場合。非所有者に購入確率をかければ良い。すなわち
 M^s_{lt+1}(1) = M^d_{lt} \sum_{j=1}^2 Pr(j|bt; l)
\tau>1になると、これが徐々に目減りしていく。あっ、そうか... tではなく\tauについて考えているからそうなるんだ。頭いいなあ。
 M^s_{lt+1}(\tau) = M^s_{lt}(\tau-1) Pr(k=0 | s_{t, \tau-1}; l)
 というわけで、時点 t における新品・中古品の需要は、上のM^dに購入確率をかけ、タイプを通じて足し上げ、誤差をつけたものになる。いちおうメモしとくと
 Q^d_j (bt) = \sum_l M^d_{lt} Pr(j, b_t; l) + \epsilon_{jt}
 うわー、ほんとに累積レベルの売上にたどり着いてしまった。魔法を見ているようだ。

 データ。2004-2008年に日本で発売された20個のビデオゲームに注目。各タイトルの新品・中古価格の売買数量などなどを、週刊ファミ通のバックナンバーなどから収集。ゲームとは縁がないので見当がつかなかったんだけど、平均価格は新品7600円くらい、中古品4500円くらい、買上価格は2800円くらい、中古品の売上数量は新品の1割くらい、だそうだ。へええ、本とはずいぶん違うんだなあ。古本屋さんが7600円の本を2800円で引き取ってくれることはなさそうだ。

 推定方法はパス(読んだところで理解できそうにない)。推定結果もパス(すいません、力尽きました)。結論によれば、新品と中古品にはあんまり代替性がないことがわかったんだそうです。いっぽう転売効果はあって、だから単純に中古品取引を禁止しちゃうとメーカーの利益も下がりかねない由。

 マーケティングサイエンスにおける構造推定アプローチ(っていうんでしょうか?)ってどんなものなのか、という好奇心から手に取ったのだが、仕事に生かせるかどうか別にして、モデリングの発想がとても面白かった。商品間の選択はモデル化せず、個別の商品のことだけ考え、新品を買う、中古を買う、買わない、売る、売らない...という決定の合理的なモデルを時間軸に沿って考えていくのだ。ほとんど魔法を見ているようであった。経済学者の先生って、物事をこういう風に考えるのか-。すげーなー。

論文:マーケティング - 読了: Ishihara & Ching (2012) ビデオゲームの動的需要モデル

2014年8月28日 (木)

Flom, P.L., Cassell, D.L. (2007) Stopping stepwise: Why stepwise and similar selection methods are bad, and what you should use. The NorthEast SAS Users Group (NESUG), 2007.
 単なるSASユーザ会の資料なのだが、読んだものはなんでも記録しておこう、ということで... 気分転換にディスプレイ上で読んだ奴。

 タイトル通り、回帰分析におけるステップワイズ変数選択を批判(といっても、きちんとした説明とは言い難い)。代替案を紹介: (1)選択なんかしない(←はっはっは)、(2)実質的な知識で選ぶ、(3)たくさんモデルをつくって、係数をAICかなんかで重みづけ平均する、(4)選ばないでPLS回帰、(5)LASSO、(6)LAR、(7)クロスバリデーション(代替案というかなんというか...)。で、最近のSAS/STATに載っているGLMSELECTプロシジャの紹介。

 ごくごく粗っぽい内容で、特に読まなきゃいけないようなものでもないんだけど(すいません)、実務家らしいユーモラスな言い回しが何個かあって面白かった。"Solving statistical problems without context is like boxing while blindfolded. You might hit your opponent in the nose, or you might break your hand on the ring post." だってさ。
 ともあれ、この分野についてはHastie&Friedmanの本 (こないだ翻訳が出たやつかな)、Harrellの本、Burnham & Andersonの本、あたりを参照すると良さそうだ。調べたらどれも良いお値段だ、参るなあ...

論文:データ解析(-2014) - 読了: Flom & Cassell (2007) ステップワイズ変数選択は使うな (でもGLMSELECTは使っていいよ)

2014年8月27日 (水)

Hampton, K.N., Rainie, L., Lu, W., Dwyer, M., Shin, I., & Purcell, K. (2014). Social Media and the ‘Spiral of Silence.’ Pew Research Center, Washington, DC.
 ピューリサーチセンターの自主調査報告。今日twitterでたまたまリリースを見かけ、あまりに面白そうなので報告書まで探して読んでしまった(なにをやっておるのか)。第一著者のHamptonって人はいまこの分野で活躍している社会学者らしい。
 一言でいっちゃえばSNS利用についての単発の横断調査なんだけど、目のつけどころがすっばらしい。痺れました。

 重要な政治的問題について、人は自分の意見を他者に公開したがるか。かの沈黙の螺旋理論に言わせれば、自分の意見が少数派だと感じるとき、人は自分の意見を公開したがらなくなる。でもSNSの登場により、少数派であっても自分の意見を自由に公表しやすくなり、公共的議論の幅は広がったのではなかろうか。
 というわけで、去年の夏、スノーデン事件を題材に約1800人にRDD調査。主な知見は:

 いやー、ものすごく面白い。もちろんスノーデン事件に限った話だから、むやみに一般化しちゃいけないんだけど、ソーシャルメディアは多様な議論を支えてなどいないんじゃないか、むしろ世論形成の「沈黙の螺旋」メカニズムの一端を担っているんじゃないか... と考えさせられる分析結果である。

 いやはや。プロの研究者の方を相手に失礼な言い方かもしれないが、正直云って、ちょっと悔しい。たった約10問、1800人の調査でコレなのである。
 ノエル=ノイマンの「沈黙の螺旋」という概念を知っている人は多いだろう。また、世の中に広報目的の自主調査をやっている会社はたくさんあるし(市場調査会社もね)、実査だけみればこのくらいの調査は容易である。でも、思いつかないよなあ、この切り口。つくづく思うに、調査の価値ってのは目の付け所で決まるのだ。

論文:その他 - 読了: Hampton, et al. (2014) ソーシャルメディアと「沈黙の螺旋」

2014年8月24日 (日)

 金曜の夜にwebをぼんやり眺めていて、因果推論の巨匠 Pearl 先生が公開しておられるすごく面白い文章を見つけた。難解をもって知られる主著"Causality"の第二版に収録されている文章で、第一版の訳書にはみあたらない。

 あまりに面白い文章なので、ずるずるとメモをとっていたら、結局だいたい訳出してしまった。貴重な休日の午後を費やし、俺はいったいなにをしておったのか、と窓の外が暗くなってから我に返ったが、あとの祭りとはこのことである。実際、今日は近所で夏祭りがあったらしい。

 せっかくなのでメモを以下に載せておきます。ご関心あるかたはぜひ原文にあたってくださいませ。

 この文章、博士論文の審査という架空の場面で書かれてはいるが、データから因果的主張を引き出そうとするすべての人に関係する内容だと思う。
 アンケート調査を一発やって、SEMのモデルを組んで、ここをどうにかすればここがきっとこうなるでしょう、云々... とやたらに強気な主張をするタイプの分析者に対して「なんだかなあ」というモヤモヤ感を抱いたことのある、全国1000万人(推定)のリサーチ関係者のみなさん、これはホントに勉強になります。
 意地悪であったはずのEX博士が、紙面の都合からか途中から急に物わかり良くなっちゃうところも見所であります。

敵対的な審査者との対話、あるいは SEM サバイバル・キット

話を簡単にするために、次のように想定しよう。あなたの論文の中に出てくるモデルは、次の 2 本の式からなっている。
y = bx + e1 (1)
z = cy + e2 (2)
e2 と x は無相関である。あなたの論文はパラメータ c の推定を主題にしており、あなたは最善の SEM 手法によって満足のいく推定値を得た。c=0.78 という推定値である。さらに、あなたはこの知見について因果的な解釈をおこなった。

さて、意地悪な審査者、EX博士があなたの解釈について質問を始める。

EX博士: あなたがいう「 c について因果的に解釈できる」というのは、どういう意味ですか?

あなた: y の 1 単位の変化が、Z の期待値 E(Z) における c 単位の変化をもたらす、という意味です。

EX博士: その「変化」とか「もたらす」というのはいやな感じですね。科学的にいきましょう。あなたが言っているのは E(Z|y) = cy + a っていうこと? それならわかります。Z の y の下での条件つき期待値 E(Z|y) は数学的にきちんと定義できるし、それをデータから推定する方法もわかる。でも「変化」とか「もたらす」というのはわけがわからない。

あなた: 私は実際に「変化」という意味で言っております。「条件つき期待値における増大」という意味ではありません。私が言っているのはこういうことです。いま、y をなんらかの定数 y1 に固定する物理的な手段があったとします。そしてその定数を y1 から y2 に変化させることができるとします。そのとき、E(Z)において観察される変化は c(y2-y1) でしょう、ということです。

EX博士: いやいや、それはちょっと形而上学的な話になってませんか? 私は統計学の講義で「固定する」なんて言葉を聞いたことがないよ。

あなた: あ、すみません、先生は統計学がご専門ですね。でしたら先程の解釈を次のように言い換えさせてください。いま y を無作為に割り付けた統制実験を行うことが可能だとして、統制群の y を y1 に、実験群の y を y2 にセットしたとします。このとき、E(Z)において観察される差は、y1 と y2 がなんであれ、(統制群と実験群におけるzの測定値をZ1とZ2として) E(Z2) - E(Z1) = c(y2 - y1) であろう、ということです。[脚注: EX博士が「あなたの主張はそれだけ?」と尋ねたら、こう付け加えること。付け加えますと、確率変数 Z1 - cy1 の分布が確率変数 Z2 - cy2 の分布と同じであろう、ということです。]

EX博士: だいぶわかりやすくなってはきたけれど、でもひっかかりますね。あなたの話は途中ですごくジャンプしているように思える。あなたのデータは実験によるものではないし、あなたの研究のどこにも実験なんて出てこない。あなたは、観察研究から得たデータをSEMのソフトでどうにかすれば、無作為化統制実験から得られるであろう結果を予測できる、といいたいの? 冗談でしょう! 実験研究をそんなSEMの魔法に置き換えることができたら、国中でどれだけの予算が削減できると思う?

あなた: 魔法じゃありません、先生、易しい論理です。SEMのソフトを使った私の分析のインプットにあたるものは、非実験データだけではありません。インプットは2つの要素からなっています。すなわち、データと因果的想定です。私の結論はこの2つの要素からの論理的帰結です。標準的な実験研究には2つめの要素が欠けていて、だから実験研究にはお金がかかるのです。

EX博士: なに的想定だって? 「因果的」? そんな変な言葉は聞いたこともない。私たちはふつう、想定を数学的に表現します、同時密度の条件とか、共分散行列の特性といった形で。あなたの想定を数学的に表現してもらえますか。

あなた: 因果的想定というのはそういうものではないのです。密度関数や共分散行列と言った語彙では表現できません。ですから、そのかわりにモデルで表現しているのです

EX博士: 式(1)(2)のことですね。新しい語彙なんて見当たらないけど。ただの数式じゃないですか。

あなた: 先生、これは通常の算術的な数式ではありません。これは「構造方程式」です。正しく読めば、ここから一連の想定を読み取れます。それらは先生もよくご存じの、母集団に対して仮説的な無作為実験を行った結果についての諸想定です。私たちはそれらを「因果的」想定、ないし「モデリング上の」想定と呼んでいます、そちらのほうが良い言い方なので。ですが、それらはさまざまな無作為化実験のもとで母集団がどのように振る舞うかということについての諸想定として理解できます。

EX博士: ちょっと待って! あなたがいう因果的想定というのがなんなのか、だんだんわかりかけてきたけど、そのせいで余計に混乱してきた。いいですか、無作為化実験の下での母集団の振る舞いについて、あなたがなんらか想定することができるなら、なぜわざわざ研究しなきゃならないの? 「yを無作為に割り付けた無作為化実験で、E(Z)において観察される差は c'(y2-y1) だ」(c'は適当な数字) と直接想定しちゃえば、なにも何ヶ月も苦労してデータを集めたり分析したりしなくて済むじゃないですか。もしあなたが検証されていない想定から話を始めるのであれば、いっそE(Z2) - E(Z1) = c'(y2-y1)という想定から話を始めてしまえばいい。前者を信じてくれる人なら後者も信じてくれるでしょう。

EX博士: そうではありません、先生。私のモデリング上の想定は、研究の結論である E(Z2) - E(Z1) = 0.78(y2 - y1) という言明よりもはるかに弱い想定です。

EX博士: 面白くなってきましたね。ではその「因果的」想定、モデリング上の想定とやらをみせてもらいましょうか。それが弱い想定かどうか判断しましょう。

あなた: 承知しました、ではモデルをご覧ください。ここで、

です。このモデルを論文に書いたとき、私は心のなかに2つの無作為化実験を思い描いていました。一つ目は x が無作為割り付けされる実験で(つまり、教師が宿題のウェイトを無作為に割り付ける実験)、二つ目は宿題に費やした時間 (y) が無作為に割り付けられる実験です。これらの実験について考える際に私が設定していた想定とは:

付け加えますと、非実験研究という条件の下で x を支配する、測定されていない諸要因についても私は質的な想定を行っています。すなわち、x と z の両方に影響する共通の原因はないという想定です。
 EX先生、ここまでの想定になにか反論をお持ちですか?

EX博士: いいでしょう、それらの想定が弱いものだということには同意します。あなたの論文の結論である言明 E(Z2) - E(Z1) = 0.78(y2 - y1) に比べればね。こういう弱い想定によって、(実験場面における) 宿題の得点への実際の影響についての大胆な予測を支持することができるというのは面白いと思います。しかし、あなたがいうところの原因についての常識的な想定には、まだ納得できません。宿題の重要性を強調する教師は、同時に情熱的で効果的な教師でもあり、そのためあなたの想定に反し、e2 (ここには教授の質といった要因が含まれています) は x と相関しているのではないでしょうか。

あなた: EX先生、先生もSEMのリサーチャーのような話し方をなさるようになりましたね。手法と哲学を攻撃する代わりに、私たちはいまや実質的な諸問題について議論し始めています... たとえば、教師が効果的である程度と、その教師が宿題に付与するウェイトとのあいだに相関がないと想定するのは合理的か、といった問題についての議論です。私は個人的には、宿題を気に掛けずにはいられない立派な教師に出会いましたし、またその逆の教師にも出会いました。
 しかし、私の論文はそのことについての論文ではないです。私は、教師が効果的である程度が、教師が宿題を重視するかどうかと相関していない、とは主張していません。その問題については、他の研究者が今後検証してくれればと思っています(あるいは、すでに検証されているかもしれませんね?)。私が主張しているのは次の点に過ぎません。教師が効果的である程度と教師が宿題を重視する程度とが無相関であるという想定を受け入れる研究者であれば、その想定とデータから論理的に次の結論が導かれるということに関心を持つでしょう。すなわち、宿題にかける時間が一日あたり1時間増えれば、得点が(平均して)0.78点増大する、という結論です。そして私のこの主張は、もし宿題の量(y)を無作為に割り付けた統制実験が可能ならば、実証的に検証できる主張です。

EX博士: あなたは自分のモデリング上の想定が真だと主張しているわけではなくて、単にそのもっともらしさについて述べ、その副産物について説明しているだけだ、というわけですね。それはよかった。そう言われると反論できません。しかし、今度は別の質問があります。あなたはさっき、あなたのモデルは統計的な含意を持たない、だからデータとの適合性という観点から検証することはできない、といいましたね。なぜそうだとわかったのですか? それは問題にはならないのですか?

あなた: そうだとわかったのは、私がグラフをみて欠けているリンクについて検討したからです。d-分離と呼ばれる基準を用いれば (11.1.2節「涙なしのd-分離」を参照)、SEMを用いる研究者は、グラフを一目見ただけで、グラフに対応するモデルが変数間の偏相関を消失させる形式でのなんらかの制約を含意しているかどうかを決定することができます。統計的含意は(すべてではありませんが)たいていの場合この性質を持っています。私たちの例では、モデルは共分散行列についてのいかなる制約も含意していません。ですから、それはどんなデータに対しても完全に適合し得ます。私たちはこういうモデルを「飽和している」と呼んでいます。
 SEMの研究者のなかには、統計的検定の伝統を振り払えず、モデルが飽和していることをモデルの欠陥であるとみなす人もいます。でもそれは正しくありません。飽和したモデルを手にしているということは、ただ単に、その研究者がありそうもない因果的想定を行うのを避けたいと思っているということ、彼ないし彼女が持ちたいと思っている弱い想定があまりに弱すぎて統計的含意を生み出せないということ、を意味しているのです。こういう保守的な態度を非難してはいけません、むしろ褒めるべきです。
 もちろん、自分のモデルが飽和していなかったら... たとえば e1 と e2 が無相関だったら、それは私は喜ぶだろうと思いますよ。でもここではそれは事実ではありません。常識的に考えて e1 と e2 は相関しています。データからもそれは伺えます。試しに cov(e1, e2)=0 という想定を置いてみたのですが、適合度はひどかったです。「飽和していない」モデルだという称号を手に入れるためだけに、保証のない想定を行ってもよいものでしょうか? いいえ! むしろ私は、合理的な想定を行い有益な結論を得て、私の結果と私の想定を並べて報告することを選びます。

EX博士: でも、同じくらいのもっともらしさを持った想定に基づく飽和したモデルが他にも存在し、そのモデルからは c の異なる値が導かれるとしたらどうですか? あなたの当初の想定のうちいくつかが間違っていて、そのため c=0.78 というあなたの結論も間違っている、という可能性については気になりませんか? あなたがあるモデルではなく別のモデルを選び取るとき、それを助けてくれるものはデータにはないわけだから。

あなた: その問題についてはとても気にしています。実のところ、こうした競合モデルのすべてについて、その構造をすぐに列挙することができます。たとえば、図11.15の2つのモデルがそれですし[xからzへの片矢印パスがあるモデルと、xとzのあいだに両矢印パスがあるモデル]、他にも挙げることができます(ここでもd-分離基準を用いることができます)。しかし、ご注意いただきたいのですが、競合モデルが存在するからといって、「モデルMの質的想定を受け入れる研究者ならば c=0.78 という結論を受け入れざるをえない」という先程の私の主張がいささかも弱まるわけではありません。この主張は論理的にみて無敵のままです。それだけではありません。この主張は、それぞれの競合するモデルからの結論を、そのモデルの背後にある想定と一緒に報告することで、さらに精緻化することができます。結論はこんな形になります:
もし想定集合 A1を受け入れるならば、c=c1 が含意される。
もし想定集合 A2を受け入れるならば、c=c2 が含意される。
...

EX博士: わかりました。でも、そうした条件付きの言明を超えて先に進み、さまざまな想定集合のなかからどれを選ぶかを決めるということに踏み込みたい場合、その試みを支援してくれるSEMの手法はないのですか? 統計学において通常直面する問題では、競合する2つの仮説は、いかに弱いものであろうが、なんらかの検証にはかけられるものですが。

あなた: これが統計的データ分析とSEMの根本的なちがいです。統計的仮説とは、定義上、統計的手法によって検証可能なものです。いっぽうSEMのモデルは因果的な想定に依存しており、それらの想定は定義上、統計的検証ができません。もし2つの競合モデルが飽和していたら、私たちにできることは結論を上で述べたような条件付きの形で報告することだけですし、そのことがあらかじめわかるわけです。しかし、もしその競合が、同じぐらいのもっともらしさを持ちつつも統計的には異なるモデル間の競合であるならば、私たちはモデル選択という一世紀にも及ぶ古い問題に直面することになります。モデル選択に関しては、これまでにAICのようなさまざまな選択基準が提案されてきました。しかしここでは、モデル選択という問題に新しい因果的な変化が生じています... ここでの私たちのミッションは、適合度を最大化することでも予測力を最大化することでもなく、cといった因果的パラメータの推定をより信頼できるものにすることだからです。全く新しい問題領域が登場したわけです(Pearl, 2004を参照)。

EX博士: 興味深いですね。私の同僚の統計学者たちがSEMの方法論に出会ったとき、混乱し疑い深くなり、敵意さえ持った理由がわかりました (たとえば Freedman 1987; Holland 1988; Wermuth 1992)。最後の質問です。あなたはさっき、私が統計学者だといことを知ってから無作為化試験の話を始めましたね。統計学者ではない人に対しては、あなたはSEMの戦略をどう説明するのですか?

あなた: 平易なことばでこういいます。「もし私たちが、yをなんらかの定数y1に固定する物理的手段を持っており、その定数を y1 から y2に変えることができるとしたら、そのとき E(Z)において観察される変化は c(y2 - y1)でしょう」と。たいていの人は「固定する」ということがどういうことかを知っています。なぜなら、それは政策決定者の心についての概念だからです。たとえば、宿題が成績に与える効果について関心を持っている教師は、宿題の無作為割り付けという観点から考えたりはしません。無作為割り付けとは、固定することの効果を予測するための間接的手段に過ぎません。
 実際には、私が話す相手が本当に賢明な人であるならば (多くの統計学者がそうです)、反事実的な語彙に訴えて次のように言うことさえあります。たとえば、宿題に y 時間を費やした後で試験で z 点を取った生徒は、もし宿題に y+1 時間かけていたら z+c 点とっていたはずだ、と。正直にいえば、式 z = cy + e2 を書いたとき(ここで e2 は生徒のそのほか全ての特性を表し、モデルにおいては変数名を与えられず、y の影響は受けません)、私が心に抱いていたのは、本当はこの考え方なのです。私はE(Z)については考えもしません。単にある典型的な生徒の z について考えます。
 反事実的条件は、科学的関係の意味を表現するために我々が持っている最も正確な言語的道具です。しかし、統計学者と話すときには、私は反事実的条件には触れないようにしています。残念ながら統計学者は決定論的な概念や即座に検証できないような概念に疑いを持つ傾向があり、そして反事実的条件はそういう概念だからです (Dawid 2000; Pearl 2000)。

EX博士: SEMについていろいろ教えてくれてありがとう。質問は以上です。

あなた: 恐縮です。

論文:データ解析(-2014) - Pearl(2009) 敵対的な審査者との対話、あるいは SEM サバイバル・キット

2014年8月17日 (日)

知らず知らず、世間の夏休みムードに感染しているようで、ここんところフィクションが多めである。

Bookcover 黒い裾 (講談社文芸文庫) [a]
幸田 文 / 講談社 / 2007-12-10
幸田文は父・幸田露伴を巡るエッセイの書き手として出発し、51歳にして小説「流れる」を発表するんだけど、これはその前に出していた短篇集。エッセイから小説へと徐々に移行している段階だったのだろう。
 表題作の短編「黒い裾」が抜群に面白いと思った。喪服小説というか、葬式小説というか... ある女の一生を、葬式の経験だけをつなぎ合わせるようにして描いた作品である。

Bookcover シェイクスピア全集 (2) ロミオとジュリエット (ちくま文庫) [a]
W. シェイクスピア / 筑摩書房 / 1996-04
数年前に小田島訳で読んでいたのを、このたび松岡訳で再読。
 不思議なもので、読み直すと印象が変わってくるものだ。この先生の訳の特徴のせいか(いったん下品になるととことん下品になる)、小田島訳に比べて猥雑さが増し、マキューシオがより粗雑で頭の悪い青年になった、ような気がする。
 この芝居で特に面白いなあと思うのは、ジュリエットが生涯最期の数日間で急速に成長していくところなのだけれど、でもつくづく思うに、ひたむきさと分別とは別の問題なのである。
 そんなこんなで、やっぱりこの作品は非常に面白い。あれこれ考え始めると興趣が尽きない。よい本の徳である。

Bookcover スミヤキストQの冒険 (講談社文芸文庫) [a]
倉橋 由美子 / 講談社 / 1988-01-27

Bookcover 二十一の短編 ハヤカワepi文庫 [a]
グレアム・グリーン / 早川書房 / 2005-06-09
再読。

Bookcover ぼくを忘れたスパイ〈上〉 (新潮文庫) [a]
キース トムスン / 新潮社 / 2010-09-29
Bookcover ぼくを忘れたスパイ〈下〉 (新潮文庫) [a]
キース トムスン / 新潮社 / 2010-09-29
最近ボケはじめた父親が、実は往年のスパイにして国家機密の持ち主。漏洩を心配した邪悪な政府機関に親子共々命を狙われるが、たまに正気を取り戻すと父は「ボーン・アイデンティティ」なみのアクションヒーローと化し、敵をばったばったとなぎ倒す...というお気楽極楽なB級アクション・スリラー。ついつい読んじゃいました。

フィクション - 読了:「ロミオとジュリエット」「黒い裾」「ぼくを忘れたスパイ」「二十一の短編」「スミヤキストQの冒険」

Bookcover 感情とは何か: プラトンからアーレントまで (ちくま新書) [a]
清水 真木 / 筑摩書房 / 2014-06-04
こ、これは、ちょっと... 申し訳ありませんが、ちょっとついていけなかったです。
 私の素養が足りないからなんだろうけど、たとえば総括として「すべての感情は『悦び』であり、すべての感情の経験は、快楽として受け取られることによりはじめて、その本当の姿を私たちの前に表します。なぜなら、感情とは、真理の記号だからです」なあんて断言されちゃうと、窓の外の空を眺めながら、いったい私たちがある事柄を論証するというのはどういうことなのだろう... という思いに浸ってしまうわけです。感情とは真理の記号だという見方が成立することは理解しました、それが哲学史のなかで由緒正しい見方であることも納得いたしました、でも断言されちゃうと困ります、という感じ。
 ともあれ、認知社会心理学的な感情研究に大変批判的であることはよくわかりました。入出力関係のみに注目して感情を語るのは通俗的感情観を追認する知的パズルだ、というのは確かに仰せの通りだ。では、戸田正直みたいな大掛かりな適応論的議論はどうなのかしらね。感情の科学には違いないと思うんだけど。
 まあいいや。ヒューム「人間本性論」のくだりが面白かったので、いつかきちんと読んでみたいと思う。

哲学・思想(2011-) - 読了:「感情とは何か」

Bookcover 善き書店員 [a]
木村俊介 / ミシマ社 / 2013-11-13
6人の書店員に対するロング・インタビュー。書店そのものというより、働くということ自体に焦点を合わせた内容で、いわばスタッズ・ターケル「仕事」の日本版(たまたま全員書店員)というところ。興味深い本であった。

Bookcover 「悪」と闘う (朝日新書) [a]
宇都宮健児 / 朝日新聞出版 / 2014-08-08

Bookcover スターリン - 「非道の独裁者」の実像 (中公新書) [a]
横手 慎二 / 中央公論新社 / 2014-07-24

ノンフィクション(2011-) - 読了:「『悪』と戦う」「スターリン」「善き書店員」

Bookcover ブラック・ジャック創作(秘)話~手塚治虫の仕事場から~ 5 (少年チャンピオン・コミックスエクストラ) [a]
宮崎 克 / 秋田書店 / 2014-08-08
最終巻。最後のエピソードで、アシスタントの脳裏に手塚と手塚を巡る人々の熱い日々が蘇る場面、これはさすがに、ぐっときますね...

Bookcover チェイサー 2 (ビッグコミックス) [a]
コージィ 城倉 / 小学館 / 2014-07-30

Bookcover 昭和元禄落語心中(6) (KCx(ITAN)) [a]
雲田 はるこ / 講談社 / 2014-08-07

Bookcover トラップホール 4 (Feelコミックス) [a]
ねむようこ / 祥伝社 / 2014-08-08
こちらも最終巻。この連載、ヒロインは私にとってはもう全く共感できない女性で(こういう自分探しは大変迷惑である)、まぁそれはそれで感心して読んでいたのだけれど、ターゲットである女性読者の感想を聞いてみたいところだ。

コミックス(2011-) - 読了: 「昭和元禄落語心中」「ブラック・ジャック創作秘話」「チェイサー」「トラップ・ホール」

2014年8月11日 (月)

Verworn, B., Herstatt, C., Nagahira, A. (2008) The fuzzy front end of Japanese new product development projects: Impact on success and differences between incremental and radical projects. R&D Management, 38(1), 1-19.
 前に調べものをしたときに見つけて積読の山のなかに入れていた奴。別にいま読まんでもいいのだが、整理がつかないのでざざーっと目を通した。著者らについても雑誌についても全く見当がつかないが、google scholarさんによれば引用件数131件。第三著者は東北大教授の長平彰夫さんという方だそうです。
 
 新製品開発の初期段階のことをfuzzy front endっていうけど (Smith & Reinertsen, "Developing Products in Half the Time", 1991 というのが初出らしい。翻訳はなさそうだ)、日本企業の新製品開発におけるFFEの影響を定量的に調べました、という研究。
 背景のお話は3つ。(1)新製品開発においてFFEが重要だという研究は山ほどあるが、それらの多くは理論研究か探索的研究である。(2)ふつうの漸進的な新製品開発のfuzzy front endと、ほんとにイノベーティブな新製品開発のそれとがどう違うか、という点が問題になっている。(3)日本企業はドイツの企業と比べ、fuzzy front end における不確実性を減少させるためによりフォーマルなアプローチをとっている、という指摘がある。

 えーっと、まず先行研究に基づき概念モデルをつくる。これがどのくらい説得力のあるモデルなのか、私には皆目わからないんだけど、とにかくこういうモデルである。
 FFEについて3つの因子を考える。(1)市場の不確実性の減少。つまり、顧客のニーズ・ウォンツや価格感受性を理解すること、また市場の魅力を理解すること。(2)技術的な不確実性の減少。(3)計画立案におけるインテンシブな議論。
 いっぽう、新製品開発の成功についての2つの因子を考える。(4)効率性。つまり、FFEにおいて計画されていた財務的・人材的資源が、実際に必要となった資源と一致していた程度。(5)有効性。つまり、利益目標に到達した、顧客満足を得た、競争優位性を得た、といったアウトカム。
 で、モデルは:

 新製品開発を漸進的な奴とラディカルな奴に分ける。ここでは、コスト削減、リポジショニング、製品改善を前者、全くの新製品の場合を後者とし、ライン拡張は除外する。

 実証研究。要するに質問紙調査である。
 日本の製造業のR&Dディレクターに対する郵送調査、497票を分析。各因子につき数個の項目を7件法で聴取している。
 で、AmosでSEMのモデルを組む。あれれ、効率性って2項目しか指標がないけど、大丈夫なのかなあ(説明を見落としているかもしれない)。因子間パスがH1~H8に対応しているわけだが、H1以外は全部支持。H1が支持されなかったのは(市場理解が新製品開発の効率性を上げなかったのは)、回答者の多くが産業材メーカーで、新製品開発が顧客との協同で進められているからだろう、とのこと。
 次に、ケースを漸進的新製品開発とラディカルな新製品開発に分け、群間で各項目を比較。t 検定をひたすら繰り返す。えええ、多群分析するんじゃないの? それに多重比較法も使わないの? と面食らったけど、このへんは分野によってカルチャーも違うんでしょうね。ちゃんと読んでないけど、H9はある程度支持、H10は不支持、H11は支持、とのこと。H10に関しては、ラディカルな新製品開発のほうが出発時点では技術的不確実性が高いんだけど、FFEを通じて減るんじゃないか、云々。
 まとめとしては... FFEは新製品開発の成功の一定部分を説明する。漸進的新製品開発もラディカルな新製品開発も、FEEはそんなに変わらないんじゃないか。云々。

 全くのど素人なので、ちゃんと理解できているかどうかわからないのだけど、フガフガと楽しく読了。世の中にはこういう研究をしている方々がいらっしゃるんですね、勉強になりましたです。
 それにしても、「新製品開発」というのがどこまで等質的なカテゴリなのか、だんだんわかんなくなってきた。著者らも最後に触れているけど、なんてったって産業財と消費財では、メーカーの市場理解も開発プロセスも違うだろう、という気がするわけで...。

 本筋とは全然関係ないけど、非回答バイアスは大きくないですという主張のために、郵送回収が早かった票と遅かった票を比べて違いがないことを示している。うむむ。昔そういう考え方があったと聞いてはいたが、実物を見るのははじめてだ。Armstrong & Overton (1977, JMR)が挙げられている。

論文:マーケティング - 読了: Verworn, Herstatt, Nagahira (2008) 新製品開発の初期段階とその後の成功との関係

2014年8月 8日 (金)

 先日、勤務先の若い人に、重回帰や分散分析でいうところの交互作用(interaction)についてちょっと話す機会があったのだけれど、説明する順序をぼんやり考えていて、ふと疑問に思ったことがあった。
 交互作用というのは統計的現象の名前で、それを引き起こすメカニズムは多様である。たとえば、 $X_2$ が$X_1$にとってのモデレータになっていたら交互作用が生じる (誤差項を省いて $Y = a + bX_1, b = c + dX_2$とか)。$X_2$が$X_1$にとってのメディエータになっていても交互作用が生じることはある ($Y = a + b_1 X_1 + b_2 X_2, X_2 = c + dX_1$とか)。$X_1$と$X_2$の線形和がある閾値を超えると発火する二値潜在変数があって、それが$Y$にボーナスを与えるので結果的に交互作用が生じる、なんていう状況も容易に想像できる($Y = a + b_1 X_2 + b_2 X_2 + b_3C$, $logit(Prob(C=1))=c + d_1X_1 + d_2X_2$とか)。他にもいっぱいありそうだ。いったい何種類あるんだろう? 類型化できないものかしらん。

VanderWeele, T.J., & Knol, M.J. (2014) A tutorial on interaction. Epidemiological Methods.
... というようなことを考えながらwebを眺めていて拾った、近刊の論文。掲載誌はまだ3号しか出ていないオープン誌で、性質がよくわからないのだが、ハーバード大の疫学部門の紀要みたいなものなのかなあ?
 タイトル通り、疫学における交互作用についての啓蒙論文。えらく長いのだが(著者も前半と後半にわけて読んだほうがいいよといっている)、現実逃避の一環として持ち歩いてだらだらめくり、なんとなく読み終えてしまった。

 まず前半。わりかし易しい内容である。
 交互作用について調べる動機はたくさんある。まず、介入のためのリソースが限られているので、介入の効果が大きい下位集団を特定したいから(←マーケティングでいうところのセグメンテーションとターゲティングですね)。アウトカムを引き起こすメカニズムについて洞察を得たいから。主効果を調べる際の検定力を上げたいから。あるリスク要因に対する介入が不可能なので、せめて交互作用のある共変量に介入してどうにかしたいから。そして、単にモデルの適合度をあげたいから。
 交互作用をどうやって測るか。二値アウトカム$D$について考える。原因変数として$G, E$があって(とりあえず2値だとして)、$Prob(D=1 | G=g, E=e)$ を$p_{ge}$と略記する。交絡とか共変量調整とかは当面忘れよう。大きく分けてふたつの測り方がある。

 加法的交互作用と乗法的交互作用が逆になったり、一方ではあるのに他方ではなかったり、ということはごくあたりまえに起きる。たとえば、非喫煙者の肺がんリスクがアスベスト非曝露で0.1%, 曝露で0.7%, 喫煙者では非曝露で1.0%, 曝露で4.5%だとしよう。加法的にみれば交互作用は4.5-1.0-0.7+0.1=2.9で、2要因が揃うとリスクが上積みされることになるし、乗法的にみれば(4.5x0.1)/(0.7x1.0)=0.45/0.7=0.64で、2要因が揃うとリスクが割り引かれることになる。
 どっちを使うべきかは後述するが、公衆衛生上の観点からは、ふつうは加法的に測ったほうがよい。なお、

 現実の場面では、なにかのモデルを通じて交互作用を測ることも多い。信頼区間がわかるので気分がいい。たとえば
 $p_{ge} = \alpha_0 + \alpha_1 g + \alpha_2 e + \alpha_3 eg$
 $log(p_{ge}) = \beta_0 + \beta_1 g + \beta_2 e + \beta_3 eg$
 $logit(p_{ge}) = \gamma_0 + \gamma_1 g + \gamma_2 e + \gamma_3 eg$
いうまでもなく線形モデルの $\alpha_3$ は $p_{11}-p_{10}-p_{01}+p_{00}$である。対数線形モデルの主効果 $\beta_1$ と $\beta_2$ は対数リスク比で、$\beta_3$は$RR_{11}/(RR_{10} RR_{01})$の対数である。ロジスティックモデルの主効果$\gamma_1, \gamma_2$は対数オッズ比で、$\gamma_3$は$OR_{11}/(OR_{10} OR_{01})$の対数である。
 上の3本のモデルのうち最初の2本は、共変量をいれたとき(とくに連続的共変量をいれたとき)ML推定が収束しないことがある。だから3本目のロジスティックモデルが良く使われている。だけど加法的交互作用をみることも大事だ。そこで! ロジスティックモデルで推定した交互作用パラメータと信頼区間をRERIに変換する方法を伝授するぜ!
 共変量入りのロジスティックモデル
 $logit(P(D=1|G=g,E=e,C=c) = \gamma_0 + \gamma_1 g + \gamma_2 e + \gamma_3 eg + \gamma'_4 c$
を考えると、ORベースのRERIは
 $RERI = OR_{11} - OR_{10} - OR_{01} + 1 = exp(\gamma_1+\gamma_2+\gamma_3) - exp(\gamma_1) - exp(\gamma_2) + 1$
だ。標準誤差を求めるSASとStataのコードを付録に載せたから使ってくれ! Excelシートも別途配ってるから持ってってくれ!
 なになに、コホート研究でアウトカムがレアじゃないから、ORベースじゃなくてRRベースのRERIを使いたいって? オーケー、そんなら対数線形モデルを使いたまえ。収束しないって? ポワソンモデルという手もあるから使ってみてくれ。weightingアプローチというのもあるから俺の論文を読んでくれ。
 なになに、曝露が二値じゃないって? 気にすんな、考え方は同じだ。ただし、RERIの算出はややこしくなるから注意な。それからEとGがどこからどこに動くと考えるかでRERIが変わってくるから注意な。グッドラック! (柳澤慎吾風に)

 (前半戦がまだまだ続くので、テンションを元に戻して)
 交互作用を加法的に測るか乗法的に測るかという話に戻ろう。ベストアンサーは「両方のやり方で測る」である。しかし実際にはロジスティックモデルで乗法的に測っていることが多い。これは由々しき事態だと思っておる。
 加法的交互作用を支持する理由は:

 乗法的交互作用を支持する理由は:

 というわけで、ベスト・アンサーは「両方測れ」だ。原則的には、一方の方法でふたつの曝露の効果が見つかったら、他方の方法では交互作用も必ず見つかるわけで(←絵を描いてみて納得。そりゃそうだ)、交互作用の有無を単純に問うてはならない。最初に分析の目的をきちんと定めることが重要なのだ (←なるほど...)。

 そのほかの話題。

 ふぅー。以上が前半戦。

 後半戦はマニアックな話が多いし、やたらに眠いので流し読みになってしまった。

 やれやれ、長かった。

 一番面白く勉強になったのはやはり、著者が力を入れて書いている加法的交互作用と乗法的交互作用の話であった。私の勤め先の仕事でいうと、2時点間の確率変化を条件間で比較するときにこの話が火を噴く。リスク差を比べるのとリスク比を比べるのでは別の結果になってしまうという問題は、多くの人を混乱の淵に叩き込む。差をみるか比をみるかってのはすごく慎重に決めないといけないのだ。

論文:データ解析(-2014) - 読了:VanderWeele & Knol (2014) ハーバード「交互作用」灼熱教室

2014年8月 6日 (水)

Guyon, I., Elisseeff, A. (2003) An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182.
 題名通り、変数選択(特徴選択)についての啓蒙的レビュー。変数選択特集号の巻頭論文である。雑誌の性質はよくわからないけど、この論文は被引用頻度がものすごく高いらしい。どこかでみかけた「データマイニング必読論文」リストでも、たしか筆頭に挙げられていたと思う。
 こういう工学分野の文章は苦手なんだけど、勤務先の仕事ときわめて密接に関連する話題なので、メモをとりながら頑張って読了。

1. イントロダクション
 最近は数百~数万個の変数を扱う研究が増えている。その典型例は遺伝子選択とテキスト分類である。変数選択はデータ視覚化とデータ理解を促進し、測定・貯蔵の必要を減らし、訓練時間をへらし、次元の呪いを克服して予測成績を向上させる。
 この特集号の研究は主に、予測のために有用な特徴の選択という課題について扱っている(opp. 関連する変数をすべて見つける課題)。従って、冗長な変数を除外するという点が問題になる。
 まず変数選択のためのチェックリストを挙げよう。

2. 変数ランキング
 入力変数を$x_1, \ldots, x_n$, 出力変数を $y$ とする。変数ランキングとは、$x_i$ と $y$ だけを関数に放り込んで、$x_i$ の価値を表すスコアを出す方法で、変数が直交であればランキング上位の変数群を予測子として選ぶのが最適だし、そうでなくてもランキングがあるとなにかと便利である。
 ランキングの方法としては、$y$との相関を調べるとか、$y$が質的だったらROC曲線のAUCとか。情報理論的な基準を使うという手もある。良くつかわれるのは相互情報量。すなわち、$p(x, y) log \{ p(x, y) /( p(x)p(y) ) \}$ を$x, y$について積分したもの。$x,y$がともに離散変数の場合ならいいけど(積分の代わりに総和すればよい)、連続変数の場合は厄介で、正規近似すると相関係数みたいなものになってしまうので、離散化するか、Parzen windowsというようなノンパラ手法で近似するのだそうだ(←へぇー。カーネル密度推定のことかしらん?)

3. 事例

4. 変数サブセットの選択
 この辺からだんだん未知の話になってくるので、メモも怪しいのだけれど... ええと、変数選択法は次の3つに分類できる。

 うーむ。全変数を叩き込んだランダム・フォレストで変数重要性を評価し、上位の変数を選んでモデリングするというのはどれになるんだろう。フィルター法だということになるんだろうなあ。
 著者いわく、フィルター法をバカにしてはいけない。たとえば、まず線形予測を仮定してラッパー法とかエンベデッド法で変数選択し、やおら非線形予測モデルを組む、とか(前半戦がフィルターになっているわけだ)。情報理論的なフィルターというのもある(マルコフ・ブランケット)。この辺、私には難しいので中略。
 以下、エンベデッド法についての話題。貪欲探索を用いるエンベデッド法の場合、変数追加なり削除なりによる目的関数の変化を予測するわけだが、その方法は3つある。

 目的関数とは、要するに適合度と変数数を組み合わせたものである。これを直接に最適化して、その結果として変数セットを得ようという方法もある。L0ノルム最小化とか(...難しいので中略)。

5. 特徴構築と空間次元縮約
 変数を選ぶんじゃなくて特徴を作り直しちゃうという手もある。これは本来、領域知識が活躍する状況特有的な手法だが、一般的手法がたくさん提案されている。
 特徴構築には二つの目的がある。データの再現と予測の効率化である。前者は教師なしの問題、後者は教師つきの問題である。そもそもの問題が予測なのに、教師なしな視点が入ってくるのは変な感じだが、著者いわく、場合によってはそうする理由がある。たとえば、教師なしの特徴構築のほうがオーバーフィッティングに強い。
 特徴構築の方法としては...

6. バリデーションの方法
 えーと、モデル選択と最終モデル評価は別の問題である。後者の場合、原則として評価用のデータを別に用意する必要がある。ここで論じるのはモデル選択における交差検証の話。

7. 発展的トピックと未解決の問題

8. 結論
 変数選択の手法は発展を遂げ、洗練されたラッパー法やエンベデッド法が登場しているが、そういうのを使ったほうが良いかどうかは場合による。次元の呪いやオーバーフィッティングは依然として怖い。だから、まずはベースラインとして、ランキングか前向き/後向き法で変数選択した線形予測をするのがお勧め。

 ...やれやれ、終わったぞ。
 いっけん難しそうであったが、意外に平易でコンパクトなレビューで、大変助かりました。細部については理解できないところも多いのだが、この論文で勉強するような話ではなかろう。

論文:データ解析(-2014) - 読了:Guyon & Elisseeff (2003) 変数選択入門

Popper, R. (2008) How are foresight methods selected? Foresight, 10(6), 62-89.
 役所や研究機関や企業が未来予測 (foresight) を行うことがあるけど、EUの欧州委員会の下に世界中の未来予測を集めてデータベース化している機関があり、そのデータベースを使って「未来予測の手法がどうやって選ばれているか」を調べました、という論文。いささか酔狂な問題設定のような気もするが、まあこんな研究はそうそうできないだろう。
 調べた未来予測事例は886件。なにをもって一件と呼ぶのか、具体例がないのでピンとこないんだけど、たとえば文科省の科学技術予測調査を一件と数える、という理解で正しいかしらん。それとも、あるアドホックなプロジェクト(ナンタラ審議会の提言とか)をもって一件と数えるのかなあ。

 各事例は単一ないし複数の未来予測手法を使っている(平均6個だそうだ)。
 さて、著者は未来予測の手法を整理する枠組みというのを持っていて("Forecast Diamond")、それによれば、これらの事例で使われていた手法は24個に分類される。それぞれの手法は、定性的手法、定量的手法、準定量的手法、に分類できる(「性質」)。さらに、それぞれの手法について、情報源がcreativity, expertise, interaction, evidenceのどれか(4つを足すと100%)という特徴が与えられている(「ケイパビリティ」)。この枠組みに基づいて件数を集計しましょう。

 さらに、各事例にも属性をふる。

 で、各属性ごとに件数を集計しましょう。

 結果はいろいろと長いのだが、申し訳ないけど本題にはあんまり関心がないので省略。チャートをみていると、アジア(日韓)はあんまり文献レビューをやらず、ブレインストーミングやモデリングやインタビューが大好きなんだそうです。

 というわけで、後半はパラパラめくっただけで済ませたんだけど、むしろ関心があるのは、24個の未来予測手法、そしてそれを整理する著者の枠組み "Foresight Diamond" である。事例において使用頻度が高い順に、Diamond上の位置を拾っていくと...

へー。いろいろあるものね。

論文:マーケティング - 読了: Popper (2008) どんな未来予測でどんな予測手法が使われやすいか

2014年8月 5日 (火)

Bookcover 見えない日本の紳士たち (ハヤカワepi文庫) [a]
グレアム グリーン / 早川書房 / 2013-04-30
ハヤカワ文庫のG.グリーンの新訳シリーズのうち、短篇集はこれと「二十一の短編」「国境の向こう側」の三冊だと思う。どういう基準で分けているのかしらん。
 長いこと時間を掛けて読んでいたのだけれど、えーっと、この短篇集では表題作「見えない日本の紳士たち」が印象に残った。あとは、ドタバタ喜劇「諸悪の根源」、幻想譚「庭の下」かなあ。全体に、グリーンらしくないというか、この作家の幅の広さを思い知らされるセレクションであった。

フィクション - 読了:「見えない日本の紳士たち」

Bookcover R.A.フィッシャーの統計理論―推測統計学の形成とその社会的背景 [a]
芝村 良 / 九州大学出版会 / 2004-03
近代統計学の父(?) R.A.フィッシャーの研究とその社会的文脈を辿る、統計学史の本。著者の博論だそうです。
 面白かった箇所をメモ:

帰無仮説や有意水準といった新しい概念を導入し、従来明示的でなかった統計的検定の手続きを形式化したフィッシャーの業績は、高度な専門的知識を持たず、農事試験の現場から得られた洞察力を理解する経験を持たない農業従事者と、これらを持つ専門家間での実験結果の解釈をめぐるコミュニケーションの規則としての機能を、有意性検定に付与したといえる。従来、フィッシャーの有意性検定論は専ら「科学的な帰納的推理の論理」から論じられてきたといってよい。しかしながら [...] 農事試験の領域においてフィッシャーによって展開された有意性検定が、この領域で受け入れられていった過程は「科学的な帰納的推理の論理」だけでは説明がつかない。このことは[...]農事試験の目的が、純粋な科学上の目的で行う実験と同一視できないことと関連がある。従って、フィッシャーの有意性検定について論じる際は、それに対して資本化された農業における農事試験の論理が相当程度影響していることに留意する必要がある。(p.87)
[検定論をめぐるフィッシャー-ピアソン論争について、両者の] 相違点は、①検定の目的の違い、②自由度の概念の有無、③有意水準の設定の有無=明確な判定基準の有無、および④帰無仮説の明示化の有無の4点が挙げられる。[...フィッシャーの] 有意性検定では[分散分析の変動の分解を通じた]帰無仮説の棄却=標本特性値の有意性の査定が目的であるのに対し、K. ピアソンの検定論の目的は経験分布と理論分布との乖離=誤差の小ささを確認することであった。[...] つまりK.ピアソンは誤差の存在を観測の失敗ととらえ、誤差を大数観察により減少させようとしたのに対して、フィッシャーは誤差の存在を認め、それを正確に推定しようとしたのであり、ここに誤差に対する認識の相違が確認できる。[...②もここから説明できるという記述があって...] 残る相違点③④からは、フィッシャーが有意性検定の手続きの形式化を志向したことが窺えるが[...] この志向は当時の農事試験が抱えていた問題と関連している。[...フィッシャーは] 誰の手によってもただ一つの結論しか導かれない実験計画法に立脚して農事試験を行うことによって、肥料を購入する人々への説得をより容易にすることを狙ったものと解釈できるのである。(p.108-110)

 へぇ-...
 とこのように、一貫して数理統計研究と社会的要請との関係を重視して書かれた本であった。勉強になりましたです。

データ解析 - 読了:「R.A.フィッシャーの統計理論」

Bookcover 沈みゆく帝国 スティーブ・ジョブズ亡きあと、アップルは偉大な企業でいられるのか [a]
ケイン岩谷ゆかり / 日経BP社 / 2014-06-18

Bookcover ルポ 終わらない戦争――イラク戦争後の中東 [a]
別府 正一郎 / 岩波書店 / 2014-03-15

ノンフィクション(2011-) - 読了:「沈みゆく帝国」「ルポ 終わらない戦争・イラク戦争後の中東」

Bookcover 消費者の歴史 ― 江戸から現代まで [a]
田村正紀 / 千倉書房 / 2011-05-02
江戸時代にはじまる「消費者の通史」。これ、どういう読者層に向けた本なのだろうか...

マーケティング - 読了:「消費者の歴史」

Bookcover リメイク 1 (マッグガーデンコミックス EDENシリーズ) [a]
六多 いくみ / マッグガーデン / 2013-04-13
派遣OLからデパートの美容部員に転職した25歳独身女性が主人公。版元はマッグガーデンだが、掲載誌はエンターブレインのwebマガジンであった模様(おそらく途中で打ち切り、移籍して再開したのだろう)。
 いやー、なんというか、総体として女子力が高い人たちの話で、恐ろしいわ...

Bookcover 不器用な匠ちゃん 4 (MFコミックス フラッパーシリーズ) [a]
須河篤志 / KADOKAWA/メディアファクトリー / 2014-02-22
Bookcover 不器用な匠ちゃん 5 (MFコミックス フラッパーシリーズ) [a]
須河篤志 / KADOKAWA/メディアファクトリー / 2014-07-23
ええ年こいた社会人たちの初恋ラブコメディという面白い設定なのだが、上記の美容部員さんマンガと読み比べると、落差が凄まじい。このマンガ、女性からみてどうなんですかね。こんな初々しいヒロイン、やはり男性の妄想に近いのだろうか。

Bookcover とも路 [a]
谷口 ジロー,荻原 美和子 / 双葉社 / 2014-08-02
世界的コミック作家、谷口ジローさんの久々の新作... なのだけど、どうも様子がおかしい。実在の女性の半世紀らしいのだが、なぜか少女時代の描写ばかりで話を終えてしまうし、有名な人のはずなのに誰だかさっぱりわからないし、主人公の人柄があまりに出来過ぎている。
 最後まで読んでやっと得心した。発表媒体は真如苑という宗教団体の機関誌、主人公は教祖の奥さんなのだそうです。そういう仕事であったか。

Bookcover めしばな刑事タチバナ 14 (トクマコミックス) [a]
坂戸 佐兵衛 / 徳間書店 / 2014-07-31

Bookcover ままごとは、ほんのむし。 (SPコミックス) [a]
たからもも。 / リイド社 / 2014-07-25

Bookcover ZUCCA×ZUCA(9) (KCデラックス モーニング) [a]
はるな 檸檬 / 講談社 / 2014-07-23

Bookcover あさひなぐ 12 (ビッグコミックス) [a]
こざき 亜衣 / 小学館 / 2014-07-30

Bookcover 好きだけじゃ続かない (ビームコミックス) [a]
松田洋子 / KADOKAWA/エンターブレイン / 2014-05-24

Bookcover BLUE GIANT 3 (ビッグコミックススペシャル) [a]
石塚 真一 / 小学館 / 2014-07-30
大ヒット作「岳」の作家の最新作、三巻目。このマンガで大変興味深いと思うのは、単行本で読んでいる限り、読者は主人公の高校生がやがて世界的なミュージシャンになるであろうという前提で物語を追うことになる、という点である。なぜそういう仕掛けにしてあるのだろう?
 おそらく、このマンガが描こうとしているのはひとつのきわめて爽やかな青年の生き方であって(「岳」と同じだ)、余計な葛藤に注意を割かれたくないからではないかと思う。ハッピーな未来が見えていれば、物語全体が説話的な穏やかさに覆われる。もっとシニカルにいうと、主人公は受験も就職も一切考えず、ただプロのミュージシャンになることを信じ、自宅近所の川縁で日がな一日サックスを吹きつづけている高校三年生なわけで、もしこの子の将来が見えてないとしたら、ちょっと痛々しくて読んでられないかもしれない。

コミックス(2011-) - 読了:「BLUE GIANT」「好きなだけじゃ続かない」「あさひなぐ」「ZUCCAxZUCA」「ままごとはほんのむし」「とも路」「めしばな刑事タチバナ」「不器用な匠ちゃん」「リメイク」

Jurca, R., Falting, B. (2008) Incentives for expressing opinions in online polls. EC '08: Proceedings of the 9th ACM conference on Electronic commerce.
いま一番気になる男(私の中で)、GoogleスイスのR. Jurcaさんの研究。小さいフォントで10pある論文だが、要するに、Prelecのベイジアン自白剤(BTS)をオンライン化しました、というものである。オンライン化というのはつまり、調査終了まで待たずとも報酬が決まるという意味。

 面倒なので一部端折って読んでいるのだけれど... 理解した限りで、提案手法を平たく言い換えると、こんな感じである。
 例として、2択の設問に対するオンライン投票を考える。「世界経済は不況に突入するでしょうか?」というような、正解のない設問でかまわない。
 「世界経済は不況に突入すると思いますか? 賛成か反対かでお答えください。なお、この調査に対してあなたよりも前に答えた人たちの賛成率はX%です。
 さて、これから回答していただくわけですが、回答とあわせて、あなたの『参照回答者』を決めてください。決め方は次のどちらかです。(1)『次の回答者』と指定する。このとき、あなたの次に回答した人があなたの参照回答者になります。(2)『閾値θ』を指定する。θは、もしあなたの回答が『反対』ならば0%とX%の間の値、あなたの回答が『賛成』ならばX%と100%の間の値でなければなりません。この指定を選んだ場合、あなた、あなたの次の回答者、あなたの次の次の回答者...が回答するたびに、その時点での賛成率を再計算し、その値がX%とθの間に入るまで待機します。賛成率がこの範囲に入り次第、その次の回答者があなたの『参照回答者』になります。
 さて、この調査に回答してくださった報酬は次のルールで決まります。もしあなたの『参照回答者』の回答とあなたの回答が一致していたら、報酬が支払われます。報酬額は、もしあなたの回答が賛成ならあなたが回答した直後の反対率、あなたの回答が反対ならあなたの回答の直後の賛成率に、ある定数を掛けた値になります。いっぽう、もしあなたの『参照回答者』の回答とあなたの回答が異なっていたら、報酬はゼロです。
 それでは回答してください。賛成ですか、反対ですか?」
 著者らいわく、この報酬メカニズムは"very simple"とのこと。嘘をつけっ!

 えーと、この仕組みによって、調査対象者の真の賛成率が明らかになるのである。以下、その説明。
 次のように想定する。すべての対象者は、全対象者の意見の分布についての事前分布を共有している。さらに、対象者 i は自分の意見 s_i ={0,1} を持ち、これをシグナルとして全対象者の意見の分布をベイズ更新する。意見 w={0,1}についての s_i の下での事後分布を Pr[w | s_i] とする。BTSと同じセッティングですね。
 t 番目の回答者の意見を s_t, この回答者の回答を r_t, そこまでの賛成率を R_t, 報酬を \tau_t(s_t)とする。対象者 t には R_{t-1}が提示されるわけである。
 さて、共通の事前分布を自分の意見でベイズ更新しているのだから、Pr[1|0] < Pr[1|1] である。ということは、提示されるR_{t-1}は次の3通りあって...

...という戦略がナッシュ均衡になる。なお、わざわざ参照回答者として次の回答者ではなく未来の回答者を指定できるようにしているのは、人数が少ないとき、(1)の状態が(2)の状態にオーバーシュートしちゃったりするかもしれないからである由。
 さて、このとき投票の最終結果は真の意見分布に収束する。なぜなら、中間集計された賛成率 R_t がPr[1|0]とPr[1|1]の間にある限り対象者は誠実に回答するし、外側にあったらそれを内側に動かすように回答するからである。

 なお、全員が反対と答え続ける、賛成と答え続ける、ランダムに答え続ける、といった戦略もナッシュ均衡ではあるがそういうことは起きないだろう、共謀にも抵抗できるだろう、云々という説明がある。パス。
 
 ちゃんと読んでないのに申し訳ないのですが... 通常のオンライン投票にこういう報酬スキーマを追加するのは、さすがに現実的でないような気がする。参加者にとっては複雑すぎて理解できないのではないか。いっぽう、たとえばデルファイ法のような専門家の知識集約の仕掛けとして使う、予測市場に類した意見集約ゲームとして使う、といった場面ならば想像しやすいと思う。

論文:予測市場 - 読了:Jurca & Falting (2008) オンライン自白剤

2014年8月 4日 (月)

Faltings, B., Li, J.J., Jurca, R. (2012) Eliciting Truthful Measurements from a Community of Sensors. 3rd International Conference on the Internet of Things.
 ベイジアン自白剤について調べていて見つけたもの。仕事とは直接関係ないので、別に読まなくてもいいんだけど、あまりにナナメウエな発想に呆れて、つい目を通した。第三著者のRadu Jurcaさんという方、チューリッヒのgoogleにお勤めらしいのだが、こういう(私から見て)想像の範囲を超えた突拍子もない研究をしていて、気になる人である。

 いろんなモノがネットでつながる時代になると、個々人が所有するモノから広く情報を集めて活用したくなる。そういうのをコミュニティ・センシングという。ところが、個々人が正しい値を報告してくれるとは限らない。もしあとで正解がわかるなら、それと突き合せて報酬を渡すこともできるだろうが、ふつう正解はわからない。そこで、真実申告にインセンティブを与えるメカニズム、その名も「ピア自白剤 peer truth serum」を考えました。という論文。

 たとえば、大気汚染を測っているセンサーについて考えよう。ある場所と時点において、大気汚染のレベル V がN段階で表現できるとする。すなわち V = {v_1, ... v_N}。
 各エージェントは観察 o に基づきレポート s を刻々とセンターに送りつづける。センター側は集めた情報をモデルに入力し(それがどんなモデルかはこの際どうでもよい)、地域 l, 時点 t における汚染がレベルvである確率 R^{l,t}(v) を出力する。
 各エージェントは、次の時点でセンターが出力する汚染レベルが v である確率 R^{l, t+1}(v) について、自分なりの信念を持っている。o を測定する前の信念(事前信念)をPr^{l, t}(v), 測定した後の信念(事後信念)を Pr^{l,t}_o (v) とする。以下、上添字 l, t は略記する。
 各エージェントがどうやって信念を更新しているのかは問わないが、ベイズの定理に従って、次のような意味で「合理的に更新」していると想定する。
 [命題1] Pr_x(x) / Pr(x) > Pr_x(y) / Pr(y)
すなわち、センサーが「あっ汚染度高っぽい!」と観察したとして、「汚染度は高だ」という主観確率は変わるだろうし、ひょっとしたら「汚染度は中だ」の主観確率も変わるだろう。それはどうでもいいけど、「汚染度は高だ」の主観確率の増大率は、「汚染度は中だ」の主観確率の増大率よりも高くなきゃおかしい、という話である。

 さて、ピア自白剤の基本的なアイデアは以下のとおり。
 事前確率分布 R が共有されているとしよう(←なかなかぴんとこなかったのだが、センターが発表した最新の確率分布だと考えればよいのだと思う)。さらにセンターは、誰かのレポート m を参照値としているとしよう(←これも意味がよくわからなかったのだが、エージェントがそう信じているという点がポイントで、実際に誰の測定値を参照値にしているかはどうでもよい)。
 レポート s を報告してきたエージェントに対する報酬を、\alpha + \beta \tau (s, m, R) とする。ただし、\alphaと\betaは正。\tau(s, m, R)は、s=mのときに 1/R(m), それ以外のときに0とする。
 つまり、「あなたのレポートsがセンター側の参照値 mと一致しているときのみ、m の共有事前確率に反比例した報酬を払いますよ」というルールである。

 これがなぜ真実申告メカニズムなのかというと...
 まず、すべてのエージェントの事前信念が、共有事前分布とある程度一致している場合について考えよう。任意のvについての事前信念 Pr(v)の上下±\epsilonの範囲内に、共有されている事前確率 R(v)が入っているものとする。すなわち
 Pr(v) + \epsilon > R(v) > Pr(v) - \epsilon
さて、oを観察し s をレポートするエージェントの報酬の期待値は
 pay(o, s) = \alpha + \beta \sum_x Pr_o (x) \tau (s, x, R) = \alpha + \beta Pr_o(s) / R(s)
これが真実申告メカニズムであるとは、任意の v について pay(o, o) ≧ pay(o, v) であるということだ。上の式を代入して
 Pr_o(v) / R(v) ≦ Pr_o(o) / R(o)
逆数をとって
 R(v) / Pr_o(v) ≧ R(o) / Pr_o(o)
左辺分子のR(v)の下限は Pr(v) - \epsilon, 右辺分子の上限はPr(o) + \epsilonだから、この式は
 (Pr(v)-\epsilon) / Pr_o(v) ≧ (Pr(o)+\epsilon) / Pr_o(o)
のときに成り立つ。つまり、エージェントの事前信念と共有事前分布 のあいだのずれが \epsilon 未満であれば、ピア自白剤ルールは真実申告メカニズムになる。イエーイ。
 この \epsilon の値は単純な算術で求められる。つまり、すべての v, o (v \neq o) において
 ( Pr(v)Pr_o(o) - Pr(o)Pr_o(v) ) / ( Pr_o(v) + Pr_o(o) )
 を求めた、その最小値が \epsilon である。

 ... ほんまかいな。試してみましょう。いま、大気汚染のレベルが{低, 中, 高}の3段階で、
エージェントの事前信念は{0.2, 0.6, 0.2}
「低」を観察したエージェントの事後信念は{0.6, 0.3, 0.1}
「中」を観察したエージェントの事後信念は{0.1, 0.8, 0.1}
「高」を観察したエージェントの事後信念は{0.1, 0.3, 0.6}
としよう(これは合理的更新である)。計算すると \epsilon = 1/9なので、共有事前分布をたとえば {0.25, 0.5, 0.25} とする(ズレは\epsilon未満におさまっている)。あるエージェントが「低」を観察したとしよう。「低」と報告したら報酬の期待値は 0.6/0.25 = 2.4。「中」と報告したら 0.3/0.5 = 0.6。「高」と報告したら0.1/0.25=0.4。真実申告において期待値最大である。「中」「高」を観察した場合でもそうなる。

 さあ、ここからがすごく厄介です。
 エージェントの事前信念が共有事前分布と一致しているとは限らない。たとえば上の例で、共有事前分布が{0.5, 0.1, 0.4}だとしよう。エージェントが「低」を観察したとして、「低」と報告したら報酬の期待値は 0.6/0.5 = 1.2, 「中」と報告したら0.3/0.1=3, 「高」と報告したら0.1/0.4=0.25。「低」を観察したにも関わらず、「中」と報告したほうが期待値が大きい。つまり、エージェントは嘘をつく動機を持っている。
 ところが... ここでまた呆気にとられたのだけど、著者はこう主張する。こういう場合は「中」と報告してもらったほうがいいのではないか? だって、エージェントは「現に目の前で交通渋滞が起きている」というような、センターが知らないことを知っているのかもしれないのだから。

 真の分布 Q(\dot) を想定する。すべての v において共有事前分布 R(v) よりも事前信念 Pr(v)のほうが真の分布 Q(v)に近いとき、事前信念 Pr (\dot) は"informed"であると呼ぶことにする。
 ここの段落、すごくわかりにくいので逐語訳。

 こうした場合、公共的なマップ R がなるべく早くプライベートな信念へと収束することがもっともhelpfulだろう。そこで以下では次のことを示す。ピア自白剤はhelpfulな報告にインセンティブを与える。すなわち、必ずしもtruthfulではないやりかたで、公共的なマップを真の分布へと近づけていく報告にインセンティブを与える。
 したがって、収束は2つの段階を通じて生じる。
1) まず、さまざまなプライベートな事前分布と、公表されている汚染マップが、同一の分布へと収束し、共通の参照枠を構築する。
2) この参照枠が構築されると、インセンティブはtruthfulな報告に与えられるようになり、公共的マップとプライベートな事前分布が真の分布へと漸近的に収束する。
こうした2段階プロセスはコミュニティ・センシングにとってとても意義あるものである。なぜなら、センサーはふつうシステムにある長い時間にわたって存在し、その初期フェイズはネットワークに参加する際に通過しさえすればよいからである(since a sensor is usually present in the system for an exteded period of time and will only have to pass the initial phase once when joining the network)。

ううむ、なにをいっているのかさっぱりわからない。truthfulな報告とは、客観的真実に近い報告という意味ではなく、観察をそのまま報告するということでしょう? ピア自白剤がhelpfulかどうかはともかく、ピア自白剤がtruthfulな報告を引き出すとはいえないのではないか?

 まあとにかく、ピア自白剤がhelpfulだという説明を追いかけよう。
 すべてのエージェントの事前分布がinformedだという想定の下で、次の命題が成り立つ。
 [命題2] Pr(a)/R(a) > Pr(b)/R(b) ならば、aを観察したエージェントがbと報告することはない。
 証明。あるエージェントが a を観察したとする。このエージェントが「参照値 m は真実である」と信じているとしよう。このときは、aを報告する期待値は Pr_a(a) / R(a)。aを観察してbを報告する期待値はPr_a(b) / R(b)。前者のほうが大きいことは簡単に示せる(略)。したがってこのエージェントはbではなくaを報告する。
 では、このエージェントが「参照値 m を報告しているエージェントはなんらかのinformedな事前分布のせいで嘘をついている」と信じていたらどうなるか。この場合でも、そいつがaを観察しているにも関わらずbと報告することはない。だからやはり、このエージェントはbではなくaと報告する。証明終わり。

 現在の共有事前分布Rにおいて、エージェントから見て過小評価されている (R(a)<Pr(a)) 値の集合をA, 過大評価されている値の集合をBとする。informedな事前分布を持っているエージェントについて、次の命題が成り立つ。
 [命題3] Bの報告総数は、そのエージェントのPr(b)の和を超えない。
 証明。aにおいてR(a)/Pr(a)<1, bにおいてR(b)/Pr(b) ≧1である。命題2より、Aのなかにはいっている値を観察したエージェントがBのなかの値を報告することはない。したがって、Bの報告総数は、Bの値の真の頻度の和 \sum Q(b) を超えない。このエージェントはinformedだから、\sum Pr(b)は \sum R(b)よりも \sum Q(b)に近い。ということは、\sum Q(b) ≦ \sum Pr(b) ≦ \sum R(b) という順に並ぶ。ということは、Bの報告総数は、そのエージェントのPr(b)の和を超えない。証明終わり。

 すでに狐につままれているが、まだ続くぞ!
 [命題4] 有限回の更新を通じて、R(b) < Pr(b) + \epsilon, R(a) > Pr(a) - \epsilonである。
 証明。命題3より、Bの報告総数はエージェントの事前信念の和を超えない。したがって共通事前確率は次第に減少し事前信念に近づく。逆にAの報告総数はエージェントの事前信念の和以上である。したがって共通事前確率は次第に増大し事前信念に近づく。証明終わり。

 というわけで、エージェントがinformedな事前信念を持っていれば、ピア自白剤の下での報告を集積してつくった共通事前分布はその事前信念に近づいていく、というわけである。
 ぐぬぬぬぬ。全然納得できない。すごく騙されているような気がするんだけど、どこで騙されたのかわからない。。。

 ここで当然の疑問となるのは、エージェントの事前信念がinformedでなかったらどうなるのさ? という点であるが... 全訳しよう。

プライベートな事前分布がinformedでない場合、こうした収束は生じるかもしれないが保証されない。もっとも、そんな事例は現実的でない。エージェントがセンターの知らない背景情報を持っていたら事前信念はinformedであるはずだし、そうでないならそのエージェントはセンターが示した分布を信じるはずだから。また、これとは別の問題として、エージェントのプライベートな事前分布がinformedではあるがお互いに著しく異なっていたらどうなるか、という問題もある。
 どちらの場合にせよ、合理的なエージェントなら、モデルの出力についての彼らの信念を、公表された分布 R へと徐々に近づけていくはずである。したがって、それらはいずれ単一の分布へと収束する。もっともこうした収束は遅すぎるかもしれないが。

ううううむ。そうか?そうなのか?

 論文は、このあと簡単な数値例を示し、正解を使ったproper scoring ruleよりも提案法のほうが優れていることを示している。省略。

 いやあ、最初から最後まで奇想天外、話がどう転がるか全くわからない論文であった。
 そもそも、タイトルにはeliciting truthful measurement と書いてあるけれど、ある報告において真実申告が均衡解になるようなメカニズムを提案しているわけではないのである。
 よくわからないんだけど、あるエージェントがものすごく奇妙な、informedでない事前信念を持っていたとして(「日付に3のつく日は大気汚染がひどくなるはずだ、だから空気は綺麗だけど汚染度高って報告しちゃうぞ」とか)、報酬と確率分布Rをフィードバックするということを繰り返したとして、このエージェントが事前信念を修正するという保証はどこにあるのだろうか。合理的なエージェントならばベイズの定理に従う、とはいえるだろう。合理的なエージェントならば各時点における期待効用の最大化を図るはずだ、ともいえるだろう。でも、合理的なエージェントならば報酬のフィードバックの繰り返しを通じて変な外部情報に頼るのをやめてくれるはずだ、といえる理由はあるのだろうか?

 まあとにかく、こんな問題と発想があるのかという意味で、大変勉強になりました。

論文:予測市場 - 読了:Faltings, Li, & Jurca (2012) センサーのためのピア自白剤

« 2014年7月 | メイン | 2014年9月 »

rebuilt: 2020年11月16日 22:42
validate this page