読書日記: 論文：予測市場アーカイブ

メイン > 論文：予測市場

2019年8月15日 (木)

中塚昭宏, 松川弘明(2018) 集合知メカニズムに基づく投票方式の需要予測手法に関する研究. 日本経営工学会論文誌, 69, 143-152.
　需要予測のための企業内予測市場の報告。第一著者は富士ゼロックスの方。

　提案手法は以下の通り。

予測対象商品、期間、参加者、賞品を決める。
「投票フォーム」を設計する。過去の実績データとかプロモーション状況とかを簡潔にまとめる。で、各商品の需要予測区間を設定し(つまり区間証券を取引するわけね)、投票券の枚数を決める(初期資金に相当する概念であろう)。予測区間は10個以内、投票券も商品あたり10枚以内とすべし、とのこと。
予備実験をやったり説明会をやったりして...
投票フォームを一斉送信し投票を求める。なんと、webサービスじゃなくて、Excelファイルのメール配布・回収でやるのである！
需要予測分布を求めて公開。
商品ごとに、予測が的中した票に付与し、ポイント合計の上位者に商品を配る。

　「ある大手複写機メーカー」で実験やりました。
　参加者は製造販売管理部門の31名。自社商品6個の翌月の需要をあてる。区間数10, ひとりあたり投票券10。投票フォームの送付から回収まで5日間。同じ6個の商品について、5月, 6月, 7月に、それぞれ翌月の需要を当てさせた。

　結果。
　従来社内で使っていた時系列分析による需要予測よりも性能がよかった。また予測分布の分散は予測誤差を捉えていた。
　各参加者の成績は実施月によって異なっていて、特定の優秀な予測者群はみつからなかった。(31人全員の成績が表になっている...)
　「ある予測区間に全票を突っ込む」という行動は一般職の人に多かった。かつ一般職で予測成績が悪かった。マネージャーのほうがさまざまなリスクを想定しているからだろう。(←これ面白いなあ)
　云々。
　
　ざっと目を通すつもりだったんだけど、途中からなんだか楽しくなってきてしまった。盛り上がっている様子が目に浮かぶような気がする。予備実験として「クリアケースのなかのチョコレートの数をあてる」というのをやって、参加者に集合知のパワーを見せつけた模様だ。楽しそうだなあ。
　提案手法のポイントは、取引ルールを思いっきり簡略化して、ワンショットの投票形式にしたところであろう。通常の予測市場と比べてどう変わってくるのかという点が興味深いと思った。

読了：中塚・松川(2018) 企業内予測市場で需要予測

山田祐樹(2016) 認知心理学における再現可能性の認知心理学. 心理学研究, 59(1), 15-29.
　再現可能性の危機についての意見論文。問題自体にはあんまし関心ないんだけれど、再現可能性評価のための予測市場の話が載っていたので目を通した。
　いくつかメモ：

Almenberg, Kittlitz, & Pfeiffer (2009 PLoS One), Hanson (1995 Soc.Epistemology): 科学のための予測市場の活用。両方ノーマークだった...
Dreber, Pfeiffer, Almenberg, Isaksson, Wilson, Chen, Nosek, & Johannesson, M. (2015 PNAS): 再現可能性の予測市場をやりましたという報告。前に読んだNature Human Behaviourの論文と、著者が結構重なっている...そういえばあの論文でも予測市場やっていたから、関係があるのかも。
予測市場InTradeが政府に賭博とみなされて休止になったという話がちらっと書いてあるんだけど、賭博とみなされた理由のひとつはオプション取引があったからなのだそうだ。著者いわく、再現可能性の予測市場においてもオプション取引や空売りは導入すべきでないだろう、とのこと。えっ、そうなんですか？賭博かどうかはペイオフの問題で、取引ルールとは関係ないと思ってた... Ozimek(2014)というwhite paperを見るといいらしい。
著者の先生いわく、そもそも再現可能性予測市場の予測性能が高いかどうかもわからない、とのこと。そりゃまあそうだ、研究の蓄積がないからね。
参加者にはある程度のトレーディングの経験も必要だろう、というくだりでAnderson & Sunder (1995 OBHDP), Peterson (1993 J.Econ.Behav.Org.)というのが挙げられていた。予測市場じゃないと思うけど、面白そうだ。しっかし、わたし株取引の経験とかないのに、予測市場の実験とかやっちゃって、どうもすいません。

読了：山田(2016) 再現可能性危機 in 認知心理学

2018年10月23日 (火)

Rothschild, D., Wolfers, J. (2012) Forecasting Elections: Voter Intentions versus Expectations. SSRN.

　未公刊のWorking Paperなんだけど、頻繁に引用されているので目を通したら... いやー、これは凄いわ。なぜ論文にしないんだろう。

　第一著者のRothschildさんはMicrosoftにお勤め。第二著者は予測市場のレビューWolfers & Zitzewitz(2004)を書いたWolfersさんである。世間は狭い。

1. イントロダクション
　この論文はvote intention(VI)とvote expectation(VE)のどっちが予測力を持つかを調べる。[以下、この論文のあらすじ...]
　[なお、この論文は一貫して２政党の選挙だけを考えている]

2. 当選者の予測
　American National Election Studies の1948-2008のデータを使う。この調査では、大統領選(15回)の1か月前に、VI設問(誰に投票するか)とVE設問(だれが当選すると思うか)を訊いていた。集計すると、VEのほうが当たっている。
　ここからは州レベルの分析。「この州ではどっちが勝つと思うか」というVEを訊いていた。延べで345件のレースを分析できる。集計すると、やはりVEのほうが当たっている。

3. 得票率の単純予測
　レースを単位として、得票率、VI率、VE率の関係を調べる。ここではウェイティングなし。
　得票率とVI率との相関は0.57, 線形な関係があるようにみえる。
　得票率とVE率との関係も強いんだけど、線形ではない(これは当然で、オバマが勝つだろうという人が2/3いるからといってオバマの得票率が2/3だということにはならない)。

　VE率と得票率の関係を、以下のようにモデル化しよう。
　レース$r$における個人$i$の民主党得票率シグナル(潜在変数)を$x_{r}^{*i}$, 民主党得票率を$v_r$として
　$x_{r}^{*i} = v_r + e_r^{i}, \ \ e_r^i \sim N(0, \sigma_e^2)$ [1]
で、VE回答$x_r^i$は$x_{r}^{*i} > 0.5$のときに1, そうでないときに0とする。
　ここからプロビット回帰モデル
　$E[x_r^i | v_r] = \Phi \left( \frac{1}{\sigma_e} (v_r -0.5) \right)$ [3]
が得られる。推定すると$\hat{\sigma}_e = 0.15$となった。
　これに基づき、母集団モデル
　$E[x_r | v_r] = Prob(v_r + e^i_r > 0.5) = \Phi(\frac{v_r-0.5}{\sigma_e})$ [4]
を想定する。$x_r$は母集団パラメータであることに注意。
　左辺$E[x_r | v_r]$は期待値であって、$x_r | v_r$には実際には$e_r^i$に起因するノイズが乗るんだけど、母集団が十分に大きければ無視できるから、結局
　$x_r \approx \Phi(\frac{v_r-0.5}{\sigma_e})$ [5]
と考えられる。これをひっくり返して
　$E[v_r | x_r] \approx 0.5 + \sigma_e \Phi^{-1}(x_r)$ [6]

　さて、さきほど得票率$v_r$とVE率$\hat{x}_r$の散布図が非線形であることを確認した。これは曲線 $0.5 + 0.15 \Phi^{-1}(\hat{x}_r)$として理解できるわけだ。実際には、$\hat{x}_r$には標本抽出誤差が載っているから、この曲線はデータにフィットさせて得た曲線ではない(得票率とVI率の関係を表す45度線がデータにフィットさせて得た直線でないのと同じ)。
　[↑うわあ... これ滅茶苦茶面白い... 整理すると、人々の行動生起率(ここでは民主党の得票率)について閾値を切って二値で予測させたとき、その回答の割合を、実際の行動生起率と対応付けるべく変換する方法を考えたわけだ。なるほどねええ]

　こうして得た変換後VE率$0.5 + 0.15 \Phi^{-1}(\hat{x}_r)$と、得票率との相関は0.78。生のVI率と得票率との相関よりも高い。RMSE, MAEも有意に小さい。重回帰でも重みづけ和でも圧勝である。

4. 得票率の効率的予測
　上の散布図を観察すると、生のVI率にせよ変換後VE率にせよ、実際の得票率より極端に振れる(実際の得票率はもっと接戦である)。これは標本抽出誤差のせいだ。
　ここでは予測のMSEを最小化するような縮小推定量をつくってみる。
　
　まずはVIのほうで考えよう。
　$\hat{v}_r = v_r + \alpha^v + (\eta_r + \tau_r), \ \ \eta_r \sim N(0, \sigma^2_{\eta_r}), \ \ \tau_r \sim N(0, \sigma^2_\tau), \ \ E[\eta_r \tau_r] = 0$ [7]
　$\alpha_v$はANESにおける民主党バイアス。$\eta_r$は標本抽出による変動で、そのサイズは標本サイズに依存する。$v_r$は調査時点から投票日までに生じる変動。
　ここから次式を得る。
　$E[v_r | \hat{v}_r] = \mu^v + \frac{\sigma_v^2}{\sigma_v^2 + \sigma^2_{v_r - \hat{v}_r}} (\hat{v}_r -\alpha^v - \mu^v)$ [8]
　$\mu^v, \sigma_v^2$は実際の民主党得票率の平均と分散。実際に計算してみると、$\hat{\mu}^v = 0.468, \hat{\sigma}_v^2 = 0.0089$。$\alpha^v$もANESデータベースから簡単に計算できて、$\hat{\alpha}^v = 0.031$。さて、
　$\sigma^2_{v_r - \hat{v}_r} = \sigma^2_\tau + \sigma^2_{\eta_r}$ [9]
である。実は標本の一部について、VI回答と実際の投票先をつきあわせることができる。そこから$\hat{\sigma}^2_\tau = 0.00035$と推定できた。$\sigma^2_{\eta_r}$は、[...ANESの標本設計とデザイン効果の話に突入するので大幅中略...]、まあとにかく推定できた。
　こうして、$E[v_r | \hat{v}_r]$が推定できた。実際の得票率との相関は0.59、RMSEもMAEも下がった。

　今度はVEのほうで考えると...
　[本項、読みたいんだけどいまちょっと時間がないのでスキップ]
　こうして$E[v_r | \hat{x}_r]$が推定できた。実際の得票率との相関は0.77, RMSEもMAEも下がった。

　ふたたびVIとVEを比べると、やっぱしVEの圧勝である。
　
5. out-of-sampleテスト
　上では2008年のデータを使ってなかった。当てはめてみると、やはりVEの勝ち。

6. 二次データによる結果
他のデータソースをいろいろ集めてみると... 投票日の180日前までなら、やはりVEの勝ち。

7. 構造的解釈
　思うに、対象者は選挙結果の予測に役立つさまざまな情報を持っていて、VEはそれらを反映するんだけど、VIはその一部しか反映してないのではないか。
　モデル化してみよう。

　まずは単純なモデルから。
　対象者$i$は、自分を含めた身近な$m$人に対してひそかに調査を行い、その結果に基づいてVE回答しているとしよう。で、個々の対象者が持っているこの「内輪調査」における民主党投票意向の割合を$\hat{v}_r^l$とする。
　$x_r^{*i} = E^i[v_r | \hat{v}^l_r] = \hat{v}^l_r$ [18]
仮に「内輪調査」の標本が不偏なら、これは二項分布$B(v_r, \frac{v_r(1-v_r)}{m})$に従う。接戦だったらこれは$N(v_r, 1/(4m))$で近似できる。
　ということは、
　$E[x_r^i | v_r] = Prob(E[v_r|\hat{v}_r^l] > 0.5) \approx \Phi (2\sqrt{m}(v_r - 0.5))$ [19]
である。このプロビット回帰モデル、2節で推定した
　$E[x_r^i | v_r] = \Phi \left( \frac{1}{\sigma_e} (v_r -0.5) \right)$ [3]
と同じですわね。$\hat{\sigma}_e = 0.150$だった。ここから$\hat{m}$はだいたい$11$だ。いいかえると、VE設問において、ひとりの人は自分だけでなく、10人分の身近な人々からの情報に基づいて回答しているのである。

　もちろん、身近な人々が無作為標本ってことはない。もうちょっと精緻化しよう。
　「内輪調査」における民主党投票意向の割合$\hat{v}_r^l$の平均は、$v_r$ではなくて$v_r+\theta_r^{s_i}$であるとする。添え字$s_i$は、$i$さんのソーシャルネットワークという意味。
　仮に対象者が、自分のソーシャルネットワークのバイアスに自覚的でそれをきれいに取り除くことができるならば、
　$x_r^{*i} = E^i[v_r | \hat{v}^l_r; \theta_r^{s_i}] = \hat{v}^l_r - \theta_r^{s_i}$ [20]
である。これは二項分布$B \left(v_r, \frac{(v_r + \theta_r^{s_i})(1 - v_r - \theta_r^{s_i})}{m} \right)$に従う。分散がちょっぴり変わったけど、正規近似しちゃうなら $N(v_r, 1/(4m))$のままでよい。つまり、実質的には変わらない。

　さらに精緻化する。対象者が身近な人々のバイアスを知らない、ないし、長い目で見れば知っているけど今回のレースにおけるバイアスは知らない、としよう。
　身近な人々における未知のショックを$\eta_r^{s_i} \sim N(0, \sigma^2_\eta)$とする。このとき、$\hat{v}^l_r$は平均$v_r + \eta_r^{s_i}$の二項分布に従う。これを正規近似すると、平均は$v_r$だが、分散は$1/(4m) + \sigma^2_\eta$に増える。この分散を級内分散 $\lambda = \frac{\sigma^2_\eta}{\sigma^2_\eta + 1/(4m)}$ を使って書き換えると、$1/(4m-(1-\lambda))$となる。よって
　$x_r^{*i} = E^i[v_r | \hat{v}^l_r] = \hat{v}^l_r \sim N\left(v_r, \frac{1}{4m(1-\lambda)} \right)$ [21]
　$E[x_r^i | v_r] = Prob(E[v_r|\hat{v}_r^l] > 0.5) \approx \Phi ([2\sqrt{m(1-\lambda}](v_r - 0.5))$ [22]
　よぉし、じゃあ$\lambda$を他のデータソースから推測したろうじゃないの。[...おおお。すごく面白い、面白いんだけど、正直疲れちゃったので本項はメモ省略]
　...というわけで、$\lambda=0.45$と推測しました。$\hat{m}$はだいたい20となる。

8. どんな情報がアグリゲートされているのか？
　VEが反映している情報とは何か。言い換えると、$m$ってのはほんとに友達の人数なのか、それとも、マスメディアとか過去の選挙結果とかから得た情報なのか。
　ここでは、VEが反映しているのがidiosyncraticな情報か、それともcommonな情報かという点について検討する。[←うぉぉぉぉぉぉ]

　極端にいえば、VEが反映しているのが完全にcommonな情報であれば、みんなが同じVEを返すはずである。また完全にidiosyncraticな情報であれば、VEは人によって一致しないし、(それがinformativeなのであれば)VEは接戦のときにより不一致になるだろう。

　シミュレーションしてみよう。以下、$\sigma_e=0.15$とする。
　それぞれの対象者が、独立で不偏なidiosyncraticシグナルと、(選挙間で独立で不偏な)commonシグナルを受け取る。対象者は前者に$(1-\phi)$, 後者に$\phi$の重みをつけてこれを足し、VEを返す。
　$\phi=1$ならVEは必ず0か1になる。いっぽう$\phi=0$なら、横軸に実際の民主党得票率、縦軸にVE率をとったとき、なだらかなロジスティック曲線状になる。
　$\phi$を徐々に変えていくと、$\phi=0.14$のときに実データと近くなる。つまり、VEが反映しているのはかなりidiosyncraticな情報である。

　よーし。[21]式に戻るぞ。
　idiosyncratic シグナルを$\hat{v}^l_r \sim N \left(v_r, \frac{1}{4m(1-\lambda)} \right)$、それと直交するcommonシグナルを$c_r \sim N(v_r, \sigma_c^2)$とする。[21]式は
　$x_r^{*i} = E^i[v_r | \hat{v}^l_r; c_r]$
　$= \frac{\sigma_c^{-2} c_r + 4m(1-\lambda) \hat{v}_r^l}{\sigma_c^{-2} + 4m(1-\lambda)}$
　$= v_r + \frac{\sigma_c^{-2}}{\sigma_c^{-2} + 4m(1-\lambda)}(c_r-v_r) + \frac{4m(1-\lambda)}{\sigma_c^{-2} + 4m(1-\lambda)}(\hat{v}_r^l-v_r)$ [24]
という風に化ける。最後の行の第二項がcommon シグナル, 第三項がidiosyncraticシグナルである。
　[...ちょっと時間切れなので以下メモは省略するけど、面白いなあ]

9. VEとVIの相関
　vote expectationにおけるwishful thinkingの存在は昔から知られている。また、他者に依存して選好を形成する現象も広く知られている(バンドワゴン効果とか)。
　実際、VIとVEの個人レベルでの相関は0.42。

　これは本論文のモデルで容易に説明できる。「内輪調査」の対象者のなかに自分が入っているからである。
　まずは「内輪調査」対象者が無作為だった場合。自分抜きの「内輪調査」結果を$\hat{v}_r^{-l} \sim N(v_r, \frac{v_r(1-v_r)}{m-1})$としよう。$\hat{m}=11.1$として、
　$Prob(x_r^i = 1|v_r^i = 1; \hat{v}_r^{-l}) \approx \Phi(6.4(v_r-0.45))$
　$Prob(x_r^i = 1|v_r^i = 0; \hat{v}_r^{-l}) \approx \Phi(6.4(v_r-0.55))$
となる。$v_r^i$と$x_r^i$の相関は、$v_r=0.5$のとき0.25となる。
　ソーシャルネットワークとcommon/idiosyncratic情報を付け加えると...[死ぬ―。以下省略するけど、レースごとにVIが民主党の人と共和党の人に分けて、実際の民主党得票率とVEの散布図を描き、モデルから予測される曲線を当てはめる。VIによる差をかなり説明できる]
　このように、VIとVEの相関は合理的推論モデルの範囲内で説明できる。

10. 非無作為標本からの効率的な予測
[どっちかの政党に投票した人だけに絞って分析し直す。頭が混乱してきたのでパスするけど、モデルを使うとそれでも得票率が結構予測できるという話]

11. 考察
　選挙分析者のみなさん、VIよりVEがあたります。
　構造的解釈の節ではVEが当たる理由の説明を試みた。またこのモデルを使えばVEとVIの相関が説明できるし、すごく偏った標本からでも予測できる。
　思えば、科学的な世論調査が勃興する前、選挙予測の方法は「誰が勝つと思いますか」と訊ねることだった。本研究はいわば歴史的実践へと立ち戻るものであった。
　今後はこういう手法の研究が進んで、製品の需要予測とか消費者測定とかに使えるようになるといいですね。

　... 正直、参りました。脱帽。
　いやあ、これを最初に読んでなくてよかった。もし読んでたら、このテーマには絶対手出ししようと思わなかったわ...
　
　感動してばかりでも癪に障るので、自分なりに別の角度から考えてみると、この論文のモデルと、Hong&Pageいうところの「集合知が生じるのはエージェントが多様だからかもしれない」とはどういう関係にあるのだろうか。この論文の言葉で言うと、VEにおけるシグナルが不偏で分散が一定であれば、idiosyncraticシグナルの比率が高いほうがVEベースの予測の精度が上がる、ということになるのだと思うけれど、これは8節のモデルからいえることだろうか。

読了：Rothschild & Wolfers (2012) 「誰に投票しますか」と訊くより「誰が勝つと思いますか」と訊いたほうが良いのはなぜか、モデルで説明しよう

　引き続きcitizen forecasting 論文のメモ整理。
　政治学者Michael Lewis-Beckさんによるcitizen forecastingについての論文は、調べた限りでは3本。citizen forecastingという概念を最初に打ち出したノート Lewis-Beck & Skalaban (1989), 下記の Lewis-Beck & Tien(1999), そしてUK総選挙に適用した Lewis-Beck & Stegmaier(2011)である。

Lewis-Beck, M.S., Tien, C. (1999) Voters as forecasters: a micromodel of election prediction. Internetional Journal of Forecasting, 15, 175-184.

　Lewis-Beck & Skalaban (1989)と同じデータソース(American National Election Study)に基づき、期間を延ばして再分析した論文であった。中身はだいたい同じだが、こっちのほうが論述が整理されている。

読了：Lewis-Beck & Tien (1999) 選挙予測のcitizen forecasting (改訂版)

citizen forecasting論文読み祭りのメモ整理。自分の分析のほうが、なにがなんだかわけがわからなくなってしまったので、原点に戻って...

Lewis-Beck, M.S., Skalaban, A. (1989) Citizen forecasting: Can voters see into the future? British Journal of Political Science, 19(1), 146-153.
おそらくcitizen forecastingを研究テーマとした最初の論文。たしか前に目を通した覚えはあるんだけど...

　対象はUS大統領選。American National Election Studiesでは「誰が大統領になると思いますか」という設問をずっと訊いていた。集計すると、結構当たっている。

　個人レベルでモデルを組んでみた。予測(正解を+1, 不正解を-1)を目的変数、{政党支持、関与、関心、メディア接触、政治が複雑だと思うか}を説明変数にとったOLS回帰モデル、選挙ごとに推定した。整合的な知見はない。[二値変数を目的変数にとったOLS回帰？著者が著者でなければ、おいおい素人か、と思ってしまうところだ。プロビットやロジットもやったけど結果は同じである由]

　今度は{政党支持、投票先意向、学歴、調査時点}を説明変数にとってみた。高学歴だと正解しやすい。投票日が近いと正解しやすい。
　
　集団レベルではよく当たるのはなぜか。選挙を分析単位として、正解者率を目的変数、勝った政党の得票率を説明率にとった単回帰ではR二乗が0.9。つまり差があるほど予測しやすい。[←そうそう、前にこれ読んだときは、なにこのモデル、アホちゃうかと思ったのだが、いまになって読むと「嗚呼、苦労してはるなあ」と涙ちょちょぎれる思いである]

　結論。
　投票者による選挙結果の予測を社会文化的諸属性が拡張する。接戦の程度も効果を持つ。投票者はアホではなく[←ほんとにこう書いてある]、結果をある程度理解しているのだが、しかしシニカルでもないので、投票に行くのである。

　... こうして読み直してみると、この短い論文というかノートの段階で、ぱっと思いつく論点はだいたい網羅されていたのであった。
　「選挙結果が僅差だと個人の予測は外れやすい」というのも、正直「そりゃそうだろうよ」という話に聞こえるけど、この時点でのこの研究の文脈では、おそらく意味のあるステートメントだったのだろうと思う。想像するに、「投票者は選挙結果がわからないからこそ投票に行くのだ」というような対抗的な想定があったのではないか。
　いっぽうここに出現しないのは、スロウィッキーとかスコット・ペイジのような「群衆の知恵」という視点、集団の予測能力が個人の予測能力の総和を超えるという視点である。

読了：Lewis-Beck & Skalaban (1989) 選挙予測のcitizen forecasting (記念すべき第一弾)

citizen forecasting 論文読み祭り, こんどはドイツに参りました。Graefeさんが謝辞に入っている。

Ganser, C., Riordan, P. (2015) Vote expectations at the next level. Trying to predict vote shares in the 2013 German federal election by polling expectations. Electral Studies, 40, 115-126.

　いわく。
　選挙予測の手法といえば、まずはvote intention, 次が予測市場、そして多変量による統計的予測だが、本研究はvote expectationに注目する。

　vote expectationによる選挙予測の先行研究概観。[うわあ...まだノーマークのがあったよ...]

US大統領選: Lewis-Beckら; Graefe; Miller et al.(2012 Polit.Policy); Rothschild & Wolfers。
UK: Lews-Beckら; Murr。
スウェーデン: Sjoberg et al (2009, J.Forecast.)。
NZ: Levine & Roberts (1991 J.Commonw.Comp.Plit.)。
カナダ: Blais & Turgeon (2004 Elect.Stud.)
ドイツ: vote expectationを訊いてた調査はあったんだけど[ノエル・ノイマン共著のドイツ語の本が挙がっている。まじか]、分析してなかった。

　個人による予測能力について。[ここすごく関心あるので詳しくメモ]

投票者による選挙結果の予測についてはすでにHayes が1936年に論じている。1932年US大統領選について。
Lews-Beck&Skalaban(1989): 予測能力に社会的・状況的属性が効く。教育、ネットワークサイズ、情報処理の効率性。
Blais & Bodet(2006 Soc.Sci.Q): 文脈的情報と個人的選好の両方が使われる。[←あっちゃー...ノーマークだ]
Rothschild & Wolfers(2012): 他者の意図についての情報が使われる。つまり「標本サイズ」が増える。
Meffert et al.(2011 Elect.Stud.): 高学歴者はwishfull thinkingしにくい。[←あっちゃー...これもだ]
Dolan & Holbrook(2001): 政治についての知識が効く。
Sjoberg et al.(2009): 政治についての知識(自己評価)が効く。
Babad(1995 J.Psych.): 政治についての知識は効かない。[←うわー...そんなのあるの...]
Andersson et al.(2006 Conf.): Babadと同じセッティングで実験、やっぱし政治についての知識が効く。
投票に行くつもりの人のほうが情報を集めるので予測が正確になると想定できる。
いっぽう、特定の政党に投票するつもりがあるとwishful thinkingが生じるとも想定できる。上述のHayes, Babad(1997, Int.J.PublicOpin.Res.), Levine & Roberts (1991), Meffert et al.(2011)。
長期的な政治的志向・関与も効くはず。しかし、よく政治について議論したりメディアに触れたりするので予測も正確になる反面、wishful thinkingも生じやすいかも。
メディアによるpollによって形成された知覚も予測に影響するだろう。
ドイツだと住んでる地域も影響するだろう。

　集団による予測能力について。

集団による予測の成績が良くなるという考え方はスロウィッキーのせいで有名になった。理屈はCondorcet(18c), Golton(20c). Hastie & Kameda (2005 Psych.Rev.), Page (2007 "The Difference"), Larrick, Mannes, & Soll (2012 論文集)。
Hong & Page(2004): perspectiveとheuristicsの2要因を指摘。
Murr(2011): 集団予測のほうがあたる。
Sjoberg(2009): 専門家の予測より素人の集団予測のほうがあたる。

　ドイツの選挙システムについて。[省略するけど、やたらにややこしい...まあ日本の選挙システムも十分ややこしいと思うけど]

　リサーチクエスチョンと仮説。

投票者は政党の投票率を予測できるか。仮説: 個人の予測能力は以下の要因が高いと高い。(a)学歴, (b)政治的知識, (c)情報行動, (d)投票に行く確率, (e)最新のpoll知覚。
個人の予測能力は以下の要因が高いとどうなるか。(a)政治組織のメンバーであること, (b)特定の政党への投票意向, (c)政党選好, (d)政党支持。wishful thinkingで予測能力が下がるかも知れないし、情報収集が後半で予測能力が上がるかも。
旧東ドイツに住んでる人は予測能力が低いはず。
(a)集団予測は成績がいい。(b)予測能力が高そうな人の集計よりランダムな集計のほうが成績がよい。

　データ。
　2013年9月の選挙の4週前に電話調査をやった。サンプルサイズ1000。性年代学歴でウェイティング。
　vote expectation設問は、政党リスト(「その他」含めて8つ)を読み上げ、各政党に合計100点を配点してもらうかたち。訊き間違えた人、ある政党への配分が平均から3SD以上離れた人を除いて823事例を分析。
　独立変数は、教育(最終学歴)、政治知識(クイズ3問の成績)、政治的情報(政治ニュースに触れる頻度5件法)、投票見込み(5カテゴリ)、最後に選挙予測に触れたのはどのくらい前か、政治組織のメンバーか、特定の政党に投票するつもりか、投票先政党... [後略]。

　結果。
　個人の予測はかなり不正確(RMSEで5.1パーセントポイント)。RMSEとMAPEを目的変数にした回帰モデルを組むと、政治的知識は負の効果(つまり予測は正確になる)、4日以内にpollの結果に触れていると負の効果、政党所属は負の効果(所属している人は予測を大きくは外さない)、教育は負の効果、政党支持は正の効果(つまりwishful thinkingと思われる)。投票意向、政党選好、住んでる地域はあんまり効かない。政党支持別に細かくみていくと[...中略...]。
　集団の予測もあんまり良くなかった[ええええ... ウケる...]。
　もっとも、伝統的なvote intentionsによる予測に比べればそう悪くない。また集団予測の誤差は個人予測の誤差の平均よりは小さい。
　個人の予測成績が良いはずの層に絞ってみると[...中略...]変な予測は減るけど、平均して良くなるとはいえない。

　[標本や集計方法についていろいろ細かい話。略]

　考察。
　多くの先行研究に反し、vote expectationは良い予測とならなかった。
　8政党の得票率の予測というのは調査対象者にとって難しかったのかも。群衆の知恵の研究はたいてい単純な数値に焦点を当てている。
　個人の予測誤差が集約でキャンセルアウトされるというのはその平均が0だった場合の話で、みんな歪んでいる場合はやはりだめだ。
　vote expectationがうまくいくかは特定の設問の構造と複雑性によるのであろう。

読了：Ganser & Riordan (2015) citizen forecastingによる選挙予測 in 2013年ドイツ連邦議会選挙

2018年10月22日 (月)

　ここんところ都合でcitizen forecastingの論文を読みまくっていたので、そのメモを整理しておく。

Boon, M. (2012) Predicting elections: A 'Wisdom of Crowds' approach. International J. Market Research, 54(4), 465-483.
　著者はロンドンのICM Researchという会社の人。Wikipediaによれば、世論調査をやっている会社で、Creston Insightというマーケティングの会社の傘下らしいが、この業界も離合集散が激しいので、いまどうなっているかはよくわからない。著者のBoonさんは現在はDeltaPollという会社のディレクターであるらしい。

　論文の構成がわからず、イライラしながら読んだんだけど... 要するに5つの事例の報告である。
　このジャーナルって、なんだかこういう風な、ちょっとゆるい雰囲気の論文が載るような気がするんですが、どういうことなんでしょうか...

　伝統的なvote intention survey(どこに投票するかを訊く調査)による選挙予測があたらなくて困ってますという前置きがあって...
　市場調査関係者はいまや皆知っているが[そうですかね？]、群衆の知恵というものがありましてですね、賢い人々の予測より、ランダムな群衆による集合予測が良かったりするのです。スロウィッキーいわく、その条件とは、(1)多様性、(2)独立性、(3)脱中心性、(4)集約。
　市場調査というものは、現実のアウトカムと照合されることはまずないわけで、選挙予測は得がたい機会である。
　
　事例１。2010年英国総選挙で、ガーディアン紙のために投票日直前に電話調査をやって、投票意向(10件法)、vote intention設問、2005年の投票行動を訊いた。
　これを組み合わせ、我が社のスタンダードな予測技法を用います。

まず性・年代・社会階層・世帯年収・職業状態・宗教でウェイティング。ターゲットは別の確率標本。
投票意向と過去投票有無でウェイティング。まず投票意向の10件法回答(1～10)を10で割り、2005年に投票に行ってなかったらさらに半分にする。[意外に単純...]
上の手続きでデモグラ的な代表性が確保できたはずだが、政党支持の代表性が確保できてないので、過去投票先でウェイティングする。ターゲットは、2005年の選挙結果を8割、他のデータを2割使ってつくる[政党の得票率ってこと？議席数かも]
最後に、「2005年には投票に行きました、今年は投票先未定です」という人の半分を2005年の投票先に割り付ける。

　これをベンチマークにします。
　さて、実はこの電話調査の最後に、群衆の知恵方式の設問を入れました。まず選挙結果について推測して貰った(三大政党とそれ以外、計4つの得票率(?)。足して100になるように)。次に、2005年の実際の結果を伝えてもういちど推測して貰った。どちらもウェイティングなし、単純平均。標本サイズは2,022。
　結果：平均誤差[各政党の得票率(?)と予測の誤差の絶対値の平均のことらしい]は、スタンダードな方法で1.2パーセントポイントなのが、群衆の知恵設問その1が2.2, その2が0.9。

　事例２。今度はオンラインのオムニバス調査でやります。隔週、最低2000人、4回。設問は上の2問で、標準的なデモグラでウェイティング。。これをガーディアン用の電話調査と比べる。
　結果：[細かいところは省略すると...] 予測して正確そうにみえるし、vote intentionのトレンドを反映している。云々。

　事例３。群衆の知恵方式の設問を集計する際に、過去の投票行動でウェイティングしたらどうなるか。[...中略...] あんまりかわらない。ただし、ある特定の政党の支持者に絞ってしまうと、それはもちろん大きく歪む。云々。
　
　事例４。2011年のふたつのレファレンダムの予測。群衆の知恵方式は予測を大きく外した。考えるに、回答者に十分な知識がなかったからだろう。

　事例５。ここまでの分析で、群衆の知恵方式の設問には対象者の代表性はいらないけど多様性は必要だということが示された。具体的にどうすればいいのかは今後の課題なんだけど、ためしに2010年総選挙の群衆の知恵設問を、標本を少数抽出して集計しなおしてみた。2つの設問とも、2022人から500人抽出しても、250人抽出しても、結果はあまり変わらない。さすがに100人だとがくっと悪くなったけど。
　このように、群衆の知恵方式は標準的なvote intention調査の代替として有望です。
　云々。

　... わたしゃイライラしましたけど、全体にのんびりしていて楽しい論文であったような気もする。やっぱしあれだろうな、持っているデータが貴重なら、こんな感じの分析でも立派な論文になる、ってことなんだろうな。
　それにしてもこの論文、引用文献は、スロウィッキーの一般書、ウェイティングについての論文らしきIJMRの2本、そしてBrainJuicerの人のESOMAR2009での発表、以上の計4本だけ。著者は"Wisdom of Crowds"アプローチと呼んでいるが、それって選挙のcitizen forecastingそのものなんだから、政治学で先行するLewis-Beck, Murr, Graefeを引用しないのはかなり妙な感じなんだけど... 知らないわけじゃないでしょうに。実務家が研究者をやたらに持ち上げ奉る傾向もちょっとアレだけど、無視するってのはどうなの？

読了：Boon (2012) UKの選挙における citizen forecasting (by 世論調査会社の中の人)

2018年10月21日 (日)

Temporano, M., Dufresne, Y, Savoe, J., van der Linden, C. (2019) Crowdsourcing the vote: New horizons in citizen forecasting. International Journal of Forecasting, 35(1), 1-10.
　citizen forecastingによる選挙予測(「誰が勝つと思いますか」と訊いて集計する。「誰に投票しますか」と訊くよりもあたるといわれている)についての最新の論文。著者らはカナダの研究者。
　来年出る論文が先行公開されている模様。こういうのって発表年は2019年なのか...なんか変な感じだ。

　citizen forecastingについての先行研究概観と、カナダの選挙制度の説明があって...
　対象とする選挙は2011年～2017年のカナダの選挙、計10件。えーと、カナダには政治学者が作ったVote Compassというアプリがある由。ボートマッチングみたいなサービスらしい(日本にもありますね)。実に210万人くらいのデータがある。これを使います。
　分析対象はのべ1154の選挙区。対象者は平均1821となる。当然ながら偏りはあって、教育やイデオロギーが偏っていることがわかっている。
　なにを訊いたかというと、自分の選挙区で各政党が勝つ見込みを訊いた。0から11までの数直線上に政党を並べてもらうかたち。ここから、1位政党については2位との差、他の政党については1位との差(負値になる)を求める。これをrelative confidence index(RCI)と呼ぶ。なぜすべて同じ基準で揃えないか(1位政党を0とすりゃいいじゃん)と思うけど、経験的にこっちのほうがいいのだそうである。そうなの？
　
　結果...

　... 申し訳ないんだけど、だんだん関心が薄れてきちゃったので途中から読み飛ばした。要するに、選挙区レベルの結果をcitizen forecastingでかなり予測できましたという論文であった。
　先行研究概観に全然知らない話が載ってないことが確認できたので、目的は達したということにしよう。

読了：Temporano, et al. (2019) citizen forecasting による選挙予測 in カナダ

2018年10月18日 (木)

Hong, L., Page, S.E. (2004) Groups of diverse problem solvers can outperform groups of high-ability problem solvers. PNAS, 101(46).
　都合で無理やり読んだ論文。集合知の研究で有名な、かのスコット・ペイジさんによる理論論文である。身の程知らずにもほどがあるのだが...

(イントロ)
　集団の問題解決において集団内の多様性が大事だといわれるのはなぜか。
　多くの人がこう考えている。デモグラフィック属性とか文化・エスニシティとか熟達とかの点で多様性がある集団は(これをアイデンティティ多様性と呼ぼう)、問題を表現し解決する方法においても多様性を持っているので(これを機能多様性と呼ぼう)、問題解決のパフォーマンスが高くなる。
　では、機能多様性がパフォーマンスにつながるのはなぜか。個々人の能力が低くても、機能多様性があれば、優秀な奴らに勝てるのか。
　これを説明する数学的枠組みを提案する。

多様な問題解決者のモデル
　解集合$X$を実数値にマッピングする関数$V$があり、この関数の最大化を目指す問題解決者の集団があるんだけど、ひとりひとりの能力は限られている、としよう。たとえば、$X$はエンジンのデザインの可能な集合で、$V$はエンジンの効率性である。

　問題解決者たちは内的な言語を持っており、それによって解をエンコードする。ここでいう内的な言語というのは、脳が情報を知覚し貯蔵する神経科学的仕組みだと思ってもよいし、我々が経験と訓練に基づき問題を解釈する仕組みを比喩的に指しているのだと思ってもよい。
　この内的言語による解の表現をパースペクティブと呼ぼう。つまり、パースペクティブとは解集合とエージェントの内的言語とのマッピング$M$である。

　問題解決者は解を探索する。その探索の仕方を表すために、ある問題解決者が、自分の内的言語で表現された解集合を、解の下位集合へとマッピングするヒューリスティクスを持っていると考え、このマッピングを$A$とする。つまり、問題解決者が検討するのは、$A$によって生成された解の下位集合だけである。

　というように考えると、あるエージェントの問題解決能力とは、パースペクティブとヒューリスティクスのペア$(M, A)$である。エージェントが2人いたら、$M$も違うかもしれないし$A$も違うかもしれない。
[←よくわからん。$M$はその人が内的に表象しうるすべての解の集合を生成するマッピングで、$A$はその人が実際に検討する下位集合を生成するマッピングだよね？ $A$で生成された下位集合のなかでどれがいいかを選ぶ能力ってのはないかしらん。解の評価は自明であって、探索さえすればいいという設定なの？ここではきっとそうなんだろうな]

　あるエージェントが問題をエンコードし、ヒューリスティクスを適用し、検討した解のなかで解を選び、選んだ解より高い値を持つ解が検討した集合の中にないとき、選んだ解を局所最適解と呼ぶ。あるエージェントの持つ局所最適解の集合、そしてそのbasins of attractionのサイズが、そのエージェントの能力であるといえるだろう。
[←basins of attractionというのがよくわからん。$A$が生成した解の下位集合のサイズのこと？それとも、$M$が生成しうる解の集合のうち、なんといえばいいんだろうか、後になって「無視してはいなかった」といえるような範囲のこと？]

　エージェントの集団が手に入れる解は、個々のエージェントの局所最適解の共通部分に位置する解だけである。このことは、エージェントがチームとしてともに働く手順とは独立に成り立つ。しかし、相互作用の手順がちがえば、すべてのエージェントにとって局所最適解となる解のbasins of attractionも変わってくる。だから、チームの働き方はパフォーマンスに影響する。

計算実験
　整数$\{1,\ldots,n\}$を実数に変換するランダム値関数について考える。実は、値は$[0,100]$の一様分布から独立に抽出されている。
　エージェントはこの関数を最大化する値を見つけようとする。どのエージェントも、$n$個の解を、円周上に時計回りに並ぶ$n$個の点としてエンコードする(つまり、パースペクティブは皆同じ)。
　個々のエージェントは、現在位置の右にある$l$個の点のなかの$k$個をチェックする。そのヒューリスティクスは$\phi = (\phi_1, \ldots, \phi_k)$ ただし$\phi_i \in \{1,\ldots,n\}$で表される。
　例を挙げよう[←はい、さっさとそうしてください]。$n=200, k=3, l=12$とする。あるエージェントのヒューリスティクスが(1,4,11), 開始点は194であるとする。このエージェントは

まず194番の値と194+1=195番の値を比べる。194番のほうが高かったとしよう。
194番の値と194+4=198番の値を比べる。198番のほうが高かったとしよう。
198番の値と、198+11=209番、すなわち(一周200個なので)9番の値を比べる。9番のほうが高かったとしよう。
9番の値と9+1=10番の値を比べる...
というのを繰り返し、現在位置より高い値がみつからないのが3回続いたらストップする。

　あるヒューリスティクス$\phi$のパフォーマンスは、始点$i$のときに到達する停止点を$\phi(i)$として、
　$E[V, \phi] = \frac{1}{n} \sum_i^n V[\phi(i)]$
である。$k, l$が決まれば、ヒューリスティクスの集合が決まる。

　ここから実験。
　ここでは、$l = 12, k=3, n=2000$の結果を報告する。すべてのヒューリスティクスについてパフォーマンスを求めておき、最優秀な10個のエージェントの集団と、ランダムに選んだ10個のエージェントの集団をつくる。
　で、エージェントの集団に解を探させる。エージェント1番が解を探し、2番はそこからまた解を探す。順繰りにずっと繰り返して、誰も新しい解を見つけられなくなったらストップ。
　結果。ランダム集団のほうが成績が良い。集団内のヒューリスティクスの多様性をみると($\phi$の異同を総当たりで数える)、ランダム集団のほうが多様である。20エージェントに増やすと、成績の差も多様性の差も小さくなる。$l=20$にすると(多様性が高くなりやすくなる)、ランダム群の多様性は実際に高くなり、また成績も上がる。
　[いやぁ... 私が素人だからかもしれないけれど、セッティングが抽象的すぎて、「うまいこと騙されている」感が拭えない。まあこれはデモンストレーションで、本題はここからなんでしょね]

数学的定理
　エージェントの母集団を$\Phi$とする。以下を想定する。

エージェントは知的である。すなわち、あるエージェントは、所与の開始点から、weekly betterな解をみつける[←頭のいい人は難しいこと言うから嫌いだよ... 他の解と同等かそれ以上な解を見つけるってことであろう。局所解の集合は列挙可能である。
解は難しい。すなわち、「いつも最適解を見つけちゃうエージェント」はいない。
エージェントは多様である。すなわち、いまここに最適でない解があったら、それよりも良い解を見つけうるエージェントが少なくとも一人は存在する。[←えっ...それ結構強い仮定じゃない...?]
最良のエージェントは一意に決まる。

　これから次の定理を示す。$\Phi$からエージェントを、なんらかの分布に従って抽出するとき、$N$人を抽出したなかからさらに個人レベルで最良の$N_1$人を選んでつくった集団のパフォーマンスより、最初から$N_1$人を抽出してつくった集団のパフォーマンスのほうが良くなるような$N_1$と$N$($N_1 < N$)が、確率1で存在する。

　[と、ここから数学の話になる... 頑張って読み始めたんだけど、気が狂いそうになったので断念。人の頭にはですね、それぞれの限界というものがあるのです]

　[2018/11/30追記: この部分はあとでメモを取った]

結語
　本論文では、知的問題の解決において、最良の問題解決者からなる集団より、ランダムに選ばれた問題解決者からなる集団のほうがパフォーマンスが良くなる条件を示した。
　理想の集団は有能かつ多様な集団だが、問題解決者のプールが大きくなるほど、最良の解決者はどうしても似てくる。
　なお、集団が小さすぎるとランダム集団はうまくいかない(局所最適解がたまたま共通してしまうから)。また集団が大きいときには有能集団も多様性が生じてパフォーマンスが上がる。
　今後の課題: コミュニケーションコストの考慮、学習の考慮。

　... いやー、難しくて死ぬかと思たがな。
　この論文、ペイジさんの主著"The Difference" (2007) (邦訳「多様な意見はなぜ正しいか」)の8章の説明があまりに回りくどく、素人向けやからとゆうてこれはないやろ、ええ加減にせえよ、と腹を立て、探して読んでみた次第である。先生すいませんでした。おとなしくご著書を読みますです。

読了：Hong & Page (2004) 平凡な人々のグループが賢い人々のグループよりも賢くなるメカニズム

2018年10月16日 (火)

Camerer, C.F., et al. (2018) Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour, 2, 637–644.
　ちょっと前に読んだ奴。社会科学の実験研究の大規模な追試プロジェクトの報告で、話の主旨自体には正直あまり関心がなかったんだけど(すいません)、予測市場を使っているので手に取った。

　著者は24名の連名。ファーストはコリン・キャメラ―, 他に社会心理学のノセックとか、ベイズ認知モデルのワゲンメーカーズとか、若い経済学者のTaisuke Imaiとか、わたしゃ良く知らないが錚々たるメンバーなのではないかと思う。

　2010-2015年にNatureとScienceに載った社会科学の実験論文21本について、再現性を調べた。細かく言うと、各論文で報告されている研究のうち、処理効果が有意な最初の研究に注目し、そのなかで有意かつ重要な比較1つについて調べた。
　追試は二段階で行った。

ステージ1: 元の効果量の75%が、有意水準5%の両側検定で検定力90%で検出できる実験。そこで再現できたらストップ。
ステージ2: データを追加して、元の効果量の50%が検定力90%で検出できる実験にする。

ステージ1の標本サイズは平均すると元論文の約3倍、ステージ2は約6倍になった。以上、もちろん事前登録しました。[...中略...]
　これだけじゃ再現性の有無が二値になっちゃうので、さらに以下も行った。(1)オリジナルと追試を併せたメタ分析。(2)95%信頼区間の算出。(3)small telescopesアプローチ[不勉強にしてなんだかわからん。Simonsohn(2015 Psych.Sci)をみよとのこと]。(4)ベイズファクターの算出、(5)ベイジアン混合モデル, (6)再現性についてのピアの信念[←これが読みたくて手に取った次第である]。

　... ここで本文メモを中断して、対象となった21本の論文とはいったいなんなのかをメモしておく。Nature, ScienceをN, Sと略記する。

Ackerman, J. M., Nocera, C. C. & Bargh, J. A. (2010S) Incidental haptic sensations influence social judgments and decisions. おっと、いきなり身体化認知が来たぞ.. 椅子が固いと意思決定がどうこうってやつだ。
Aviezer, H., Trope, Y. & Todorov, A. (2012S) Body cues, not facial expressions, discriminate between intense positive and negative emotions.
Balafoutas, L. & Sutter, M. (2012S) Affirmative action policies promote women and do not harm efficiency in the laboratory.
Derex, M., Beugin, M.-P., Godelle, B. & Raymond, M. (2013N) Experimental evidence for the influence of group size on cultural complexity.
Duncan, K., Sadanand, A. & Davachi, L. (2012S) Memory's penumbra: episodic memory decisions induce lingering mnemonic biases.
Gervais, W. M. & Norenzayan, A. (2012S) Analytic thinking promotes religious disbelief.
Gneezy, U., Keenan, E. A. & Gneezy, A. (2014S) Avoiding overhead aversion incharity.
Hauser, O. P., Rand, D. G., Peysakhovich, A. & Nowak, M. A. (2014N) Cooperating with the future.
Janssen, M. A., Holahan, R., Lee, A. & Ostrom, E. (2010S) Lab experiments for the study of social-ecological systems.
Karpicke, J. D. & Blunt, J. R. (2011S) Retrieval practice produces more learning than elaborative studying with concept mapping.
Kidd, D. C. & Castano, E. (2013S) Reading literary fiction improves theory of mind.
Kovacs, Á. M. & Teglas, E. & Endress, A. D. (2010S) The social sense: susceptibility to others' beliefs in human infants and adults.
Lee, S. W. S. & Schwarz, N. (2010S) Washing away postdecisional dissonance. これも身体化認知じゃん！手を洗うとどうこうってやつね！
Morewedge, C. K., Huh, Y. E. & Vosgerau, J. (2010S) Thought for food: imagined consumption reduces actual consumption.
Nishi, A., Shirado, H., Rand, D. G. & Christakis, N. A. (2015N) Inequality and visibility of wealth in experimental social networks.
Pyc, M. A. & Rawson, K. A. (2010S) Why testing improves memory: mediator effectiveness hypothesis.
Ramirez, G. & Beilock, S. L. (2011S) Writing about testing worries boosts exam performance in the classroom.
Rand, D. G., Greene, J. D. & Nowak, M. A. (2012N) Spontaneous giving and calculated greed.
Shah, A. K., Mullainathan, S. & Shafir, E. (2012S) Some consequences of having too little.
Sparrow, B., Liu, J. & Wegner, D. M. (2011S) Google effects on memory: cognitive consequences of having information at our fingertips.
Wilson, T. D. et al. (2014S) Just think: the challenges of the disengaged mind.

というわけで、私は身体化認知の2本しか読んでないけど、さぞやメディアに取り上げられたであろうというキャッチーなタイトルの論文が目白押しである。

　結果。
　有意性という観点からいうと、再現されたのはステージ2までで21個中13個。[←うわーぉ]
　標準化した効果量の平均でいうと、元研究では0.46だったのが追試では0.25になった。

　メタ分析では...[以下、いろんな角度からの分析。丸ごと中略]

　再現性についてのピアの信念を推定するため、調査と予測市場を開催した。予測市場でによる再現性の予測は63%, 調査による回答は61%で、正解(62%)に近かった。研究別にみると正解との相関は高かった。つまり、ピアによる再現性の予測はかなり当たる。
　[元論文のFig.4。ほんとだ、追試での再現性をかなり正確に予測している。どの研究に再現性がなさそうか、研究者にはなんとなく見当がつくってことなんだろうな。なお、予測市場と調査の相関は高そうだ。]

　考察。
　科学研究においては検定力の低いたくさんの研究と出版バイアスのせいで、効果量が誇張されているものと思われる。
　効果量がほぼ0となった研究が8つ出てきた。これはオリジナルの研究が偽陽性だったせいかもしれないし、プロトコルを揃えるように努力はしたものの(21本中20本までは原著者の協力を得ている)、やっぱりどっかが違ってたのかもしれない。詳しくは付録を見てくれ...。
　云々、云々... [すいません、予測市場の話が終わったあたりから読み飛ばしてます]
　これからは、分析計画の事前登録、そして全研究の出版が大事でありましょう。

　... いやー、予測市場の使い方が知りたくて手に取ったんだけど、途中でなんだか個人的に盛り上がってしまった。
　予測市場でも調査でも、もっとも再現性が怪しいと評価されたツートップは...(ドラムロール)... Ackerman et al.(2010)とLee & Shewarz(2010)、どちらも身体化認知でありました！
　もちろんこの2件、再現に失敗した8本に含まれている。はっはっは... いやあ、身体化認知に関しては、みんなちょっと頭冷やしたほうがいいよね、ほんとに。

読了: Camerer, et al. (2018) 社会科学の有名な実験研究21本を追試してみたら、ああなんてこったい、結果は...

2018年5月 8日 (火)

Baillon, A. (2017) Bayesian markets to elicit private information. PNAS, 114(30), 7958-7962.
　アブストラクトに目を通して青くなった。ベイジアン自白剤と予測市場の合いの子という、私の心のどまんなかを撃ち抜く論文。これ去年の6月じゃん。なぜこれに気が付かなかったんだ...

　ベイジアン市場を提案します。二値の私秘的情報を引き出すための市場です。そんじゅそこらの予測市場とは異なり、結果についての客観的検証ができない場合も大丈夫です。
　ベイジアン市場の基盤にあるのは、私秘的情報は他者についての信念に影響する、というベイジアン推論の想定です[ここでDawes(1989 JESP)を引用]。いまある事柄にYesと答える人は、その事柄に対する他者のYes割合についての期待を更新する際に自分の答えを使います。[←おおお、ベイジアン自白剤と全く同じ話だ]
　予測市場では、あるイベントの賭けがその人の信念を表します。ベイジアン市場では、他の人の回答への賭けが、他者についての信念を表し、ひいては当該の問いへのその人の真の答えを表します。

　私秘情報を引き出す手法としてはすでにベイジアン自白剤やピア予測法があります[Prelec(2004 Sci.), Miller, Resnick, & Zeckhauser(2005, MgmtSci), Parkes & Witkowski (2012 Proc.AAAI)(←たぶん Witkowski & Parkes(2012)の間違い), Radanovic & Faltings(2013 Proc.AAAI; 2014 Proc.AAAI)]。でも確率推定やメタ信念推定をしているぶん複雑です。いっぽう提案手法はただの賭けなので単純。ただし二値の質問限定です。

　エージェントの数を$n$とする。私秘情報についての二値設問を$Q$、値を{0,1}とする。$i$が持つ真の情報(=$i$のタイプ)を$t_i$とし、$\omega = \sum^n t_i/n$とする。
　先行研究と同じく、すべてのエージェントは「自分のタイプを知らない場合の事前信念」$f(\omega)$を共有していると仮定する。なおこの事前信念の共有という仮定は Harsanyi(1968 MgmtSci)が支持しているぞ。
　[次の段落は大事なので全訳]

Prelec(2004)と同様に、タイプが非個人的に情報的だということ、すなわち$f(\omega|t_i)=f(\omega|t_j)$と$t_i=t_j$が等価だということ、を共通知識とする。この特性は2つの側面を含んでいる。
　第一に、タイプは非個人的である。$t_i=0$であるすべてのエージェント$i$は共通の更新後信念$f(\omega|t_i=0)$を持ち(その期待値を$\bar{\omega}_0$と書く)、$t_j=1$であるすべてのエージェント$j$は共通の更新後信念$f(\omega|t_j=1)$を持つ(その期待値を$\bar{\omega}_1$と書く)。このように、エージェントのタイプはすべての非共有情報を含んでいる。
　第二に、タイプは情報的である(ないし「確率的に関連性を持つ」)。エージェント$i$のタイプが1ならば、このシグナルのせいで彼は、$\omega$は彼が事前に想定していたよりも大きな割合だと考えるようになる。いっぽうタイプ0のエージェントは小さな割合だと考えるようになる。よって$\bar{\omega}_0 < \bar{\omega}_1$である。

　話を単純にするため、$n$は無限大であり、$f$は「すべて0」や「すべて1」でないと仮定する。

　提案手法。
　$Q$についての市場をつくる。全員が同時に参加するワンショット市場である。
　参加者はあるアセットを取引できる。そのアセットとは、価値$v$が「1と報告する人の割合」であるアセットである。
　この市場では、参加者は主観的な期待ペイオフを最大化する、参加者は主観的期待ペイオフが正の時しか市場に参加しない、というのが共有知識になっている。

参加者はまず回答$r_i$を報告する。
次に、$p$が一様分布からランダムにドローされる[←すごく混乱したんだけど、この$p$がマーケットメーカの提案価格であり、全参加者に対して共通なのだ]。
$r_i$が1だったら「価格$p$でアセットを買うか」、0だったら「価格$p$でアセットを売るか」を問われる。[←これはいわば注文であって、成立するとは限らない]
すべての取引はマーケット・メーカとの間でなされる。取引が成立するかどうかはあるルールで決まる。
アセットを清算する。清算価格は$r_i$における1の割合とする。つまり、アセットを買った人に$v$を配り、売った人から$v$を徴収する。買い手の手元には$v-p$, 売り手の手元には$p-v$が残る。

さて、取引の成立・不成立を決めるルールとは...

1と報告した人のうち「買う」という人が多数派であるとき、そのときに限り、0と報告した人の売り注文はすべて成立する。
0と報告した人のうち「売る」という人が多数派であるとき、そのときに限り、1と報告した人の買い注文はすべて成立する。

話の先取りになるけど、ここで「多数派」というのを「全員一致」に置き換えても、「三分の一以上」に置き換えても、実はこの論文の結果は変わらない。実装の上で「多数派」としておくのが自然なだけで。

　結論からいうと、この市場では真実報告がベイジアン・ナッシュ均衡になる。以下、その説明。[毎度のことながら頭がこんがらがってくるので全訳する]

　まず、すべてのエージェントが市場に参加すると仮定する。後述するように、すべての期待ペイオフは0より大なので、エージェントは実際に参加することは保証されている。
　エージェント$i$について考える。他のすべてのエージェントは真実を報告する、すなわち$v=\omega$と仮定する。
　タイプ1のエージェントは買い手側となり、市場価格$p$が、アセットの価値についての彼らの期待値$\bar{\omega}_1$を下回るときに買い注文を出すだろう。同様に、タイプ0のエージェントは売り手側となり、市場価格が$\bar{\omega}_0$を上回るときに売り注文を出すだろう。
　仮定により、両方のタイプのエージェントがいることは確実であり、それぞれの側の多数派が取引を求めた時、マーケット・メーカが[逆側の]取引希望者の全員と取引することも確実である。従って、取引が生じるのは$\bar{\omega}_0 < p < \bar{\omega}_1$のとき、そのときに限られる。
　エージェント$i$はどうすべきだろうか？もし彼のタイプが1ならば、彼はアセットの価値を$\bar{\omega}_1$と期待する。売り手として利益を出すためには、彼は市場価格[$p$]が$\bar{\omega}_1$を上回ったときだけ売り注文を出すことになるが、そんな高値での取引は起こらないだろう。しかし、市場価格が$\bar{\omega}_1$までであれば彼は買い注文を出したい。従って彼は、市場価格が$\bar{\omega}_0$ と $\bar{\omega}_1$の間である時に取引で利益が得られると期待する。
　このペイオフを獲得するためには、彼はまず1と報告しなければならない。すなわち、真実を報告しなければならない。そうすれば、彼は
　$\int_{\bar{\omega}_0}^{\bar{\omega}_1} (\bar{\omega}_1 - p)dp = (\bar{\omega}_1-\bar{\omega}_0)^2)/2 > 0$
を受け取ると期待できる。つまり、$\bar{\omega}_0$と$\bar{\omega}_1$との間にあるすべての市場価格$p$について、ペイオフは$\bar{\omega}_1 - p$となる。
　いわゆる混合方略(ある確率で1と報告し、そうでないときに0と報告する)には意味が何。なぜならそれはペイオフを獲得する確率を低くするだけだからだ。
　タイプ0のエージェントにとっても真実申告が最良である。その証明は上と対称であり、期待ペイオフも同一である。

　[よーし、具体例で考えてみよう。
　人々に「幸せですか」と訊ねる。全員から回答を集めたのち、マーケット・メーカの提案価格(1円～99円)をルーレットか何かで決め、全員に提示する。

「いいえ」と回答した人には、幸せ証券の空売りを提案価格で注文する権利が与えられる。でもその注文が成立するのは、「はい」と答えた人の過半数が幸せ証券の買い注文を出した場合のみである。
「はい」と答えた人には幸せ証券の買いを提案価格で注文する権利が与えられる。でも注文が成立するのは、「いいえ」と答えた人の過半数が幸せ証券の空売り注文を出した場合のみである。

取引後に証券は清算される。清算価格は提案価格や取引とは無関係に、最初に「はい」と答えた人の割合で決まる。ここまでがルールね。
　架空例として、参加者のなかには幸せな人が60%、そうでない人が40%いるとしよう($\omega=0.6$)。このことを参加者は知らない。幸せな人は幸せ率を70%と見積もり($\bar{\omega}_1=0.7$)、不幸な人は幸せ率を50%と見積もる($\bar{\omega}_0=0.5$)、としよう。話を簡単にするために、このことを参加者全員が知っているとする(本当は$\bar{\omega}_0 < \bar{\omega}_1$であるということさえ知っていれば良い)。
　太郎は幸せである。ゆえに幸せ率は0.7、清算価格は70円となるとみている。太郎は考える：

仮に正直に回答したらそのあとでなにが起きるか。俺は提案価格が70円を下回った時だけ買い注文を出す。ただし、提案価格が50円を下回ったら、あの不幸せな連中(奴らは自分が不幸せであるために清算価格を50円と見込んでいるのだ、かわいそうに)は空売り注文を出さないから、俺の買い注文は成立しない。結局、提案価格が50円と70円の間であれば、俺は(70円-提案価格)分の利鞘を稼ぐことができる。
仮に嘘をついたらなにが起きるか。俺は提案価格が70円を上回った時だけ空売り注文を出す。でも俺の真の仲間である幸せな人々は、そんな高い提案価格のときには買い注文を出さないから、俺の空売り注文は成立しない、つまり利鞘は稼げない。

ということは、正直に回答したほうが得だ。
　次郎は不幸である。ゆえに幸せ率は0.5, 清算価格は50円となるとみている。次郎は考える：

仮に正直に回答したらそのあとでなにが起きるか。俺は提案価格が50円を上回った時だけ空売り注文を出す。しかし、提案価格が70円を上回ったら、あの幸せな連中(奴らは自分が幸せなので清算価格を70円と見込んでいるのだ、馬鹿どもめが)は買い注文を出さないから、俺の空売り注文は成立しない。結局、提案価格が50円と70円の間であれば、俺は(提案価格-50円)分の利鞘を稼ぐことができる。
仮に嘘をついたらなにが起きるか。俺は提案価格が50円を下回った時だけ買い注文を出す。でも俺の真の仲間である不幸な人々は、そんな安い提案価格のときには空売り注文を出さないから、俺の売り注文は成立しない。つまり利鞘は稼げない。

ということは、正直に回答したほうが得だ。
　というわけで、全員が正直に回答することになる。]

　なお、

仮に全員が同じ回答をすると、取引は成立せず、ペイオフの期待値はゼロになり、よって誰も参加しない。これも均衡解なんだけど、全員が参加して真実報告するという均衡解のほうは期待ペイオフが0より大なので、こっちのほうが支配的である。
上記の説明では、両方のタイプが確実に存在すると仮定したが、この仮定はもう少し緩和できる。付録を参照。
上記の説明では、市場価格は一様分布と仮定したが、そうでなくても、とにかく(0,1)の全区間で0以上であればよい。付録参照。
上記の説明では、$n$は無限大としたが、実は4以上であればよい。ただし、アセットの清算価格を、残りの3人の回答における1の割合とする(自分の回答が清算価格に影響しないというのがポイント)。付録参照。

　他の研究との比較。

ベイジアン市場は予測市場を、結果を客観的に検証できない場合へと拡張したものになっている。
80年代以降、さまざまなベイジアン申告メカニズムが提案されている(ベイジアン自白剤、ピア予測、Cremer&McLean(1988 Econometrica), Johnson, Pratt, & Zeckhauser(1990 Econometrica))。ベイジアン自白剤の支払ルールは参加者にとってわかりにくいし、予測値を報告するというのは難しい。ピア予測は、支払ルールが必ずしも透明でなく、真実申告という均衡が全員が同じ回答をするという均衡を必ずしも支配しない。
ベイジアン市場がうまくいかないのは、専門家と非専門家が混じっているとき(ベイジアン自白剤だと、専門家yes, 専門家no, 非専門家yes, 非専門家noの4択にするという手がある)。
技術的に言うと、マーケット・メーカがいるせいで、取引の蓋然性と実際の$\omega$は無関係になり、これによりノー・トレード定理を回避できる。ポイントは市場開催中は$\omega$が未知だという点。だからワンショット市場にしたのである。これがシーケンシャルな市場ということになると結構難しい。Cummings et al.(2016 Proc.ACM Conf.Econ.Comp.)をみよ。

　前提となる仮定について。

事前分布の共通性という仮定について。これを緩和しても、自分と同じタイプのエージェントの事後分布が、違うタイプのエージェントの事後分布よりも自分の事後分布と似ているとエージェントは期待する、という仮定を置けるなら、ベイジアン市場は頑健である。付録を参照。実務的には、参加者が「他の人の事前分布は俺のと違う」と思う理由がないような状況が望ましい。あまり聞かれたことがないような質問とか。
情報への敏感性という仮定について。心理学研究では、人はベイジアン更新に従わないということが示されている["Cognitive Illusions"(2014)という論文集が引用されている]。でもベイジアン市場にとって大事なのは、$\bar{\omega}_0 < \bar{\omega}_1$という仮定で、これは確証バイアスとかによって反転したりはしないだろうし、false consensus 効果としてよく観察されている。[いくつか挙げられているが、Hoch(1987 JPSP)というのが面白そう]
shamefulな行動についての質問の場合には、多数者の無知(pluralistic ignorance)が起きて、他者の回答の予測が社会的規範側によってしまう可能性がある。理屈の上では、そうであってもとにかくfalce consensusが生じればいいんだけど、実務的には多数者の無知が生じているような領域では使わないほうがいいかも。
自分は他の人とは根本的に違うと考えるエージェントがいる場合には、$\bar{\omega}_0 < \bar{\omega}_1$が成り立たなくなるかもしれない。個人的なテイストについての質問とか、政治的見解についての質問とか。
実証研究では、人はベイジアン・ナッシュ均衡解を必ずしも使わない[Goeree & Holt(2001 Am.Econ.Rev)←これ面白そう!!!]。でもこれは学習によって緩和されるといわれている[Erev & Roth (2014 PNAS)←へー！]。というわけで、真実申告から逸脱するとペイオフが下がるのよ、と説明したほうがいいかも。
参加者全員が、1と0を逆に読み替えれば、それもまたベイジアン・ナッシュ均衡になる。でもこれは非現実的。
嘘をつくこと自体にインセンティブがあるような状況ではうまくいかなくなるかも。あまりにセンシティブな情報とか。
金銭的インセンティブのせいで内発的動機づけが損なわれることが怖い場合には、Lowenstein&Prelecみたいに、あなたの報酬ぶんをどこどこに寄付しますってことにすればよいのでは。

　最後に、応用領域について。

ベイジアン市場は、センシティブではないけれどきちんと答えるのが大変な私秘情報にを調べるのに向いている。
実験経済学者のみなさんは、メインの実験結果(金銭的報酬を使う)を補足するために、インセンティブなしの調査データを集めることがあるけれど、そういうときにもお使いいただける。[←ふうん...]
ずっと先にならないと結果がわからない出来事とか、結果がそもそもわからない出来事について、予測市場の代わりとしてもお使いいただきたい。

　。。。うっわー。。。これ、面白い。。。
　著者はフランス出身の経済学者で、すごく若そうな人。実をいうとしばらく前に、エラスムス大ロッテルダム校の院生によるベイジアン自白剤の修論というのがネット検索でひっかかり、まあ修論なら読まなくてもいっかとブラウザのタブを閉じてから、おいちょっと待て、それを指導してる研究者がいるってことじゃん、それ誰？とひっかかっていたのである。ああ、いたよ、ここに張本人が。
　あまりに面白いので、あれこれ考え込んでしまい、まだ感想がまとまらない。とりあえずいま気になっているのは、実証実験はあるのか、やったらどうなるのかということだ。この手法はBDMメカニズムに似ていると思うんだけど、BDMメカニズムは実証的には必ずしも機能しないと聞いたことがある。
　ともあれ、論文本文を読んだメモとして記録しておく。次は付録を読もう。いやしかし、これ、面白いなあ...

読了：Baillon (2017) ベイジアン・マーケット

2018年5月 3日 (木)

Carvalho, A. (2016) A note on Sandroni-Shmaya belief elicitation mechanism. The Journal of Prediction Markets, 10(2), 14-21.
　ほんの出来心で目を通したSandroni & Shmaya(2013)がよく分からなかったので、毒を食らわば皿までという気分で(すいません)、こちらもめくってみた。短いし。
　Google Scholar上での被引用件数は... 1件だ。いやあ、風情があるなあ。

　以下にメモを取るけど、原文にある$x_{max}, x_{min}$は書きにくいので、Sandroni-Shmayaにあわせて$x, y$に書き換える。要するに、クジがあたったときのペイオフ金額と、はずれたときのペイオフ金額のことである。

　網羅的かつ相互排他なアウトカムを$\theta_1, \ldots, \theta_n$とする。専門家はアウトカムについての真の信念$p=(p_1, \ldots, p_n)$を持っている。彼が報告する信念$q=(q_1, \ldots, q_n)$を、$p=q$となるようにしたい。
　そのための伝統的テクニックとしてプロパー・スコアリング・ルールがある。アウトカム$\theta_x$が観察されたら専門家をスコア$R(q, \theta_x)$で評価し、これに応じてなんらかの報酬を渡す。$p=q$のときそのときに限りスコアが最大化されるとき、これをプロパーという。もっともポピュラーなプロパー・スコアリング・ルールとして、対数ルール$R(q, \theta_x) = log(q_x)$, 二次ルール$R(q, \theta_x) = 2q_x - \sum_k^n q_k^2$がある。
　プロパー・スコアリング・ルールは専門家がリスク中立だという仮定に基づいている。しかし、たとえばリスク志向的な専門家は信念をシャープに報告しがちになるだろう。

　リスク中立性が維持できない場合の方法として、効用関数を$U(\cdot)$としてスコアを$U^{-1}(R(q, \theta_x))$とする方法がある(Winkler, 1969 JASA)。[つまり効用がR(q, \theta_x)となるようにあらかじめ変換しておくということね。Winklerってひょっとして、おととしベイジアン合意について調べていたときに出てきた、あのWinklerさん？世間狭いなあ...]
　このアプローチは次の2つの条件に依存する。(1)専門家の振る舞いが、期待効用理論に従って既知。(2)専門家の効用関数$U(\cdot)$が既知。これらの条件には無理がある。

　そこで登場する回避策が、あらかじめ専門家のリスク態度を規定する要素を調べておこうというもの。そうすれば、それらの要素の影響を取り除くことで、専門家の報告を事後的にキャリブレートできる。
　この路線においても、専門家がなんらかの決定モデルに従って振る舞うという仮定が必要になる。決定モデルが誤っていたらおじゃんである。

　そこでいよいよ登場するのが、支払いをクジで決めるという路線である。
　Allen(1987 MgmtSci)は、専門家の効用関数が未知である場合に、条件つきクジをつかった効用の線形化によって誠実な報告を引き出すという手法を提案した。
　またKarni(2009, Econometrica)は、金額を2つに固定し、専門家が報告した確率を[0,1]の一様乱数と比較することで支払関数を決めるという方法を提案した。この方法だと、専門家がprobablistic sophistication and dominanceを示すなら、リスク態度と関わりなく、誠実な申告が専門家にとって最適になる。
　AllenとKarniのアプローチは、考え方として古典的なBDMメカニズムと似ている。実験場面ではBDMメカニズムにうまく対処できない被験者がいることが知られている(Cason & Plott 2014 J.PoliticalEcon.; Plott & Zeiler 2005 Am.Econ.Rev.; Rutstrom 1998 IntJ.GameTheory)。

　お待たせしました。本論文の主役、Sandroni & Shmaya (2013)の登場です。
　信念報告というのはクジの選択みたいなものである。$n=2$の場合について考えよう。$q=(q_1, q_2)$と報告するということは、
　$[R(q, \theta_1):p_1, R(q, \theta_2):p_2 ]$
というクジを選んだのとおなじことである。
　報酬$x > y$, 確率$0 \leq \rho, \rho' \leq 1$として、
　クジA: $[y:\rho, x:1-\rho]$
　クジB: $[y:\rho', x:1-\rho' ]$
があるとき、$\rho < \rho'$のときそのときに限りBよりAが選好される、ということをprobabilitic dominanceという。
　Sandroni & Shmaya (2013)の主張は次の通り。proabilistic sophisticationは成り立っているとする[←これについては説明がない...]。誠実な信念報告を引き出すためには、probabilistic dominanceさえ成り立っていればよい。
　彼らが提案した支払スキーマはこうである。[0,1]に規準化されたプロパー・スコアを$S(q, \theta_x)$とする。(1)アウトカム$\theta_1$が起きたら、確率$S(q, \theta_1)$で$x$を払い、確率$1-S(q, \theta_1)$で$y$を払う。(2)アウトカム$\theta_2$が起きたら、確率$S(q, \theta_2)$で$x$を払い、確率$1-S(q, \theta_2)$で$y$を払う。

　この提案のポイントは、専門家のリスク態度についてなにも仮定していないという点である。なお、BDMメカニズムとの違いは、支払い決定にあたって外部のランダム化装置が不要であるという点である[原文: "This mechanism differes from Becker-DeGroot-Marschak based mechanisms in that no external randomization device other tha nature is required to determine an expert's payment." よくわからない。BDMメカニズムでもSandroni & Shmayaでも、ペイオフ決定にあたってはなんらかの確率乱数の生成が必要じゃないの？]

　さて、Sandroni & Shmaya が見落としている点がある。
　彼らは、専門家からみて、次の2種類のクジが等しいと考えている。
　クジその1、上述のクジ。(1)アウトカム$\theta_1$が起きたら、確率$S(q, \theta_1)$で$x$を払い、確率$1-S(q, \theta_1)$で$y$を払う。(2)アウトカム$\theta_2$が起きたら、確率$S(q, \theta_2)$で$x$を払い、確率$1-S(q, \theta_2)$で$y$を払う。
　クジその2。アウトカム$\theta_1, \theta_2$の真の主観確率を$p_1, p_2$とする。確率$p_1 S(q, \theta_1)+ p_2 S(q, \theta_1)$で$x$を払い、確率$p_1 (1-S(q, \theta_1))+ p_2 (1-S(q, \theta_1))$で$y$を払う。
　この2つのクジが等しいというのは、自明ではない。Sandroni & Shmayaは暗黙のうちに、合成くじの分解(reduction of compound lotteries; ROCL)の定理を仮定しているのである。

　残念ながら、現実にはROCL定理は必ずしも維持されない。Harrison, et al.(2014 J.Econ.Behav.Org)をみよ。彼らによれば、選択が二値の場合はROCLは維持されるが、多値の場合には維持されない。
　では、アウトカムが二値であればSandroni & Shmayaのメカニズムは真実報告を引き出すか。そうかもしれないし、そうでないかもしれない。信念報告をクジの選択と捉えた時、$q=(q_1, q_2)$と報告するということは、(2個ではなくて)無限個のクジのなかから
　$[R(q, \theta_1):p_1, R(q, \theta_2):p_2 ]$
を選ぶということだからである。
　さらにいえば、Harrisonらの実験はすべての専門家の信念が互いに等しいような場面でのものであって、一般的な不確実性についていえるのかどうかはオープン・クエスチョンである。

　...ふうん。
　知識が足りなくて、このモヤモヤをうまく表現できないんだけど... 「人にはリスク選好ってのがある」という指摘と、「人は必ずしもROCL定理に従わない」という指摘は、同じレイヤの話なんだろうか？
　というわけで、この論文の意義については判断できないけど、先行研究概観は勉強になりました。

読了：Carvalho (2016) 当たり外れがプロパー・スコアリング・ルールで決まるクジを報酬にすれば参加者のリスク選好がどうであれ真実申告メカニズムが得られるというのは本当か

Sandroni, A., Shmaya, E. (2013) Eliciting beliefs by paying in chance. Economic Theory Bulletin, 1, 33-37.
　昨年のJ. Prediction Marketsにこの論文についてのコメントが載っていて、どうやらベイジアン自白剤のことが引き合いに出されているらしいので、読んでみた。
　雑誌名からして素人が読むべきものではないのかもしれないけれど、たったの5pだし、数式も少ないので、試しに目を通してみた次第。どうせ何についても専門家じゃないんだから、いいじゃないですか、何を読んだって。
　google scholarによる被引用回数は... 6件。渋い。

　いわく。
　専門家に自分の主観確率を誠実に報告させるインセンティブを求める方法としてプロパー・スコアリング・ルールがある。そういうのは多くの場合、専門家がリスク中立であること(ないしリスク選好が既知であること)を仮定している。本論文では非常に単純な原理を述べる。この原理を使えば、専門家の選好が既知であるという想定をdisposeすることができる。

　これから出来事$E$が起きるかもしれないし起きないかもしれない。ボブは$E$についての主観確率を持っている。Bobの主観確率をどうやって引き出すか。
　ボブが確率$\hat{p}$を申告したとして、$E$が起きたら金銭報酬 $S(\hat{p}, 1)$, 起きなかったら$S(\hat{p}, 0)$を支払うとしよう。ここで
　$S(\hat{p}, 1) = 2 - (1-\hat{p})^2$
　$S(\hat{p}, 0) = 2 - (\hat{p})^2$
とする支払スキーマ$S$をBrierスコアという。これはプロパー・スコアリング・ルールの例である。ペイオフの期待値
　$p S(\hat{p}, 1) + (1-p) S(\hat{p}, 0)$
を最大化するのは$\hat{p} = p$なので、ボブがリスク中立的なら、ボブは自分の主観確率を申告する。

　問題は、ボブのリスク選好がわからない場合、つまり$S(\hat{p}, 1), S(\hat{p}, 0)$がボブにとっての効用なのかどうかわからない場合である。
　ひとつの路線は、別の実験をやってボブの選好を調べるというものである。いっぽう、Karni(2009)は別の路線を考えた。以下で説明しよう。なお、より包括的な定式化としてLambert(2011)がある。
　金銭報酬$x, y$($x > y$)を使った次の2つのクジがあるとしよう。
　A: 確率$\mu$で$x$ドルもらえ、確率$1-\mu$で$y$ドルもらえるクジ。
　B: 確率$\mu'$で$x$ドルもらえ、確率$1-\mu'$で$y$ドルもらえるクジ。
ボブがBよりAを選好するのは、$\mu > \mu'$のとき、そのときに限ると仮定する。この仮定をprobabilistic sophistication and dominanceという。
　さて、次のランダム・スコアリング・ルールを考える。$P(\hat{p},1) = S(\hat{p},1)/2, P(\hat{p},0) = S(\hat{p},0)/2$とし、$E$が起きたら「確率$P(\hat{p},1)$で$x$ドルもらえ、確率$1-P(\hat{p},1)$で$y$ドルもらえるクジ」、$E$が起きなかったら「確率$P(\hat{p},0)$で$x$ドルもらえ、確率$1-P(\hat{p},0)$で$y$ドルもらえるクジ」を渡すのである。2で割っているのは単に確率を0～1の範囲に収めたいから。
　このとき、ボブが$x$を得る確率は
　$\{p S(\hat{p}, 1) + (1-p) S(\hat{p}, 0)\}/2$
なので、$S$がプロパーであれば、$p$を申告するのが最適となる。これはボブのリスクへの態度に関わらず成り立つ。
　[うううううう... わからないいいい... なぜそういえるの...??? リスク中立でないってことは、$S(\hat{p}, 1), S(\hat{p}, 0)$が効用でなくて、$U(S,p)$というような形の効用関数が別にあるってことだよね？それがどういう形であれ、sophisticationとdominanceという条件を満たしていれば、$\hat{p}=p$が効用を最大化するといえる、ってこと??? それって自明なの？どうも話の肝になるところが理解できていないみたいだ...]

　上の例は、支払額を偶然で決めることによって信念を引き出すという原理を示している。基本手続きは以下の通り。(1)なんらかのプロパー・スコアを基準化して、スコアが0～1に入るようにする。(2)この基準化されたプロパー・スコアを確率とみなし、この確率で高いほうの金銭報酬$x$を渡す。要するに、スコアが高いとき、高い報酬がもらえる確率が高くなるわけである。

　この原理は、多エージェントのゲーム理論的セッティングにも使える。たとえばPrelec(2004)のベイジアン自白剤について考えよう。[以下、ややこしいので全訳する]

Prelecは、それぞれの専門家の意見は共通の分布を持つある確率変数の実現値だと想定した。彼は次のようなベイジアン・ゲームを設計した。そのゲームにおいて、専門家$i$の行為空間$A_i$は、yesかnoかを述べること、そしてyesと答えた専門家の割合を予測することである。プレイヤー$i$の純戦略は、彼の実際の意見(yesないしno)を行為空間$A_i$にマップするものである。プレイヤー$i$のペイオフは、彼が構築する具体的な効用関数
　$U_i: \prod_k A_k \rightarrow R$
で与えられる。彼の論文のキーポイントは、全ての専門家たちが自分の意見を誠実に申告するナッシュ均衡が存在するというものである。
　Brierスコアの場合のように、$U_i$の下でのペイオフが金銭を単位として与えられている場合、そこではリスク中立性が仮定されている。ペイオフが効用であると仮定されている場合、そこでは専門家のリスク態度が既知だと仮定されている。しかし、いま線形の狭義単調増加関数$\tau$があり、全てのプレイヤー$i$、すべての行為プロフィール$a \in \prod_l A_k$について、$\tau(U_i(a))$が0と1の間だとしよう。行為プロフィールが$a \in \prod_l A_k$であるゲームにおいて、プレイヤー$i$が確率$\tau(U_i(a))$で金銭報酬$x$を承けとり、確率$1-\tau(U_i(a))$で金銭報酬$y$を受け取るとする(ただし$x > y$)。$x$と$y$のどちらになるかを決めるランダム化は、本質的に、それぞれのエージェントからもそれぞれの行為プロフィールからも独立である。Prelecのゲームにおける真実申告ナッシュ均衡は、この修正されたゲームにおいてもやはりナッシュ均衡である。このことは、probablistic sophistication and dominanceの下で、専門家のリスク態度と無関係に成立する。

　...忘れちゃったんだけど、ベイジアン自白剤ってプレイヤーのリスク中立性を仮定しているんだったっけか。あとで調べておこう。
　えーと、要するに、報酬をプロパー・スコアリング・ルールで与えたときは、参加者がリスク中立でないと真実申告メカニズムにはならないんだけど、報酬を「プロパー・スコアリング・ルールに基づく確率」で決めれば、リスク選好がどうであれ真実申告メカニズムが作れるんだよ、という話なんだと思う。で、それはベイジアン自白剤にもあてはまるんだよ、ということなんだと思う。そうなんすか。
　ときに、報酬を確率的に決めるというのはBDMメカニズムもそうなんだけど、どういう関係にあるんだろうか。

読了：Sandroni & Shmaya (2013) 当たり外れがプロパー・スコアリング・ルールで決まるクジを報酬とせよ、さすれば参加者のリスク選好がどうであれ君は真実申告メカニズムを得るだろう

2017年11月26日 (日)

Frank, M.R., Cebrian, M., Pickard, G., Rahwan, I. (2017) Validating Bayesian truth serum in large-scale online human experiments. PRoS ONE. 12(5).
　原稿の準備で読んだ奴。読んだ際のメモが出てきたので記録しておく。久々のベイジアン自白剤論文で、面白く読んだという記憶がある。

　第1著者はMITメディアラボの人で、Prelecとどういうつながりがあるのかわからない(謝辞にPrelecの名前はない)。第3著者はGoogle所属。

　いわく。
　調査回答者に主観的判断を求めるということが、各分野においていかに不可欠か、という前置きがあって...
　不誠実な回答を引き起こす原因のひとつは強欲である。特にAmazon Mechanical Turk(MTurk)なんかだと回答者は利益の最大化を目指すわけで、これは深刻な問題になる。
　対処策としてベイジアン自白剤(BTS)が提案されているけれど、実証実験は小規模なのしかない。そこで大規模にやりました。

　BTSの説明。
　BTSとは、正直さ、ないし得られた情報に応じて報酬を与える方法で...[←という風に、BTSを明確にrewardingの手法として紹介している。この辺は書き手によってニュアンスが違うところだ]
　その仕組みは...[中略]...まあそういうわけで、α > 0で正直さがベイジアン・ナッシュ均衡になり、α=1でゼロサムゲームになる。本研究ではα=1とする。
　
　実験。MTurkでやる。
　以下、実験群には「情報スコアが上位1/3にはいったら追加ボーナスを金で払う」と教示。しかし情報スコアの中味は教えず、かわりに「MITの研究者が開発した真実申告検出メカニズムだ」と教示する。
　実験群は2種類。(1)透過BTS群。回答から情報スコアを動的に算出して提示。(2)BTS intimidation群。情報スコアは見せないが報酬は渡す。[恫喝群とでも訳すところか]

実験1、コイン投げ。
　統制群と恫喝群にランダム割付(N=2032, 1822)。参加報酬は0.05ドル、情報スコア上位者への追加報酬は0.5ドル。
　課題は「コインを五回投げ、毎回の結果を報告せよ。オモテの数x0.01ドルをやる」。で、最後に他の回答者の回答を予測させる。
実験2、サイコロ投げ。
　統制群、恫喝群、透過群にランダム割付(N=1050, 1010, 947)。参加報酬は0.2ドル、情報スコア上位者への追加報酬は0.5ドル。
　課題は「サイコロを五回投げ、毎回の結果を報告せよ。出目の和x0.01ドルをやる」。最後に他の回答者の回答を6カテゴリそれぞれについて予測させる。
実験3、値付け。
　統制群、恫喝群、透過群にランダム割付(N=648, 613, 643)。参稼報酬は0.2ドル。情報スコア上位者への追加報酬は1.5ドル。
　米国の州の名前を提示し、5つの選択肢から州都を選ぶ、という設問を提示。課題は「この設問が20問ある調査があったら適切な報酬はいくらか」。0.1ドルから1ドルまでの10選択肢から選ばせる。次に他の回答者の回答を予測。最後に、その調査票に実際に回答させ、言い値を払う。

　結果。

BTSの前提として、被験者はdispropotionately predict endorsements of their own beliefsだという想定があるわけだが、これは支持された。たとえば実験1ではオモテ報告数が多い人が他人のオモテ報告数を多く予測した。これは実験条件を問わなかった。[ちょ、ちょっと待って...これをここで確かめることにどういう意味があるんだろう...]
実験１では、ウラ報告率は統制群で43%, 恫喝群で47%。改善している。
実験２では、出目の和を理論分布と比べると、まあどの群でも大きめに歪むんだけど、歪みは透過群、恫喝群、統制群の順に小さいし、「はーい出目の和は30でしたー」と報告する不届き者の数が減っている。[←全体の3～5%もいる。ウケる...]
実験３でも透過群ではgreedyな回答が減っている...[略]。

　考察。
　BTSによる改善は、統制群よりも報酬の期待値が大きいせいか。先行研究によれば、金銭的インセンティブの増大は作業量の増大を招くが作業の質は増大させない(Mason & Watts, 2020 ACM SigKDD Newsletter)。本研究でもそうで、統制群の報酬を増やしたけど結果はかわんなかった(補足資料をみよ)。
　調査における回答の正直さ促進の手法として、honesty pledgeとか、宗教的正直さの喚起とかを行う手法があるけど、きっとこの実験の恫喝群でも同じ事が起きたのだろう。つまり同じ効果が、怒れる神とか個人的誠実性の喪失とかへの恐怖から得られたかもしれない[おおっと... BTSが一種のbogus pipelineである可能性を認めちゃうのね...]。いっぽう透過群では回答分布がさらに正直な方向に変わった。
　云々。

　...小声で超偉そうな言い方をしちゃうと、わかりやすくよく書けている論文である(うわあ、何様だろうか)。PLoS ONEだからといってなめてはいけない。ちょっと図表が冗長な感じだがな(すいませんすいません)。
　この実験、統制群と実験群の比較じゃなくて、恫喝群と透過群の比較が一番面白いところだと思うんだけど、見た感じではそんなに明確な差じゃない気がする。

　イントロのところからメモ:

出口調査が人々の真の信念を表現しないという研究：Wang, et al.(2015 Int.J.Forecasting); Morton, et al.(2015 Euro.Econ.Rev)
世論調査が社会的影響で歪む: Evrenk & Sher (2015, Public Choice)。[←戦略投票 vs バンドワゴン効果、というタイトル。面白そう]
調査回答への社会的影響についての研究例; Gino, Nrton, Ariely (2010, Psych.Sci.)。[読む前から面白いとわかる感じで、少々うんざりするぜ...]
報酬最大化のためにcheatingさせる実験研究: Fischbacher & Follmi-Heusi (2013 J.Euro.Econ.Assoc.)
銀行における不誠実性の研究: Cohn, Fehr, & Marechal(2014 Nature)[←面白そう]

よくみると、やたらにWattsの論文を引用している。

読了：Frank, et al. (2017) ベイジアン自白剤 in クラウド・ソーシング

2017年9月13日 (水)

佐藤哲也 (2017) AIと政治. 人工知能, 32(5), 672-677.

　最新号の「人工知能」誌は「AI社会論」という特集で、佐藤先生が寄稿されていた。忘れないうちに内容をメモ。良いまとめとは思えないので、関心ある方は原文をお読みくださいますように。

　いわく、
　汎用人工知能というような話は横に置いておいて、現行技術が政治現象にもたらす影響について考えると、

メディアにおける人工知能技術の活用(記事生成とか推薦とか)が政治的不安定につながる可能性がある。
投票支援(ボートマッチとか)は、投票者の認知資源節約という点で社会的ニーズが高い。でも良く考えると、政策に基づいて投票すべきだという政策的合理性だけを重視して支援していていいのか。そもそも政党は公約をかんたんに反故にしたりするわけだし。それに、それってある種のエリート主義で、非エリート層には受け入れられず、社会的分断がさらに拡大したりしないか。[ううううむ...]
民主主義と市場原理という基本システムは、そもそも集合知メカニズムであるという側面を持っている。その改善のための人工知能的アプローチとして、
- 多次元的シミュレーション。これまでの複雑系シミュレーションや予測市場では、エージェントの行動原理は基本的にシンプルだったけど、今後はさまざまな社会的価値を多次元的に把握することが求められるし、利用可能な多次元データも増えるだろう。
- 交流を通じて意図的に創発現象を発生させようとすることがあるけど、そこで得られる動的データからの学習。討論型民主主義、ショッパーインタビュー、ワークショップ・アイデアソンなど。[←なるほどー。ここのところインタビューのプロセスの確率的言語モデルに関心を持っていたんだけど、その理由がやっと腑に落ちた]
- 自律分散型契約実行メカニズム(augurとか)。要素技術として興味深い(なんらかのイベント認識が分散的に実現できるとすれば、それはひとつの入力センサになる)。またスマートコントラクト技術。

ところで、昨今の人工知能ブームにはテクノロジー・プロパガンダという面がある。バイオや製薬では、産業界のアカデミズムへの不正な介入が社会問題になっているが、構造が似てきていないだろうか。結局割りを食うのは一般の納税者や投資家だ。人文社会的観点からの検討が必要であろう。

読了：佐藤(2017) 人工知能と政治

2017年8月17日 (木)

この春から、誰ともろくに喋らずネットにもアクセスせず、静かに暮らす日々が続いていたもので、読んだ資料のメモもそれなりに溜まってきた。せっかくなので順次載せていくことにしよう。

Prelec, D., Seung, H.S., & McCoy, J. (2017) A solution to the single-question crows wisdom problem. Nature, 541, 532-535.
　ベイジアン自白剤というわけのわからない話によって哀れな私を翻弄した、Prelecさんの新論文。入手方法がなくて嘆いていたら、M先生が親切にもお送りくださった。ありがとうございますーー、とお勤め先の方角に向かって平伏。

　原稿の準備のために頑張って読んでいたら、逐語訳に近いメモとなってしまった。

　群衆の知恵がいかなる個人よりも優れているという考え方は、かつては物議をかもしたものだが(Goltonをみよ)、いまではそれ自体が群衆の知恵の一部となった。いずれはオンライン投票が信頼される専門家たちを駆逐するかも、などと考える人もいるほどだ(キャス・サンスティーンやスロウィッキーをみよ)。
　群衆から知恵を抽出するアルゴリズムは、たいてい民主的投票手続きに基づいており、個人の判断の独立性を保存する(Lorenz et al., 2011 PNAS)。しかし、民主的手法は低レベルな共通情報に偏りがちだ(Chen et al, 2004 MgmtSci.; Simmons et al., 2011 JCR)。確信度を測って調整する方法もあるけどうまくいかない(Hertwig, 2012 Sci.)。
　そこで代替案をご提案しよう。「もっとも一般的な答え」「もっとも信頼できる答え」ではなく、「人が予測するより一般的な答え」を選ぶのだ。この方法は、機械学習から心理測定まで幅広い分野に適用できる。

　フィラデルフィアはペンシルバニア州の州都でしょうか？コロンビアはサウス・カロライナ州の州都でしょうか？多くの人がyes, yesと答えてしまう(正解はno, yes。ペンシルバニア州の州都はハリスバーグ)。確信度で重みづけて集計しても正解は得られない。
　さて、我々の提案手法はこうだ。対象者に、「この問いに他の人々がどう答えるか」の分布を予測してもらう。で、予測よりも多くの支持を集めた答えを選ぶ。
　このアルゴリズムの背後にある考え方を直観的に示すと次の通り。いま、ふたつの可能な世界、すなわち現実世界と反事実世界があるとしよう。現実世界ではフィラデルフィアは州都でない。反事実世界ではフィラデルフィアは州都だ。現実世界においてyesと答える人は、反事実世界においてyesと答える人よりも少ないだろう。これを歪んだコインのトスをつかって形式化しよう。いまあるコインがあって、現実世界では60%の確率でオモテとなり、反事実世界では90%の確率でオモテとなる。さて、多数派の意見はどちらもyesを支持する。人々はコインが歪んでいることを知っているが、どちらの世界が正しい世界かは知らない。その結果、yes投票率についての人々の予測は60%と90%の間になる。しかるに、現実のyes投票率は60%である。従って、noが「意外に一般的な答え」、すなわち正解となる。[←はっはっはー。2004年のScience論文と比べると格段にわかりやすい説明となっているが、それでもキツネにつままれたような気がしますね]
　この選択原理を「意外に一般的」アルゴリズム(SPアルゴリズム)と呼ぶことにしよう。詳細はSupplementを読め。
　実際に試してみると、フィラデルフィア問題では、yesと答えた人のほぼ全員が「みんなもyesと答えるだろう」と予測し、noと答えた人の多くは「noと答えるのは少数派だろう」と予測した。よって、yes回答は実際よりも高めに予測され、「意外に一般的」回答はnoとなった。いっぽうコロンビア問題では、yes回答率は実際よりも低めに予測された。ね？「意外に一般的」回答が正解になっているでしょ？

　対象者の確信度を使って、これと同じくらい妥当なアルゴリズムを構築できるだろうか？
　いま、対象者が世界の事前確率とコインのバイアスを知っているとしよう。さらに、個々の対象者は自分のプライベートなコイン・トスを観察し、ベイズ規則を用いて確信度を算出するとしよう。確信度を使ったアルゴリズムがあるとしたら、それは報告された確信度の大きな標本から実際のコインを同定しなければならない。
　しかし、確信度の分布は同じだが正解が異なる2つの問題の例を示すことができる[と架空例を示しているが、ややこしいので省略]。この例は確信度を使ったアルゴリズムを作れるという主張に対する反例となっている。もちろん、現実の人々は理想化されたベイジアン・モデルに従うわけではないが、ここでいいたいのは、事前確率に基づく手法は理想的対象者においてさえうまくいかないということであって、現実の対象者においてはさらにうまくいかないだろう。
　それに引き替え、SPアルゴリズムは理論的に保障されている。それは利用可能な証拠の下での最良の解だ。さらに、このアルゴリズムは多肢選択設問に拡張できる。また、投票予測によって、正解にもっとも高い確率を与えている対象者を同定できる。これらの結果は、歪んているコインの例を多面コインへと一般化する理論に基づいている。

　[ここで4つの実験を駆け足で紹介。正解がわかっている設問について、多数の支持を得た選択肢、SP、確信度で重みづけた集計での一位選択肢、確信度最大の選択肢、を比較する。どの設問でも、正解との相関はSPが一番高い]。

　SPの成績は、対象者が利用できる情報、そして対象者の能力によって、常に制約されるだろう。利用可能な証拠が不完全ないしミスリーディングであれば、その証拠にもっともフィットする答えは不正解となるだろう。この限定は、設問を注意深く言い換えることでよりはっきりさせることができる。たとえば、「世界の気温は5%以上上がるでしょうか」という設問は「世界の気温は5%以上上昇するかしないか、現在の証拠に照らしてどちらがありそうでしょうか」と言い換えることができる。
　SPアルゴリズムは、理想的回答からのいくつかの逸脱に対して頑健である(Supplementをみよ)。たとえば、もし対象者が両方の世界について考えその中間の予測を行うのではなく、自分が正しいと信じる世界の投票率だけを予測したとしても、SPの結果は変わらない。また、対象者にとって予測課題が難しすぎると感じられ、50:50と予測したりランダムな予測値を出したりした場合、SPの結果は多数派の意見に接近するが、方向としては正しいままである。
　政治や環境問題の予測のような論争的なトピックにこの手法を適用する際は、操作を防ぐことがじゅゆ用になる。たとえば、対象者は不誠実に低い予測を示して、特定の選択肢を勝たせようとするかもしれない。こうした行動を防ぐためには、ベイジアン自白剤で真実申告にインセンティブを与えることができる。Prelec(2004 Sci.), John, Lowenstein, & Prelec(2012 Psych.Sci.)をみよ、我々はすでに「意外に一般的」原理が真実の診断に使えることを示している。
　予測市場とのちがいについて。SPは検証不可能な命題についても使えるところが異なる。

　意見集約においてはこれまで民主的手法の影響力が強く、また生産的でもあったのだが、それらの手法はある意味で集合知を過小評価するものであった。人々は自分の実際の信念を述べるように制約されていた。しかし、人々は仮説的シナリオの下でどんな信念が生じるかを推論することもできる。こうした知識を用いれば、伝統的な投票がうまくいかないときにも真実を復元できる。もし対象者が、正解を構築するに十分な証拠を持っていれば、「意外に一般的」原理はその答えをもたらす。より一般的にいえば、「意外に一般的」原理は利用可能な証拠の下での最良の答えをもたらす。
　これらの主張は理論的なものである。実際の対象者は理想と違うから、現実場面での成功は保障されない。しかし、ペンシルバニア問題のような単純な問題で、理想的対象者においてさえ失敗するような手法を信頼するのは難しい。我々の知る限り、提案手法はこのテストを通過する唯一の手法である。

　... 「意外に一般的」原理はベイジアン自白剤(2004年のScience論文)の基盤でもあったので、理論的に新しい展開というわけではないんじゃないかしらん？
　いっぽう論文のストーリーは2004年の論文と大きく異なり、「意外に一般的」原理をスコアリング・ルールの基盤としてではなく、単なる意見集約アルゴリズムとして説明している。

読了：Prelec, Seung, & McCoy (2017) 「みんなが思うよりも意外に多い」回答が正解だ

2015年11月30日 (月)

Bothos, E., Apostolou, D., Mentas, G. (2009) IDEM: A prediction market for idea management. "Lecture notes in business information processing", vol 22. pp.1-13.
　いわゆるアイデア市場の研究のひとつ。書籍の章の体裁になっているが、カンファレンス・ペーパーの再録らしい。前にざっとめくっていたのだけど、都合により急遽再読。
　著者らはギリシャの人。今調べたら、どうやらSAP社と協同でやっているようだ。このチームは現在もアクティブに研究しているようだから、もっと新しい論文もありそうなものだな...

　いわく。
　予測市場を使ったアイデア生成ってのがある(先行研究としてSoukhoroukovaらのとLaCombらのを挙げている)。両方ともうまくいっているようだが、既存手法との比較が大事だ。
　アイデア管理のために予測市場を使おうとする際、難しい点が３つある。(1)アイデアは必ずしも実現しないので、ふつうの予測市場とはちがって将来の出来事が定義できない。(2)アイデア評価には多様な使用シナリオが伴う[製品の使用文脈のことじゃなくて、アイデア生成か拡張か評価か、という話]。(3)市場価格しか出力がない。

　というわけで、このたびアイデア管理のための予測市場プラットホームIDEMをつくりました。以下の工夫をしています。

アイデアを株価ではなくVWAPで評価する。[←それはそんなに誇るべきことなのか...?]
専門家委員会の意見でアイデアを評価し、それに基づいて参加者のポートフォリオを評価し勝者を決める。[←なにをいっているのか大変わかりにくいが、運営側は実はVWAPに関心があるんだけど、参加者にとっては専門家委員会の評価を予測する市場になっている、ということだと思う。Soukhoroukova方式だ]
参加者は取引だけでなく、アイデア生成や改善でも儲けることができる。用意されたブログに改善案を投稿すると、その投稿もまた取引可能なアセットになる、という仕組み。

取引アルゴリズムはマーケット・メーカつきの連続ダブルオークション。

価格関数はオープン・ソース・ツール Zocalo にインスパイアされたもので、実世界の需給条件をシミュレートしている。この関数は対数ルールに従い、多くの人が買うとマーケット・メーカの価格を上げ、多くの人が売ると下げる。オリジナルのアルゴリズムでは価格の範囲が0から1になっているので、取引をわかりやすくするために0から100に直した。さらに、ある市場に多くのマーケット・メーカが含まれるようにした。ひとつのアイデア証券あたりひとつのマーケット・メーカがつく。これは、Zocaloの実装ではそれぞれの証券がひとつの市場を構成し、したがってそれぞれの市場にひとつのマーケット・メーカが与えられるからである。

[このくだり、以前読んだときには「お前はなにを言っているんだ??」という状態だったが、いまなら言っている意味がわかる。想像するに、個々のアイデアごとにbuy証券とsell証券をつくり、この2銘柄のマーケット・メーカを走らせているのではないだろうか。で、個々のマーケットメーカだけをみると、たぶんLMSRみたいな仕組みになっているのだと思う。くそー、こういう話だったのか...]
参加者は匿名。3週間実施。最初に架空通貨で10000単位を渡す。参加者は取引だけでなく新アイデアの投稿もできる。2人の審査員が投稿を審査し、上場を決定する[投稿ごとに審査員が変わるのか、全投稿をこの二人が審査するのか、よくわからない]。上場時の株価は50。上場された銘柄の株が50枚配られる[ここだけでは誰に配るのかはっきりしないが、次節とあわせると、どうやらアイデアが上場したらその株を全参加者に配るという話らしい。現実の株式市場とのアナロジーで考えていると度肝を抜かれる展開だ]
　[そのほか、ソフトの機能の説明。省略]

　実験。
　５人の専門家が、市場終了時点で全アイデアを100点満点で評価、これをペイオフとする。アイデア投稿者にはその株を10枚プレゼント。34アイデアの投稿があって26アイデアが上場。取引は1572回発生。
　最後に質問紙。投資家には、これまでにイノベーション過程に関与した経験、予測市場への評価、システムの使いやすさ、実験の特徴(例, 匿名性)が行動にどう影響したか。結果は[...このくだり、別にメモを取るのでここでは省略]。専門家にもアンケートをとった[省略]。

　考察。
　アイデア評価の既存手法として以下がある：

多基準決定分析(multi-criteria decision analysis)。その核になるのはvalue tree分析で、その代表例がAHPだ。もっと簡単な方法としてはチェックリストを使う方法がある。
統計的方法。たとえばコンジョイント分析。
見込み消費者からの定性情報収集。フォーカス・グループ、応用エスノグラフィー。
Rapid Prototype Development。新製品アイデアを特別な材料やツールをつかって素早く実現してしまう。ソフトウェア開発でいえばアジャイル・プログラミング。
Feasibility Study。経済、環境、技術、組織の観点からプロジェクトの成功の見込みを検討する。
そして集団的知能システム。予測市場とか。

以上の手法を、アイデアの数、評価者の数、扱えるアイデアのタイプ、フィードバックのタイプ、評価者のモチベーション、の観点から比較すると...[略。予測市場は、そのアイデアがなぜ高く/低く評価されたかのフィードバックが限定的だが、他の観点では全勝、という整理であった]
　今後の課題としては... (1)アイデアがすごく増えたときに投資家にどう見せるか。アイデアの擬人化とかどうよ、というようなことを書いている[←面白いかも]。(2)上場審査の民主化。あるいは完全な無政府状態にしちゃうとか。
　云々。

　ところで、この論文の本文中で、アイデア管理のための予測市場プラットホーム(つまりIDEMと競合する既存サービス)として、Spigit, InnovateUs, VirtualVenturesの3つが挙げられている。調べてみると、Spigitは2011年から電通国際サービスが代理店をやっている(売れているのかしらん??)。日本語の宣材をみても、市場メカニズムをにおわせる記述はない。InnovateUsは現存する模様。VirtualVenturesは確認できなかった。
　本題とは関係ないけど、予測市場をつくったら魅力的な固有名詞を付けることが大事だと思った。HSXとかIEMとか、Gates-Hillman Marketとかshuugi.inとか。アイデア市場の先行研究はそこんところでしくじっていると思う。Imagination Marketでは一般的すぎる。ついでにいうと、Soukhoroukovaさんの名前が長すぎるのでメモを取るのに困る。

読了：Bethos, et al. (2009) アイデア市場プラットホームIDEM

2015年11月27日 (金)

Skiera, B., & Spann, M. (2011) Using prediction markets in new product development. in Williams, L.V. (eds.), "Prediction Markets: Theory and Applications," Routledge. pp.75-86.
　タイトル通り、「新製品開発における予測市場」というテーマでの短い概観。なんかいいこと書いてあるかな、と思ってざっと目を通した。

　著者らいわく。
　製品開発において予測市場が役立つのは次の４つのステージである。

アイデア生成とスクリーニング。すなわちアイデア市場。コミュニティをつくって製品アイデアを取引させ、議論させる。リードユーザの同定にも使える(Spann et al., 2009 JPIM)。スクリーニングにも使える(Soukhoroukova et al., 2012; LaComb et al., 2012; Bothos, 2009 IDEMの奴; Chen, et al., 2010 Interfaces)。こういうアイデア市場の予測市場との大きな違いは、(1)銘柄数が決まっていない、(2)証券の価値が実際の出来事の結果では決まらない。
コンセプト開発とテスト。すなわち選好市場ないしコンセプト市場(Dahan et al., 2011; Dahan et al., 2010 JPIM)。銘柄数は胴元が決める。弱点はペイオフを終値なんかで決めなきゃいけないところだが、致命的な弱点ではない(Slamka et al., 2011)。
製品テスト。マーケティング担当者を投資家にして予測市場をやる。6人でも大丈夫だという話がある(van Bruggen et al., 2010 DecisionSupportSys.)。消費者を投資家にして予測市場をやり、質問紙調査とFGIを併用するってのもできる[と書いているが、引用しているのはSpann & Skiera (2003)、これはレビューだ。実例はあるのだろうか]
上市前予測。Dahan & Hauser (2002, JPIM)を見よ。利点は、(1)新情報へのリアルタイムな反応、(2)情報が勝手に集約される、(3)市場を一旦つくっちゃえば安上がり、(4)うまくすれば真の評価を申告するインセンティブをつくれる[そんなに簡単な話じゃないように思うけど。ここでForsythe et al.(1992 Am.Econ.Rev.)が挙げられている。M先生のリストにも入ってたやつだ。やっぱこれ読まなあかんか...気が重い]。

　実証研究の紹介。
　ドイツで映画の興収の予測市場を７ラウンドやった(CMXXというそうだ)。１ラウンドあたり１か月くらいで、参加者はオープン、成績の順位を競う。架空通貨市場、実金銭報酬はなし。ダブルオークション、24時間取引、空売りなし、指値注文。
　結果。各ラウンドの投資家は50人くらい。専門家の予測より当たった。ただし、あんまり宣伝してない映画は情報がないので成績も悪かった。81本の映画の予測精度について回帰分析すると、価格のボラタリティと上映館数が効いていた。云々。
　
　テーマを依頼されてちゃっちゃと書いたんだろうな、というコンパクトな内容であったが(失礼ヲオ許シクダサイ)、頭の整理になりました。
　完全に未知の文献はそんなに出てこなかったが、未読の奴が結構あることに気が付いた。情けないなあ。

読了：Skiera & Spann (2011) 新製品開発のための予測市場

2015年11月24日 (火)

Peters,M., Ye, Y., So, A.M. (2007) Pari-mutuel Markets: Mechanisms and Performance. in "Internet and Network Economics," Proceedings of Third International Workshop, WINE 2007, 82-95.
　後日のためにいちおう記録しておくけれど、これは読了どころか、難しすぎて途中で断念し、論文の筋立てさえわかっていない。後半にはなんかチャートがのっているから、シミュレーションでもしたんですかね、っていう感じ。
　出展もよく分からなくて、ネットに公開されているのを拾ったんだけど、2008年と書いてある。たぶん上記文献の私家改訂版であろう。

　まあとにかく、逐次凸パリ・ミュチュエル・メカニズム(SCPM)を提案した論文らしい。
　こうして落ち着いてめくってみると、この論文の内容についていけなかったのは、数理的最適化についての知識がないからだ。KKT条件とか、双対問題とか、そういう基礎知識がないのでわからないだけだ。そんな知識を俺が持っているわけがないだろう。だからあまり落ち込むことはない。と自分に言い聞かせて、次にいこう、次に。

読了：Peters, et al. (2007) 逐次凸パリ・ミュチュエル・メカニズム

読んだとは到底いえないが、諦めをつけるために記録しておく。

Agrawal, S., Delage, E., Peters, M., Wang, Z., Ye, Y. (2011) A unified framework for dynamic prediction market design. Operations Research, 59(3), 550-568.
　予測市場、金融市場、賭け市場などなど、「ある出来事が起きたらある金を払う」タイプの市場(contingent claim markets)は数多い。連続的ダブル・オークションとかだと市場が薄いときに流動性がなくなっちゃうので、自動マーケット・メーカが使われることが多い。いろんなメカニズムが提案されている。コール・オークションに由来するメカニズム(SCPM)や、スコアリング・ルールに由来するメカニズム(LMSR)があるが、「敗者が払った金を勝者に分配する」という意味でいずれもパリ・ミュチュエルである。[←他の論文でもそうなんだけど、この著者らはパリ・ミュチュエルという言葉をかなり広い意味で使っているようだ]
　メカニズムを比較する研究はすでにある(Chen & Pennock, 2007; Peters, Ye, & Son, 2007)。本論文は異なるメカニズムを統合するフレームワークを提案します。

　メカニズム概観。以下、「ある出来事が実現したら1ドル払う」という証券について考える。
　その1, マーケット・スコアリング・ルール(MSR)。
　出来事$\omega$の確率推定値を$r = (r_1, r_2, \ldots, r_N)$とする。$\omega$の結果$i$が実現したときに$S=S_i(r)$となるような$S=S_1(r), S_2(r), \ldots, S_N(r)$をスコアリング・ルールという。信念の真実申告を促進するスコアリング・ルールをプロパー・スコアリング・ルールという。
　Hansonの考えたMSRとは、マーケット・メーカ(MM)がまず初期確率推定値$r_0$を持っていて、取引でそれが変わるたびに、その取引を行った投資家にプロパー・スコアリング・ルールで求めたスコアを払わせる、というもの。スコアリング・ルールとしては、
　対数スコアリング・ルール $S_i(r) = b \log (r_i)$
　二次スコアリング・ルール $S_i(r) = 2br_i - b \sum_j r_j^2$
が用いられる。
　MSRは投資家のtruthfulなbidを引き出すことが知られている[←近視眼的な投資家については、ってことなんだろうけど]。

　その2, コスト関数ベースMM (Chen & Pennock, 2007)。
　投資家たちが現在維持している、それぞれの状態についてのクレームの数をベクトル$q \in R^N$とする[←発行株数量のことだろうか？]。全注文$q$の合計コストを、なんらかのコスト関数$C(q)$で決める。さて、ある投資家がある注文を投げたとしよう。この注文を、状態$i$についての彼のクレームを要素$a_i$とするベクトル$a \in R^N$で表す。MMはその投資家に$C(q+a) - C(q)$を課金する。
　... という枠組みで考えると、HansonのLMSRは
　$ C(q) = b \log (\sum_j \exp(q_j/b))$
として表される。もっと一般的に言うと、所与のスコアリング・ルール$S$によるMSRは、以下の条件を満たすコスト関数ベースMMと等価である。
　すべての$i$について$S_i(p) = q_i - C(q) + k_i$ (k_iは任意の定数)
　$\sum_i p_i = 1$
　すべての$i$について$p_i = \frac{\partial C}{\partial q_i}$

その3, 効用関数ベースMM (これもChen & Pennock, 2007)。
　MMは最終的ペイオフ$x$について効用関数$u(x)$を持ち、市場をやっている間じゅう、主観確率分布$\theta$に基づく期待効用を一定に維持し続ける。
　全状態についてのペイオフをベクトル$m$とする。$x$における$u(\cdot)$の導関数を$u'(x)$とする。状態$i$のリスク中立価格を
　$p_i = \frac{\theta_i u'(m_i)}{\sum_j \theta_j u'(m_j)}$
とすると、効用$\sum_j \theta_j u(m_j)$が定数になる。
　将来のペイオフに関するMMのリスク態度という観点から問題定式化した初めての提案であったが、MMはふつうそれぞれの結果の確率を知らない、という点が問題。

　その4, 逐次凸パリ・ミュチュエル・メカニズム(SCPM)。
[このSCPMというモデル、全然理解できない。引用されている Peters, Ye, So (2007) もめくってみたんだけど、とてもじゃないが私の理解が及ぶところではなかった。腹が立つので全訳する]

SCPMは以下のように設計されている。投資家に、次の3つの要素を含む注文を投げるように求める: 指値 $\pi \in R$, 数量上限$l$, 注文を記述するベクトル$\vec{a}$。$a$の各要素は1(その状態を望んでいるというclaim)ないし0(望んでいないというclaim)からなる。指値とは、投資家が1株に対して払いたい最大の量を指す。数量上限とは、投資家が買いたいと思う株の最大数量を表す。マーケット・メーカは、ある新しい注文について、そのうち$x$株を承諾する、そしてそれにいくらいくら課金する、と決める。マーケット・メーカは以下の最適化問題を解くことによってこの決定を行う。
　${maximize}(x,z,\vec{s}) \ \ \ \pi x - z + \sum_i \beta_i \log(s_i)$
　$s.t. \ \ \ \vec{a}x + \vec{s} + \vec{q} = z \vec{e}, \ \ 0 \leq x \leq l$
パラメータ$\vec{q}$は、この新しい注文$(\pi, l, \vec{a})$が到着する前にthe traders[たぶん投資家サイド全体という意味]が持っていた株の数量を表す。新しい注文が到着するたびに、上記の最適化問題が解かれ、state prices $\vec{p}$が、the optimal-dual variables associated with the first set of constraintsとして定義される。投資家には、state priceのベクトルと実現された注文の内積$\vec{p}^T\vec{a}$が課金される。

[具体例でいこう。巨人阪神戦の賭けで考える。すでに巨人株が3枚, 阪神株が1枚売れている($q = (3,1)^T$)。で、「巨人株くれ、最大で一株あたり0.8ドル出す, 最大で3枚まで買う」という注文が届く。$\pi = 0.8, l = 3, \vec{a} = (1,0)^T$。市場運営者は、~~全株あわせて~~各銘柄について最大で$z$枚まで売ろう、と思っている。今回の売り枚数を$x$とすると、それは0以上、3以下。そして
　$1 x + s_1 + 3 = z$
　$0 x + s_2 + 1 = z$
あ、そうか、$s_1, s_2$は「あと何枚売れるか」を表しているのか。
　その上で、以下を最大化する。
　$0.8 x - z + (\beta_1 \log s_1) + (\beta_2 \log s_2)$
　ってことは、$\beta_1, \beta_2$は売り控えを奨励する程度を表す係数だ。で、$0.8x$が今回の売上の最大値。$z$は最悪の場合の支払額だ。仮に$\beta_1 = \beta_2 = 1$とすると、目的変数は
　$0.8 x - z + \log (z-3-x) + \log(z - 1)$
ここからがわかんないんだけど、これが常に解けるんでしょうね、きっと。で、ここからどうにかして$p$が出てくるんでしょうね、きっと。いいよもう、理系の人のいうことを信じるよ]

　その他、Pennockの動的パリ・ミュチュエル市場(DPM)があるけど、最後の注文が来るまで勝ち注文の価値が決まらないという特徴があるので、以下では扱わない。

　以上を統合するフレームワークとして以下を提案する。これはオリジナルのSCPMを一般化したもので、最大化する関数を
　$maximize(x,z,\vec{s}) \ \ \ \pi x - z + v(\vec{s})$
としたもの。以下ではこっちをSCPMと呼ぶ。
　$v(\cdot)$がなんであれ、VCG値付けスキーマの下で、SCPMメカニズムは近視眼的にtruthful biddingを許容することが証明できる。
　[VCGメカニズムって、まずパレート効率的に落札者を決めて、落札者は自分の言い値じゃなくて、Vickreyオークションみたいな謎のルールで決まる謝罪料金みたいなものを払う、ってやつだよね... 駄目だ、私の能力を超えた話になってきた...]

　... まだ全体の1/3くらいだけど、文字通り力尽きたので、ここからは見出しだけ。
　SCPMをコスト関数ベースMMとしてみたらそのコスト関数はどうなるか。
　SCPMではMMは最悪でいくら損するか。
　SCPMをリスク最小化という観点から定式化するという長い長い話(全然理解できない)。
　既存のメカニズムを片っ端からSCPMの特殊ケースとして位置づける。LMSRは$v(\vec{s})=-b \log (\sum_i \exp(-s_i /b )) $であるSCPMである、とか。
　どんなSCPMだとどういう性質を持つか。たとえば、SCPM+VCG値付けスキーマは、真実申告性、コスト関数ベースMMとの等価性、スコアリングルールとの等価性を持つ、とか。
　SCPMに基づき新たなるメカニズムを考えてみよう、とか。この辺になるともう目を通してもいない。視線がつつつーっと文面をすべっていくような感じ。

　だ・め・だ。降参。これは私には無理だ。。。
　正直、わからなすぎて途中で吐きそうになった。なんでこんなの読もうとしているんだ、という惨めな思いで胸が一杯だ。

読了：Agrawal et al.(2011) ありとあらゆる自動マーケット・メーカを統一的に説明する枠組み(ま、おまえら素人には百年経ってもわからんだろうがな)

2015年11月19日 (木)

Chen, Y., Dimitrov, S., Sami, R., Reeves, D.M., Pennock, D.M., Hanson, R.D., Fortnow, L., Gonen, R. (2010) Gaming prediction markets: Equilibrium strategies with a market maker. Algorithmica, 58(4), 930-969.
　かなりの時間を費やし、細かくメモをとりながら10頁くらい読んだが、これは私には到底歯がたたない、と云い切れる内容であった。これ以上泥沼をのたうちまわっても時間の無駄なので、涙を飲んで断念。

　理路は全くもって理解できないが、読んだ範囲では、どうやらこういう内容であるらしい。
　LMSRマーケット・メーカを使った予測市場は近視眼的にインセンティブ整合であることがわかっている。つまり短期的にいえば、投資家は予測対象についての自分の真の信念に従って取引するのが最適である。では非近視眼的にみるとどうか。つまり、序盤で自分の信念に反する取引をして他の投資家を騙しておき、あとで食い物にする、というようなことはできるか。
　市場を不完備情報の下での展開型ゲームと捉え、ごにょごにょごにょごにょごにょと、お前ら凡人には死ぬまで理解できないであろう魔術的な分析を行った結果、次のことがわかった。
　みんなが使っているある製品について、その製品の材料が高品質か低品質かを当てる予測市場について考えよう。個々の参加者は製品使用経験というプライベートなシグナルを持っているが、それら「ある製品の材料が高品質か低品質か」という真相の下で条件つき独立だ。こういう風に、投資家が持っているプライベートなシグナルが世界の真の状態のもとで条件つき独立であるような市場であれば、自分の信念に基づく取引が弱完全ベイジアン均衡(WPBE)になる。
　こんどは選挙の予測市場について考えよう。有権者は自分の投票意向というプライベートな情報を持っている。これは互いに独立である。選挙結果は投票で決まる。つまり、世界によってシグナルが決まるわけじゃなくて、シグナルが世界に影響する。このような、投資家のプライベートな情報が独立である市場では、自分の信念を貫く取引はWPBEにならない。
　そこで、新たに「割引LMSR」を提案する。なんだかよくわからんが、対数スコアリング・ルールで求めるスコアにある係数を掛けておき、取引が進むごとにその係数をちょっとずつ増やしていくらしい[ってことは、株価が次第に動かなくなるってこと？？]。
　
　せっかく膨大なメモをとったのに... ああ、無性に腹が立つ。死ね、俺より頭のいい奴はみんな死ね。(まずいな、人類滅亡の危機だ)

読了：Chen, et al.(2010) LMSR予測市場で他人を騙す方法とその防止策 (を考えたが貴様ら凡人にはわかるまい)

2015年11月17日 (火)

　仕事の関連で、最近ちょっと悩んだことがあって... 市場の「流動性」って、いったいなにを指しているんだろう？どうやって測るのが正しいんだろう？恥ずかしくて人には訊けないし...

黒崎哲夫, 熊野雄介, 岡部恒多, 長野哲平 (2015) 国債市場の流動性：取引データによる検証. 日本銀行ワーキングペーパー.
　というわけで、大慌てで目を通した。
　著者らによると、「流動性」の定義はけっこうばらばらで、「その時々で観察される市場価格に近い価格で、売りたい(買いたい)量を速やかに売れる(買える)」ことを指していたり、「個々の売り買いが市場価格に大きく影響しない」ことを指していたり、価格ボラティリティが小さいこと自体を指していたりする。

　市場流動性をどうやって測るか。Kyle(1985, Econometrica)という古典的研究があって、売値と買値の幅の狭さ(tightness)、市場の厚み(depth)、市場の弾力性(resiliency)といった複数の軸で測ろうと提案している。さらに取引数量という軸もある。
　これは次の2軸で整理できる。横軸に注文数(正が買い、負が売り)をとる。縦軸に指値注文の設定価格をとる(正のみ)。取引が成立する範囲は、このチャートの中央に浮かぶ長方形で表現される。長方形の面積がvolume。その長方形の高さがtightness。縦軸からみた横幅がdepth。この長方形は、右下から上向きに買い注文の圧力、左上から下向きに売り注文の圧力を受けており、この圧力がresiliency。[うーん、わかったような、わからんような...]

　では、国債市場の流動性指標をつくりましょう。大阪取引所の取引データを使います。
　なお背景として、2014月末の量的質的金融緩和の拡大よりこのかた、市場関係者の間には「日銀が国債をどかっと買い入れていて流動性が低下している」という実感があるんだそうだ。

　まず、長期国債先物市場について。
　tightnessとしてbid-ask spread、volumeとして日々の出来高に注目。観察すると、2014年秋以降もspreadはずっと小さいし、出来高は高い。tightnessとvolumeだけじゃいかんということですね。
　depthとしてbest ask(bid)の枚数に注目。観察すると、たしかに2014年秋から薄い時間帯が増している。しかし、これだけではまだ足りない。なぜなら、たとえばbest ask枚数が表面上は増加していても、それがなにかのきっかけで急速に減少し、なかなか回復しない(resiliencyが低い)ようであれば、市場参加者にとっては流動性が低いことになる。さらにいえば、実際そうなんじゃないかというふしもある(これまで板を提示していた投資家が、金利変動の拡大とともに金利観を見失って提示を減らしているんじゃないか)。

　では、resiliencyとしてなにに注目するか。伝統的には、日中の値幅を出来高で割った値(値幅出来高比率)をみることが多い。しかし、これは最高値と最安値しかみてないという問題点がある。そこで、日次じゃなくて高頻度取引データを使い、1単位の取引が価格に与える影響(price impact)の推移を推測しよう。
　具体的には、price impactがランダム・ウォークすると仮定して、カルマンフィルタで平滑化する[←おおお、なるほど。価格変化を状態空間で表現しようってわけだ]。5分間の先物価格の変化幅を$\Delta p_t$, 5分間のネット取引金額(買い-売り)を$q_t$として、
　$\Delta p_t = \beta_t q_t + \epsilon_t$
　$\beta_t = \beta_{t-1} + \delta_t$
この$\beta$がprice impact。観察すると、なるほど、2014年秋から高くなっている。

　こんな感じで、現物国債市場についても指標をつくる。略。
　さらに、以下の２つの角度からみた流動性を調べる。

　その１、現物国債と長期国債先物の連関性。これが不安定になると、現物のポジションから発生する金利リスクを先物でヘッジできなくなるので、マーケット・メイクの難しさが増す[←へえええ。いやー、ど素人なので、いちいち面白いわ]
　具体的には、両者の利回り変化幅の相関をとる。これは低くなってない。

　その２、「SCレポ」市場の動向。
　[なんのことだかさっぱりわからなかったのだが、調べたところどうやらこういうことらしい。国債市場のディーラーは、現物国債の取引で売りポジションをとるとき、誰かに担保の資金を差し入れて国債を借りてくる。このとき、ディーラーは貸借料を支払うが、担保として差し入れた資金に対する金利を受け取る。国債の貸し手側は、国債の貸借料の分だけ低利で金を借りていることになるし、ディーラーの側は、国債を担保にとって安全に資金運用しているともいえる。この取引を「SCレポ取引」というのだそうだ。金利から貸借料を引いた値をSCレポレートという由。SCレポレートが大きなマイナスになるということは、ディーラーが売りポジションを取りにくくなるということ、すなわちディーラーが国債市場で取引しにくいということを意味することになる。へえええ]
　[よく理解できない細かい議論があって...] どうやら貸借料は高くなっている模様。

　まとめ。
　2014年秋以降、国債市場の流動性はどう変わったか。先物市場では、tightnessとvolumeは変わらず、depthとresiliencyは低下。現物市場ではdepthが低下。先物の金利ヘッジは維持されているが、SCレポ市場での国債の希少性が増している。要するに、流動性は極端に下がってはいないが、いくつかの指標で下がっているので、今後も要注意。

　難しい話はぜんっぜんわかんないんですけど、要するに、市場の流動性ってのはいろんな角度から捉えられる、ということらしい。そうだったのか。ちょっとほっとした。
　自動マーケット・メーカ方式の予測市場にあてはめて考えると、(A)「その時々で観察される市場価格に近い価格で、売りたい(買いたい)量を速やかに売れる(買える)」ことは常に満たされている。流動性という言葉が使われるとしたら、それは(B)「個々の売り買いが市場価格に大きく影響しない」ことを指しているか、ないし(C)価格ボラティリティそのものを指しているか、であろう。LMSRマーケット・メーカのパラメータは「流動性パラメータ」と呼ばれているけれど、これは(B)の意味だな。

読了：黒崎ほか(2015) 市場の流動性とはなにか、それをどうやって測るか

2015年11月12日 (木)

Brahma, A., Chakraborty, M., Das, S., Lavoie, A., Magdon-Ismail, M. (2012) A Bayesian Market Maker. 13th ACM Conference on Electronic Commerce.
　予測市場のための自動マーケット・メーカの新機軸、BMM(ベイジアン・マーケット・メーカ)を提案するよ！ LMSR(対数マーケット・スコアリング・ルール)を超える凄い奴だよ！という論文。
　筆頭著者の所属がQualcommになっているので驚いたが、Rensselaer Polytechnic Institute在学中の研究らしい。

1. イントロダクション。略。

2. マーケット・メイキング
　その1, LMSR。早速ここで躓いた。著者いわく。

価格はパラメータ $b$とマーケット・メーカの現在のインベントリー$q_t$で決まる。ここで$t$とは注文到着時を表すインデクスである。インベントリ―はゼロから始まる、すなわち$q_0$である。これは初期価格$0.5$に対応する。

おおっと。どうやらここで著者は2銘柄しかない市場について考えているわけだ。さらにいわく、

スポット価格は$\rho(q_t)= \exp(q_t/b) / (1+\exp(q_t/b))$である。取引が数量$Q$に達したとして、時点$t+1$における投資家のコストは次の式で与えられる:
　$C(Q; q_t) = \int_{q_t}^{q_t+Q} ds \ \rho(s) $
　$= b \ln (1+\exp( (q_t+Q)/b )) - b \ln (1+\exp( q_t/b )) $

うわあ。著者は2銘柄のうち一方だけが取引されるとみて、取引されないほうについては$\exp(q_t/b)$のかわりに1を置いている。ってことは、一方の銘柄の発行数量が常に0であるような2銘柄の市場について考えているのだ。なぜ？この定式化に基づいて考えた話は、多銘柄を取引する場合にもあてはまるの？

　まあいいや、先を読むと... (以下、引用表記を省略)
　LMSRにはつぎのような問題点がある。取引に参加している多くの人々が、なんらか違う信念を持ち続けているとしよう。さらに、常に何人かの投資家がいて、なんらかの取引をしており、そのサイズを$Q$としよう。時点$t$における株式発行量を$q_t$とする。
　数量$Q$におけるbid-ask spreadについて考えよう。すなわち、$Q$株の買いの平均価格と、$Q$株の売りの平均価格の差である。それは次式となる:
　$\delta (Q) = \frac{b}{Q} \ln( \frac{cosh(q_t/b) + cosh(Q/b) }{2 cosh^2(q_t/2b) } )$
[← $cosh(x) = (\exp(x) + \exp(-x))/2$であろう。この式、他の全銘柄の発行数量が0である市場については確かに成り立つようだ。わざわざスプレッド・シートをつくって確認した。ヒマなのか私は]

　仮に、均衡価格がインベントリー$q_{eq}$に対応しているとしよう。典型的な取引数量が$Q$ならば、この均衡点の周囲におけるスポット価格の変動は強度$sinh(Q/b) / (cosh(q_{eq}/b) + cosh(Q/b))$を持つ。この変動は均衡点について非対称であり持続する。[←このくだり、まったく理解できない...そもそも価格変動の強度ってどのように定義されているの？]

　そのせいで、質的な確率推定値を抽出するのが困難になる。$b$の選択は重要なオープン・クエスチョンである。小さな$b$は損失の小ささを保証するが、均衡点の周囲での変動が大きい、流動性の低い市場となる。[←ま、この結論は理解できるので、いいか]
　
　その2、流動性敏感なLMSR。LMSRにおいてはある取引数量に対する価格反応は流動性を問わず等しい。つまり、価格を $p_i (q)$ として $p_i (q + \alpha 1) = p_i(q)$である。Othmanらは$b$を市場の数量の関数にして、流動性敏感な価格関数をつくった (先日読んだOthman et al. (2013)のカンファレンスペーパー版)。しかしこの提案では、全銘柄を通した株価の合計が1を超える...云々。 [このくだり、批判してんだか単に紹介してんだかわからない]

　その3、Dasらの情報ベース・マーケット・メーカ(ZPマーケット・メーカ)。
　マーケット・メーカが証券の価値$p_t(v)$についてなんらかの信念(事前確率密度)を持っている。投資家がシグナル$s$を得る。$s$の分散は投資家が持っているシグナルの不確実性を表す。マーケットメーカは事前分布しか情報を持っていないので、ここに情報の非対称性が生じる。この非対称性は投資家の事前信念の分散と投資家の不確実性の比として表現される。
　マーケット・メーカは買値(ask)と売値(bid)を提示する。トレーダーは、$s$がaskより小さければ売るし、bidより大きければ買う。ここでaskとbidを決めるには、利益の期待値が0になる(zero profit, ZP)ことを目指せばよい。すなわち、$ask=E_{p_t(v)}[v | s　\gt ask], bid = E_{p_t(v)}[v | s \lt bid]$を解けばよい。
　で、マーケット・メーカは取引を観察して$s$についての情報を手に入れ、$p_t(v)$を$p_{t+1}(v)$に更新する。というモデルである。

　その4、その他にもいろいろある。Pennockの動的パリ・ミュチュエル・マーケット、Hollywood Stock Exchangeのマーケット・メーカ。

　比較しよう。投資家の信念の分布の平均を動かして株価の変動をシミュレーションしてみると、LMSRは適応するが収束せず、情報ベースMMは収束するけど適応が遅い(MMが大損する可能性がある)。流動性敏感LMSRも適応が遅い(MMは損しないけど)。
　思うに、MMは損することなく流動性をつくりだすものであってほしい。また、均衡点に収束するものであってほしい。第三に、真値の変動にすばやく適応してほしい。

3. 市場のミクロ構造
　以下では単一の証券について考える。価格を0から100とする。出来事が起きたかがどうかでペイオフが0ないし100になるのかもしれないし、清算配当が0から100のあいだになるのかもしれない。
　投資家はその証券の取引の履歴と、「現在の株価」をみることができる。投資家は取引数量を選ぶことができ、注文前にその取引価格を知って、注文するかどうか決めることができる。

4. BMMアルゴリズム
　提案手法はDasのZPマーケット・メーカを改善し、適応性を増したものである。以下、その仕組み。
　MMはスポット価格$p_t$を出す。投資家は注文を投げる。注文の数量を$Q$、売買方向を$x_t = \pm 1$とする(正が買い)。マーケット・メーカは、$Q$枚の株のVWAPを示し、ほんとに取引するかどうか尋ね、取引したりしなかったりする。で、MMは現在の信念を更新するわけだ。そのやり方について説明する。以下では買い注文について説明する。

　まず、ZPではどうなっていたか。
　MMは市場の価値についてのガウシアン信念$V: N(\mu_t, \sigma_t^2)$を持っている。スポット価格は$p_t = \mu_t$である。で、投資家の信念は$V$の周りに分散$\sigma_e^2$で正規分布すると仮定し、MMが情報的に不利である程度を$\rho_t = \sigma_t / \sigma_e$とする。売値を以下のように決める。
　$ask = \mu_t + \sigma_e Q(\rho_t) \sqrt{1+\rho_t^2}$
$Q(\rho)$とはDasらが決めた関数。こうして決めた売値の下で、利益の期待値は0になる。ここでは取引数量について考えていないことに注意。
　さて、MMは投資家の信念$s$が取りうる範囲について考える。たとえば投資家が取引に応じたら、$s$はaskより上だ。もしキャンセルしたら、$s$は$\mu_t$と askのあいだだ。[←おおお。注文が入ってから取引価格を示してキャンセルを許容することに積極的な意味があるわけだ。これは面白いな]。そんなこんなで、$s$の上限と下限、$\mu_t$, $\rho_t$, $\sigma_e$の5つを組み合わせて、$\mu_t$と$\sigma^2_{t+1}$を更新する。詳しくはDasの論文を読め。

　これを改善して... [以下、なんだかめんどくさくなっちゃったので略。数量を反映させ、取引履歴を一定の窓でモニタしてMMの信念の不確実性を変えていく、というような話だったような気が]
　シミュレーションすると... [パス]

5. 人間による実験。めんどくさくなって飛ばし読み。
6. エージェントによる実験。一行も読んでない。
7. 結論。BMMは優れてます。ただし、LMSRみたいに組み合わせ市場には拡張しにくい。またMMの損失は小さいけど有界ではない。すでにRPI Instructor Rating Marketsというところで運用実績がある。云々。

　ワクワクしながら読み始めたのだけど、途中で読む気を失くしてしまった。先行するZPマーケットメーカについて知っていないとお話にならない。Das(2005, Quantitative Finance), Das(2008, Proc.AAMAS), Das&Magdon-Ismail(2008, NIPS)というのを読むべきらしい。

読了：Brahma, et al. (2012) ベイジアン・マーケット・メーカ

2015年11月 9日 (月)

　仕事の都合で大急ぎで読んだ奴。読了というのも憚られるが、いちおう記録しておこう。

Othman, A., Pennock, D.M., Reeves, D.M., Sandholm, T. (2013) A practical Liquidity-Sensitive Automated Market Maker. ACM Transaction on Economics and Computation (TEAC), 1(3), Article 14.
　予測市場におけるマッチング・メカニズムの一方の雄、Hansonの対数マーケット・スコアリング・ルール(LMSR)にケチをつけて改善する、という論文。第一著者はCMUの人で、Gates-Hillman予測市場という面白い研究をやった人。いまはAugurに関与しているんじゃないかな...

1. イントロダクション
　新しい自動マーケット・メーカ(MM)をご提案します。予測市場はもちろんのこと、天気の保険だろうがスポーツ賭けだろうがクレジット・スプレッドだろうが、とにかくペイオフが二値である(つまり、未来が有限の状態に分割されそのひとつが実現する)いかなる証券に対しても適切です。
　先行する提案にHansonのLMSRがある。LMSRでは流動性パラメータを事前に決める。この決め方が結構難しい。僕らもそこでしくじりました(Gates-Hillman予測市場のこと。Othman & Sandholm, 2010)。パラメータを下げ過ぎちゃうと取引のたびに価格が変動しすぎてしまう。LMSRではある固定されたbetに対する価格変動が定数なので余計問題である(普通の市場なら、人気のあるエクイティはスプレッドが小さくなり、大きなポジションをとっても価格はあまり動かない)。また、流動性は投資家には嬉しいけど、MMからみると最悪の場合の損失が大きくなる。
　本提案はLMSRの変種で、現金の流入が多いとき価格弾力性を下げる。また、LMSRでは銘柄を通した株価の合計を1ドルに固定するけど、本提案では1ドルより大きくしてMMの損失を抑える。さらにLMSRと同じくらい簡単。
　[ここ、大事だと思うので１パラグラフ全訳]

取引の増大とともにmarket depth[一単位の価格変動を引き起こすのに必要な取引サイズのことであろう]を増大させるのは、どんな場面でも適切だとはいえない。資産に制約のある投資家の市場で、世界の真の状態が頻繁に変動している場合について考えてみよう。この場面では、market depthが一定で浅いと、トレーダーたちは世界の真の状態に素早く到達できるようになる。これに対し、こうした場面で取引量とともにmarket depthを増やしてしまうと、価格は「粘着する」ようになり、正しい値に到達できなくなる。しかし、世界の真の状態が変動しているということは、我々の新しいマーケット・メーカにとっては必ずしも問題にはならない。もし取引している人々が資産の制約を受けていなかったら、価格は依然として変化し、想定される適切な値を反映するようになりうる。だから、新しい情報が生じない場面、情報が穏やかにしかあきらかにならない場面、取引機会が生じるのを「傍観者として」待っている資本が十分にある場面では、我々のマーケット・メーカは、LMSRにおける流動性パラメータを正しく選択するという必要を、不要なものにしてくれる。

2.価格ルール
　出来事の空間を$n$個の相互排他的な出来事に分割しよう。生じるのはどれか1個である。市場の状態をベクトル$q$で表す。$i$番目の要素は、$i$番目の出来事が生じた場合に投資家たちに払わないといけない支払額である。MMが提示する周辺価格[marginal price]は$q$の関数となる。$q$を価格ベクトルにマップする微分可能な関数を価格ルールと呼ぶ。
　価格ルールが持つべき特性として、convex pre-imageであることが挙げられる。convexityは、投資家が自分のポートフォリオの任意の部分を売り戻したとき、その残りにもなお値がつくことを保証する。 [すでにここで躓きつつあるが... まあいいや]

　さらに、価格ルールは以下の3つの特性を持つことが望ましい。

経路独立性。市場がある状態から別の状態に移動したとき、その移動がどのような形であれ、投資家への支払は累積で同じであること。で、convex pre-image性を持つ経路独立な価格ルールは、[...中略] MMのコスト関数の勾配となる。
翻訳不変性。$q$の下での各出来事の価格の合計が1になること。この性質があるかぎりMMは終値が初値よりも正確である分だけ損をすることになるわけで、実際の多くの市場は翻訳不変性を満たさない。いっぽう、翻訳不変性は投資家が鞘取りできないことを保証する。また、価格と確率の等しさを保存してくれる。一物一価の法則も保証してくれる(2つしか選択肢がないとして、一方の勝ちへのbet価格は他方の負けへのlose価格と同じ。ダブルオークションでは必ずしも満たされない)。
流動性敏感性。$q$の全要素に定数を加えたとき価格が変わること。厚い市場(流動性の高い市場)のほうが、投資あたりの価格変化が小さくなる。直感に合っているし、つぎのようにベイズ流に考えることもできる。コイン投げについて考えよう。表になる確率の事後推定値の変化は、最初のコイン投げよりも1000番目のコイン投げのほうで小さい。[なるほどね...]

さて、この3つの性質をすべて満たすMMは存在しない。経路独立性と翻訳不変性の両方を満たすMMをHanson MMと呼ぼう。Hansonの文脈では流動性敏感性には到達できない[証明が書いてあるけど、理解できそうにないのでパス]。

3.我々のMMの紹介
　Hansonのルールをより実用的にしようとする提案としては、まず、取引に手数料を課す、というのがある。MMは儲けることが可能になる。でも流動性敏感にはならない。[この方向のもっとややこしい改善案についても批判している。パス]。
　流動性敏感性を確保するために翻訳不変性を緩和するという手もある。$q$の下での各出来事の価格の合計を1以上とする。ただし、投資家がMM相手に鞘取りできることになる[全銘柄を1枚売れば、価格1ドルが保証された株を1ドル以上で売りつけたことになる、という意味であろう]。これを防ぐためには、MMに契約空間を前進させればよい[←はぁ...?]。2つの方法がある。

No sellingスキーマ. 市場の状態を$q^0$とする。投資家がMMに契約[obligation] $q$を課すとしよう。ここで$q_i$の最小値を負とする。最小値の絶対値を$\bar{q}$としよう。通常のコスト関数なら、投資家は$C(q^0 + q) - C(q^0)$を払うところだが、そうではなくて、$C(q^0 + q+\bar{q} 1) - \bar{q} - C(q^0)$を払わせる。市場は$q^0 + q+\bar{q} 1$に移動する。つまり、MMは常に契約空間を前進する。
　[さっぱりわからんので例を挙げて考えよう。巨人対阪神の賭けを考える。いま、巨人が5枚、阪神が5枚売れている($q^0=(5,5)$)。ある投資家が阪神を2枚売りたい($q=(0,-2)$)。このとき、$C(5,3) - C(5,5)$を払うのではなくて、$C(5+2, 3+2) - 2 - C(5,5)$を払う。巨人が7枚、阪神が5枚売れたことになる。ああそうか、「阪神を売りたい」と抜かす奴には「かわりに巨人を買え」っていうわけね]
Convered Short Sellingスキーマ。前に買った株だけが売れる [あれ？それって単に空売りなしってこと？]。投資家$t$への配当ベクトルを$q^t$とする。通常の価格はコスト関数で決めるんだけど、$q^t$の最小値が負になるような注文のみ、その最小値の絶対値を$\bar{t}$として、配当ベクトルが$q^t + \bar{t}1$となるような注文に変換する。
　[いま、ある投資家が巨人を2枚、阪神を1枚持っていて($q^t = (2,1)$)、阪神を2枚売りたいと抜かしたら(阪神が1枚ぶん負になっちゃうから$\bar{t}=1$)、巨人を1枚買わせ、阪神を1枚売らせる。]

どっちのスキーマがよいかは場合による。投資家があんまし賢くなかったら、買いがキャンセルできるという点で(2)のほうがよい。なお、HansonのMMならどちらを採用しても両方採用しなくてもコストは同じ。

　さて、ご存じLMSRは、
　コスト関数 $C(q) = b \log (\sum_i \exp(q_i / b))$
　価格 $p_i (q) = \exp(q_i/b) / ( \sum_j \exp(q_j /b))$
　でございます。MMの最悪の損失は$b \log n$です。

　お待たせしました、我々の提案です。
　コスト関数 $C(q) = b(q) \log (\sum_i \exp(q_i / b(q)))$
　流動性 $b(q) = \alpha \sum_i q_i, \ \ \ \alpha >0 $
　MMは契約空間を前進する(上記のNo sellingスキーマかCovered Short Sellingスキーマを採用する)。

4.我々のMMの性質
　まずは価格について。LMSRよりかなりややこしくなって、
　$p_i (q) = \alpha \log(\sum_j \exp(q_j/b(q))) + \frac{\sum_j q_j \exp(q_i/b(q)) - \sum_j q_j \exp(q_j / b(q))}{\sum_j q_j \sum_j \exp(q_j / b(q)) }$
他の銘柄の発行枚数が多いと、ある銘柄への投資に対する価格の変化は小さくなる。$q$の下での価格の合計は1にならないけど、厳しい制約がかかる[長くて面倒くさいのでパス]。
　このMMでは、$b$のかわりに$\alpha$をアプリオリに決めないといけない。$\alpha$はMMのコミッションに相当している。たいていのMMは2～20%くらいのコミッションをとっている。これを$v$として、$\alpha = v / (n \log n)$と置くとよい($n$は出来事の数)。なお、$\alpha$の増大に対してコスト関数は非減少である[証明略]。
　このMMの損失の範囲はどうなるか、利得の範囲はどうなるか...[略]
　このMMのコスト関数は一次の正の同次関数(homogeneous function)になっていて... これはつまり価格が比例尺度になっていると言うことで... [力尽きました。略]

5. 考察
　我々の提案する新しい自動MMは、LMSRの二つの限界を乗り越えている。(1)流動性水準$b$をマニュアルで設定しなければならず、変えられない。(2)MMは$b$に比例した損失を負うと期待される。
　我々の提案には翻訳可能性がない、つまり、価格と確率が対応しない。でも、価格は確率の範囲と対応している。たとえば$q = k1$のとき、その価格には$1/n-\alpha (n-1) \log n$から$1/n+\alpha(n-1) \log n$の範囲の確率が対応する。ふつう$\alpha$は小さいので、この幅は狭い。要するに、価格を価格合計で割って確率だと思えばいいんじゃないですか。[←結局そうなるのか]
　云々。

　ううう。私にはあまりに難解で、実質的に半分くらいしか読めてないんだけど、きりが無いので読了にしておく。
　要するに、LMSRの流動性パラメータ$b$を発行済株数の合計に比例させるというアイデアである。イントロのところで著者らも触れているけれど、「一株の取引での価格変化」が発行済株数の増大によって変わることと変わらないことには、それぞれ長所と短所があり、市場の所与の条件と目的によって決めるべきことだろうと思う次第である。そこんところを詳しく知りたいなあ。

読了：Othman, et al. (2013) LMSRマーケット・メーカの流動性を自動調整する

2015年9月24日 (木)

Chen, Y. (2011) Mechanisms for prediction markets. Williams, L.V. (eds.), "Prediction Markets: Theory and Applications," Routledge.
　題名通り、予測市場の市場メカニズムに焦点を合わせた概観。目次は以下の通り:

1. オークショナー・メカニズム
- 1.1 コール・マーケット
- 1.2 連続的ダブル・オークション
- 1.3 一般化コール・メカニズムと合成予測市場
2. パリ・ミュチュエル市場
3. 自動マーケット・メーカ・メカニズム
- 3.1 マーケット・スコアリング・ルールとコスト関数ベース・マーケット・メーカ
  - 1) プロパー・スコアリング・ルール
  - 2) マーケット・スコアリング・ルール
  - 3) コスト関数ベースのマーケット・メーカ
- 3.2 動的パリ・ミュチュエル・マーケット

　いわく。
　予測市場の主目的は情報集約だ。そのためには次の３つの特徴が望まれる：

流動性。参加者がいつでも取引相手を見つけられること。
表現性。参加者が情報を自由に表現できること。
負債有界性。market institution[以下、取引所と訳す]側の潜在的損失に限りがあること。

というのを踏まえて、ここからは主要メカニズムを概観します。

1. オークショナー・メカニズム。取引所は注文マッチングだけやって損失リスクを負わない。当然、負債有界である。次の3種類がある。

1.1 コール・マーケット。参加者は指値注文する。契約$\psi_i$, 数量$q_i$ (正値はbuy, 負値はsell)、指値$b_i$の注文を$(\psi_i, q_i, b_i)$としよう。ここで指値のことを、買い注文のときにはbid price, 売り注文のときにはask priceという。
　個別の契約が取引される時点は事前に決まっている。その時点で集まっている注文をまとめ、買い注文と売り注文が釣り合う価格をclearing priceとする(細かい点まで考えると決め方はいろいろある)。で、clearing priceより高い売り注文、安い買い注文は捨て、残った注文を(個別の指値ではなく) clearing priceで一気にマッチングする。
　ところで、全注文を指値の高い順に並べ、clearing price をM番目の指値$p^M$ にするのは第M価格オークションだが、M番目の指し値とM+1番目の指し値の間にするのをk-ダブルオークションという。kとは0から1までの間の値で、たとえば0.5-ダブルオークションとはclearing priceを$p^M$と$p^{M+1}$の中間にすることを指す。コール・マーケットはk-ダブル・オークションであるともいえる。

1.2 連続的ダブル・オークション(CDA)。ほとんどの予測市場はこれを使っている。取引所はorder bookを持っている[板のことであろうか]。そこではすべての注文が指し値の高い順に並んでいる。上部が売り注文、下部が買い注文、最低のaskと最高のbidの差がbid-ask spreadである。で、新しい注文が来たらk-ダブルオークションをやって、マッチングできる注文をマッチングさせる。
　CDAの問題は流動性の低さである。コール・マーケットは取引の即時性を犠牲にして流動性を確保しているわけだ。株式取引では一日の始まりと終わりにコール・マーケット、そのあいだはCDA、という組み合わせにすることが多い。[←日本では、寄りつきと引けは板寄せ、そのあいだはザラバ、と表現するらしい]

1.3 一般化コール・メカニズムと合成予測市場。コール・マーケットとCDAはbilateralだけど(ある約定について売り注文と買い注文がある)、コール・マーケットをmultilateralに拡張することができる。どういうことかというと...
　US大統領選について予測するために、50州それぞれについての独立な市場をつくったとしよう。各市場に民主党勝利の契約と共和党勝利の契約があり、勝った方の契約に1ドル配当する。いま、あるトレーダーが、「フロリダとオハイオでは民主党が勝ちニューヨークで負ける」という見込みについて情報をもっていたとしよう。この情報をこの市場で完全に表現することはできない。
　そこで、50州での結果を組み合わせた $2^{50}$ の結果空間を考える。すべてについての契約をつくるのは現実的でないが、なんらかの賭け言語をつくって、結果の組み合わせに賭けられるようにする。「民主党がフロリダとオハイオで勝つ」とか。こういう合成予測市場での注文マッチングは最適化問題としてモデル化できる。
　すべての合成契約の実現時のペイオフを1ドルとして考えよう。結果空間を$\Omega$、受けた注文の集合を$O$とする。注文$i$について、数量を$q_i$(買い注文は正値、売り注文は負値)、指値を$b_i$、それが実現したことを表す二値変数を$I_i(w)$、オークショナーがその注文を受けたことを示す二値変数を$x_i$とする[オークショナーは受けた注文一枚につき利益$b_i - I_i(w)$を得るわけだ]。オークショナーの利益を最悪の場合で$c$だとすると、すべての$w \in \Omega$について制約
　$\sum_i (b_i - I_i(w)) q_i x_i \lt c_i$
を満たしつつ、$c$を最大化する$x_i$を探す、という問題として定式化できる。[んんん？制約式の右辺は$c$じゃなくて$c_i$なの？まあいいや。本節ここから話が難しくなるので後略]

2. パリ・ミュチュエル市場。ある出来事についての、排他的で包括的な複数の結果のリストがあって、参加者はそのうち好きなのに賭ける。結果確定後、実現しなかった結果に賭けられた賭け金を集めて、実現した結果に賭けた人に、賭け金に応じて比例配分する。たとえば結果$i$への賭け金が$W_i$ドル、合計が$W$ドルだったとして、結果$j$が実現したら、$j$への賭け1ドルあたり$W/W_j$を配当するわけだ。参加者は好きなだけ賭けられるわけで、流動性は無限大である。
　パリ・ミュチュエル市場では契約という概念がはっきりしていない。強いて云うと、1ドル賭けた人は「その結果が生じたら、すべての賭け金を株主のみなさまに等分いたします」という契約を一株もらえる。配当は市場が閉まるまで決まらない。参加者からみると、最後の瞬間に賭けることにインセンティブが生じてしまう。

3. 自動マーケット・メーカ・メカニズム。マーケット・メーカがリスクを負って価格を決定し取引する。
　オークショナー・メカニズムもパリ・ミュチュエル市場もゼロ・サム・ゲームである。合理的なリスク中立的エージェントはゼロ・サム市場で取引しないはずである(ノー・トレード定理)。いっぽうマーケット・メーカ・メカニズムならポジティブ・サム・ゲームになりうるわけで、合理的エージェントでさえ取引のインセンティブを持つ。それに流動性もある。いやーんステキ。問題は負債有界性をどうやって確保するかである。

3.1 マーケット・スコアリング・ルールとコスト関数ベース・マーケット・メーカ。予想市場におけるマーケット・メーカの事実上の標準である。さあいくぞ、歯を食いしばれ。

1) プロパー・スコアリング・ルール。いったん市場のことは忘れて、専門家に出来事の確率を評定させたとき、彼らを誠実にするようなインセンティブの決め方について考えよう。
　予測対象の離散確率変数を$v$、その相互排反で包括的な結果の数を$n$とする。確率評価の申告を $r = (r_1, r_2, \ldots, r_n)$とする。結果$i$が実現したときに与えるスコアを$s_i$とする。スコアの決め方$S=\{s_1(r), s_2(r), \ldots, s_r(r)\}$をスコアリング・ルールと呼ぶ。
　リスク中立的な専門家からみて、スコアの期待値が真実申告によって最大化されるようなスコアリング・ルールのことをプロパーであるとよぶ。プロパー・スコアリング・ルールの例：
　対数スコアリング・ルール: $s_i (r) = a_i + b \log (r_i)$
　二次スコアリング・ルール：$s_i (r) = a_i + 2 b r_i - b \sum_{j=1}^n r^2_j$ ただし$b>0$
　プロパー・スコアリング・ルールの研究はもう山のようにある。個々の参加者の申告と全員の申告の平均とのずれに従ってスコアを与えるシェアド・プロパー・スコアリング・ルールというのもある。

2) マーケット・スコアリング・ルール(MSR)。Hansonはプロパー・スコアリング・ルールをマーケット・メーカ・メカニズムに変換する方法を示した。
　市場のスタート地点はなんらかの初期確率推定$r^0$である。市場の参加者とは、現在の市場の確率推定によって決められたスコアリング・ルール・ペイメントを払って、現在の確率推定を新しい確率推定に変え、その新しい確率推定によって決まるスコアリング・ルール・ペイメントを受け取る。結果$i$が実現したら、確率推定を$r^{old}$から$r^{new}$に変えた参加者は、$s_i(r^{old})$を払って$s_i(r^{new})$をもらう。ある参加者が市場に一回しか参加しないとしたら、スコアリング・ルールはプロパーだから、彼の真実申告にインセンティブが与えられている。
　[いつもここからわけがわからなくなっちゃうんだけど...]
　参加者たちは徐々に確率推定を変えていくわけだから、MSRをシェアド・プロパー・スコアリング・ルールのシーケンシャルな適用だと捉えることができる。マーケット・メーカは、最初の参加者から金をもらって最後の参加者に金を払う。マーケットメーカの損失は最悪で
　${max}_i sup_{r \in \Delta_n} (s_i(r)-s_i(r^0))$
ただし$\Delta_n$は確率シンプレクス。
　[あああ、やっぱりここで狐につままれたような気分になる...]

3) コスト関数ベースのマーケット・メーカ。上の説明はわかりにくいので、別のクラスのマーケット・メーカを定義します。結局は上の話と等しくなります。
　結果$i$が実現したら配当1ドル、しなかったら0ドルとなる契約を考える。全トレーダーが持っている数量合計を$q_i$とし、$i$を通したベクトルにして$q$とする。全トレーダーが$q$に払う総金額をコスト関数$C(q)$とする。あるトレーダーが取引して総数量を$q_{old}$から$q_{new}$に変えるとき、彼に$C(q_{new}) - C(q_{old}) $を払わせる。
　ある株の価格が負なのはおかしい。また、価格の合計は1にならないとおかしい(でないと鞘取りの機会があることになる)。これを指して、コスト関数が妥当であると呼ぶ。[中略...]
　えーと、プロパー・スコアリング・ルールによるMSRは、凸コスト関数ベースのマーケット・メーカと等価であることが示されている。云々云々。[このくだり、覚悟はしていたが、今回も途中で挫折した... しょぼーん]
　というわけで、もっともポピュラーなのはLMSRである。コスト関数は
　$C(q) = b \log \sum_j \exp(q_j / b)$
[おおっと... 説明例のチャートのなかで、ある株の発行数量$q_i$が負の値をとっている。やっぱしマーケット・メーカとしては負の数量でもオッケーなのか]。
　その他のマーケット・メーカとして、Chen & Penncok の効用ベース・マーケット・メーカ、Agrawalらのシーケンシャル・凸・パリ・ミュチュエル・メカニズム(SCPM)がある。

3.2 動的パリ・ミュチュエル・マーケット(DPM)。パリ・ミュチュエル市場とCDAのハイブリッド。パリ・ミュチュエル市場と同じく、実現した結果に賭けた人が賭け金を配分する。ちがいは、株価がダイナミックに変動する点。トレーダーから見ると、コスト関数ベースのマーケット・メーカのようにみえる。コスト関数は
　$C(q) = \kappa \sqrt{\sum_j q^2_k}$
結果 $k$が実現したとき、一株あたりペイオフは
　$o_k = (\kappa \sqrt{\sum_n q^2_j})/(q_k)$
$\kappa = $1とするのが自然。
　DPMでは市場価格が確率を表さない点に注意。

　... やれやれ、疲れた。それにしても、MSRの話の難しいことときたら... いつの日か腑に落ちる日は来るのだろうか。

読了：Chen (2011) 予測市場の市場メカニズム

2015年9月23日 (水)

Forsythe, R., Rietz, T.A., Ross, T.W. (1999) Wishes, expectations and actions: a survey on price formation in election stock markets. Journal of Economic Behavior & Organization, 39, 83-110.
　予測市場の老舗、アイオワ電子市場 (IEM)における過去の選挙予測市場を中心に、選挙予測市場の価格形成における体系的バイアスを概観する、というレビュー論文。先頭の二人はIEMの中の人だと思う。

　まずはIEMにおける選挙予測市場の設計から。
　議席市場と得票率市場がある。議席市場の場合、政党Aについての約定は、選挙後の議席の割合で清算される(たとえば、30%の議席を獲得したら30セント)。得票率市場の場合はこれが得票率になるわけね。
　IEMは実金銭市場である。参加者はまず定額を払い、これがファンドになる。約定を買えばここから代金が引かれる。
　すべての政党なり候補者なりの約定を1つずつセットにしたのを「単位ポートフォリオ」と呼ぶ。これは清算価格が常に(たとえば)1ドルとなるわけで、IEMはこれをいつでも1ドルと交換してくれる。参加者はキャッシュを単位ポートフォリオを交換し、これをばらしたのを取引するわけだ。マッチングは連続的ダブルオークション。

　[ここ、いまちょっと関心があるので、細かくメモしておくと(脚注8)...]
　トレーダーはbids to buyとasks to sellをいつでも発行できる[limit order, 指値注文のことであろう]。またthey can trade at the best outstanding bid or ask [market order, 成り行き注文のこと]。~~後者の場合、キューに入る順番はまず価格、次に時間で決まる。~~成り行き注文の場合、板に残っている未成立の注文がそれにマッチするんだけど、その順番はまずは価格順、価格が同じ注文は時間順。[←ご指摘いただいて読み間違いに気が付きました。ありがとうございます！]
　注文から成立までの間に手持ちキャッシュが変動してもいいけど[保証金を入れる必要はないわけね]、いざ成立のときに必要なキャッシュがなかったらキャンセルになる。結局、注文が消える理由は次の通り。(1)取り下げ。(2)時間切れ。(3)成立の段になってキャンセル。(4)成立。
　purchase on margin[空買い]とuncovered short sales[空売り]は禁止。しかし、トレーダーはすべての広報を含むポートフォリオを買い、ある候補の株を売ることでsyntheticな売りポジションを構築できる[あーそうか。単位ポートフォリオを場外で売る理由がわかったよ...]。この結果は、当該候補に対して売りポジションをとるのと同じペイオフとなるが、結果がどうであれトレーダーが市場に対して追加ファンドを負わないという意味で fully coveredである[著者のいうcoveredの意味がここでようやくわかった。現物取引っていうことだ、きっと]

　さて、IEMはこれまですんごく成功しております。しかし、そこには体系的なバイアスもある。

wish fulfillment。望ましい出来事の確率を過大評価するバイアスのこと。ここでは、自分の選好する政党の議席数とかを過大評価すること。これは次の2つに引き起こされると考えられる。
false consensus。自分の選好が多数派だと考えるバイアスのこと。 2つの方法で調べた。
- トレーダーの選好と市場終了時のポートフォリオと選好の比較。(取引前のアンケートで押さえた)選好政党とその株の割合とに正の相関があったという例を紹介。
- トレーダーの選好と取引。選好と買った株数との間に生の相関があった例を紹介。
assimilation-contract effect.　選好と合致する方向に情報を取捨選択するバイアスのこと。大統領選前のテレビ討論の勝敗の知覚が選好と合致していたという例を紹介[知覚のせいで選好が生じてるんじゃない、と個人内縦断データを使って議論]。
ミステイク。次の2種類がある。[意味が分からなかったので細かくメモ(脚注33)...]
- price taking violation(自分に損な値段で注文を受けちゃう)。たとえば1992年米大統領選市場、単位ポートフォリオはブッシュ株とクリントン株。直近のブッシュ株のbest bidが0.5ドル、クリントン株のbest askが0.4ドルだとする。いま、ブッシュ株を売りたい人がいるとしよう。この人は、ブッシュ株のbidに応じて0.5ドルで売ることもできるし、クリントン株のaskに応じて0.4ドルで買い、単位ポートフォリオを1ドルで売ることもできる。どちらも手持ちのブッシュ株が1枚減るが、後者は結局0.6ドルを手に入れているわけで、前者は損な注文を受けちゃってることになる。
- market making violation(自分に損な値段で指値注文しちゃう)。上の例で、ブッシュ株のbidが出てないとして、うっかり0.5ドルのaskを出しちゃうケース。
こういうミステイクはすごく多い。個人差を調べたら、取引経験レベルや教育レベルが高いとミステイクは減り、market maker寄りになる。収入が高い人、女性はprice taker寄り。[← へー]

　さて、このような個人レベルでのバイアスは、果たして市場の価格形成に影響するか。
　著者らは「マージナル・トレーダー仮説」を提唱している。マージナル・トレーダーとは、市場価格に近い価格で指値を出す活動的トレーダーのこと。個人特性をみるとわずかに男性が多く、結果をみるとリターンは高め。この人たちの取引をみるとバイアスが小さい。平均的トレーダーはバイアスを持っているけど、価格形成しているのはマージナル・トレーダーだから、市場はうまく機能するのだ、という仮説である。

　著者らの実験室実験の紹介(元は紀要かなにからしい)。めんどくさいので読み飛ばしたが、鞘取りできるのにしないviolationとか、wishful thinkingとかを再現できた由。

　。。。ざっとめくっただけなので(だって長いんだもん)、細かいところを読み飛ばしているのだが、「マージナル・トレーダー仮説」って面白いな。直接的に検証する方法はないもんかしらね。

読了：Forsythe, Rietz, Ross (1999) 人の判断バイアスは選挙予測市場を歪めるか？

2015年9月 8日 (火)

Ottaviani, M. (2009) The design of idea markets: An economist's perspective. Journal of Prediction Markets, 3(1), 41-44.
　ええと、この雑誌のこの号は「予測市場の企業における応用」特集で、その一本がSpears, LaComb, Interrante, Barnett, & Senturk-Dogonaksoy (2009) という論文。2007年のGEアイデア市場の論文があるけど、その詳細分析らしい。で、これは当該論文に対する3pの短いコメント。
　要するに、GEアイデア市場は普通の市場と違って(1)ペイオフがアイデアの質についての事後情報とリンクしてないから美人投票になっちゃうはずだし(2)アイデア発案者が取引できるからインサイダー取引や価格操作がし放題だ、これではいかんよ君。というコメントであった。
　対策は、(1)についてはペイオフをなんらかの事後情報とリンクさせる。専門家とか二重市場とか(Miller,Resnick,Zackhauser(2005 MgmtSci)というのが挙げられている)。(2)については、ポートフォリオ評価をインセンティブと連動させる、アイデア発案者の取引を禁止する。
　ううむ。正論ではある。LaCombらとしては実証データで対抗したいところだろうが、そうそう実験できるものでもないのがつらいところだ。

読了：Ottaviani (2009) 経済学者からみたアイデア市場批判

2015年8月17日 (月)

Camerer, C.F., Fehr, E. (2009) When does "Economic man" dominate social behavior? Science, 311(5757), 47-52.
　いま仕事で予測市場のことを考えてて、いろいろ思い悩むこと多く、魅力的なタイトルに惹かれてふらふらと読んでしまった。実験論文かと思いきやレビューであった(REVIEWと大書している字が大きすぎてかえって気づかなかった)。よく知らないけど、第一著者は行動ゲーム理論の教科書を書いている人だと思う。

　ええと。。。
　個人は合理的意思決定者です、純粋に自己配慮的(self-regarding)な選好を持ってます。これが多くの経済的分析の基礎にある想定だ。

合理性の想定は二つの部分を含んでいる：(1)個人は環境における出来事や他者の行動についての信念を形成し、それは平均的に見て正しい。(2)個人は自らの信念のもとで自らの選好をもっともよく満たす行為を選択する。
選好の自己配慮性とは、自分の経済的厚生に影響しない限り、結果そのものや他者の行動に関心を持たないことをいう。選好が道徳と無関係だという想定だともいえる。

　多くの人々が、この合理性の想定と自己配慮的選好の想定に反した姿を示す。このことは経済学において繰り返し示されている。

　しかし、市場や政治過程といった集団レベルの実体が示す行動においても、これらの違反が姿を現すかどうかは別の問題である。参加者の一部がこれらの想定に違犯しているのに、集計レベルでの結果は全員が合理的・自己配慮的であるという想定と合致する、という実験例は数多い。
　問題は、集団レベルの結果が、異質な参加者の間の相互作用によってどのように形成されているか、である。

囚人のジレンマゲームについてみてみよう。近年の研究は、強いreciprocators[互いの利益を考慮する人のことであろう]が一定割合存在することを示している。[... 実験の紹介... ] とこのように、強いrecirocatorsの存在によって、「経済学的人間」の行動が変わることもあれば、限定合理的だったり他者配慮的選好を持っていている人が「経済学的人間」としてふるまうようになることもある。
バーゲニングでもそうだ。最後通牒ゲームについてみてみよう。売り手側に競争があると急に言い値が下がるのだが、[... 実験の紹介...] とこのように、自己配慮的エージェントの存在がreciprocatorsをして自己配慮的エージェントのように行動せしめるのである。この現象をうまく説明するモデルも登場している。たとえば不平等性回避の理論。

　集団レベルでの行動について理解するための鍵は「戦略的代替性」と「戦略的補完性」だ。[... 説明 ...]

次のゲームについて考えよう。多くのプレイヤーが0から100のあいだの数字を同時に選ぶ。その平均の2/3倍に最も近かった人に固定額の商品を渡す。ケインズにちなんで「美人投票ゲーム」と呼ばれるゲームである。ゲーム理論の観点からいえば、全員が0と答えるのがナッシュ均衡であるが、実際にはそうならない。
今度は次のビジネス参入ゲームについて考えよう。12の企業がある。ある市場に参入したらペイオフ0.5。別の競争市場もあって、あるサイズ c を超えるまではペイオフ1, 超えたらペイオフ0。このゲームではナッシュ均衡は「c社が競争市場に参入する」である。実際、コミュニケーションなしの一発実験でも均衡に近い結果になる。

　このちがいはなぜ生じるのか。ポイントは、美人投票ゲームの数字は戦略的補完物で(非合理的な人と同じことをすることにインセンティブがある)、ビジネス参入ゲームの選択は戦略的代替物だ(非合理的な人と違うことをすることにインセンティブがある)という点だ。

　統一的な説明原理があるかって？あります。そのひとつが「認知的階層性」の理論。戦略的推論においてまわすステップ数の分布を考えて... [説明略]

　戦略的代替性と補完性は市場においても重要だ。たとえば、予測市場による予測が正確なのは、貧しい情報しか持たないトレーダーのおかげで、豊かな情報を持つトレーダーが儲けることができるからだ(戦略的代替性)。これに対し実際の証券市場では、取引成績のプレッシャーや空売りの困難さなどのせいで、情報を持っていないトレーダーが、情報を持っていない群衆に従わざるを得ないことが起きる(戦略的補完性)。
　云々。

　。。。あんましきちんと読んでないけど、面白かったっす。意外な文脈で予測市場の話が出てきたりして、身も蓋もないご意見にウウウウと呻いたりなんかして。先生に言わせれば、予測市場の勝因は正解があとでわかる点にある、その点で実際の証券市場より良くできている、ということになろう。

　このレビュー論文のテーマとはちょっとずれるけど、集団の合理性と個人の合理性ってちょっとちがう、でもそのことをついつい忘れちゃうよなあ... と考え込んだ。
　予測市場の話でもそうで、ついつい、予測市場をうまく機能させるために、いかにして市場参加者をして利益最大化を追求せしめるか、というふうに考えてしまうのだけれど、本質的にはそうではないのでしょうね。要するに取引メカニズムを通じて情報が集約されたり生成されたりすればそれでよいのであって、そのことと、個々人が自らの選好に基づき利益最大化を図るかどうかとは、おそらくちょっとフェイズの違う問題なのだ。

読了：Camerer & Fehr (2009) 集団が合理的経済人として振る舞うのはどんなとき？

2015年7月18日 (土)

Marinovic, I., Ottaviani, M., & Sorensen, P.N. (2011) Modeling idea markets: Between beauty contests and prediction markets. in Williams, L.V., "Prediction Markets: Theory and Applications". Routledge.
　買ったまま積んであった予測市場の論文集のなかの一篇。このたび調べものをしていて、タイトルに惹かれて読んだんだけど、たいそうマニアックな論文であった。

　予測市場では市場参加者の報酬を最終的結果を予測できたかどうかで決めるけど、アイデア市場では他の参加者の選択を予測できたかどうかで決めざるを得ない。でも人気のみに基づく純粋なアイデア市場は美人投票になってしまい、私秘的情報を集約できなくなってしまう。では、最終的結果に基づく報酬と人気に基づく報酬とを混在させたらどうなるか。

　アイデアの価値を$\theta$とし、事前分布を実数直線上の一様分布とする。いま、エージェント$i(=1,\ldots,n)$に$\theta$についての情報が渡されている。そのシグナルは2種類あって、

すべてのエージェントに対する共通のシグナル $y=\theta+\eta$
個々のエージェントに対するシグナル $x_i = \theta+\epsilon_i$

誤差項は互いに独立に$\eta \sim N(0, 1/\alpha), \epsilon_i \sim N(0, 1/\beta)$とする。

　市場設計者はシグナルを観察できない。そこで、参加者のみなさまに同時かつ独立に$\theta$を予測していただく。$i$さんの予測を$a_i$とする。全員の予測の平均$\bar{a}_n$をconsensus forecastと呼ぶことにする。
　参加者には公表した報酬ルールに従って報酬を払う。$i$さん以外のすべての人の予測のベクトルを$a_{-i}$として、報酬ルールを次式とする。
　$u_i (\theta, a_{-i}, a_i) = -\delta(a_i - \theta)^2 - (1-\delta)(a_i - \bar{a}_n)^2$
　第一項が予測の正確性の項、第二項が美人投票の項である。$\delta$を予測市場強度、$1-\delta$をアイデア市場強度と呼ぶ。$\delta$は定数だと考えてもいいし、確率だと考えてもいい。

　強度をどう設定したらconsensus forecastがどうなるか。次の指標を市場の情報性と呼ぼう。[←えーっと、$\theta$の事後分布の分散の小ささですね]
　$\gamma = 1 / var(\theta | \bar{a}_n )$
　以下では線形な戦略、対称的均衡について考える。[← ううむ。このようにセッティングすることの実質的な意味がよくわからない。対称的均衡ってのは、つまり全員が同じ解を選ぶような均衡ということだと思うけど、エージェントが直面している状況がエージェント間で同じだったら、対称的均衡だけについて考えればいいのかなあ。だけどさ、たとえばタカ・ハト・ゲームだと、純戦略のナッシュ均衡解はすべて非対称ですよね？勉強不足でよくわからないぜ]

　[本文ではここでまず、$\delta=0$すなわち純粋なアイデア市場と、$\delta=1$すなわち純粋な予測市場について述べているんだけど、省略して...]

　報酬の期待値を最大化させる予測値は
　$a_i = \delta E_i(\theta) + (1-\delta) E_i(\bar{a}_n)$
　つまり、consensus forecastの期待値が必要になる。そこで、次のような線形均衡が存在すると仮定しよう：
　$a_i = \phi y + (1-\phi) x_i$
　このときconsensus forecastの期待値は
　$E_i (\bar{a}_n) = \frac{a_i + (n-a) E_i (a_{-i})}{n}$
　これをもとの式に代入してごりごり変形していくと、結局
　$\phi = \frac{(n-1+\delta) \alpha}{(n-1+\delta) \alpha + n\delta \beta}$
　となる。予測市場強度$\delta$が高くなると下がり、私秘シグナルの精度$\beta$が高くなると下がり、エージェント数が多くなると上がり、共有シグナルの精度$\alpha$が高くなると上がる。

　情報性はどうなるかというと、
　$var(\theta | \bar{a}_n) = \phi^2 / \alpha + (1-\phi)^2/(n\beta)$
　その性質について。

私秘シグナルの精度$\beta$が高くなると情報性は上がる。
共有シグナルの精度$\alpha$が高くなると、情報性は上がることもあれば下がることもある。$\alpha$が高いせいで$\phi$が高くなり、私秘シグナルが集約できなくなっちゃうからだ、と解釈できる。
アイデア市場強度が高くなると情報性は下がる。つまり市場設計者は、ファンダメンタルズが事後的に観察できるのであれば、できるだけ純粋な予測市場をつくった方がよい。
エージェントの数が多くなると、情報性は上がることもあるけど、$\phi$が上がるせいで情報性がむしろ下がることもある(second guessing 効果)。

　というわけで、市場による予測は、特に美人投票的な要素が入ってくるといろいろ直観に反する情報特性を持つので、気をつけなさいね。という話であった。へへーっ。

　いろいろ難しい話だったので、シミュレータなんぞ作成しつつ頑張って読んだ。勉強になりましたですが...
　著者らが考える状況は、「市場運営者は予測対象の真の価値$\theta$をいずれ知り、それに基づいて私たちへの報酬を決める」と市場参加者たちにある程度まで信じてもらえる状況なのである。云うまでもなく、アイデア市場運営者にとっての真に深刻な問題とは、参加者のその信念をどうやって確保するか、という点だ。
　Skieraたちであれば「嘘でもいいから専門家委員会を開くと云え」というだろう。LacombたちやDahanたちなら「まあ人気投票でもどうにかなるよ」というだろう。この論文の面白さは、外的基準と人気投票をミックスした報酬ルールを想定し、その下での市場の振る舞いを調べる、という発想である。しかしその混在をどのように実現するかは、読み手の私たちに丸投げされている...

読了：Marinovic, Ottaviani, & Sorensen (2011) 予測市場と美人投票のあいだで

2015年3月 5日 (木)

読んだものはなんでも記録しておこう、ということで...
Schlack, J.W. (2012) Invested: Engaging Hearts and Minds through Prediction Markets. Communispace.
　Communispace社がオンライン・コミュニティ上でやったという「予測市場」のホワイト・ペーパー。面白いけど、残念ながら、これだけではなにをやったのかまったく理解できない。コンセプトが提示されて、確信度を入力するとその分の手持ちポイントをそのコンセプトに投資したことになるようだから、これはパリ・ミュチュエル市場？じゃあペイオフはいったいどうやって決めたんだ？
　仕組みをつくったのはConcensus Pointという会社らしい。→なんてこった、Robin Hansonが関係している会社だ...

読了: Schlack (2012) "予測市場" by communispace社

Lewis-Beck, M.S. & Stegmaier, M. (2011) Citizen forecasting: Can UK voters see the future? Electoral Studies, 30, 264-268.
　えーと、著者らいわく、選挙予測で有権者に "who would you vote for?" (vote intention)と訊くのでなく、"who do you think will win?" (vote expectation)と訊いて集計すると、これが案外当たる。すでにUSでの結果は論文にしましたが(Lewis-Beck & Tien, 1999 Int.J.Forecasting)、UKでの結果をご報告します。という論文。きちんと読んでないけど、そこそこ当たるよという話である模様。
　個人的には、選挙結果が予測できようができまいがどうでもよくて、vote expectationが当たるにせよ外れるにせよその機序が知りたいわけだが、そういう話をする場所ではないらしい。

読了: Lewis-Beck & Stegmaier (2011) vote expectationはそこそこ当たるよ (UK編)

Healy, P.J., Linardi ,S., Lowery, J.R., Ledyard, J.O. (2010) Prediction Markets: Alternative Mechanisms for Complex Environments with Few Traders. Management Science, 56(11), 1977–1996.
　掲載誌が体質に合わないので後回しにしていたんだけど、M先生のレビューで意外な形で取り上げられているのに気づき、念のために本文を2pほどめくってみたら... もっと早く目を通すべきだった、と大後悔。何もかもひとりでやっているからしょうがないんだけど、それにしても要領が悪すぎる。

　いわく。ダブル・オークション(DA)が予測市場のうまい仕組みだというのはわかっている。でもそれはIEMみたいな大規模市場のときの話であって、企業内市場でも最適かどうかはわからない。そこで、参加者が３人の状況で(!!!)、DA, iterated polling (デルファイ法みたいなもの。以下IP)、パリ・ミュチュエル(PM)、そしてHansonのマーケット・スコアリング・ルール(MSR)を比較しました。
　最初に結果を先取りして紹介。参加者数が多い単純な状況ではDAがおすすめ。アイテム数が多いとか、予測する事象が相関しているとか、参加者数が少ないといった状況ではIPがおすすめ。IPはsubsidy paymentsが必要だという欠点があるけど(胴元が自腹を切らなきゃいけないってことね)、人数が少なけりゃ問題にならないでしょ。
　行動の観察でわかったこと。(1)市場操作の試みはDAとPMで観察された。(2)IPとMSRでは支払総額がsubsidizeされているので参加者のやる気も増す。(3)参加者はほっとくと一部の証券にしか注意を向けない。IPはこの点で有利。(4)ヘンな参加者のせいで影響を受けるのはPMとMSR。IPは大丈夫。

　先行研究。

参加者数の影響について。価値ある情報を持たない参加者(ノイジー・トレーダー)が増えると市場の効率性が下がるという話と(Delong et al., 1990 J.Finance), 情報を持っている参加者が利益を売る機会が増えるので情報の獲得・統合が進むという話がある(Kyle, 1985 Econometrica)。観察研究・実験研究ともに結果はmixed。
情報が複雑だとどうなるか。Arrow-Debreu証券市場で、私秘情報が比較的に単純で、私秘情報を全部累積すれば必ず真の状態がわかるのであれば、市場は効率よく収束することがわかっている(Plott & Sunder, 1988 Econometrica)。配当が複雑になったり、不確実性が増えたりすると話が変わってくる。云々。
この論文ではすごく単純な環境を扱うけど(後で出てくるけど、状態は2^3=8しかないし参加者はたった3人)、そういう先行研究としては、
- McKelvey & Page(1990 Econometrica)のIPの実験。
- Chen et al.(2001 Conf.)の実験、コールマーケットとかよりpollが良いという結果。
- Plott et al.(2003 Econom. Theory)、PMの実験。
- Thaler & Ziembda (1988 J.Econom.Perspect), PMを支持。
- MSRは理論研究はいっぱいあるけど、実験はLedyard et al.(2009 J.Econom.Behav.Organ.)のみ。

　この実験で使う環境を定義します。さあ、歯を食いしばれ！
　世界の状態は２次元からなっている、ということにします。次元１は観察不能な因子で、観察可能な次元２に影響する。参加者は次元1を、そしてこれからの次元2を予測する。たとえば、次元１は中央銀行の金融政策、次元２は公定歩合、というような感じ。
　具体的にはこういう課題。コインを選んで投げる。予測対象はオモテが出る確率。次元1がコインのバイアス、次元2が出目だ。
　コイン$\theta$を確率分布$f(\theta)$からドローする。$\theta$の空間を$\Theta$とする。ドローしたコインを投げ、出目$\omega$を条件つき確率分布$f(\omega | \theta)$からドローする。$\omega$の空間を$\Omega$とする。
　エージェント$i$は$\omega$についての$K_i$個の独立なシグナル $\hat\omega^i = (\hat\omega^i_1, \hat\omega^i_2, \ldots, \hat\omega^i_{K_i})$を私秘的に観察している。エージェントは$\omega$の真値を知ろうとし、事前分布$f(\theta), f(\omega | \theta)$を$\hat\omega^i$でベイズ更新して、まず事後分布$q(\theta | \hat\omega^i)$を得る(以下$q^i(\theta)$と略記)。で、さらに事後分布$p^i(\omega) = \sum_{\theta'} f(\omega | \theta') q^i(\theta')$を得る。OK?
　メカニズム設計者の目標は、個々のエージェント($I$人)の信念を集約することだ。いちばん簡単なケースは、設計者がすべてのエージェントの私秘シグナルを観察できるケースである(完全情報のケース)。$\omega = (\hat\omega^1, ..., \hat\omega^I)$のもとでの$\theta$の事後分布$q(\theta | \hat\omega)$を$q^F(\theta)$と書くとして、出目の完全情報事後分布は
　$p^F(\omega) = \sum_{\theta'} f(\omega | \theta') q^F(\theta')$
　さて、設計者が実際に作った集約メカニズムによるパフォーマンスをどう評価するか。時点$t = (0,1,\ldots,T)$における事後分布$h_t$を「ランニング事後分布」、$h_T$を「出力分布」と呼ぶことにする。すべての$\omega$を通した、$h_T(\omega)$と$p^F(\omega)$のズレの二乗を合計すればよい。いいかえれば、出目$\omega$の空間$\Omega$における$h_T$と$p^F$のユークリッド距離を求めればよい。(式省略)

　準備はできた。用意する環境はふたつ。かんたんなやつと複雑な奴。
　かんたん環境。コイン$\theta$の空間を$\Theta = \{X, Y\}$、出目$\omega$の空間を$\Omega=\{H, T\}$とする(headとtailね)。$f(X)=1/3, f(H|X) = 0.2, f(Y)=2/3, f(H|Y)=0.4$とする。
　複雑環境。コインは$X, Y, Z$の3枚、ランダムな順に並べて取り出す(これを$\theta$とする)。よって$\Theta$は6要素ある。$f(\theta)=1/6$。で、それぞれのコインを投げ、その結果(たとえばHHT)を出目とする。よって$\Omega$は8要素。$f(\omega | \theta)$は結構複雑で、えーと、$X$がオモテになる確率が0.2, $Z$がオモテになる確率が0.4, $Y$が$X$と一致する確率が2/3。だからたとえば$f(TTT | XYZ) = 0.32$となる、という... そんなもん推測できないよ、参加者のみなさんも大変だ。
　どちらの場合も、エージェント$i$はコイン$\theta$も出目$\omega$も観察できず、ただ出目のサンプル$\hat\omega^i$だけを観察できる。
　市場参加者のペイオフは、ほんとは$\omega$の実現値に基づいて決めるべきところだが、そうすると運の良し悪しが出てきちゃう。参加者にわかりやすいように、主催者だけが知っている正しい$f(\omega | \theta)$からわざわざ500回ドローした経験分布$\phi(\omega)$をつくり、これに照らしてペイオフを決める。要するに、たとえばかんたん環境では、「正解を発表します！500回投げたらオモテは350回、ウラは150回です！」っていう風に正解を発表する、ということなんだろうな。

　お待たせしました、選手入場です！

ダブル・オークション。かんたん環境では2枚、複雑環境では8枚の出目株を売り出す(Arrow-Debreu証券)。スタート時のキャッシュなし、空売り有り。市場が閉じると個々の出目株($\omega_s$とする)に対して$\phi(\omega_s)$が開示され、これを単価として清算。[←あれれ？ Arrow-Debreu証券って、取引価格を変動させ、ペイオフを1ドルとかに固定する証券のことじゃないの？こういう量的結果をペイオフする線形証券であっても、とにかく配当が外的に決まっていればArrow-Debreu証券というのだろうか...]
パリ・ミュチュエル。かんたん環境では2枚、複雑環境では8枚の$\omega$チケットをすべて1ドルで販売。ペイオフはオッズと真の確率の積。つまり、チケット$s$の販売枚数を$T_s$として、$(T_s/\sum_\omega T_\omega)^{-1} \times \phi(\omega_s)$。
iterative poll。つまりはインセンティブつきデルファイ法。まず、参加者に出目の確率分布を申告させる。その算術平均をとって全員にフィードバック。また確率分布を申告させ、平均をフィードバック... これを5回繰り返す。5回目の平均を出力分布$h_T(\omega)$とする。ペイオフは全員に対して同じで、対数スコアリング・ルールで決める[←そういうことか！うわー、これ、面白い!!!]。すべての参加者に、各状態$s$について、$ln(h_T(\omega_s)) - ln(1/S)$の「チケット」を渡す。そのチケットを$\phi(\omega_s)$で精算する。[えーと、たとえばかんたん環境で、最終ラウンドでのオモテの予測確率が0.4だったら、$ln(0.4)-ln(0.5)=-0.22$枚の「オモテチケット」、$ln(0.6)-ln(0.5)=+0.18$の「ウラチケット」が渡されるわけだ。で、「正解発表！オモテ60%、ウラ40%です！」となったら、オモテチケットを-0.22x0.6=-0.13ドルで清算、ウラチケットを0.18x0.4=0.07ドルで清算して、結局みんな仲良く-0.06ドルの損、ということであろうか]
マーケット・スコアリング・ルール(MSR)。各状態$s$について$h_0(\omega_s)=1/S$とする。ランニング事後分布$h_t$を毎度公表する。参加者が証券$s$を売買するたび、
　$ln(h_{t+1}(\omega_s)) - ln(h_t(\omega_s))$
を受け取る...というか、上の式x-1が売買価格になっている。最後に$\phi(\omega_s)$を配当。

　実験。
　被験者はCaltechの学部生。3人ずつ組ませる(これをセッションといっているらしい)。全16セッション。実験は16ピリオド、1ピリオドは5分間。
　2つの環境で4つのメカニズムを比較するから、要因は2x4。詳細は略するが、各セッションは2x4=8の各セルのうち2セルを担当し、各セルについて8ピリオドの市場に参加する。

　。。。と、ここまでメモをとりながら丁寧に読んだが、時間切れ。あとはメモなしでざっと通読した。全体にIPを支持する結果であった。

読了:Healy, et al. (2010) 対数スコアリングルールで報酬を与えるデルファイ法はひょっとすると予測市場よか気が利いてるかも

2015年2月28日 (土)

Slamka, C., Jank, W., Skiera, B. (2012) Second-generation prediction markets for information aggregation: A comparison of payoff mechanisms. Journal of Forecasting, 31(6), 469–489.
　掲載時のPDFが入手できず、ネットに落ちてたdraftで読んだ。

　著者らの云い方では、いわゆる予測市場のうち、証券のペイオフを出来事の実際の帰結で決めるのが第一世代(G1)。いっぽう第二世代(G2)の例は、

選好市場。例, Chan, Dahan, Kim, Lo, & Poggis (2002 STOCのWorking Paper)、Dahan & Hauser (2002, JPIM)、Dahan, Soukhoroukova, Spann (2007, UCLAのWorking Paper)、Soukhoroukova & Spann (2005, ECISというConf.)。
アイデア市場。市場参加者が自分でアイデアを創造できる。例, Lacomb et al. (2007, Info.Sys.Frontier), Soukhoroukova, Spann, & Skiera (2009, Working Paper)[たぶんクアルコムの事例のことだろう]。

第二世代では、ペイオフを市場内で決めたり(終値とかVWAPとかで決めたり)、市場外のなにかの代理変数を使ったりする(専門家委員会とか)。
　理屈からいえば、第一世代とちがって第二世代の予測市場においては参加者がプライベートな情報を明かすインセンティブがない。情報カスケードが起きても不思議でない。

　ペイオフを市場内で決める場合に注目し、3つのペイオフ決定方法を比較する。

VWAP(売買高加重平均価格)を使う。LaCombらが使った方法。
ある時点(既知)からみた終値を使う。ChanらとSoukhoroukova & Spannが使った方法。
ある期間内で時点をランダムに決め、そこからみた終値を使う。Dahanらが使った方法。[←DahanらのJMRのSTOC論文ではVWAPを使っていたと思うんだけど...]

　ところで、自動マーケット・メーカを使う状況を考えると、以下の方略が考えられる。

VWAPの場合、VWAP計算期間中は、枚数の少ない取引が減るはずだ。買いを入れると取引価格もVWAPも上がるが、枚数が少ないと取引価格の上昇のほうが大きいから。枚数が多いとVWAPの上昇のほうが大きくなる由。
固定終値の場合、買えば終値は上がるし、売れば終値は下がるんだから、市場終了に近づくほど取引高が増え、群集行動的な取引となるはずだ。

　というわけで、フィールド実験。2008年に実施。
　実験は３期にわかれている。どうやら各期は４日間らしい。各期でそれぞれ次の予測トピックを用いる。

第一期: 3月の予備選挙の結果。「クリントンかオバマがオハイオで10%以上の差で勝つ」株、「クリントンが勝つ州の数」株など、勝者総取り証券4, 線形証券7。
第二期: 4月のバスケの試合結果。勝者総取り証券4, 線形証券6。
第三期: 4月の経済的な出来事。勝者総取り証券5, 線形証券4。

　ペイオフ決定方式は４種類。

実際の結果で決定(G1方式)。
最終2日間のVWAPで決定。
終値で決定。
最終4時間のどこかの時点における価格で決定(ランダム終値方式)。

上記の3x4の組み合わせについて、各2個の市場をつくる。よって市場の数は3x4x2=24。
　MBAの学生78名。各期において、3x2個の市場のどこかに割り当てる(市場当たり9～10人となると書いてある... 計算が合わなくないっすか)。同じペイオフ決定方式を二回経験することはない。
　各期の最初にポートフォリオを一万架空ドルにリセット。３期を通じた利益の合計で順位をつけ、コース・クレジットにする (おいおい... いいのかそれ...)。
　ついでに、第一期の予備選挙予測については専門家市場もつくった由。ペイオフは実際の価格で決定、参加者は政治コンサル会社の24人の専門家。報酬は一位にのみ100ドルだが、面子がかかっている。　
　空売りあり。市場メカニズムはHansonの自動マーケットメーカを採用したと書いてあるから、LMSRを使ったのだろう。[←線形証券の価格をLMSRでどうやってきめるのだろう? → Pennockさんのブログには、上下限が決められればできると書いてあった。要するに裏で区間証券にするらしいのだが... よく理解できていない]

　結果。
　せっかく専門家の予測市場を作ったんだけど、結果は学生とかわんなかったそうだ。ははは。
　ペイオフ決定手法間で予測のMAEを比べると、やっぱし実際の結果で決定する(G1方式)のが一番よい。次が固定終値方式、僅差でランダム終値方式とVWAP方式だが、この３つはほとんど差がない。さらに、４つの順位はトピックでも入れ替わる。
　価格と取引高をG1方式と比べると、VWAP方式はやはり後半(VWAP計算期間)で価格が高く、終盤には価格・取引高が上昇。固定終値方式はずっと価格が低めで、終盤になって上昇。ランダム終値方式でも同様で、なぜか終盤に価格上昇があった。
　市場閉鎖直前に注目すると、VWAP方式では駆け込み取引があったが、なぜか固定終値方式ではみられず、なぜかランダム終値方式で駆け込み取引があったとのこと。

　私が関心を持っているのは著者らがいうところの第二世代予測市場なので、ちょっぴり意気阻喪させる結果ではあった。そっかー、やっぱしペイオフを市場内部で決めると予測精度が落ちるか。とはいえ、理論的にはうまくいかないはずであるにも関わらず第一世代と遜色ないレベルだという見方もできる(著者らの考察はその方向)。それに、予測トピックごとに見ると結果がコロコロ変わっているわけで、この研究の結果をどこまで一般化できるか、ちょっと慎重に捉える必要がありそうだ。

　選好市場・アイデア市場とふつうの予測市場との大きな違いは、(この論文が注目しているように)ペイオフが現実との照合で決定されないことではなく、そもそも「あたる」「はずれる」という概念が適用できない問題を証券化している点にあるのではないかと思う。市場メカニズムという観点からはどうでもいいことにみえるかもしれないが、参加者の立場になってみるとこれはずいぶん大きなちがいだ。通常の質問紙でも、「自分がこの商品を今後買うと思うか」という質問と「この商品を今後買いたいか」という質問とではかなり意味合いが違う。前者は概念的にはあたりはずれがあるが(誰もそれをチェックしたりしないけど)、後者にはそもそもあたりはずれというものがない。実証研究があるのかどうか知らないけど、この2問はたぶん回答の際の推論プロセスが全然ちがうし、直感的には、再検査信頼性は後者のほうが低いだろうという気がする。
　だから、この論文の著者らのように、あたりはずれのある問題について第二世代予測市場と第一世代予測市場を比較するというのもひとつの見方だけど、むしろ比べるべきは、あたりはずれのない問題についての第二世代予測市場と、ただの質問紙とか選択課題とか、はたまたデルファイ法とかワークショップとかなのではないかしらん。。。
　いや、もちろん、そういう比較はきわめて困難だとわかってもいるのだけれど。DahanらにしてもSoukhoroukovaらやLaCombらにしても、第二世代予測市場の事例報告において一番しょぼい部分は、従来手法に対する提案手法の優越性を示すくだりである。参加者の事後アンケートで「楽しかったですか」なんて訊いてみたりして、もうほんとに涙ぐましいのである(そりゃ「楽しかった」っていうよね、みんな大人だから)。うーん。なにかうまい手はないものかなあ。

読了：Slamka, Jank, & Skiera (2012) 現実と照らし合わせてペイオフを決めることができない予測市場はどうやってペイオフを決めればよいのか

2015年2月19日 (木)

Chen, Y. & Pennock, D.M. (2010) Designing markets for prediction. AI Magazine, 31(4).
予測市場をはじめとした予測メカニズムについてのレビュー。

イントロ

予測のためのメカニズム・デザインには主に次のタイプがある: (1)予測市場, (2)ピア予測システム。後者はアウトカムがはっきりしない場合でも使える。
予測メカニズムの主目的は分散している情報を集約することだ。その重要な特徴として、表出性expressiveness(エージェントが柔軟に情報伝達できること)と流動性がある。また副次的目的として、誘因両立性、計算的扱いやすさ、個人的合理性がある。

スコアリング・ルール

プロパー・スコアリング・ルールとは [...略]。
複数の予測を得たい場合はshared scoring ruleというのがある。[←M先生のレビューに出てきた「競争的スコアリング」のことらしい。Kilgour & Gershak(2004, Decision Analysis)。]

流動性とマーケット・メーカ

オークションじゃなくてマーケット・メーカを使うと損失の可能性が生じるけど流動性が高まる。
Hansonのマーケット・スコアリング・ルールについて。それはコスト関数ベースのマーケット・メーカと等価だ。例として対数スコアリング・ルールを使ったLMSRがある。なお、no-regret learningアルゴリズムとも深い関係がある[... よくわからんのでパス]。
Chen & Pennock (2007) の効用ベース・マーケット・メーカ。
Penncock(2004)のダイナミック・パリミュチュエル・マーケット[... DPMの説明、やっぱしよくわからん。困ったなあ]。
損失に上界があるか [...関心ないので略]。
現状ではLMSRがデファクト・スタンダードだが、流動性パラメータ(b)の決め方が難しい。bの値を徐々に変えていく提案もある(Othman et al., 2010 Proc.EC10)。

誘因両立性

予測メカニズムは一般に誘因両立性がない。たとえば連続的ダブル・オークションでは取引しない方が合理的だ(no tradeの定理)。ノイジーな投資家がいれば合理的投資家は取引するのが合理的になるかもしれないけど、依然として誘因両立性はないかもしれない。またMSRは近視眼的には誘因両立だが、ブラフで長期的に儲けようという発想もできる。
メカニズム・デザインでいう誘因両立性とは、多くの場合、支配戦略誘因両立性のことを指している。いっぽう予測メカニズムでいう誘因両立性とは、ふつうベイジアン・ナッシュ誘因両立性だ[←真実申告がベイジアン・ナッシュ均衡になっている、という意味かしらん]。
予測市場で真実申告がゲーム理論的均衡になるかというと[...云々云々。このくだり、私には難しいので略]。
結果を意図的に操作する可能性とその対策について[...略。なにがなんだかさっぱりわかんないんだけど、Dimitrov & Sami (2010, Proc.EC10)というので、2つの市場が並行している状況のゲーム理論的分析をしているそうだ。ふーん]。
ground truthがないときのピア予測手法について。その始まりはMiller, Resnick, Zeckhauser (2005 Mgmt Sci)[←読まなきゃ!!]。出来事を表す離散確率変数$\omega$について、その真の状態の下での確率分布からランダムドローされたシグナル$s$を、各エージェントが独立に受け取るとしよう。$\omega$の事前分布とシグナル$s_i | \omega$の条件付き確率分布が共有知識だとする。仮にエージェント$i$が$s_i$を真実申告していたら、リファレンスとなるエージェント$j$のシグナルについての$i$の事後確率$P(s_j|s_i)$を算出できるので、$j$の申告に従ったプロパー・スコアリング・ルールをつかって報酬を渡せる[...うむむむ...混乱してきた...]。こうすると、他の人が真実申告しているという前提の下で、$i$にとって報酬の期待値を最大化するのは真実申告だと言うことになる(ただしほかにも均衡がある)。この方向の提案として、Jurca & Faltings (2006, Proc.EC06)、Jurca & Faltings (2007, Proc.EC07)、Goel, Reeves, & Pennock(2009, Proc.EC09)がある。
ピア予測手法は共通の事前分布が共有知識だという前提を持っている。いっぽうPrelec(2007)のベイジアン自白剤はもう少し弱い仮定を置いていて、事前分布は未知でよい。なおベイジアン自白剤では報酬が最後まで決まらないんだけど、Jurca&Flatings(2006)による提案もある(真実申告がベイジアンナッシュ均衡なわけじゃないけど、投票結果が真値に収束する)。
真実申告じゃなくて、代表的サンプルを抽出するメカニズム、という発想もある。Lambert & Shoham (2008 Proc.WINE08, 2009 Proc.EC09)。[←これも面白そう...]

表出性と計算的扱いやすさ

組み合わせビッドを許すと表出性が高まる。実施例もいくつかある。計算負荷は高くなるかもしれないけど。
その特殊ケースとして... (1)boolean betting, (2)tournament betting, (3)permutation betting, (4)taxonomy betting. [あんまり関心ないのでパス]

...細かいところはちゃんと読んでないけど、読了にしておく。一番の収穫は、予測市場とベイジアン自白剤のようなタイプの手法とを、メカニズムデザインという視点から統一的に捉えているところ。勉強になりましたです。そうか、後者はピア予測システムって呼べばいいのか。
　細かいことだけど、LMSRとかで使う「実現したら一ドル配当」型の証券のことをArrow-Debreu contractというらしい。へー。

読了：Chen & Pennock (2010) 予測メカニズム・レビュー

2015年2月13日 (金)

　Hansonの論文は難しくて手に負えなかったが、載ったのは予測市場の専門誌であった。Chen&Pennockのもちんぷんかんぷんだったが、人工知能系のカンファレンスであった。もう少し読者層が広そうな雑誌のほうがいいんじゃない？それに実験やっているほうが楽しくない？

Othman, A. & Sandholm, T. (2013) The Gates Hillman prediction market. Review of Economic Design, 17, 95-128.
　... というわけで手に取った論文。アタリでした。ありがとう著者の人！関係ないけど、ありがとうビル・ゲイツ!!
　えーと、CMUにはGates-Hillmanセンターというのがある由。Gatesはもちろんビルさんのこと(スタンフォード大のコンピュータセンターもGatesビルディングじゃなかったっけ？)。調べたところによればHillmanというのはHenry Hillman財団の名に由来するそうで、ヘンリーさんとはどうやら大成功した投資家らしい。まあとにかく、予測市場Gates Hillman Prediction Market (GHPM) のご報告。ダブルオークション方式じゃなくて、マーケット・メーカ方式による実験である。

　市場の概要は以下の通り。

通貨の代わりにチケットを使う。2500ドル分の賞品を用意。市場終了後、参加者に手持ちチケット数に応じた確率でランダムに賞品選択権を与え、賞品が尽きるまで繰り返すよ、という約束。
参加者はCMUの人。サインインしただけでチケットが20枚もらえる。ある週に1度でも取引したらチケットが2枚もらえる。
取引する証券は「コンピュータサイエンス学部のGates Hillmanセンターの移転が許可されるのはいつでしょう？」(もっと厳密な定義があるけど)。「2009/4/1以前」「2009/4/2」(...一日刻み...)「2010/3/10」「2010/3/31以降」の365銘柄。
市場開設期間は2008/9/4 - 2009/8/7。この最終日、移転が許可された由。
2009/4/1以降は紙くず株が生じたわけだが、取引停止にはしなかった。しかし価格はちゃんと下がった由(売りが殺到したということかなあ)。
参加登録者210名。参加者169名。注文総数39,482だが、実はその2/3はボットによるもの。

当たり株一株あたりの配当チケットは何枚ってことにしたの？と不思議に思っていたら、後述されるように実は話はもっとややこしくて、参加者としては任意の区間証券を売買している気分なのである。

　LMSRマーケット・メーカを使用。さあ、著者の説明を伺いましょう。
　えーとですね。マーケット・メーカはコスト関数$C$に従って動作する。コスト関数は、ベクトル$q$を「全参加者によるシステムへの総支払額」を表すスカラーへと変換する関数である。ベクトル$q$の要素は、それぞれのイベントが実現したときにシステムが参加者に配当しなければならない金額の合計である。
　LMSRマーケット・メーカのコスト関数は:
　$C(q) = b \log (\sum_i \exp(q_i / b))$
　ただしbは市場開設時点で決めておく正の定数。大きくすると市場の流動性が高まる。つまり、この仕組みだと売れた証券の価格は高くなるのだが、その程度が小さくなる。GHPMでは$b=32$としたが、後で思うに、もっと大きくしておけばよかった、とのこと。
　株価はコスト関数の勾配である。すなわち、銘柄$i$について
　$p_i(q) = \exp(q_i / b) / \sum_j \exp(q_j / b)$
である。これを「値付けルール」と呼ぶ。この価格は出来事の生起確率の予測値と捉えることができる。

　たとえば、「レッドソックスが勝つ」「ヤンキースが勝つ」の2証券の市場を考えよう。現状、もしレッドソックスが勝ったらシステムは5ドル払うことになり、ヤンキースが勝ったら3ドル払うことになっている。$q=(5,3)$である。
　$b=32$とする。ただいまのレッドソックス株の株価は
　$\exp(5/32) / \{\exp(5/32) + \exp(3/32)\} = 0.5156$
と表示される。
　さて、いま、「レッドソックスが勝ったら1ドルもらえる」証券を新たに買いたがっている奴が現れたとしよう。この注文に応えると、コスト関数の値は $C((6,3)) - C((5,3))$だけ変化する。$b=32$として0.5195。つまり0.5195セントで売ることになる。
　[↑あっ、そうか！ひと株の取引でさえ、取引価格は「値付けルール」で求めた株価とは違うのか！ということは、「値付けルール」の意義はあくまで販売数量を生起確率に変換するという点にあり、実際の価格決定は常にコスト関数の差をみなければならないわけか...]

　さて、ここからはGHPMがご提供する特殊機能。365銘柄はさすがに多すぎるので、範囲で取引させる。
　市場の状態を$\vec{q}^0 = \{q_1^0, q_2^0, \ldots, q_n^0 \}$とする。画面にはこれを値付けルールで価格に換えた面チャートが表示されている。参加者は区間$[s, t]$を選び、スライダーでリスク$r$を決める。すると、画面に次の選択肢が表示される。

買い注文。もしその期間が当たったら下式の$\pi_f$が配当される。
売り注文。その期間以外のすべてを買ったことになる。もしその期間が外れたら(=その期間以外のどこかが当たった)、$\pi_a$が配当される。

面倒なので$pi_f$の決め方だけメモ($pi_f$は中央の区間に、$\pi_a$は左側区間と右側区間に足す形になる)。見やすいように縦棒を入れた。
　$C(q_1^0, \ldots, q_{s-1}^0, | q_s^0+\pi_f, \ldots, q_t^0+\pi_f, | q_{t+1}^0, \ldots, q_n^0) = C(q_0) + r$
なるほどね、リスクというのは区間証券の購入額のことか。なお、これは閉形式では解けないそうで、ニュートン法で解いたそうだ。

　結果を紹介する前に、この市場のあんまり芳しくない特徴について。

まず、価格(=予測確率)の面チャートを見ると、なぜかものすごいスパイクが現れている。つまり、理由はないのに、ある短い期間だけ発行枚数がどんと増えているのである。これは数理的にそうなっちゃうそうだ。
どれだけ発行枚数が増えても流動性が変わらない。市場終盤に至っても、ちょっと売買しただけで価格が変わってしまう。これはちょっと変な感じだ。

　よくわからんが、これは両方とも、LMSRの流動性係数$b$を一定にしていることの帰結なんだそうだ。

　さて、実験の結果。
　儲かった49名について調べたところ、3つの方略がみつかった。それにしても、ずいぶんノリの良い奴らだ。

spike dampening方略。スパイクを狙って売る。
relative smoothing方略。スパイクの合間の低いところを買う。
information gathering方略。コンピュータサイエンス学部の博士課程に在籍しているElieくんは、工事現場に通いつめ、建築監理者の携帯の番号まで手に入れる苦労の末、発表当日朝に情報をつかんで今日の株を買いまくり、果たして取引成績100位付近から15位にまで急上昇した由。自分の研究しろよ...

　では、市場自体のパフォーマンスはどうだったか。いろんな話が書かれているが、疲れてきたので、ここからは簡単に。

市場は移転日予定の公式発表や天気に反応した。
サインアップの際、参加者に「あなたは平均的参加者と比べて自分がどのくらいsavvyだと思いますか」と5件法で聴取している。うーん、なんて訳せばいいんだろう。「取引がうまい」かな。回答は意外に謙虚で、かつ実際の成績とは関係なかった由。
一人当たり取引数の分布はべき法則に従った。
なんと、ボットで取引する奴が現れた。APIも公開してなかったのに。作ったのはコンピュータ・サイエンス学部の院生ジムくんで、2日間かけてボットをつくり、現在の価格を混合正規分布にあてはめ、そこから外れている日を売り買いしやがった。ボットの成績は素晴らしく、一時は2位にまで上昇したが、2月14日の第二回予定日公式発表を機に彼は手動取引に戻し、以後ほとんどのチケットを失ったそうだ。残念でしたね。
IEMの研究では、予測市場の好成績は少数のmarginal trader (鞘取りを狙う投資家)に支えられているのだそうだ。この仮説はGHPMでも支持された由 (6頁にわたって延々分析されているが、超面倒なので読み飛ばした。IEMとちがって各銘柄の確率分布が常に整合しているので、marginal traderを同定することさえ難しいのである)

　まとめ。マーケット・メーカ方式のふたつの問題点があきらかになった。(1)価格のスパイクの出現。とはいえユーザ・インタフェイス次第かもね、とのこと。(2)流動性が変わらないこと。

　長かった... 疲れた...。でも、期待した通り、LMSRの説明が素人にもわかりやすくて、助かった。

読了：Othman & Sandholm (2013) マーケット・メーカ方式で予測市場をやってみました＠CMU

Chen, Y., & Pennock, D.M. (2007) A utility framework for bounded-loss market makers. Proc. 23rd Conf. on Uncertainty in Artificial Intelligence (UAI2007), 49-56.
きっとHansonという人の説明能力に問題があるんだと思って(すいません)、別の著者のを読んでみた。効用ベース・マーケット・メーカという枠組みをご提案します、という内容。要するにマーケット・メーカが自分が思うところの適正価格で値付けする(儲けようとは思わず、期待効用を常に一定に保とうとする)という、すごく単純なメカニズム(のように見える)んだけど、LSMRもこの一種として位置づけられるのだとか、なんとか、かんとか...。ノート取りながら必死に読んだんだけど、やはり途中で理解不能に。悲しい...なんでもっと頭のいい子に生まれなかったのか...

読了: Chen & Pennock (2007) 頭の悪い君にはわからんだろうがこれが効用ベース・マーケット・メーカだ

Hanson, R. (2007) Logarithmic Market Scoring Rules for Modular Combinatorial Information Aggregation. Journal of Prediction Markets. 1, 3-15.
対数マーケット・スコアリング・ルール(LMSR)をご提案します、という論文。仕事の都合で急遽読んでみたのだが、途中の理屈のところ、難しくてついていけない。悲しい...なんで文系に生まれちゃったんだろう...

追記：内容についてのメモをつくりました。

読了: Hanson(2007) 文系の君にはわからんだろうがこれがLMSRマーケット・メーカだ

2015年1月27日 (火)

今井未来, 水山元 (2014) 予測市場を応用した商品コンセプト評価システムの設計と検証. 人工知能学会全国大会.
　資料を探していて偶然見つけたもの。第一著者の方の卒論らしい。
　
　コンジョイント分析風に、製品コンセプトを属性の束として捉え、実験計画でコンセプトを用意して予測市場を走らせる。メカニズムはマーケットメーカ方式 (LMSR)。複数の予測市場を走らせ、それぞれの市場におけるコンセプトの終値の対数を従属変数として属性の部分効用を推定する(市場ごとに推定するのではない模様)。で、各コンセプトには全体効用の指数に比例したシェアを与え、これに比例したペイオフを与える。
　シミュレーション。一市場30人。製品の数はよくわからなかった。一回の取引あたりの売買上限は1枚 (空売買あり)、ある時点に誰が取引するかはランダムに決める。プレーヤーは次の3種類で、比率をいろいろ試す:

正解モデルに誤差を加えた選好モデルを持っていて、それに従って自己資産の最大化を狙うプレーヤー [←自分の選好と比べて安値な株を買い高値な株を売るってことかな]
最高値の証券がシェア100%になると信じて行動する奴 [←ってことは、機会が巡ってくるごとに、最高値じゃない株を叩き売るか最高値の株を提灯買いする、ということかしらん]
価格の推移をテクニカル分析している奴 [←嫌な奴だなあ]

　結果として、複数市場を走らせたことで市場の精度が高くなった。云々。

　勉強になりました。面白いなあ...
　要するに、コンジョイント分析での対象者の課題を、自分の選好に基づく評定課題や選択課題ではなく取引課題、つまり(a)他者の選好を推測させる(b)誘因整合的な課題にした、ということだと思う。実験して、普通のコンジョイント分析と比べてみたいものだ。
　シミュレーションのレベルでは、選好に消費者間異質性があったときにどうなるか、という点に関心を惹かれる。消費財でコンジョイント分析を使う状況を考えると、いまどきはたいてい階層ベイズ法で個人レベルの部分効用を推定するので、選好に異質性があるときには、それが部分効用の個人差として顕在化するぶん普通のコンジョイント分析のほうが有利かも？いや待て、選好に異質性はあっても、他者の選好の推測には異質性がなかったりして...などなど、夢が広がる。

読了：今井・水山 (2014) コンジョイント分析の架空製品についての予測市場

水山元(2014) 予測市場とその周辺. 人工知能, 29(1), 34-40.
　どうやって手に入れようかしらんと考えていたら、人工知能学会誌「人工知能」の記事にはCiNiiで記事単位で買えるものがあることが判明。正確にいうと、CiNiiでは雑誌「人工知能」について、NDL(国会図書館)のOPACに由来するエントリとNII-ELS(先日クローズした国立情報学研究所の奴)に由来するエントリが二重登録されており、後者のエントリにのみPDF購入へのリンクがついているのだ。細かいことだけど、こういうことがあるので、CiNiiで調べものをするときは要注意である。

　恩ある先生だからいうわけじゃないけど、大変勉強になりました。市場調査の分野で予測市場に関心をお持ちの方も、読まれるとよいと思います。

　いくつかメモ:

Elberse(2007 J.Mktg): マーケティング系の予測市場研究。ざっとめくってみたらHSXのようだ。
連続ダブルオークションの限界: (市場参加者数)/(証券種類数)が小さいときに流動性が下がる; 注文数が少ないとき1注文あたりの影響力が大きくなる
自動マーケットメーカ方式の代表的方式: HansonのLMSR(対数スコアリングルールを逐次的に適用して値付けする)、Pennockのダイナミック・パリミュチュエル市場(DPM)。いまのところLMSRのほうがスタンダード。
ふつうのパリミュチュエル方式の難点: (1)途中で売れない、(2)ぎりぎりになって買うのが合理的。
PennockのDPMの難点: (1)少人数のときに戦略的に撹乱できる, (2)証券を買うときに事後配当が決まっていないのでわかりにくい [←あ、そうか]
Slamka(2012, JForecasting): Dahanとかの選好市場では実現値が観測できないので美人投票になっちゃいかねないが、それを避ける工夫 [←こ、これはやばい...早急に読むべし]
Bethos et al.(2009 Lecture Notes in Business Information Processing): アイデア市場の例 [←IDEMって奴。いまざっとみたらGEの奴とかSoukhoroukova et al.とかに近い感じ]
Chen et al.(2003 InfoSysFrontier), Chen et al.(2004 MgmtSci): スコアリングルールを使って複数人から予測分布を抽出し、それとは別に予測市場を使って個々人のリスク選好を評価し、これらを合わせる。[←ぐぁーややこしそう]
Kilgour (2004 DecisionAnalysis), Lambert(2008 Conf): 競争的スコアリングルール。複数の人が同時に予測分布を出力するような場面で使う。[←へー]
Healy (2010 MgmtSci): Subsidized Delphi。デルファイ法の最終ラウンドでスコアリングルールを使う。[←これも読まなきゃ]
Chen & Pennock (2010, AI Magazine) [← いまざっと見たらBTSに言及がある... なぜ気が付かなかったんだ]
Shi, et al. (2009, Lecture Notes in Business Information Processing): 企業内予測市場でKPIを低めにしちゃうような好ましくない介入をスコアリングルールで阻止する
Pennock, et al. (2002 Conf): 「予測市場の価格推移がWebからの知識マイニングためのトリガーとして機能する」[←面白そう]

　HansonのLMSRについて全然理解できていなかったことが判明。ちょっとメモをとっておくと...
　ある人が出力した分布を表すベクトルを$r$, その$i$番目の要素を$r_i$とする。$r$の逐次的修正$r^{[0]}$→$r^{[1]}$→$r^{[2]}$→...に対してスコアリングルールを適用するのがMSR。特に対数スコアリングルール(実現値 $n$ の下で$r$へのスコアを $b \log (r_n) $とする) を適用するのがLMSR。たとえば $r^{[2]}$→$r^{[3]}$という修正があったとして、実現値が$n$だとわかってからスコア$b \log(r_n^{[3]}) - b \log(r_n^{[2]})$を渡す。これが直接的な実装。
　さて、これと等価なマーケット・メーカをつくりたい。出力分布$r$のかわりに、証券$1,\ldots, N$の価格のベクトル$\pi$を考える。市場の状態を発行枚数のベクトル$q$で捉える。たとえば発行枚数が$q^{[2]}$→$q^{[3]}$と変わったとき、価格分布を$\pi^{[2]}$→$\pi^{[3]}$と変えるとして、この変化によって生じる参加者全員の利得[←という理解でいいのだろうか？]が、あとで振り返ると$b \log(\pi_n^{[3]}) - b \log(\pi_n^{[2]})$になっていました、というようなしくみをつくりたいわけだ。
　[...生まれながらの文系なので、途中を端折って...] これを満たすのが以下の値付けなのだそうである:
　$\pi_n = \{\exp(q_n / b) \} / \{\sum_i^N (\exp(q_i / b)\}$
ええと、各証券の価格を、発行枚数をある単位で数えた値の指数に比例させるわけだ。
　...いずれきちんと勉強しなきゃ。Chen & Pennock (2007, Conf)というのを読むとよいらしい。

読了：水山(2014) 予測市場とその周辺

2014年12月16日 (火)

Graefe, A. (2014) Accuracy of vote expectation surveys in forecasting elections. Public Opinion Quarterly, 78, 204-232.
　ぼんやりPOQのサイトを眺めていて、アブストラクトを数行読んで、これはえらいこっちゃ、と青くなった論文。まさにこれ、こういう研究を探していたのに、これまで見つけることができなかった。探し方が悪かったのだ。嗚呼愚かなり。
　表題の vote expectation surveyというのは、「誰に投票しますか」ではなく「誰が勝つと思いますか」と尋ねる調査のことで、citizen forecastともいう、とのこと。くっそー、そういう言葉があったのか。

　話を大統領選予測に絞る。従来の方法として、専門家予測、伝統的な世論調査(誰に投票しますか。以下VI)、予測市場(具体的にはIEMのこと)、量的モデル(経済指標などで重回帰する)がある。伝統的な世論調査といっても、単独の予測だけではなく、複数の調査を組み合わせたり、時系列で追ってって投票日にどうなるか予測したり(poll projections)といった工夫が可能。
　さてvote expectation (以下VE)は、Lazarsfeldの昔からwishful thinkingの存在が指摘されてきたんだけど、これが案外正確なのである。注目を集めたのはLewis-Beck & Skalaban (1989, British J. Political Sci.)で、1956年以降のAmerican National Election Study (ANES) のVE設問を分析、69%の回答者が勝者を言い当てていたことを示した。2012年までに拡張すると70%。州別にみても69%。英国の調査の分析でも同様の結果が得られている。理論面では、Murr(2011, Electoral Survey)がコンドルセの陪審定理とVEを結びつけ、回答者数、勝者と敗者の差、そして調査回答日のばらつきが大きいときにVEの集約が正確になる、ということを示している由。とはいえ、VEの研究は少ない。
　Rothschild&Wolfers(2012,SSRN)は、ANESにおいてVI質問とVE質問を同じ対象者に聞いた調査について分析している[←ベイジアン自白剤そのものだなあ...]。VEの方が正確。考えられる理由は：(1)VIからは態度未定者が落ちる。(2)VEは他者の態度についての知識を反映する。[←面白い!!!]
　予測市場との優劣はどうか。ANESのVEとIEMの大統領選予測を比べると、VEのほうが若干正確。他の予測課題でも同様の報告がいくつかある。考えられる理由は、評定者の多様性。IEMの参加者にだってwishful thinkingはあるし、白人男性・高学歴・高収入・共和党支持者が多めだ。

　というわけで、公表されているデータを用い、大統領選予測におけるVEの正確さについて調べてみました。
　VEを聞いている調査は1932年以降で217個ある(ギャラップとかANESとかを全部合わせて)。集計結果が勝敗を予測できたのは193個、つまり89%。得票率を予測するために、VEで得票率を予測する回帰式をつくったところ、現職側の党のVE獲得率をE, 実際の得票率をVとして、V=41.0 + 17.1E。決定係数0.66。[←おおおお... 結構すごいな]
　さて、1998年から2012年までの7つの大統領選、投票日前100日間に注目し、VE、世論調査(単独、結合、結合してprojection)、予測市場(IEMの終値)、専門家予測、著者らの定量モデルについて、ヒット率、ならびに得票率予測のMAEを比較する。結果：一番成績がよかったのは... VEでした!!

　考察。
　過去30年間、我々は選挙予測の精度向上を目指して頑張ってきたよね。世論調査の結合とか、projectionとか、定量的モデリングとか、予測市場とか。でも意外や意外、長く忘れられてきたVEの成績が一番よかったわけだ。
　2012年の選挙でいえば、最終的な結果(オバマが4ポイント差で勝利)を安定的に予測していたのはVIよりVEのほうだった。ネイト・シルバーのFiveThirtyEight.comの日次予測と比べても、VEのほうがかなり精度が高かった。
　VEはなぜ注目されないのか。(1)その正確さが知られていないから。(2)オッカムの剃刀とは逆に、人は複雑な解決策を信じるから。ネイト・シルバーが好かれる理由もそこにある。(3)VEは安定しすぎていてニュース価値が低いから。「ジャーナリストが競馬的メンタリティから脱却し、vote expectation調査に注意を向けるようになれば、候補者のパフォーマンスやその政策について説明するのに集中できるだろうに、そして有権者は本当は誰が有利なのかをより正しく知ることができるだろうに」。
　
　自分の仕事とあまりに近すぎるので、感想は省略するけど... とにかく、地道に探していれば、求めていた情報が、こうして不意に目の前に現れることがあるのだ。

読了：Graefe(2014) 実はvote expectationが最強の選挙予測だった

2014年12月12日 (金)

Buckley, P., McDonagh, E. (2014) Ideas markets: A literature review and classification scheme. The Journal of Prediction Markets, 8(2), 76-88.
　予測市場の新世代(?)、「アイデア市場」についてのレビュー。

　実のところ、こういう主旨のレビューがあるはずだ、なければいっそ自分で書いちゃおうか...と思っていたところであった。で、この論文の公刊に気が付き、これはなんとしても読まねばならん、なるはやで！と勢いこんだ。あいにくマイナー誌につき入手困難。著者に連絡しちゃおうかと思案しつつも、ついクリックしてPDFを買ってしまった。例によって購入システムにトラブルが生じ(私の経験では大抵そうなる。論文をPayParViewで買う奴なんて少ないのだ)、UKの担当者に連絡したりして、結局は半日かかっちゃったのだが。
　で、届いたPDFをプリンタが吐き出すのを横に立って眺めていて、あっけにとられた。なに、このレイアウト。Excelで描いたと思しき巨大な円グラフだけで丸々１頁。棒が２本しかない棒グラフでまた１頁。とんでもないページ水増しぶりである。これって許されるんですか？これで16ポンドって、ちょっとあんまりじゃない！？

　ここでアイデア市場といっているのは、予測市場とちがって正解がなく、かつ証券が事前に決定していないタイプの市場のこと(MITのDahanたちのが含まれていないのは後者の基準のせいだと思う)。著者いわく、利点は二つ。(1)創造的なアイデアの開発。(2)アイデアの選択を集合知で改善。
　で、著者らはアイデア市場の先行研究を20本集め、いろいろな角度から分類する。応用が10本、市場設計が4本、残りが6本でした。応用はビジネス9本、アカデミック1本でした。云々。省略。
　結論。短い期間でこんだけ研究が出てきてんだからたいしたもんだね。実務家も関心持ってくれてるみたいで喜ばしいね。参加者のコミュニケーションをよりリッチにしたらイノベーションが活性化されないかね。報酬スキーマの研究も大事だね。云々。

　これだけ集めるのはさぞや大変でしたでしょうに、それに20本もの研究に目を通したんだから、なにかしら個別具体的に批評的意見をお持ちでしょうに、そういうご意見はほとんどゼロ。すごく謙虚な方々なんでしょうね。ええそうでしょうとも。

　著者らが集めた20の先行研究は以下の通り。実のところ、この論文で最も価値ある情報はこのリストじゃないかと思う。これに3000円払ったようなもんですよ、まったく。

企業での適用:
- Lacomb, Barnett, Pan(2007 Info.Sys.Front.)
- Soukhoroukova, Spann, Skiera (2007 出典が書いてない。ネットに落ちているがなんだかわからない)
- Spears, Lacomb, Barnett (2009 J.Pred.Mkt.)
- Levy (2009 出典が書いてない。検索するとなにかのプレゼン資料がヒットする)
- Lavoie (2009 J.Pred.Mkt.)
- Burnham (2009 これも出典が書いてない。どないせえっちゅうの)
- Ottaviani(2009 J.Pred.Mkt.)
- Soukhoroukova, Spann, Skiera (2012 J.ProductInnov.Mgmt.)
- Lauto, Valentin, Hatzack, Carlsen(2013 Res.Tech.Mgmt.)
学術への適用
- Soukhoroukova, Spann (2007とあるが2005の誤りか。ECISという会議のProc.)
ソフトウェア設計
- Bothos, Apostolou, Mentzas (2009 Internet Research)
- Bothos, Apostolou, Mentzas (2009 論文集"Designing E-Business Systems")
ペイオフ値
- Slamka, Jank, Skiera (2009 SSRN)
- Marinovic, Norman (2010 出典が書いてない。同名の章が論文集"Prediction Markets"(2011)にある)
入門的内容
- Kamp, Koen (2009 J.Pred.Mkt.)
- Kamp (2009 そもそも引用文献リストに載ってないよ！いい加減だなあもう！)
- Schroder, Slamka, Skiera, Spann, Geyer-schulz, Franke, Weinhardt, Lukner (2012 書籍"Prediction Markets")
- Jones, Collins(2009 CAISという会議のProc.)
他の手法との比較
- Brachos, Kafentzis, Samiotis, Bothos(2009 Int.J.Sustainable Strategic Mgmt.)
- Bothos, Apostolou, Mentzas (2012 Expert Systems with Applications)

いろいろ不備があって困ってしまうが、きっとご多忙で校正のお時間もとれなかったのでしょう。ええそうでしょうとも！

読了：Buckley & McDonagh (2014) アイデア市場についてのすっごく包括的で批判的でためになるレビュー

2014年12月 3日 (水)

LaComb, C.A., Barnett, J.A., Pan, Q. (2007) The imagination market., Information System Frontier, 9, 245-256.
　いま検索したら、"imagination market"とはナントカというバンドだか歌手の方のアルバムのタイトルで、ナントカというアニメだかゲームだかの主題歌が収録されているのだそうだ。「繊細で心地よいメロディーはまさに癒し系」なのだそうだ。検索でこの記事を見つけた方、申し訳ないですが、たぶんお探しの情報とは違います。文字通り、イマジネーションを取引する市場の話で、かなり殺伐としてます。
　GE社が企業内でのアイデア生成に市場メカニズムを活用した有名な事例報告。ざっと目を通していたのだけど、用事があって再読。

イントロ。
　情報市場とは、出来事についての予測を行ったり参加者の選好を測定したりするために使われる架空の市場である[あとでalso known as prediction markets or idea marketsといっているから、「情報市場」という言葉にこだわりがあるわけではなさそう]。
　有名な情報市場としてIEM, HSXがある。ビジネス利用の例もある[挙げられているのは Bingham(2003 なんだかよくわからない), Chen & Plot (2002 Working Paper), Hapgood(2004 雑誌記事), Kivat(2004 雑誌記事)。なんだかなあ]。しかしアイデア生成に使っているのはみたことがない。
　[お約束の、既存手法ディスりの段：] アイデア生成のための手法はいろいろあるが、アイデア投稿箱とかだとフィードバックを返せないし議論もできない。ブレストとかだと大規模化できない。云々云々云々。そこで情報市場を使ってみましょう。

先行研究。
　まず予測市場について。市場の情報蓄積能力は合理的期待理論に基づく。予測精度は高い(Forsythe & Lundholm 1990 Econometrica, Plott & Sunder 1988 Econometrica, Pennock et al 2002 Proc., Pennock et al 2001 Sci., Pennock et al 2001 Proc.)。
　これとぜんぜんちがう市場に選好市場がある。ちがいは測定可能なアウトカムがないこと。報酬は他の参加者の選好の予測に対して与えられる。MITの実験が有名 [挙げられているのはChan, Dahan, Kim, Lo, & Poggio(2002 TechRep); Feder(2002 NYTの記事)。前者はJMRに載ったSTOC論文の前身であろう]。この線の研究にGruca, Berg, Cipriano(2003, Info.Sys.Front.)がある。ただし、選好市場が他の集団(たとえば製品のターゲット顧客)の選好の推定量になりうるかどうかはわかっていない。
　こんどはアイデア生成の話。集団の創造性を支えるツールとしてブレストとかデルファイ法とかあって、有効性を示す研究も多い。でも全員が同時に参加しないといけないといった困難さもある。云々。

方法。
　本研究でつくる市場の目的は：(1)伝統的な方法よりもたくさんアイデアを生むこと。(2)組織の全員を巻き込むこと。(3)最良のアイデアを決めること。
　ソフトはForesight softwareを使う[Foresight eXchangeで使われているソフトのことかな]。市場の特徴は以下の通り。

参加者：社内のある部局のメンバーまるごと。
株(=アイデア)：まずは実験者が５つのアイデアを用意。参加者は新アイデアをどんどん投稿できる[どういう形式で投稿するのだろう？]。他の株と似てたらはねられる[誰がどうやって決めるの？]。株価は1ドルから99ドルの範囲[無論、架空のドルであろう]。すべての株は50ドルで100株IPOされる[新規公開株は希望者に50ドルで100株売られ、それから上場して初値がつく、ということかなあ]。空売りオッケー。
市場設計：配当は市場終了前の5日間のVWAP(売買高加重平均価格)。空売りの場合も100ドル－VWAPで清算。取引期間中の参加者にはポートフォリオの時価総額が表示される。市場は23.5日間開催。終了は当日までお知らせしない。各参加者には最初に10000ドル渡す(途中参加でも)。さらに毎週1000ドル渡す。全員匿名。参加者があれこれ議論できるブログを開設、アイデア開発者もこのブログで詳細を説明できる。
報酬：配当額が最高の株に開発資金５万ドル。参加者への報酬は、organizational constraints required us to keep incentive values lowであったため[訳: 予算がなかったので]、ポートフォリオ上位２名にiPod、3位から12位に25ドルの商品券をプレゼントした。さらに取引するごとにくじがもらえて、抽選で１名様にiPodをプレゼント。最初の週にトレーニング・セッションを３回開催。途中でテコ入れ策として、参加者、登録済未参加者、未登録者から各一名に抽選で25ドルの商品券をプレゼント。さらに昼休み大会を開催(ランチはタダ)、参加者はラップトップで取引させながらおしゃべりさせた。[涙ぐましい... 大企業がやると決めたらここまでやるのか...]
参加者に課せられたルール：勤務時間中は取引しないこと[あっ、そうだったのか。そりゃあなかなか盛り上がらないわけだわ]。市場を操作しようと思うなと教示。参加IDはひとりひとつだけ。
教示：GEのビジネスに高い金銭的インパクトを持ち、我々がフォーカスしている領域に一致した先進技術を用いており、1～3年以内にインパクトを示し、かつ成長につながるであろう株を買え。[うっわー... うざい... こんなの俺なら絶対関わりたくない]

結果。
　全部で62アイデアが投稿された。他のアイデアに触発されたアイデアも見受けられた[←そこが大事なのに...エビデンス出してくれないと...]。
　期間中の取引参加者は85名(150名中)。ランチタイムパーティの集客効果が大きかった。
　最優秀アイデアは期間の後半ずっと首位に近かった。VWAP、終値、株価平均、中央値のいずれをみても、株のランキングはそんなにかわらなかった。
　GEのリーダーシップ・チームのメンバー11名に各株を10件法で評価させ、平均のランキングをVWAPのランキングと比べると、相関0.43。それぞれのランキングを四分位点で区切って4x4のクロス表をつくると、カイ二乗検定は有意でなく[でもp=0.077なんですけどね]、39%が対角セルに落ちた。このように市場の評価とリーダーの評価はかなり一致した[く、苦しい...]。ズレの原因としては：(1)市場参加者の多くがアイデア開発者でもあったので、wishful thinkingが生じたのでは。(2)リーダーシップ・チームと市場参加者では持っている情報がちがうのかも。(3)リーダーシップチームは全アイデアを一気に通してみたからでは。

考察。
　３つの目的は果たされた。[という理屈付けが、終了後アンケートなどを基にぐだぐだと書いてある。面倒なので省略]

今後の課題

ポートフォリオ表示の改善。配当はVWAPで決まるのに表示は時価っておかしい。
最初は金を渡すのがいいか、株を渡すのがいいか？
IPOは必要だったか？
真実申告インセンティブをポートフォリオ評価でない形でつくれないか？たとえば専門家委員会の選んだ株を持っていると評価されるとか。
流動性を高めるためにインフレを起こすのはどうだろう？
もっとデータを集めて、株数に対して最適な参加者数を調べたい。
市場の結果の妥当性を評価するうまい統制条件はないだろうか。調査などをつかって...。[←仰せの通りですね]
事後アンケートで「過大評価されてる株」について訊くのはどうか。
現実の製品デザインに選好市場を適用してみたい。顧客の声を聴く楽しいツールになるかも。

　以前にめくったときは、正直言ってあまり感心しなかった論文なのだけど(話の進め方が雑な気がして。なにを偉そうに。はいすみません)、読み直してみるといろいろ発見があった。
　Skiera一派のアイデア・マーケットの論文でも思ったけど、こういう風に選好をアグリゲートする市場メカニズムって、仕組みの妥当性や有用性を示すのがすごく難しいですね。予測市場とは違って「正解」がないので、どうしても、参加者の事後アンケートとか、経営層の感想とか、そういうのに頼ることになってしまう。ううむ。

読了：LaComb, Barnett, Pan (2007) イマジネーション・マーケット

Wolfers, J., & Zitzewitz, E. (2004) Prediction Markets. Journal of Economic Perspectives. 18(2), 107-126.
ちょうど10年前に公刊された予測市場研究レビュー。進展の早い分野だから、別にいまこれを読まなくてもいいのかもしれないが...

　予測市場のタイプ。contractの種類で分けると、

"winner-take-all" contract. ある出来事が生じたとき、そのときに限り、決まった額のペイオフがある。価格は生起確率についての市場の期待値を表す(リスク中立性を仮定すればの話だが)。
"index" contract. 量的アウトカム y に応じてペイオフが決まる。価格は市場から見たE[y] を表す。
"spread" contract. たとえば、価格は1ドル、アル・ゴアがある閾値以上の得票率を得たときに2ドル配当、そうでないとき配当なし、という証券を提示し、その閾値を入札させる。得票率の中央値についての市場の期待がわかる。[←提示価格の平均値によって、ってこと？]

　なお、たとえばwinner-take-all型のcontractを「得票率が46%だったら」「得票率が47%だったら」...と複数個用意すれば市場の期待の分布がわかるわけで、つまり市場の期待の不確実性についてもわかる。
　非線形的indexも便利である。たとえば、y に応じてペイオフが決まるindex型contractと、yの二乗に応じてペイオフが決まるindex型contactをつくれば、分散とは(二乗の平均)-(平均の二乗)だから、E[y]のSD, つまりyのSEを求めることができる。

　適用事例。Iowa Electronic Market, Austrian Electronic Market(UT Vienna)[現存するのか不明], Univ. British Columbia Election Stock Market[現 Sauder School of Business Prediction Market]。企業による市場としては、現実の通貨を使うものとしてTradesports.com[現存], Betfair.com[現存], Economic Derivatives[Goldman SachsとDeutsche Bankがやっていたらしい。現存しない模様]。架空通貨を使うものとしてNewsfutures.com[現LUMENOGIC], Foresight eXchange, それからかの有名なHallywood Stock Exchage.
　
　これまでの事例からわかっていること。

予測精度について。IEMの予測精度は世論調査に比べて良い(大統領選の例を紹介)。Tradesports.comの「サダムフセイン失脚」証券の価格時系列は専門家評価に先行した。HSXの予測精度も高い。Chen & Plott (2002) のHPの社内予測、Ortner (1998) のSiemensの社内予測も精度が高かった。Economic Derivativesの...[めんどくさくなってきたのでパス]
裁定取引 [鞘取りのことね] は可能か。2003年カリフォルニア州知事選のシュワルツネガー証券の価格時系列をTradesportsとWorld Sports Exchange[英国のブックメーカーらしい]で比べると、差はほとんどない。つまり取引所間での鞘取りはほぼ無理。
なお、行動上のバイアスは観察されている。確率が低いアウトカムの予測において確率評価のバイアスが観察されているし、政治市場でのトレーダーの取引は政治的立場のバイアスを受けている模様。バブルの例もなくはない。
市場を操作しようとした報告もあるんだけどみんな失敗している。DARPAが予測市場を計画した際、テロリストがテロ証券を買って儲けようとするんじゃないかと危惧する声があったが、そもそもテロ証券を取引する予定はなかったし、要人暗殺証券の取引による儲けよりも要人暗殺の報酬のほうが高いだろう[←こ、これは... 冗談で書いておられるのだろうか...] 。云々。

市場のデザイン。

買い手と売り手をどうやってマッチングするか。一番よくつかわれているのは連続的ダブルオークション。最近はパリミューチュエルも使われている。多くの場合、マーケット・メーカが売値・買値のwillingnessをアナウンスしている[←ここ、よくわからない。原文: many prediction makrkets are also augmented by market makers who announce willingness to buy and sell at a certain range of prices. ダブルオークションの板情報のことだろうか]。なお、Hanson(2003)はスコアリング・ルールを使った同時予測方法を提案している[よくわかんないけどLMSRって奴のことだろうか...]。
contractは明確で理解しやすいものでなければならない。
現実の金銭を使うのがよいか、架空通貨を使うのがよいか。よくわかっていないが、たいしてかわらない模様。
取引のモチベーション、ならびにアウトカムについての見解の不一致が必要。また、蓄積に値する知能とまともな公開情報が必要。

予測市場による推論。

もっとも単純なのは価格を直接に予測値とすること。
価格の時系列を調べる例もある。Leigh, Wolfers & Zitzewith(2003, Working Paper)はサダムフセイン証券価格(戦争のリスク)と原油価格の関連を調べている。
contingent marketという方法もあって...[IEMの大統領選市場の話。Berg & Reitzのいうconditional予測市場のことだと思う]。しかし、証券の組み合わせによる推論には注意しないといけない。たとえば、さまざまな架空のシナリオを通じて、エドワーズが指名候補となる確率と民主党が勝つ確率の相関が高いとして、それは「エドワーズが民主党指名候補になったら民主党は勝ちやすくなる」のかもしれないし、実はそれは「エドワーズが指名されるためには南部民主党が勢力を増さないといけない、もしそんなことが起きたらそんな暁にはさすがに民主党が勝つ」ということなのかもしれない。[とかなんとか... ちゃんと読んでないけど、因果推論の際にはその前提になっている想定に気をつけろよ、という指摘だと思う]

　いやー、眠かった... やはりもう少し新しいのを読まないと面白くないな。よし、次にいこう。

読了：Wolfers & Zitzewitz (2004) 予測市場レビュー in 2004

2014年12月 1日 (月)

Berg, J.E. & Rietz, T.A. (2003) Prediction markets as decision support systems. Information Sysytems Frontiers, 5, 79-93.
アイデア先行・夢先行で進めてきたが、ええかげんにきちんと先行研究を当たらねばなるまい。というわけで、待ち行列をすっ飛ばして目を通した。選挙の予測市場の論文。ずっと前に読んだTziralis & Tatsiopoulos(2007)のお勧めリストにも、M先生のリストにも出てくる。著者らはアイオワ大、IEM(Iowa Electronic Markets)の中の人らしい。掲載誌についてはよくわからないんだけど、IF 0.85と書いてあったから、メジャー誌ではなさそう。

　[まずIEMの話がひとしきりあって...]
　以下では、ある未来の出来事について、他の出来事の下で(conditional on other events)予測するのが目的である予測市場を"conditional prediction market"と呼ぶ。これはただの予測市場よりも意思決定支援の役に立つことがある。たとえば、政党が大統領選の候補者を選ぶときとか(党員に人気がある人ではなくて、「もし誰々が候補者になったらうちの党が勝てるか」を予測しないといけないから)。
　予測市場は決定支援の役に立つ。なぜなら: (1)動的な予測を連続的に更新してくれる、(2)トレーダーたちの情報を蓄積してくれる、(3)過去の研究によれば正確な予測が得られ (4)他の手法より良い、(5)個々人のバイアスを取り除いてくれる、(6)いろんな問題を予測できる。
　というわけで、IEMの96年大統領選市場に注目しましょう。共和党はドールじゃなくてコリン・パウエルを候補にしておけばよかったんです。

　未来の[量的な]アウトカムを$V_1, V_2, \ldots, V_n$とし、その和を1とする(ここでいえば民主党と共和党の得票率)。市場の清算配当金[liquidating devidend]がそのアウトカムの線形関数になっているペイオフ構造の市場のことを線形市場という。
　これに対し、可能な[カテゴリカルな]アウトカム$E_1, E_2, \ldots, E_m$の生起と清算配当金を結びつけて、確率を予測する場合もある。これを勝者総取り市場と呼ぶことにする。
　では、conditional予測市場の場合はどうなるか。未来のアウトカム$V_1, V_2, \ldots, V_n$、別のアウトカム$E_1, E_2, \ldots, E_m$を考える。予測対象となるのは条件つきアウトカム $V_i | E_j$。これを清算配当金と結びつける。

　96年大統領選では、民主党はほぼクリントン一択だったのに対して、共和党にはたくさんの候補がいた。予備選の有力候補はアレクサンダー、ドール、フォーブス、グラム。パウエルも出ると思われたんだけど、95年11月に不出馬宣言。グラムは96年2月、アレクサンダーとフォーブスが3月に降り、残るはドールと、ブキャナンという弱い候補だけとなった。
　さて、IEMではこの間に３つの市場を開いた。

(1)パウエル指名市場。パウエルが共和党大会で候補者指名を受けるかどうかの勝者総取り市場。contract[証券のことであろう]は次の2種類: P.YES(党大会でパウエルが指名されたら1ドル配当), P.NO(されなかったら1ドル配当)。
(2)大統領選市場。いろんな候補が最終的に勝つかどうかの勝者総取り市場であった。証券は: CLIN(クリントンが最多得票なら1ドル)、OTDEM(民主党のクリントン以外の候補が最多得票なら1ドル)、REP(共和党の指名候補が最多得票なら1ドル)、ROF96(その他の候補が最多投票なら1$)。
(3)大統領選得票率市場。これはちょっとややこしい。まず、共和党/民主党の得票率を共和党候補で条件づけて予測する市場としてスタート。証券は{ドール、フォーブス、グラム、他の指名候補}の4人について次の2種類、計8種類。たとえばドールについて、V.DOLE(共和党指名候補がドールとなったとき、共和党指名候補の得票率x1ドルを配当)、CL|DOLE(共和党指名候補がドールとなったとき、民主党指名候補の得票率x1ドルを配当)。市場の途中で「他の指名候補」からアレキサンダーを分離独立させて、計10種類。で、3月のスーパーチューズデーでドールを除く8種類の証券がbecome worthless and were delistedと書いてあるから、紙くずになったということであろう。

結果。

パウエル指名市場ではP.YESの価格が上昇、不出馬の報が流れたときは約0.60であった。いっぽう大統領選市場でのCLIN価格は低落を続けていた(パウエル不出馬の時点で約0.20、その後急上昇)。不出馬までの68日間で2つの価格には強い負の相関がある。嗚呼、共和党はパウエルを説得すべきであった。
得票率市場でのV.DOLEの価格は、(ドールが指名される確率)x(ドールの下でのドールの得票率)であると考えられる。いっぽうCL|DOLEは(ドールが指名される確率)x(ドールの下でのクリントンの得票率)。従って価格の和が(ドールが指名される確率)となる。この指標の推移を、大統領選市場でのCLIN価格の推移と比べると正の相関があった。またドール支持の代議員数の推移とCLIN価格の推移にも正の相関があった。嗚呼、共和党員はどうにかしてドール以外の誰かを支援すべきだった。
V.DOLE / (ドールが指名される確率) = (ドールの下でのドールの得票率) となる。これを(ドールの下でのクリントンの得票率)から引いて、「スプレッド予測」とする。証券となっている全共和党候補についてこの時系列を描くと、基本的にドールは常に負けっぱなし。他の候補は変動が激しいが、最大値の時系列も平均の時系列も、常にドールよりまし。嗚呼、以下同文。

　論文後半に長大なappendixがついていたが、パス。

　感想：分析のくだり、２本の時系列を単純に比べて、相関があったとか回帰係数が有意だったというような分析をしているのだが、これ、時系列分析の手法として大丈夫なのだろうか。これってグレンジャー因果とかの出番なのではないかしらん...

　えーと、予測市場の先行研究のうち、これまでにメモを取って読んでブログに載せたのは、日本語を別にすれば、この論文, Soukhoroukova, Spann, & Skiera (2011)の奴、Spann & Skiera (2003)のレビュー, Tziralis & Tatsiopoulos (2007)のレビュー、Pennock et al.(2001)のScienceのLetter, それからEly Dahanさんの奴。くそう、道は遠いぜ。昔と違って、最近は一本目を通すのも一苦労なのだ。

読了：Berg & Rietz (2003) 条件つき予測市場による意思決定支援

2014年9月13日 (土)

Soukhoroukova, A., Spann, M., Skiera, B. (2011) Sourcing, filtering, and evaluating new product ideas: An empirical exploration of the performance of idea markets. Journal of Product Innovation Management., 29(1), 100-112.
　製品アイデア開発のための予測市場の先行研究。ほんとはもっと早く読んでおくべきだったのだけれど...

　著者らいわく。
　製品開発の初期段階(いわゆるファジー・フロント・エンド)においては、企業の従業員の知識をフル活用しなければならないのに、多くの企業はそれをやりそこねている。従業員から新製品アイデアを集め、絞り込み、評価するうまい方法はないものか？
　最近ではネットを使った支援システムが提案されている(ここでDahan&Hauser(2002,JPIM)というのが引用されている。やばい、読まなきゃ)。たとえば:

オープン・イノベーション・イニシアチブ(Chesbrough,2003,書籍)
イノベーション・コンテスト(Terwiesch & Xu, 2008, Mgmt Sci)
アイデア・コンペティション(Piiler & Walcher, 2006, R&D Mgmt)
イノベーション・コミュニティ(Franke et al., 2008, JPIM; von Hippel, 2005, 書籍)

本論文ではそうした支援システムのひとつとして、アイデア・マーケットを提案する。これは予測市場みたいなもので、アイデアの仮想証券を仮想市場で取引する仕組みである。

　先行研究概観。(Crawford & Di Benedetto, 2006, "New Product Management" というのが挙げられている。どうやら大学の教科書らしい)

1) アイデア収集(Sourcing)。まず社員のなかのリード・ユーザを探すという手があるが、カテゴリによっては難しい。多様な人からどっさり集めてくる、意見を交換させる(ブレインストーミングとかで)、匿名性を活かす、投稿を容易にする、透明性をつくる、楽しく競争させる、といった工夫がある由。
　本筋から離れるけど、ここのくだりにすごく関心があるので、引用文献をリストにしておく。

Goldenberg et al. (2001, Mgmt Sci) 新製品アイデアの質が成功の鍵だ
Carson (2007, J.Mktg) 創造性には確率的な(stochastic)性質があるので創造的貢献者をあらかじめ同定できない
Hargadon & Sutton (1997, Administration Sci.Q.) 同上
Joshi & Sharma (2004, J.Mktg) 多様な貢献者から意見を集めるのが大事
Franke, von Hippel, & Schreier (2006, JPIM) リード・ユーザ理論による貢献者同定; それはカテゴリによっては難しい
Schreier & Prugl (2008, JPIM) それはカテゴリによっては難しい
von Hippel (2005, 書籍"Democratizing innovation" 邦訳あり) それはカテゴリによっては難しい
Diehl & Stroebe (1987, JPSP) どっさり集めれば質も上がる; ブレインストーミングでアイデア収集 (※←あれれ？これブレストで生産性が下がるっていう論文じゃなかったっけ？！)
Simonton (1999, 書籍”Origins of genius" 邦訳なし) どっさり集めれば質も上がる
Garfield, et al. (2001, Innovation Systems Res) 貢献者間のインタラクションでアイデアの質を高める
Goldenberg et al (1999, JMR) 同上
Madhaven & Grover (1998, J.Mktg) 同上
van Dijk & van den Ende (2002, R&D Mgmt) 匿名性を活かす、投稿を容易にする、透明性をつくる、楽しく競争させる

　2) 集団によるアイデア絞り込み(Filtering)。以下の3つが必要になる。

刺激のデザイン。アイデアを文章で示すのか、絵をつけるのか、などなど。
対象者の選択。エキスパートを選びたいところだが、なかなか難しいし、あんまり少ないと問題が生じるといわれている。多様な評価者を(社内だったらたくさんの部署からの評価者を)、多数選ぶのが良い。
反応のマネジメント。評価者にアイデアを多数の基準で評価してもらって、AHPで重みづけてして集約する。ないし、全体的評価だけを尋ねる(投票とかランキングとかで)。評価者を通じた集約の方法としては、単純平均、デルファイ法、そして市場メカニズムが挙げられる。デルファイ法みたいに相互作用させるのもよい(Ozer, 2005, Euro.J.OR)。ただし集団思考に陥る危険もある(Kumar,et al.,1993,Aca.Mgmt J.)。

　3)評価(Evaluating)。これはアイデア収集と統合するのがよい。アイデア提案者に即座にフィードバックできるし、ひどいアイデアをすぐに落とせるので認知的負荷が下がる。さらに、即時的フィードバックは提案者のアイデアの質を挙げるし、良い提案者を同定できればそれは良い提案者でもあるかもしれない。

　提案手法の特徴。
　まず予測市場についての説明があって... IEMの紹介があって... (SpannとSkieraってひょっとしてIEAの関係者なのかしらん)
　アイデア・マーケットでは、参加者が考えたアイデアが証券になる。予測市場の違いは2点。

証券の種類数が参加者の提案の数によって決まる。従って開始時点では未知である。
証券の価値が、近未来の実際の結果によっては決まらない。

つまり、Dahanらのプリファレンス・マーケット(Dahan,Soukhoroukova,&Spann, 2010, JPIM) やSTOC(2011,JMR) と比べても、上記1.においては異なるわけである。

　お待ちかね、手法と実証実験。
　とある企業との協同実験である。ハイテクB2B製品の国際企業、売上は300億ドル以上、世界100ヶ国以上でビジネスをしている由。(社名は伏せられているけど、Santos&Spann(2011,R&D Mgmt.)という論文があって、それはクアルコムにおける従業員からのアイデア収集の事例研究だから...)
　仮想証券は３種類。

会社の新技術。専門家委員会が、むこう10年にその技術が収入に占める割合を推定し、それで最終配当が決まる。
ある製品カテゴリにおける新製品アイデア。専門家委員会が、むこう10年の売上数量を推定し、それで最終配当が決まる。
創造的なビジネス・製品アイデア。専門家委員会がベスト10を選び、それに入ってたら配当あり、ほかは配当なし。

なあんだ、結局は専門家委員会が「正解」を決めてくれちゃうんだ。がっくり。この点ではDahanのSTOCなんかよりもオーソドックスだ。
　ええと、著者ら曰く、配当の決め方としては次の路線がある。

Foresight Exchange方式。予測対象の出来事が確定するまで待ってもらう。さすがに今回は無理だ。
外的に決めるのではなくて、STOCやLaCombらみたいに、終値や平均取引価格で決める。群衆的行動(herding behavior )と自己成就予言に陥る危険性がある。
なんらかの代理指標を使う。検索エンジンでのヒット数とか文献引用数とか。取引中に参加者が調べちゃう危険性がある。
専門家委員会方式。参加者が委員会なるものを信用してくれないんじゃないか、というのが問題点。

　というわけで、この実験では本当に社外からえらい人を連れてきて時間を掛けて議論させたらしい。なにもそこまでせんでも、適当でいいじゃん、と思っちゃいましたけど、国際企業の社内実験ともなれば従業員をかつぐことは許されないのだろう。

　市場開設期間は36日間。全正社員に対してオープン。社内報とかチラシとかで告知した。取引は仮想通貨で行われる。
　参加者は最初に仮想の金を渡される。ええと、仮想通貨の単位をポンドと呼ぶとして、最初に10000ポンド渡すんだそうです。
　さて、この研究のウリともいえるアイデア収集だが... 市場開設から23日間、誰でもアイデアを投稿できる。ただし、会社にとっても市場にとっても新しいアイデアでないといけない、という決まりがある(別にチェックはしないらしい)。説明文のほかに、画像とか、外部リンクとか、引用文献なんかを載せられる。
　投稿者には仮想通貨ではない賞品が与えられ(先着25名様には割増がある)、さらに仮想ポートフォリオにも仮想通貨がどかんと追加される。(これ、本文では投稿者にもれなく渡すように書いてあるが、図では後述するIPOフェイズを通過できたアイデアの投稿者に限って渡すように書いている。どっちなのかはっきりしない)
　投稿から7日間はIPOのフェイズ。アイデアは価格が5ポンドに固定された証券となる。一人の参加者が買える上限は4000ポンドまで。で、売上が決まった閾値(参加者数で決める。たとえば20000ポンド)を超えないと、この証券は紙くずになる。
　これを通過した証券は、初値5ポンドから取引開始(ダブルオークション)。あれれ、初値が公募価格と同じだということは、IPOに応募する特別なインセンティブはないわけか。
　なお、このルールだと初期に取引する証券がまだないことになるので、主催者がIPOフェイズに3証券、取引フェイズに7証券を初日に投入した由。
　さて、市場が閉まると専門家委員会の評価で配当が決まる。これで利益が確定する。
　成績優秀者10名に100ドルから1500ドルの賞金を渡す。つまり、最終的なポートフォリオと報酬が連動するわけではない。それでも大丈夫という研究がある由(Servan-Schreiber, Pennock, et al., 2004, Electronic Markets)。

　結果。市場がうまく機能したかどうかを4つの観点から評価する。

アイデア・マーケットは従業員に受容されたか。参加してくれたのは397名、アクティブに取引してくれたのは157名。投稿数は252個。IPOを通過したのは100個。参加者調査の結果、大勢の参加者が「楽しかった、またやりたい」って言ってます、大勢の投稿者が「いやーこれやらなかったら新アイデアなんて出さなかったよ」って言ってます、とかなんとか。はいはい。スキップ。
収集・フィルタリングされたアイデアの質。IPOフェイズで半分以上が落ちたわけで、つまりフィルタリングは機能している(おいおい... 妥当なフィルタリングかどうかが問題なのに)。市場終了1週間前にやった経営層への調査では、上位20アイデアへの評価はとてもよかった。とかなんとか。うーん、ここの議論もちょっと弱い感じだ。
アイデア評価の質。参加者調査では「すべての参加者がアイデアを評価できたのは良かった」という回答が得られたとか、経営層調査でも「この結果を参考にしたい」という回答が得られたとか。はいはいはい、省略。非投稿者より投稿者のほうが取引が活発で、かつ成績が良い。終値と専門家評価の相関は.10～.47で、一致しているとはいえない。著者らいわく、この不一致は新製品アイデアの成功の予測における不確実性の高さを表しているのでしょう、高価な市場調査を経た新製品導入さえ半分以上が失敗するといわれているのも道理ですよね、とのこと。おいおい。
全体的パフォーマンス。参加者調査ではみんな有用だっていってくれました、とか、他の会社でもやるといいと思うよっていってくれました、とか... この研究者たちはリップサービスという言葉を知らないのだろうか。

　考察。
　マネジリアルな含意：企業はアイデア開発の管理が不得手だ(Berczak, Griffin, Kahn, 2009, JPIM. あーこれ読んでおけばよかった...)。この研究が示したように、アイデア・マーケットのようなうまいプラットフォームがあれば、従業員からアイデアを集め同時にフィルタリングできるし、イノベーティブな組織文化をつくれるだろう。
　今後の課題：手続きやインセンティブ・スキーマの改善。専門家委員会を使わないですむ方法。社外の人の参加。ブレストのようなアイデア創造手法との組み合わせ(←なるほど)。エキスパートの有効活用。

　わかりやすい論文だし、勉強にはなったけど...
　この手法の売りがアイデア評価ならば、専門家による評価と市場による評価のどちらが優れているのか、という問いに答えなければならないはずである。また、手法の売りがアイデアの収集とフィルタリングにあるならば、他の手法と比べて収集したアイデアの数が多いとか、IPOフェイズ通過有無がアイデアの質を正しく反映しているとか、そういうことを示さないといけないはずである。
　この研究では、どちらについてもしっかりしたエビデンスがない。せいぜい、「アンケートでみんなそうだって言ってました」というレベルである。うーん。きっとこの研究分野では、検証が甘くてもアイデアが良ければ受け入れられるんだなあ。いわゆる社会科学的研究とはちょっと違うのかもしれない。まあ、別にそれでもかまわないような気もする。

　ポジティブに捉えると、提案手法そのものは確かに面白いと思う。自分の投稿したアイデアが取引されるなんて、とても楽しそうだ。参加してみたい。
　自分でアイデアを投稿している人のほうが取引成績が良いという知見もちょっと面白いと思った。単にコミットメントによる疑似相関かもしれないけど、とにかく投稿者を飽きさせない仕組みではあるわけだ。もしかすると、大きな組織のなかには埋もれたアイデアマンがいて、それをこの手法で探し出せるんじゃないかしらん。

読了：Soukhoroukova, Spann, & Skiera (2001) 新アイデアの仮想市場を社内で開設

2014年9月11日 (木)

Brynjolfsson, E., Geva, T., & Reichman, S. (2013) Crowd-Squared: A New Method for Improving Predictions by Crowd-sourcing Google Trends Keyword Selection. Workshop on Information Systems and Economics (WISE2013).
　ネットで調べものをしていて見つけたもの。あることをwebで調べるときの検索語をクラウドソーシングで決めましょう、という提案。
　背景には、Google trendなんかを使って将来予測を試みるとき、どうやって検索語を決めたらいいか、という問題がある。著者らはもともとGoogle trendで不動産価格を予測するというような研究をやっているらしい。
　もちろん、Googleの中の人であれば片っ端から調べるという手もあるわけで、たとえばGinsberg et al.(2008, Nature)のインフルエンザ予測は5000万語を調べているそうなのだが、普通の人には望むべくもない。

　そこで、検索語を決めるためのオンライン・ゲームをつくり、クラウド・ソーシング(Amazon Mechanical Turk)でデータを集める。ううむ、面白そうではないですか。いったいどんな仕掛けかと、興味深々だったのだが...
　たとえばインフルエンザの場合。webページにキュー単語"Flu"を表示し、それを取り巻くように5つのテキストボックスを表示する。で、"Flu"から連想される単語でボックスを埋めさせる。単純に集計して、連想語ベストテンを使う。なお一位は"sick"で出現率53%だそうです。
　そ・れ・だ・け。脱力。それ、ネットパネルに「連想する語を5つ挙げてください」という調査を掛けるのと同じことではないか。クラウドって言いたかっただけちゃうんかと。

　検証実験。まずインフルエンザの例。上の方法で集めた連想語ベストテンについてGoogleトレンドで検索量を調べ、CDCのインフルエンザ流行データに対する単純な回帰式を組む。Googleの中の人たちがやった研究と遜色のない予測力が得られました。云々。
　ほかに、不動産の予測、失業率の予測をやっている。いずれも連想語ベストテンを使うだけで、連想出現率を使うとか、そういう工夫はない模様。面倒なので飛ばし読み。

　というわけで、期待が高かった分ガックリしちゃって、後半はパラパラめくった程度。まあ、人の学会発表にケチをつけるのも野暮というものであろうが...
　せっかく目を通したのでちょっと前向きに考えると、インフルエンザ予測のための検索語特定という局面でインフルエンザの連想語を使うというアイデアは筋が通っている。これはそれらの検索語のトレンドの背後に単一の潜在トレンド(インフルエンザの流行)があると考えているからだ。いっぽう、Du&Kamakuraのマーケティングにおけるトレンド抽出のように、ある領域に関する多様な語の検索トレンドから複数の潜在トレンドを抽出したい局面では、単一のキーワードからの上位連想語を使うのはおかしいと思う。その領域における典型性の高い語だけを調べていてもしかたがない。むしろ、「100人中２人の人だけが挙げる連想語を考えてください」というような課題が向いているのではないか。そのときこそクラウド・ソーシングの出番であろう。

　引用のなかから面白そうな論文をメモ:

Bayus(2013, Mgmt Sci.): クラウドソーシングで新製品アイデアを開発した例.
Goel, et al.(2010, PNAS): web検索ログで消費者行動を予測する。Wattsが共著。前に読んだような気もするけど...
Vosen & Schmidt(2001, J.Forecasting): google trend と調査を比較。
Choi and Varian (2012, Economic Record): google trendによる将来予測をnowcastingと呼んでいるそうな。

読了：Brynjolfsson, Geva, & Reichman (2013) クラウドソーシングによって将来予測を改善する超画期的な方法

Forlines, C., Miller, S., Guelcher, L., & Bruzzi, R. (2014) Crowdsourcing the future: Predictions make with a social network. Proceeding of CHI '14 Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. pp.3655-3664.
　今年の ACM CHI Conference on Human Factors in Computing Systems (CHI2014) という学会で発表された研究。要旨があまりに魅力的なので、ぐだぐだ迷った末、ぽちっとクリックして買ってしまった...10pで$15。うぐぐぐ。
　つまらないと困るので、固唾を飲むような感じで目を通した。どう位置づけたらいいのか、自分のなかでまだちょっと整理できていないのだけれど...

　要するに、個人の予測を集約して集合知を得る際にどうやって集計するか、というスコアリング・ルールの話である。いちばん単純なのは平均しちゃうことで、たいていの場合うまくいく。これに反旗を翻しているのが、PrelecのBTSによるスコアリングである。BTSでは、まずある事柄について回答させる(この研究の文脈でいえば、将来の出来事について予測させる)。さらに、その設問について他の人々が全体としてどう答えるかを予測させる(著者らにならってこれをメタ予測と呼ぶ)。この２問から各個人のBTSスコアが得られる。これをウェイトにして重み付け集計する。
　さて、著者らはOne-on-one スコアリングというのを提案する。この手法では、BTSでのメタ予測設問とちがって、自分以外の回答者ひとりひとりについてその人がどう答えるかを予測させる。つまり、N人の集団であれば、各人にN-1回のメタ予測を求めるわけである。
　最初に全回答者にある一定のスコアを持たせておく。で、回答者のすべてのペアについて以下の計算を行う。いま、Aさん自身の予測値が72%, Bさん自身の予測値が24%だったとする。さらに、AさんはBさんが70%と答えるだろうとメタ予測し、BさんはAさんが70%と答えるだろうとメタ予測したとする。メタ予測に関して言えば、Bさんの勝ちである。このとき、AさんはBさんに自分のスコアを、abs ( ln (Bさんについてのメタ予測 / Bさんの実際の予測) ) だけ献上する。こうして決まった個人のスコアをウェイトにして重み付け集計する。

　実験。対象者は学生30人。さすがに自分以外の29人について全部答えるのは無理なので、10人ずつ3群に分ける。将来の出来事についての10個の予測を行い(例, 2013年4月1日までにユーロ圏から離脱する意思を表明する国は現れるか？)、BTS式の全体的メタ予測、9人に対する個別的メタ予測、その他いろいろを聴取。予測課題はすべて2013年4月に正解が確定するものばかりなので、予測誤差を測れる。結果、単なる平均よりBTSでウェイティングした集計が優れていたが、One-on-oneスコアで重みづけた集計はもっと優れていた。

　ううううむ。。。
　問題意識はわかる、ような気がする。BTSでは集団の意見分布について予測させ(メタ予測)、その正確さを予測スコアと呼び、BTSスコアに加味する。でも、集団を構成するネットワークには疎密があって、ある人は集団の多くのメンバーについてよく知っているし、ある人はあまり知らない。だから、単に集団全体の意見分布についての予測が当たったかどうかをみるのではなく、「たくさんの人についてよく知っている人」を重視しよう。ということだと思う。
　一番わからないのは、スコアをゼロサム的にやり取りさせている点だ。つまり、多くの他人の態度を正しく推測した人が重視されるだけでなく、自分の態度を多くの他人に正しく推測された人は軽視されることになる。サトラレさんは損をするのである。なぜそんな仕組みにする必要があるのだろうか？
　実験手続きにもよくわからない点がある。この課題では、たぶん事象の生起確率をパーセンテージで答えさせているのだと思う。もしそうなら、対象者のBTSスコアはいったいどうやって求めたのだろう。連続量の回答についてBTSスコアを算出するには、訊き方に工夫が必要なはずだ。あるいは、事象の生起有無を二値で答えさせたのだろうか。だとしたら、今度はOne-to-oneスコアの算出方法がわからない。
　BTSと単純に比較している点もちょっと不思議である。BTSスコアは情報スコアと予測スコアの重み付け和で、肝になっているアイデアは情報スコアのほうだ。One-to-oneスコアは予測スコアの代替に相当している。だったら、BTSスコアをOne-to-oneスコアと比べるだけではなく、情報スコアとOne-to-oneスコアの重みづけ和のパフォーマンスを調べるのが筋ではないか。
　研究のなかでの提案手法の位置付けもよくわからない。One-to-oneスコアは、2者間のスコアの移動にあたってその親密さは問うていない(親密さを考慮した改訂版スコアも一緒に実験しているが、パフォーマンスはOne-to-oneスコアより劣る)。つまり、良く考えてみると題名とは異なり、著者らの本命であるところのOne-to-oneスコアは、ソーシャル・ネットワークについての理解とは無関係に得られるスコアだ。ちょっと看板に偽りがあるような気がする。
　最後に、提案手法の適用分野がわからない。この手法はメンバーがある程度顔見知りであるような集団における意見の集約に焦点を当てている。それってどんな場面だ。そのような状況があるとして、そこでの対抗馬はBTSなのか？もともとBTSは小集団には向いていない。もっと現実的な対抗馬を立てないと、この手法の優越性が示せないのではないか。

　などなど、疑問は山ほどあるのだが、でも大変に刺激的な研究であった。個人の予測を集計する際にソーシャル・ネットワークに注目する、という発想がとても面白い。視野が広がったような気分だ。

読了：Forlines, Miller, Guelcher, & Bruzzi (2014) 予測の集約を社会的ネットワークを使って改善する

2014年9月10日 (水)

以下、日本経営工学会(JIMA)という学会の機関誌「経営システム」の、2010年の「予測市場と集合知」特集号の論文。実はこれ、すべてWeb上で公開されており, 前半は既読だったのだが(ディスプレイ上で)、先日冊子版を頂いたので、出張の帰りに読み直した。せっかくなのでメモしておく。

山口浩 (2010) 予測市場と集合知メカニズムの現状と展望: 「神の手」と「衆愚」の間. 経営システム, 20(5), 234-238.
　ええと、予測市場の先行研究として、ハイエク、Rollという人(オレンジジュースの先物市場と将来の天候)、IEMを紹介。メカニズム例を紹介(ダブル・オークション)。予測市場の背景として以下を挙げる: (1)標本の偏りの影響を受けにくい, (2)分散型意思決定メカニズム全体への関心の高まり。証券市場メカニズム以外の提案として、(1)UIをわかりやすくする(マシンエージェントとか), (2)選択肢に対する投票, (3)予測対象が取りうる値の範囲を推測させ集計。展望として、予測・意思決定メカニズムとしてだけではなく、組織コミットメント促進のツールとしての用途を示唆。

佐藤哲也 (2010) 選挙と対象とした予測市場. 経営システム, 20(5), 239-242.
　選挙予測はそれ自体に経済的意義がある。さらに予測市場による選挙予測は、様々な予測者が観察した事実、それに基づくメタ認知を継続的に集約する、世論計測技術としての意義がある。先行例としてIEM、はてな総選挙を紹介。最後に、佐藤先生がやってたshuugi.inの2009年の結果を紹介。
　shuugi.inではバブル防止のためにこういう工夫をしていたそうだ。内部で「値上がり期待」「値下がり期待」という証券を用意する。価格は常に同じ。前者はふつうの株式と同じで、値が上がると利益が出る。後者は逆に値が下がると利益が出る、つまり空売りしているようなものである(損失が膨れ上がると強制的に精算させられる)。空売りっていうのはつまり価格の下落局面でも利益がでる仕組みなわけで、バブルの防止になる由。へええ。

水山元 (2010) 予測市場による経営の意思決定支援に向けて. 経営システム, 20(5), 243-248.
　これはもう繰り返し読んで、プレゼンやら学会発表やらでさんざん引用させていただいているものなので、省略。

池田心 (2010) 予測市場シミュレーションのためのエージェント群構成法. 経営システム, 20(5), 249-254.
　まずABMの紹介。著者らは個々のエージェントのミクロな挙動にではなく、「エージェント群がマクロにみてある特徴を満たすようにするためにはどうしたらいいか」に関心を持っている。
　実験例。選挙の予測市場で、候補者は二人。各エージェントの意思決定についていくつか単純な仮定をおき、各エージェントの戦略パラメータを進化させていく。ええと、多様な戦略を共進化させると、負けっぱなしの奴もいないしうまく勝ち越す戦略もない、つまりは自然な市場となっていくのだそうだ。
　うーむ、これ、難しいけど面白いなあ。いつか仕事に生かせないだろうか。

ここからは未読であった。

伊藤孝行 (2010) マルチエージェントの自動交渉機構と集合的コラボレーション支援への応用. 経営システム, 20(5), 255-267.
　大規模な意見集約や合意形成を支援するシステムの話。先行例として、MIT SloanのCollaboratoriumプロジェクトというのがあるそうだ。
　えーと、自動車かなにかの設計システム上で、ユーザが何かを作成すると、エージェントが他の人と交渉したりなんだりを勝手にやってくれる、というような仕組みらしい。従ってエージェントの課題は次の3つとなる: (1)自動交渉と合意。(2)人間の好みの推定。(3)交渉の場の提供。
　交渉とは、すなわち可能な合意点を探索すること。先行研究は多いんだけど、エージェントが持っている多属性効用関数において属性間の独立性を仮定することが多い由(フィッシュバイン・モデルみたいなもんですかね)。属性が独立していない、複雑な効用関数に基づく交渉としては、オークションを開く方法があって、でもいろいろ大変なことも多くて... 云々。ううむ、門外漢にはなかなか難しいぜ。
後半は著者らの開発事例の紹介。車、公園、庭、キャンパス緑化のデザイン支援システム。

岡村秀一郎 (2010) 投票方式による予測市場の実証実験: 数値範囲指定予測とランキング予測. 経営システム, 20(5), 268-273.
　著者はNRIの方。企業ユースを想定して開発した二つの予測システムの紹介と実証実験。
　ひとつめは、ある数値を予測するためにその範囲を投票させるシステム。いわく、企業が予測したいのは事象の生起有無よりなにかの数値であることが多いし(売上とかね)、ダブルオークションは少人数だと難しいし大変だし、マーケットメイクは予測の正しさを儲けに連動させにくいし、数値のピンポイント予測は至難の業だし、結局は範囲の投票が一番いい、とのこと。なるほど。
　予測の正確さに応じて配当を渡す。配当の計算式は、範囲が狭いとハイリスク・ハイリターンになるとか、早めに投票すると得しやすいとか、いろいろ工夫してある。
　実験。調査モニタパネル(どこのだろう?)を対象者として、ガソリン価格、プラズマテレビの最安値、ドラマ「イノセント・ラブ」の視聴率を予測させた。あんましうまくいかなかった。
　ふたつめは、選択肢に資金を投入させるシステム。実験: ツタヤ・オンラインの会員を対象に、セルCDシングルの来週のベストテンを予測させる、というのを8週繰り返した。調べているのは、全員を合計した投資配分の順位と実際の順位の一致。なんだかんだでいろいろ課題がある、というのが結論。
　二つ目の実験、面白いなあ。集計データではなく個人データを分析してみたいものだ。

多ヶ谷有・淺田克暢 (2010) 新商品需要予測のための予測市場システム. 経営システム, 20(5), 274-278.
　著者はキャノンITソリューションの方。やばい... これ超面白い... 早く読んでおくべきだった...
　題名のとおり、新製品の需要予測のための社内ユース向け予測市場をつくったという話である。証券は需要予測の範囲、つまり「aからbまでのあいだに需要が落ちる」という証券である。当然、ダブルオークションってわけにもいかなくなるので、マーケットメーカ方式になる。マーケットメーカは、予測値の数直線の上に正規分布があると考えていて、区間[a, b]の面積に応じて価格を決める。で、株の販売状況に応じて、人気のある区間の価格が高くなるように、正規分布を更新していく。最終的にはこの正規分布が予測分布になるわけだ。
　で、実際にシステムをつくった。画面上で数値範囲をクリックすると価格が表示されたり、自己資産がどう変わるかシミュレーションが出たりする。売買の際にはコメントを書いてもらってそれを公開する(←面白い！)。
　実験。社内での実験で、内閣支持率、スキー場の降雪量、ある週の部内出勤延べ数、を取引させたら、短期売買で差益を狙ったり、沈んでいる参加者が逆転を狙って変な区間を大量買いしたりしたそうだ。さすがは理系企業...
　いやあ、これは勉強になった。
　それにしても、こうやって区間可変型の証券を使うことのメリットとデメリットはなんだろう。参加者にとっては、たとえマーケットメーカ方式であっても、固定区間ごとに証券が発行されているほうがずっとわかりやすいような気がする (現在の価格が表で一覧できるから)。証券は固定区間型にし、区切り方を事前にちゃっちゃとうまく決める方法を開発する、という路線もありそうだ(質問紙調査の出番ではないかしらん)。あるいは、最初はおおざっぱな区間にしておいて、人気の区間を途中で分割していくのはどうだろう。発行済み証券も1株を0.5株ふたつに分割しちゃうのだ。
　このシステムで使っている価格更新の仕方についてはMizuyama, et al.(2010, J. Japan Industrial Mgmt Assoc.)を、固定区間型証券についてはPlott(2000, Southern Econ. J.)を読むといいらしい。　

読了：「予測市場と集合知」特集号 (2010)

2014年8月 5日 (火)

Jurca, R., Falting, B. (2008) Incentives for expressing opinions in online polls. EC '08: Proceedings of the 9th ACM conference on Electronic commerce.
いま一番気になる男(私の中で)、GoogleスイスのR. Jurcaさんの研究。小さいフォントで10pある論文だが、要するに、Prelecのベイジアン自白剤(BTS)をオンライン化しました、というものである。オンライン化というのはつまり、調査終了まで待たずとも報酬が決まるという意味。

　面倒なので一部端折って読んでいるのだけれど... 理解した限りで、提案手法を平たく言い換えると、こんな感じである。
　例として、２択の設問に対するオンライン投票を考える。「世界経済は不況に突入するでしょうか？」というような、正解のない設問でかまわない。
　「世界経済は不況に突入すると思いますか？賛成か反対かでお答えください。なお、この調査に対してあなたよりも前に答えた人たちの賛成率はX%です。
　さて、これから回答していただくわけですが、回答とあわせて、あなたの『参照回答者』を決めてください。決め方は次のどちらかです。(1)『次の回答者』と指定する。このとき、あなたの次に回答した人があなたの参照回答者になります。(2)『閾値θ』を指定する。θは、もしあなたの回答が『反対』ならば0%とX%の間の値、あなたの回答が『賛成』ならばX%と100%の間の値でなければなりません。この指定を選んだ場合、あなた、あなたの次の回答者、あなたの次の次の回答者...が回答するたびに、その時点での賛成率を再計算し、その値がX%とθの間に入るまで待機します。賛成率がこの範囲に入り次第、その次の回答者があなたの『参照回答者』になります。
　さて、この調査に回答してくださった報酬は次のルールで決まります。もしあなたの『参照回答者』の回答とあなたの回答が一致していたら、報酬が支払われます。報酬額は、もしあなたの回答が賛成ならあなたが回答した直後の反対率、あなたの回答が反対ならあなたの回答の直後の賛成率に、ある定数を掛けた値になります。いっぽう、もしあなたの『参照回答者』の回答とあなたの回答が異なっていたら、報酬はゼロです。
　それでは回答してください。賛成ですか、反対ですか？」
　著者らいわく、この報酬メカニズムは"very simple"とのこと。嘘をつけっ！

　えーと、この仕組みによって、調査対象者の真の賛成率が明らかになるのである。以下、その説明。
　次のように想定する。すべての対象者は、全対象者の意見の分布についての事前分布を共有している。さらに、対象者 i は自分の意見 s_i ={0,1} を持ち、これをシグナルとして全対象者の意見の分布をベイズ更新する。意見 w={0,1}についての s_i の下での事後分布を Pr[w | s_i] とする。BTSと同じセッティングですね。
　t 番目の回答者の意見を s_t, この回答者の回答を r_t, そこまでの賛成率を R_t, 報酬を \tau_t(s_t)とする。対象者 t には R_{t-1}が提示されるわけである。
　さて、共通の事前分布を自分の意見でベイズ更新しているのだから、Pr[1|0] < Pr[1|1] である。ということは、提示されるR_{t-1}は次の3通りあって...

(1) R_{t-1}がPr[1|0] より小さい場合。このとき、t 番目の回答者は自分の意見とは無関係に賛成と答えるのが合理的である。なぜなら、現状の賛成率 R_{t-1}は不当に低い。もし自分が反対と答えたら賛成率R_t はさらに低くなる。すると、t+1 番目の回答者はきっと賛成と答え、反対率 1-R_t に応じた報酬を狙うだろう。従って、次の人が参照回答者なら自分の報酬はゼロになる。もっと先の人が参照回答者になったとしても、やはり賛成率が低いぶんだけその人は賛成と答えやすく、自分の報酬はゼロになりやすい。ここは賛成と答えるのが合理的だ。
(2) R_{t-1} がPr[1|1] より大きい場合。このとき、上と同じ理屈で、t番目の回答者は自分の意見とは無関係に反対と答えるのが合理的である。
(3) R_{t-1} がPr[1|0] とPr[1|1]の間にある場合。仮にこの回答者の意見 s_t が反対だとしよう。いま、この状況で私が誠実に答え、ほかの人も誠実に答えるとすると、参照回答者が j 番目の人だとして、その人にとっても、やはりR_{j-1}はPr[1|0]とPr[1|1]の間にあるはずだから、やはり誠実に答えるはずだ。従って j 番目の回答者と回答が一致する確率は確率はPr[0|0] = 1-Pr[1|0]だ (※ここがよくわからない。なぜs_j = 0 と言い切れるのか？)。このとき利得は(1-Pr[1|0]) \tau_{t-1} (0) である(※おかしい。\tau_t (0)の間違いではないか)。いっぽう、この状況で私が嘘をつき賛成と答える、しかし j 番目の人は嘘をつかないとすると、利得はPr[1|1] \tau_{t-1} (1) である。これを解くと、誠実な回答のほうが利得が大きい。s_t が賛成だったとしてもそうである。従って回答者は誠実に答えるのが合理的である。

...という戦略がナッシュ均衡になる。なお、わざわざ参照回答者として次の回答者ではなく未来の回答者を指定できるようにしているのは、人数が少ないとき、(1)の状態が(2)の状態にオーバーシュートしちゃったりするかもしれないからである由。
　さて、このとき投票の最終結果は真の意見分布に収束する。なぜなら、中間集計された賛成率 R_t がPr[1|0]とPr[1|1]の間にある限り対象者は誠実に回答するし、外側にあったらそれを内側に動かすように回答するからである。

　なお、全員が反対と答え続ける、賛成と答え続ける、ランダムに答え続ける、といった戦略もナッシュ均衡ではあるがそういうことは起きないだろう、共謀にも抵抗できるだろう、云々という説明がある。パス。
　
　ちゃんと読んでないのに申し訳ないのですが... 通常のオンライン投票にこういう報酬スキーマを追加するのは、さすがに現実的でないような気がする。参加者にとっては複雑すぎて理解できないのではないか。いっぽう、たとえばデルファイ法のような専門家の知識集約の仕掛けとして使う、予測市場に類した意見集約ゲームとして使う、といった場面ならば想像しやすいと思う。

読了：Jurca & Falting (2008) オンライン自白剤

2014年8月 4日 (月)

Faltings, B., Li, J.J., Jurca, R. (2012) Eliciting Truthful Measurements from a Community of Sensors. 3rd International Conference on the Internet of Things.
　ベイジアン自白剤について調べていて見つけたもの。仕事とは直接関係ないので、別に読まなくてもいいんだけど、あまりにナナメウエな発想に呆れて、つい目を通した。第三著者のRadu Jurcaさんという方、チューリッヒのgoogleにお勤めらしいのだが、こういう(私から見て)想像の範囲を超えた突拍子もない研究をしていて、気になる人である。

　いろんなモノがネットでつながる時代になると、個々人が所有するモノから広く情報を集めて活用したくなる。そういうのをコミュニティ・センシングという。ところが、個々人が正しい値を報告してくれるとは限らない。もしあとで正解がわかるなら、それと突き合せて報酬を渡すこともできるだろうが、ふつう正解はわからない。そこで、真実申告にインセンティブを与えるメカニズム、その名も「ピア自白剤 peer truth serum」を考えました。という論文。

　たとえば、大気汚染を測っているセンサーについて考えよう。ある場所と時点において、大気汚染のレベル V がN段階で表現できるとする。すなわち V = {v_1, ... v_N}。
　各エージェントは観察 o に基づきレポート s を刻々とセンターに送りつづける。センター側は集めた情報をモデルに入力し(それがどんなモデルかはこの際どうでもよい)、地域 l, 時点 t における汚染がレベルvである確率 R^{l,t}(v) を出力する。
　各エージェントは、次の時点でセンターが出力する汚染レベルが v である確率 R^{l, t+1}(v) について、自分なりの信念を持っている。o を測定する前の信念(事前信念)をPr^{l, t}(v), 測定した後の信念(事後信念)を Pr^{l,t}_o (v) とする。以下、上添字 l, t は略記する。
　各エージェントがどうやって信念を更新しているのかは問わないが、ベイズの定理に従って、次のような意味で「合理的に更新」していると想定する。
　[命題1] Pr_x(x) / Pr(x) ＞ Pr_x(y) / Pr(y)
すなわち、センサーが「あっ汚染度高っぽい！」と観察したとして、「汚染度は高だ」という主観確率は変わるだろうし、ひょっとしたら「汚染度は中だ」の主観確率も変わるだろう。それはどうでもいいけど、「汚染度は高だ」の主観確率の増大率は、「汚染度は中だ」の主観確率の増大率よりも高くなきゃおかしい、という話である。

　さて、ピア自白剤の基本的なアイデアは以下のとおり。
　事前確率分布 R が共有されているとしよう(←なかなかぴんとこなかったのだが、センターが発表した最新の確率分布だと考えればよいのだと思う)。さらにセンターは、誰かのレポート m を参照値としているとしよう(←これも意味がよくわからなかったのだが、エージェントがそう信じているという点がポイントで、実際に誰の測定値を参照値にしているかはどうでもよい)。
　レポート s を報告してきたエージェントに対する報酬を、\alpha + \beta \tau (s, m, R) とする。ただし、\alphaと\betaは正。\tau(s, m, R)は、s=mのときに 1/R(m), それ以外のときに0とする。
　つまり、「あなたのレポートsがセンター側の参照値 mと一致しているときのみ、m の共有事前確率に反比例した報酬を払いますよ」というルールである。

　これがなぜ真実申告メカニズムなのかというと...
　まず、すべてのエージェントの事前信念が、共有事前分布とある程度一致している場合について考えよう。任意のvについての事前信念 Pr(v)の上下±\epsilonの範囲内に、共有されている事前確率 R(v)が入っているものとする。すなわち
　Pr(v) + \epsilon ＞ R(v) ＞ Pr(v) - \epsilon
さて、oを観察し s をレポートするエージェントの報酬の期待値は
　pay(o, s) = \alpha + \beta \sum_x Pr_o (x) \tau (s, x, R) = \alpha + \beta Pr_o(s) / R(s)
これが真実申告メカニズムであるとは、任意の v について pay(o, o) ≧ pay(o, v) であるということだ。上の式を代入して
　Pr_o(v) / R(v) ≦ Pr_o(o) / R(o)
逆数をとって
　R(v) / Pr_o(v) ≧ R(o) / Pr_o(o)
左辺分子のR(v)の下限は Pr(v) - \epsilon, 右辺分子の上限はPr(o) + \epsilonだから、この式は
　(Pr(v)-\epsilon) / Pr_o(v) ≧ (Pr(o)+\epsilon) / Pr_o(o)
のときに成り立つ。つまり、エージェントの事前信念と共有事前分布のあいだのずれが \epsilon 未満であれば、ピア自白剤ルールは真実申告メカニズムになる。イエーイ。
　この \epsilon の値は単純な算術で求められる。つまり、すべての v, o (v \neq o) において
　( Pr(v)Pr_o(o) - Pr(o)Pr_o(v) ) / ( Pr_o(v) + Pr_o(o) )
　を求めた、その最小値が \epsilon である。

　... ほんまかいな。試してみましょう。いま、大気汚染のレベルが{低, 中, 高}の3段階で、
エージェントの事前信念は{0.2, 0.6, 0.2}
「低」を観察したエージェントの事後信念は{0.6, 0.3, 0.1}
「中」を観察したエージェントの事後信念は{0.1, 0.8, 0.1}
「高」を観察したエージェントの事後信念は{0.1, 0.3, 0.6}
としよう(これは合理的更新である)。計算すると \epsilon = 1/9なので、共有事前分布をたとえば {0.25, 0.5, 0.25} とする(ズレは\epsilon未満におさまっている)。あるエージェントが「低」を観察したとしよう。「低」と報告したら報酬の期待値は 0.6/0.25 = 2.4。「中」と報告したら 0.3/0.5 = 0.6。「高」と報告したら0.1/0.25=0.4。真実申告において期待値最大である。「中」「高」を観察した場合でもそうなる。

　さあ、ここからがすごく厄介です。
　エージェントの事前信念が共有事前分布と一致しているとは限らない。たとえば上の例で、共有事前分布が{0.5, 0.1, 0.4}だとしよう。エージェントが「低」を観察したとして、「低」と報告したら報酬の期待値は 0.6/0.5 = 1.2, 「中」と報告したら0.3/0.1=3, 「高」と報告したら0.1/0.4=0.25。「低」を観察したにも関わらず、「中」と報告したほうが期待値が大きい。つまり、エージェントは嘘をつく動機を持っている。
　ところが... ここでまた呆気にとられたのだけど、著者はこう主張する。こういう場合は「中」と報告してもらったほうがいいのではないか？だって、エージェントは「現に目の前で交通渋滞が起きている」というような、センターが知らないことを知っているのかもしれないのだから。

　真の分布 Q(\dot) を想定する。すべての v において共有事前分布 R(v) よりも事前信念 Pr(v)のほうが真の分布 Q(v)に近いとき、事前信念 Pr (\dot) は"informed"であると呼ぶことにする。
　ここの段落、すごくわかりにくいので逐語訳。

　こうした場合、公共的なマップ R がなるべく早くプライベートな信念へと収束することがもっともhelpfulだろう。そこで以下では次のことを示す。ピア自白剤はhelpfulな報告にインセンティブを与える。すなわち、必ずしもtruthfulではないやりかたで、公共的なマップを真の分布へと近づけていく報告にインセンティブを与える。
　したがって、収束は2つの段階を通じて生じる。
1) まず、さまざまなプライベートな事前分布と、公表されている汚染マップが、同一の分布へと収束し、共通の参照枠を構築する。
2) この参照枠が構築されると、インセンティブはtruthfulな報告に与えられるようになり、公共的マップとプライベートな事前分布が真の分布へと漸近的に収束する。
こうした2段階プロセスはコミュニティ･センシングにとってとても意義あるものである。なぜなら、センサーはふつうシステムにある長い時間にわたって存在し、その初期フェイズはネットワークに参加する際に通過しさえすればよいからである(since a sensor is usually present in the system for an exteded period of time and will only have to pass the initial phase once when joining the network)。

ううむ、なにをいっているのかさっぱりわからない。truthfulな報告とは、客観的真実に近い報告という意味ではなく、観察をそのまま報告するということでしょう？ピア自白剤がhelpfulかどうかはともかく、ピア自白剤がtruthfulな報告を引き出すとはいえないのではないか？

　まあとにかく、ピア自白剤がhelpfulだという説明を追いかけよう。
　すべてのエージェントの事前分布がinformedだという想定の下で、次の命題が成り立つ。
　[命題2] Pr(a)/R(a) ＞ Pr(b)/R(b) ならば、aを観察したエージェントがbと報告することはない。
　証明。あるエージェントが a を観察したとする。このエージェントが「参照値 m は真実である」と信じているとしよう。このときは、aを報告する期待値は Pr_a(a) / R(a)。aを観察してbを報告する期待値はPr_a(b) / R(b)。前者のほうが大きいことは簡単に示せる(略)。したがってこのエージェントはbではなくaを報告する。
　では、このエージェントが「参照値 m を報告しているエージェントはなんらかのinformedな事前分布のせいで嘘をついている」と信じていたらどうなるか。この場合でも、そいつがaを観察しているにも関わらずbと報告することはない。だからやはり、このエージェントはbではなくaと報告する。証明終わり。

　現在の共有事前分布Rにおいて、エージェントから見て過小評価されている (R(a)＜Pr(a)) 値の集合をA, 過大評価されている値の集合をBとする。informedな事前分布を持っているエージェントについて、次の命題が成り立つ。
　[命題3] Bの報告総数は、そのエージェントのPr(b)の和を超えない。
　証明。aにおいてR(a)/Pr(a)＜1, bにおいてR(b)/Pr(b) ≧1である。命題2より、Aのなかにはいっている値を観察したエージェントがBのなかの値を報告することはない。したがって、Bの報告総数は、Bの値の真の頻度の和 \sum Q(b) を超えない。このエージェントはinformedだから、\sum Pr(b)は \sum R(b)よりも \sum Q(b)に近い。ということは、\sum Q(b) ≦ \sum Pr(b) ≦ \sum R(b) という順に並ぶ。ということは、Bの報告総数は、そのエージェントのPr(b)の和を超えない。証明終わり。

　すでに狐につままれているが、まだ続くぞ！
　[命題4] 有限回の更新を通じて、R(b) ＜ Pr(b) + \epsilon, R(a) ＞ Pr(a) - \epsilonである。
　証明。命題3より、Bの報告総数はエージェントの事前信念の和を超えない。したがって共通事前確率は次第に減少し事前信念に近づく。逆にAの報告総数はエージェントの事前信念の和以上である。したがって共通事前確率は次第に増大し事前信念に近づく。証明終わり。

　というわけで、エージェントがinformedな事前信念を持っていれば、ピア自白剤の下での報告を集積してつくった共通事前分布はその事前信念に近づいていく、というわけである。
　ぐぬぬぬぬ。全然納得できない。すごく騙されているような気がするんだけど、どこで騙されたのかわからない。。。

　ここで当然の疑問となるのは、エージェントの事前信念がinformedでなかったらどうなるのさ？という点であるが... 全訳しよう。

プライベートな事前分布がinformedでない場合、こうした収束は生じるかもしれないが保証されない。もっとも、そんな事例は現実的でない。エージェントがセンターの知らない背景情報を持っていたら事前信念はinformedであるはずだし、そうでないならそのエージェントはセンターが示した分布を信じるはずだから。また、これとは別の問題として、エージェントのプライベートな事前分布がinformedではあるがお互いに著しく異なっていたらどうなるか、という問題もある。
　どちらの場合にせよ、合理的なエージェントなら、モデルの出力についての彼らの信念を、公表された分布 R へと徐々に近づけていくはずである。したがって、それらはいずれ単一の分布へと収束する。もっともこうした収束は遅すぎるかもしれないが。

ううううむ。そうか？そうなのか？

　論文は、このあと簡単な数値例を示し、正解を使ったproper scoring ruleよりも提案法のほうが優れていることを示している。省略。

　いやあ、最初から最後まで奇想天外、話がどう転がるか全くわからない論文であった。
　そもそも、タイトルにはeliciting truthful measurement と書いてあるけれど、ある報告において真実申告が均衡解になるようなメカニズムを提案しているわけではないのである。
　よくわからないんだけど、あるエージェントがものすごく奇妙な、informedでない事前信念を持っていたとして(「日付に３のつく日は大気汚染がひどくなるはずだ、だから空気は綺麗だけど汚染度高って報告しちゃうぞ」とか)、報酬と確率分布Rをフィードバックするということを繰り返したとして、このエージェントが事前信念を修正するという保証はどこにあるのだろうか。合理的なエージェントならばベイズの定理に従う、とはいえるだろう。合理的なエージェントならば各時点における期待効用の最大化を図るはずだ、ともいえるだろう。でも、合理的なエージェントならば報酬のフィードバックの繰り返しを通じて変な外部情報に頼るのをやめてくれるはずだ、といえる理由はあるのだろうか？

　まあとにかく、こんな問題と発想があるのかという意味で、大変勉強になりました。

読了：Faltings, Li, & Jurca (2012) センサーのためのピア自白剤

2014年7月25日 (金)

Offerman, T., Sonnemans, J., van de Kuilen, G., Wakker, P.P. (2009) A truth serum for non-bayesians: Correcting proper scoring rules for risk attitudes. The Review of Economic Studies, 76, 1461-1489.
　主観的信念を調べる方法として、真実開示が最適戦略になるようなインセンティブを回答から算出する方法がある(proper scoring rule)。従来の提案は期待効用理論に基づいていた。これを非期待効用理論に拡張します。という論文。
　難しすぎて死にそうだ、と恐怖しながらめくったのだが、やはり超難しかった。こんなの、素人が手を出せる代物ではない。死ぬ死ぬ死んでしまう。というわけで、ざっと目を通しただけだけど、読了にしておく。

読了: Offerman, Sonneman, van de Kuilen, Wakker (2009) 非期待効用理論のもとでのプロパー・スコアリング・ルール

しばらく前のメモ。整理がつかないので読了にしておくけど、これをもって読了と呼ぶのってどうなのか？映画開始30分で眠りはじめ、終了と同時に目覚めて「うーんいまいちだったなあ」なんていうのと同じことではないか。

Becker, G.M., DeGroot, M.H., Marschak, J. (1964) Measuring utility by a single-response sequential method. Behavioral Science. 9(3), 226–232.
　WTP測定方法の一つであるBDM法のオリジナル論文。ちょうど半世紀前の論文を、切羽詰ったこの期に及んで読むだなんて、どんな好事家か... と思うが、引用したいんだから仕方ない。掲載誌は現在 Systems Research and Behavioral Science という誌名になっている模様。IFは0.47だそうだから、メジャー誌ではなさそうだが、当時どうだったかはわからない。

　ええと...
　被験者に「確率pでaドルを得る、確率1-pでbドルを失う」(これを (a, p, -b)と書く) のとなにもしないのとどっちを選びますかという聴取を繰り返す、という実験はすでにあった(Mosteller & Nogee, 1951)。この手法で効用関数を求めることができるけど、いくら試行を繰り返しても対象者の選択確率は同じであるという仮定が必要だし、pは既知でなければならない。そこで、(y, p, z)の最低の売値 s を設定させて... 以下、BDM法の提案。あまりに眠いので、メモは省略...

読了: Becker, DeGroot, & Marschak (1964) Becker-DeGroot-Marschak法のご提案

2014年5月10日 (土)

Show, A.D, Horton, J.J., Chen, D.L. (2011) Designing incentives for inexpert human raters. Proceedings of the 2011 ACM Conference on Computer Supported Cooperative Work (CSCW 2011).
　クラウド・ソーシングでたくさんの素人になにかを評定してもらうとき、どういうインセンティブ設計にすると良いか、という実験研究。ベイジアン自白剤(BTS)を使っているようなので手に取った。
　バリバリに工学系の研究かと思ったら、行動実験であった。いま調べてみたら、第一著者は社会学の出身。

　Amazon Mechanical Turk で実験、被験者2055人。あるwebサイトをみてもらい、5項目を聴取(例, 「サイトにはユーザを表すアバターがありましたか」)。答えを実験者が想定する正解と比較し採点する(0～5点)。要因は被験者間一要因で... えーと、14水準!

(コントロール系)
- Control: 教示なし。
- Demographic: 質問なし。全員共通の別の質問(デモグラフィクスとか)だけでおしまい。
(ソーシャル系)
- Tournament scoring: 他の回答者と得点を競争してもらいます。結果をあとで表示します。
- Cheap talk - Surveillance : あとであなたの回答の正確さを確認します。
- Cheap talk - Normative : あなたの仕事は正確に答えることです。
- Solidality: あなたは赤組です。チーム全体の成績によってはチームの全員がボーナスをもらえます。
- Humanization: 回答が終わる前に、あなたにもう一度お礼を申し上げたいと思います。私の名前はアーロンです。(著者の顔写真を提示。なお、第一著者はほんとにアーロンさん)
- Trust: ここまでご回答くださいましてありがとうございます。ここで確認コードをお渡しします。このコードを入力すればあなたはいつでも謝礼をもらえます。引き続きご回答いただけるものと信じております。
- Normative priming questions : あなた自身について、またあなたの仕事に対する態度について伺います。
(フィナンシャル系)
- Reward accuracy: あとで少なくとも1問についてはあなたの回答を確認します。正しかったら報酬1割増。
- Reward agreement: あとで少なくとも1問についてはあなたの回答を確認します。多数派の回答だったら報酬1割増。
- Punishment accuracy: あとで少なくとも1問についてはあなたの回答を確認します。間違ってたら報酬1割減。
- Punishment disagreement: あとで少なくとも1問についてはあなたの回答を確認します。多数派の回答でなかったら報酬1割減。
- Promise of future work: あとであなたの回答を調べます、平均以上だったらまた仕事をお願いするかも。
- BTS: あとで他の人の回答を予測してもらいます。みんなが思うより一般的な回答をした人は、ボーナスがもらえる確率が高くなります。
- Betting on results: あとで報酬の一部を賭けてボーナスにチャレンジしていただけます。勝率は回答の正確さに応じて決まります。

なお、操作するのは教示だけで、実際には報酬は一律だそうだ。事情はわかるが、ひどいなあ。

　結果。おおお、intention-to-treat推定量を使っている... 医療系の無作為化比較試験ではみたことあるけど、こういう行動実験では恥ずかしながらはじめて見た...
　平均処理効果をみると、成績を向上させたベスト3は、BTS, Punishment disagreement, Betting on resultsであった。
　デモグラ等をいれた回帰でも確認している(インド在住の被験者は成績が有意に低い。はっはっは)。

　考察。BTSが効いたのは、あとで自分の回答がどのくらい調べられるかについて被験者を混乱させるから、そして他の回答者の回答について真剣に考えさせるからだろう。Punishmentが効いたのは、そもそもAmazon Mechanical Turkでは仕事発注者による以後の参加禁止という処置があるからではないか(←punishment accuracyがあまり効かなかった理由にはならないと思うけど...)。云々。

　というわけで、この研究では実際にベイジアン自白剤のスコアリングをやっているわけでなく、その意味ではベイジアン自白剤の研究とは言い難い。でもここでは「みんなが思うより普通な回答をする」ことを報酬に結びつけるというメカニズムについて調べているわけで、その意味ではオリジナルの提案の精神に近い。
　ええと、ここまで読んだ論文をあらためて整理すると、

ベイジアン自白剤は回答の質を向上させるか
- 「あなたの回答の正直さがわかります」教示の効果 ... Weaver&Prelec (2013)の実験1, 5; John, Lowenstein, & Prelec(2012)
- 「あなたの回答の正直さがわかります」教示の効果＋スコアのフィードバック ...Weaver&Prelec(2013)の実験2, 3, 4, 5; Barrage & Lee(2013)
- 「みんなが思うより普通な回答をしたら報酬増」教示の効果 ... Show, Horton, & Chen (2011)
ベイジアン自白剤のスコアは回答の質を表すか ... Weaver&Prelec(2013)の実験2; Howie, Wang, & Tsai (2011); Miller, Brailey, & Kirlik (in press)

　ベイジアン自白剤の"suprisingly common"ルールは、被験者にとってはどのような意味を持って捉えられるのだろうか。それは正直かつ真剣に答えようという意識につながり、それによって行動が変わるのだろうか。それとも(この論文の著者らが考えているように)なにか別のルートを通じて行動を変えるのだろうか。もし後者が正しいならば、スコアの最大化がベイジアン・ナッシュ均衡であろうがなかろうが、別に構わないことにならないだろうか。工学系の方や経済学系の方は鼻で笑うかもしれないけど、やはり被験者の心的プロセスが知りたいと思うなあ。

読了：Show, Horton, & Chen (2011) ベイジアン自白剤 in クラウド・ソーシング

2014年5月 7日 (水)

Miller, S.R., Brailey, B.P., Kirlik, A. (in press) Exploring the utility of Bayesian truth serum for assessing design knowledge. Human–Computer Interaction.
　デザイン教育における教育評価にベイジアン自白剤(BTS)を使うという研究。著者の方にお送りいただきました。日本語のブログなんてお読みになってないでしょうけど、深く感謝いたします。とても勉強になりました。
　全く予備知識のない分野なので、メモを取りながら読んだ。

イントロダクション
　デザイン思考は大事だ。だからデザイン教育は大事だ。ところが教育評価がすごく大変だ。そこで学生の作品を学生同士で評価させることがある。でもそれはそれで大変だ。そこでBTSを使った評価方法をご提案いたします。

先行研究
　デザイン思考は大事だという研究はいっぱいある。だからデザイン思考の教育も大事だ。ということは、ビジネスでも教育でも、デザイン思考の能力評価は大事だ。評価にあたっては多様な観点がありうるが、教育者が特に注目するのは、分析・評価・創造という高次な思考能力であろう。
　従来の評価方法としては:

伝統的な評価方法。デザイン・プロセスとデザイン原理についての多肢選択テストとか。より低次な能力を測ってしまっている。
オープン・エンド型のデザイン課題や、デザイン・ポートフォリオ(←よくわかんないけど、要は作品集をつくらせるというようなことであろう)。評価は主観的にならざるをえないし、学生の人数が増えると大変。評価規定をつくることが多いが(たとえば、学習すべきスキルは「ブレインストーミング」、達成レベル1は「定義を拡張する」、2は「見出しを使って効率的にアイデアを表現する」、3は「アイデアに流動的かつ整合的な見出しをつける」だ、というような)、規定をつくるのが大変だし、つくってもやはり評価は主観的だ。
学生同士のピア評価。メタ分析によれば、全体的な評価は教員の評価と一致する。評価することを通じて高次認知能力や伝達能力が改善されるという面もある。ふつう、デザインプロセスについての知識の評価や、デザイン・ソリューションの成否の評価に使われており、デザイナーの全体的な能力評価には使われていない。

提案手法
　BTSの紹介(←BTSを構成する2要素のうち、あんまり本質的でない「予測スコア」のほうを重視しているところが面白い。集団の回答の予測は学生のメタ知識を反映しているだろうという理屈。うーん、まあこの課題ならそうかも...)。個人レベルのスコアを以下の2種類算出。これを学生の能力評価として用いる。

個人インデクス。個人が得たBTSスコアの平均。
プールド・インデクス。個人の回答が得たBTSスコアの平均。(←すごくわかりにくい説明だが、「情報スコア」のみの平均という意味)

実験
　被験者はイリノイ大のデザイン・コースの学生71名。4週の実験。

1週目: 製品デザインの写真(洗面台、USBの差し込み口、ドアノブ etc.)30枚をみせ、それぞれの写真について質問。一問目は、それが(デザイン原理)の良い例になっているか、原則に違犯している例か、原則が適用されない例か、の三択。ここで(デザイン原理)のところには、"physical affordance design principle"とか、"comfort design principle"といった個別の原理名が入る。その内容についてはこのコースで学習済みなので教示しない。(付録に全設問が載っている。正解はわかんないんだけど、USBの例はきっとアフォーダンスの原理に違犯してるんだろうなあ。あれ、差し込むときの天地がわかんないもんね)。二問目は、同じコースの人の各選択肢への回答率をパーセンテージで予測。なお、BTSについての説明はなし、単に正直に答えるように教示するのみ。
2週目: 「キャンパス内で、歩きながらの携帯電話やMP3プレイヤーのせいで事故に遭う人が多い。解決案をつくれ」という課題を与え、デザイン案を可能な限りたくさんスケッチさせる。で、自己ベストアイデアをひとつ選ばせる。
3週目: 2週目で得られたデザイン案(各人のベストアイデア)を一人あたり15個提示(自分のは提示されない)。4件法で評価させ、批評文を書かせる。さらに他の人の回答を予測させる。
4週目: 自分のベストアイデアと、3週目で得られた他の学生の批評文を提示(←おそらく15個くらいであろう)。自分のデザイン案を修正させる。さらに、コメントが役に立ったかどうかを4件法評価。

(あとでアイデアのスケッチ例が紹介されるんだけど、これがちょっと笑ってしまった。idea score最高点を得たアイデアは「機器にGPSをつけて危険を知らせる」、最低のアイデアは「頭を下に向けると快適でなくなるイヤフォン」)
　で、以下の変数について分析:

a. test average: コースの中間試験と期末試験の得点の平均
b. course grade: コースの評価
c. conventional wisdome: 写真評価で、多数派の回答カテゴリに投票した回数。
d. response accuracey: 写真評価で、教員とおなじカテゴリに投票した回数。
e. idea score: 自分のベストアイデアに対する他人の評価(全員が4のときに満点)。
f. critique score: 自分の批評文に対する他人の評価(全員が4のときに満点)。
g. 写真評価へのBTSスコア(個人インデクスとBTSプールドインデクス)。
h. 他人のベストアイデアに対する評価のBTSスコア(個人インデクスとBTSインデクス)。

結果

1. a. test averageと b. cource gradeを目標変数にして、c, d, g, h がどう効くかを調べる... といっても単相関をみるだけだけど。g.写真評価へのBTSスコア(個人インデクス)と a. test average のみが有意になった(それとて r=+0.23だけど)。
2. e. idea scoreとa,b,c,d,g,hとの相関は、c.conventional wisdomと、g.写真評価へのBTSスコア(プールド・インデクス)が有意(r=＋0.25, +0.23)。
3. f. critique scoreとa,b,c,d,g,hとの相関は、g.写真評価へのBTSスコア(両方)が有意(r=+0.34, +0.23)。

考察 (これがすごく長い...)

デザイン知識の測定には、デザイン原理に基づくアイデアの評価という課題が有用であろう (結果2で、conventional wisdomがidea scoreを予測したから)。
写真評価も批評もデザイン原理についての知識が必要だから、当然かもしれないけど、でもBTSはデザイン分析スキルの測定方法として有用かも(結果3より)。その一般化可能性と適用可能性を確かめるためにはテストしているスキルセットについて注意深く検討する必要がある。
コースの試験は重要なデザイン知識を測っていなかったのだろう(結果1)。

結論
BTSは有用であろう。採点者の主観性を排除できるし、楽だし、スケールアウトするし。

　ううううむ。。。
　この論文は、ほかのベイジアン自白剤の研究とはかなり毛色が違っている。まず、ベイジアン自白剤が持っている真実申告メカニズムという性質には関心がない(だからBTSスコアのフィードバックはおろか、説明さえしていない)。さらに、スコアを回答の真実性を表すものと捉えるのではなく、回答者の能力を表すものとして捉えている。
　つらつら考えるに... この実験で写真評価のBTSが(かすかではあるが)対象者の能力らしきものを表したのは、写真評価課題が単なる推論課題ではなく、「それに答えるために必要な知識体系がこのコースで教授されている」課題だったからではないか、と思う。当然ながら学生の中には「物理的アフォーダンスの原理って、ええとなんだっけ」というような出来の悪い奴もいただろう。そういう奴は、写真評価において当てずっぽうに答えざるをえないし(回答の事前分布を持っていないから、予測スコアも情報スコアも下がる)、批評もうまくできないはずだ。

　ということは、逆にいうと... BTSスコアは回答の真実性を表す(と主張されている)が、それだって回答者の問題についての知識と切り離せないわけだ。たとえば「集団的自衛権の行使に賛成ですか反対ですか」という設問についてBTSスコアを調べ、スコアが低かったとして、それはなにかの事情で真実を語っていない可能性が高いということを示しているのかもしれないし、そもそも集団的自衛権とはなにかがよく分かっていない可能性が高いということを示しているかもしれないわけだ。こうやって書いちゃうと当たり前だけど、正直、この発想はなかった...。

読了：Miller, Brailey, & Kirlik (in press) ベイジアン自白剤 in デザイン教育評価

2014年5月 3日 (土)

Kuncel, N.R., Borneman, M., & Kiger, T. (2012) Innovative item response process and Bayesian faking detection methods: More questions than answers. in Ziegler, M., Maccann, C., & Roberts, R.D. (eds.) "New prospectives on faking in personality assessment", Oxford University Press.
　時間がないので、やけになって論文集ごと買ってしまった(資料費が原稿料を上回りそうだ...)。社会心理系の調査法研究者からみたベイジアン自白剤の位置づけを知りたくて買ったのだけど、短い章であった。まあ、他の章も面白そうだし、いつか役に立つかもしれないし。
　いくつかメモ:

回答は対人相互作用だ。対人相互作用における目標には13種類あるという研究があるそうだが(Fitzsimons & Bargh, 2003, JPSP. "Thinking of you"っていう気の利いたタイトルの論文だ)、単一項目への回答における対人的目標としては次の3つが挙げられるのではないか: impresive, credible, true to the self.
従来、フェイキング(意図的虚偽回答)の代理指標として、社会的望ましさ尺度 (社会的に望ましい回答をする傾向を測る尺度) やunlikely virtue 項目 (いわゆる「ライ・スケール」のことだろう) が用いられてきた。これらは、虚偽回答するように指示された被験者を見つける実験ではうまく機能するんだけど、通常の調査を補正する役には立たない。フェイキング検出研究はいま変革の時にある。フェイキングという概念そのものも洗練され複雑化している。
Paulhus et al.(2003, JPSP)は地名・人名などの再認課題におけるaccuracyでself-enhancementを測るという方法を提案している。でもこの指標、確かにナルシシズムと関連してるんだけど(←へー)、認知能力とも正の相関があるので、たとえば採用試験でこの指標が高い奴を落とすとアホばかり残るという悲劇になりかねない。虚再認率を使うという手もあるが、虚再認がほんとにdeceptionかどうかはわからない。たとえば"cholarine"は実在しない名称だが、これを「知ってます」と答える人は、虚偽回答しているのかもしれないし、"chlorine"(塩素)のことだと思ったのかもしれない。(←そりゃそうだ。だいたい人々の生活世界は多様なんだから、一般的知識の記憶課題を調査の虚偽回答検出に使われちゃったら、マイノリティが損をするんじゃないかしらん)
ベイジアン自白剤の紹介。有望だが、本来関心のない項目(他者回答の予測)を入れなきゃならないのが欠点。今後の課題として、
- 実際の人事採用システムで使えるか。
- 専門家がコーチすれば勝てたりしないか。(←怖いなあ... リクルート発行「ベイジアン自白剤完全対策ガイド2014年版」なんてね)
- 被験者の母集団に対する準拠枠の影響は？ (←そうそう... 準拠枠に異質性があるとベイジアン自白剤の前提は崩れるはずだ)
- これって単なるbogus pipeline効果で、被験者が教示にびびっているだけではないか？ (←そうそうそう!! やっぱりそう思いますよね！)
著者らのアイデア(Kuncel & Tellegen, 2009, Personel Psych.): 人事採用の際のパーソナリティ自己評価で、"complex"とか"daring"といった項目は、高い回答を望まれているのか低い回答を望まれているのかわからない。こういうとき、フェイキングしている回答者は、どっちかに賭けるか、ないし中立的に答えるだろう。というわけで、こういう項目に対して9件法評定で1,5,9を回答した回数を数えて、それが高い人を探す。フェイキングするように教示されている人を20～37%検出し、誤検出は1%程度であった。これから基準関連妥当性を検討したい(そ、そうですか...)。
重回帰とか決定木とかで、外的基準を項目群で予測し、そのモデルによって項目に重みづけすることを keying methodsという(へー)。この路線で、フェイキングしている人を検出するための重みをつくるというアイデアもある。

読了：Kuncel., Borneman, & Kiger (2012) 意図的虚偽回答の検出 feat. ベイジアン自白剤

2014年5月 2日 (金)

Prelecのベイジアン自白剤に関連する論文を手当たり次第にめくっている今日この頃。いまこの瞬間に限っていえば、23区内で一番ベイジアン自白剤について考えているのは私かもしれない。こうやって集中していると、効率はいいんだけど、飽きてくるのが難点だなあ。

Howie, P.J., Wang, Y., Tsai, J. (2011) Predicting new product adoption using Bayesian truth serum. Journal of Medical Marketing, 11, 6-16.
　薬品の新製品についての医師による受容性評価にベイジアン自白剤(BTS)を使うという話。著者所属は、筆頭の人がTargetRx、あとはファイザー。TargetRxというのはヘルスケア系の調査会社で、現存しない模様(Symphonyグループに買われたらしい)。いずこも大変ですね。

　医師1763人、13個の新製品について調査。1人は1製品だけらしい。製品非認知者はあらかじめ外してある。
　この研究は、truth-tellingメカニズムというBTSの特徴には関心がないので、対象者にBTSについての教示はしていない模様。設問はオリジナルのBTSとちょっと違っている。「(新製品)が利用できるとして、疾患ほにゃららを持つあなたの患者に対して以下の治療を処方するパーセンテージは？」治療のリストのなかに新製品がはいっている。新製品に対する回答をXとする。「あなたの同僚や他の医師はほにゃらら患者をどのように扱うと思うかを伺います。ほにゃらら患者のうち(新製品)を処方される人のパーセンテージは？」回答をYとする。
　BTSではXはカテゴリカル変数, Yは各水準への離散確率分布でないといけないので、どうするのかと思ったら、Xは101水準のカテゴリカル変数だとみなし、Yをポワソン分布の平均とみなして101水準への離散確率分布を無理矢理つくった模様。なるほど。
　で、ここが医薬品業界のすごいところだが、調査対象者の医者がどんな処方をしたかのデータベースがある。そこから、新製品上市の次の四半期における実際の処方シェアを計算して、突き合せちゃうのである。

　分析。
　まずBTSのことは忘れて、予測シェアで実シェアを説明するモデルを組む。説明率4%、βは0.18。予測シェアXは、実シェアを過大評価する傾向がある由。
　で、BTSスコアを使うのだが... 原文には"we can now evaluate whether whether using the BTS to weight the individuals will improve predictive performance"とあるから、BTSスコアをウェイトにしたWLS回帰を行う、ということかしらん？
　なお、BTSスコアは情報スコアと予測スコアの和だが、原論文には予測スコアに重みづけしてよいと書いてあるので(重みをalphaと呼ぶ)、0.0001, 0.5, 1の3種類のalphaを試す。スコアが負である対象者は除外する(200人くらいが除外される)。
　結果は... BTSスコアで重みをつけると、説明率はちょっぴり上がりました。βも上がりました。回帰じゃなくて製品別の累積でみると、alpha=0.0001でMSE最小であった由。そうか、予測スコアはいらないのか... もっともこれはポアソン分布による近似のせいかもしれない、とのこと。

　上市前新製品についての医師の処方意向が、上市後のその医師の処方選択をほとんど説明しないというところ、泣かせますね。著者のみなさまには悪いが、BTSを使っても焼け石に水、という感じである。関係者のみなさま、ご一緒に泣きましょう。
　細かいことだけど、BTSスコアと予測シェアXの関連が知りたいところだ。Xがキリのよい値だとBTSスコアが低い、なんていう関連性なら、それはすごく納得する。でも、たとえばXが高いとBTSスコアが低い、なんていう関連性だったら、BTSスコアが回答の質と関連したのはポアソン分布による近似で生じたアーティファクトかもしれないと思う。BTSスコアとは要するにカテゴリ選択率と他者のカテゴリ選択率予測値の平均との比の対数だから、高いほうのカテゴリの選択率予測値を高めに近似すれば、Xの高いほうのカテゴリに対するBTSスコアは低くなる。Xが高い医者、つまり派手にoverclaimしている医者が除外されれば、そりゃあ説明率は上がるだろう。

　これまで読んできた研究をおおまかに整理すると、次の3つがあった:

A) BTSの教示が回答の質を向上させるかという話 .... Weaver&Prelec (2013)の実験1, 5; John, Lowenstein, & Prelec(2012)
B) BTSの教示とスコアのフィードバックが回答の質を向上させるかという話... Weaver&Prelec(2013)の実験2, 3, 4, 5; Barrage & Lee(2013)
C) BTSスコアが回答の質を示すかという話... Weaver&Prelec(2013)の実験2

この研究は路線 C である。
　著者いわく、BTSとはどんなものかということ、自分がそれによって評価されているということ、を回答者に理解してもらうのは大変なわけで、教示がある場合とない場合のちがいの検討が必要だね、とのこと。全くその通りだと思う。BTS関連の研究を読んでいて感じるのは、総じて回答の心的プロセスに関心が持たれていないという点で(「事前分布が共通だとして」なあんて簡単に仮定しちゃうのだ)、このへんが、調査回答の認知心理学的研究と、ゲーム理論やメカニズム・デザインに由来する研究とのスタンスの違いだという気がする。うーん、Prelecさん自身は心理学者だと思うんだけど。そこんところもちょっと不思議だ。

読了: Howie, Wang, & Tsai (2011) ベイジアン自白剤 for 医薬品の新製品受容性予測

　市場調査では、ある製品の値付けのために消費者の態度・知覚を調べることがある。いちばん単純なのは、これにいくら払いますか、と支払意思額(WTP)を直接に訊くことだが、さすがにそれではあまりうまくいかないので、いろいろな工夫をする。
　経済学のほうでも、調査で人々のWTPを調べるということは広く行われているようで、どうやら公園とか環境とか歴史遺産とか、市場で取引されないもの(非市場財)の評価に使うらしい。よくわかんないけど、市民の主観効用に応じて政策を決めるため、なんですかね。
　あれこれ文献を読んでいると、そうした文脈でのWTPの直接聴取はcontingent valuation (CV)と呼ばれていることが多い。いま検索してみたら、なんと「仮想評価法」という立派な訳語があった。世の中にからきし疎いもので、こういうときに困る。

　Barrage, L., Lee, M.S. (2010) A penny for your thoughts: Inducing truth-telling in stated preference elicitation. Economic Letters, 106, 140-142.
　当然ながら、CVで調べたWTPは高めに歪む。だって、架空の話なら、「この公園を維持するためならワタシ年に100万円でも払いますよ」なあんて言いたい放題ですもんね。この「仮説バイアス」をどうにかしたいので、手法をいくつか比較します、という主旨。
　そのうち目新しい手法はベイジアン自白剤である。つまり、これは Weaver & Prelec (2013) の実験5に相当する研究だ。

　被験者は上海の学生240名(セルあたり24名か...)。評価するのは、災害救援のためのテントへの寄付、ないし公害被害者の法的支援のためのホットラインのスタッフへの寄付。要因は被験者間5水準。さあ、選手入場です。

real: 寄付の賛否を問う。賛成が5割を超えたら全員から30元集めて寄付する。超えなかったらなにもしない。
hypothetical: real と同じだけど、実際にはお金を集めない。
cheap-talk: hypotheticalと同じなんだけど、事前に仮説バイアスについて説明し、本当の話だと思って投票してくれと教示。
consequential: 50%の確率でreal条件、50%の確率でhypothetical条件になると教示。(実際には結局どうしたのだろうか?)
ベイジアン自白剤。スコアをフィードバックし、スコアに応じて報酬を払っているらしい (この条件だけ調査参加報酬ありってこと? まさかね...)

　結果。賛成率は、テントでは順に48%, 79%, 77%, 50%, 77%。ホットラインでは、32%, 83%, 50%, 17%, 55%。real条件を正解と捉えると、consequentialがやたらに効いている。ベイジアン自白剤はいまいちだ。なんだかなあ。

　事後的分析なので、あんまり深読みするのもどうかと思うけど、cheap-talkと自白剤は、貧困対策団体について良く知らないと答えた人、ならびに女性によく効いたそうだ。ふうん。

読了: Barrage, & Lee (2010) ベイジアン自白剤 for 支払意思額聴取

John, L.K., Lowenstein, G., Prelec, D. (2012) Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23(5), 524-532.
　Prelec先生、ベイジアン自白剤を引っ提げて各領域を荒らしまわるの巻。今回の舞台は心理学だ！なんだか昔のTVシリーズ「特攻野郎Aチーム」みたいだな。懐かしいなあ。
　今回のお題はこうだ。世間では研究者による捏造が注目を集めているが、その一歩手前のグレーゾーンもなかなか深刻です。たとえば、ちょっと都合の悪いデータを数件、後付けの理由をつけて除外しちゃう、とか。以下、そういう行為をQRP (questionable research practices) と呼ぶ。心理学者にアンケートして、どのくらいQRPに手を染めているか訊いてみましよう。正直に答えそうにないって？大丈夫！そこでベイジアン自白剤ですよ！

　USの心理学者5964名に電子メールで調査参加を依頼、2155名から回収。回答は匿名で行う。項目は以下の通り。

10種類のQRPを提示、それぞれについて以下を聴取。
1. それに個人的に関与したことがあるか。(告白)
2. 他の心理学者のうち何パーセントがそれに関与していると思うか。(普及率評定)
3. それに関与した心理学者のうち何パーセントがそれを認めると思うか。(告白率評定)
4. 最初の設問にyesと答えた場合は、それが擁護可能だと思うかを聴取 (no, possibly, yes)。
「他の機関の心理学者」「自分の機関の他の心理学者」「院生」「自分たちの共同研究者」「自分たち」について、研究の真正性に対する疑いの程度を評定させる (never, once or twice, occasionally, often)。

各回答者の各QRPに対する告白有無と普及率評定から、御存知ベイジアン自白剤スコアを算出できる。この論文の説明だけではなんのことだかさっぱりわからないと思うんだけど、えーと、告白と普及率評定を回答するたびにスコアが付与される仕組みで、そのスコアは、それを最大化するためには正直かつ真剣に答えるしかないという不思議な性質を持っているのでございます。
　インセンティブを被験者間で操作する。

自白剤群。5つの寄付プログラムのなかからお好きなものをお選びください。我々があなたに代わって寄付します。その額はあなたのベイジアン自白剤スコアによって決めます。ベイジアン自白剤というのはですね、正直に答えないと損をする仕組みになっていて、サイエンスに論文が載っているですよ(と、論文へのリンクを示す。理屈は説明しない)。なお、この教示は嘘ではなく、ほんとに寄付した由。
統制群。あなたに代わって寄付します、とだけ教示。

　結果。

告白率がもっとも高かったQRPは「論文で、ある研究の従属変数のすべてを報告しなかったことがある」(統制群で63%)、一番低かったのは「データを偽造したことがある」(0.6%)だったそうである。ちょっと笑っちゃったのが、「論文で、p値が.054だったときに.05にしちゃうという風にp値を丸めたことがある」(22%)。いかにもありそうな話だ...
告白者の擁護可能性評定は総じて高く、告白率が高いQRPで特に高くなる。
自白剤群のほうが告白率が高い。特に告白率が低いシビアなQRPで差が大きい。
QRPに対する3つの設問を比較すると、告白率、普及率評定、告白率評定の順に低い。まあ、そうでしょうね。
あるQRPを告白する人は他のQRPも告白していることが多い。
研究の真正性に対する疑いは、当然ながら自分や共同研究者に対しては低い。いっぽう、自分の機関の研究者に対する「疑ったことはない」回答率は4割を下回る。他の機関の研究者に対しては約1割。
設問のワーディングの影響もあるんじゃないか、というので別の小さな調査も紹介している。省略。
告白率は認知心理、神経科学、社会心理で高く、臨床で低い。また、実験研究者で高くフィールド研究者で低い。もっとも、分野によっては縁のなさそうなQRPもあるわけで、別の調査で分野との関係を尋ねたりしている。省略。

　というわけで、QRPはとても一般的です。研究に再現性がないといわれるのももっともですね。云々。

　この論文には、アメリカの心理学における研究不正についての実態調査という記述的な意義と、ベイジアン自白剤という真実申告メカニズムの適用という方法論的な意義があると思う。でも自白剤群では対象者にベイジアン自白剤の理屈を説明しているわけではないし、スコアのフィードバックもしていないのだから、自白剤群と統制群との差は、要するに「偉い学者が考えたすごい方法であなたの正直さがわかっちゃうんですよ」という教示の効果に過ぎない。だから、後者のほうの意義は怪しいと思う。この論文の本旨ではないのかもしれないけど、失礼ながら、なにやってんすか先生、という気持ちで一杯である。
　せっかく数千人の専門家から回答を集めるんだから、メール調査じゃなくてweb調査にして、Weaver & Prelec (2013) の実験2みたいに、各QRPについて回答するたびに自白剤スコアがフィードバックされる条件をつくれば、もっと面白かったのになあ...

読了: John, Lowenstein, & Prelec (2012) 心理学者にベイジアン自白剤を飲ませたら

2014年5月 1日 (木)

Witkowski, J. & Parkes, D.C. (2012) A robust bayesian truth serum for small populations. Proceedings of the 26th AAAI Conference on Artificial Intelligence. 1492-1498.
　Prelec のベイジアン自白剤は、サンプルサイズが大きいときにはうまくいくが、小さいとうまくいかない。そこで、二値回答に限定し、3人以上ならうまくいく改訂版をご提案します。という論文。

　導出過程はぜんぶすっとばして結論をいえば、こういう手法である。
　対象者 $i$ の回答を $x_i$, 回答率予測の回答を $y_i$ とする。対象者 $i$ について、隣の人 $j$ を「リファレンス」、そのまた隣の人 $k$ を「ピア」と呼ぶ。リファレンスに注目し、$\delta = \min (y_j, 1 - y_j)$ を求める (たとえば $y_j = 0.8$ なら $\delta = 0.2$だ)。で、もし $x_i = 1$だったら$y_j$ に$\delta$を足し(1になる)、でなかったら引く(0.6になる)。これを $y'$とする。で、ピアに注目し、もし $x_k = 1$だったら $2y' - y'^2$ を情報スコア、$2y_i - y_i^2$ を予測スコアにする。でなかったら、$1 - y'^2$ を情報スコア、$1 - y_i^2$ を予測スコアにする。
　。。。頭おかしいんじゃないかというような話だが、こうして得た情報スコアと予測スコアの和は、それを最大化するには正直に答えるしかないスコアになるのだそうだ。知らんがな！！！
　
　途中までは数式を丁寧に追いかけたんだけど、途中で混乱して挫折した。
　混乱した理由はふたつあって、まず、BTSの定式化のしかたがPrelecの論文とはちょっとちがう(Prelecは n→∞ について定式化している)。
　さらに、えーと、この論文の著者らは、真の状態の事前分布と各状態の下でのシグナルの条件つき確率が共有されているとき、自分の観察したシグナルで状態の事後分布をベイズ更新する、と説明しているんだけど、事前分布が共有されているのはともかくとして、シグナルの条件付き確率までも共有されているというのは、具体例に当てはめるといったいどういうことなのだろう？と考え始めたら、だんだん混乱してきてしまい。。。一晩寝てゆっくり考えよう。

読了：Witkowski & Parkes (2012) ベイジアン自白剤 for 少人数

櫻井祐子, 沖本天太, 岡雅晃, 兵藤明彦, 篠田正人, 横尾真 (2012) クラウドソーシングにおける品質コントロールの一考察. 合同エージェントワークショップ＆シンポジウム(JAWS), 2012.10.
　Prelecのベイジアン自白剤(BTS)を紹介している日本語文献として、いまのところ唯一発見できたもの。
　クラウド・ソーシングで、ワーカに作業結果と一緒に「作業結果についての自信」を報告させる(ないし、期待利得が異なる二つの価格プランから一方を選ばせる)。このとき、どういう報酬にすれば真の解答と真の主観的自信を報告することが最適戦略になるか、という研究。
　実際に、Amazon Mechanical Turkとランサーズで実験している。価格プラン選択のほうで、提案手法はうまくいきました、とのこと。

　先行研究概観。エージェントに主観確率を真実申告させるためのメカニズムとしては、まず proper scoring rule がある。Bickel (2007, Decision Analysis)というのが挙げられている。また、条件付き事前確率が共有知識である場合のメカニズムとしてはBTSがある。
　クラウドソーシングの品質管理の研究はいっぱいある。BTSを導入した例もある由(Shaw, et al., 2011, Proceedings)。
　マルチエージェントシステムの研究にも関連したのがある由。チームリーダーとメンバーのそれぞれにメンバーの作業時間を予測させるとか。へー。

　肝心の提案手法については、ちゃんと読んでないのだが(すいません)... BTSについて、ずーっと質問紙調査の手法という観点から考えていたので、こういう視点は大変勉強になった。

読了：櫻井 et al. (2012) クラウドソーシングで品質の主観的自信を正直に報告させるメカニズム・デザイン

　"Bayesian Truth Serum"をwebで検索すると、もちろんいっぱいヒットするけど、日本語のページはほとんど見当たらない(このブログが上のほうに出てくる始末だ)。なぜだろう。誘因整合性やメカニズム・デザインにご関心をお持ちの方は日本にも山ほどいるだろうに。調査のメカニズム・デザインなんて、やはり周縁的な話題なのだろうか...

Weaver, R. & Prelec, D. (2013) Creating truth-telling incentives withthe Bayesian Truth Serum. Journal of Marketing Research, 50(3), 289-302.
　2004年のScience論文以来、Prelecさんはベイジアン自白剤(BTS)を引っ提げていろんな分野に乗り込んでいるようだが、これはその市場調査版。先生は心理学者だが、お勤め先はビジネススクール(MIT Sloan)だから何の不思議もない。
　
　BTSというのは要するに、対象者の個々の回答に「それを最大化するためには正直に答えるしかないスコア」を割り振る手法である。回答を求めるついでに、この質問に他の人はどう答えると思いますかと尋ね、この2つの答えからスコアをはじき出す(この論文でもその理屈を縷々説明しているのだけど、やっぱりわかりにくい...)。もともとの提案では、BTSは情報スコアと予測スコアの2要素からなるのだけれど、この論文はその肝となる情報スコアのほうだけを扱っている。

　えーと、研究の背景。BTSを支持した報告としては Barrage & Lee (2010, Economics Letters), John, Loewenstein, Prelec (2012, Psych. Sci.) がある。いっぽう疑念としては以下が挙げられる: 想定が非現実的だ；情報スコアが正直さに報酬を与えているからといって、それが正直さを引き起こすかどうかは別の問題だ(←そうですよね); データの質の向上が複雑さの増大に見合うとは限らない。本論文ではこれらの疑念にお答えいたします。

　実験は５つ。使う課題はブランド名などの再認実験で、リストのなかに妨害項目(実在しない名称)がはいっている。こういう課題、元はPhillips & Clancy (1972, Am.J.Sociology)まで遡れるが、直近のではPaulhusらの手続きを参考にした由。うーん、調査参加者の誠実さを再認課題で測るという発想であれば、もっと昔からあるような気がするけど。

　実験１。
　一般的知識についての調査を行う。歴史上の人物など6カテゴリについて、実項目を47個, 妨害項目を24個用意。各項目について、知っているかどうかと、他の人がどのくらい知っていると思うか(0%から100%までの11件法)を回答する。
　対象者133人。要因は2x2の被験者間デザイン。

truth-tellingインセンティブ。BTS条件では、MITの教授が開発してサイエンス誌にも載った手法で回答の正直さをスコアリングします、上位1/3に25ドルあげます、と教示。全項目への回答後に情報スコアの合計が表示される(ほんとは調査が終わるまで算出できないから、パイロット調査で出したスコアを使う)。統制条件では、ランダムに選んだ1/3の対象者に25ドルあげます、正直に答えてねと教示。回答後にランダムな値を表示する。
deceptionインセンティブ。overclaiming条件では「知っていると答えた項目ごとにさらに10セントあげます」と教示。統制条件では教示なし。

結果：実項目への正再認率は、コントロールで58%, overclaimのみで71%、BTSのみで57%。BTS+overclaimでも57%。妨害項目の虚再認率は、順に20%, 42%(この欲張りどもめ), 14%, 14%。というわけで、truth-tellingインセンティブは効き、overclaimngインセンティブの効果を消す。
　反応を従属変数、項目タイプ(実/妨害)と２要因を放り込んだ回帰もやっていて、3つの主効果のほかに２要因間の交互作用も有意だった由。細かいことだけど、これ、データの行をは対象者x項目タイプ、従属変数は再認反応率、であろう。そんな分析でいいのだろうか？行を対象者x項目、従属変数を二値反応にして対象者番号を投入したロジスティック回帰をやるとか、行を対象者、従属変数をROCのd-primeのような成績指標にして条件間比較するとかにしないといかんのではなかろうか。記憶の研究してる方は昔からそういうのにうるさいと思うのだが... この掲載誌はあまり気にしないほうなのだろう。
　4条件のそれぞれについて、Hit, Miss, False Alerm, Correct Rejection (論文ではこういう言い方はしてないけど) について、情報スコアの平均を算出。たとえばBTSのみ条件では、順に+0.16, +0.08, -0.99, +0.34。情報スコアはtruth-tellingと整合している、との仰せである。Missの情報スコアが正になってますけどね...。

　実験2。実験1は結局のところ教示の効果を調べただけであった。今度は情報スコアをフィードバックする。
　対象者117名。60項目、うち20項目が妨害。要因計画は実験1と同じ2x2だが、報酬がちょっと違う。

truth-tellingインセンティブ: BTS条件では(情報スコアx1.5)ドル。統制条件では項目あたり25セント(ってことは15ドルか)。
deceptionインセンティブ: overclaiming条件では、「知っている項目ごとにさらに25セントあげます」と教示。統制条件では教示なし。

項目に反応するたびにフィードバックがでる。BTS条件では、「知っている」「知らない」両方の情報スコアと、当該対象者の獲得額が表示される。この情報スコアはほんとに、この実験の当該セルでそれまでに集めたデータで算出したのだそうだ(最初のほうの対象者に出すスコアを求めるために、各セルでプレ実験を10人やった由)。凝りましたね。
　結果: 再認率は実験1を再現。おっと、今度はデータの行を対象者x項目にしたロジスティック回帰をやっているぞ。実験1ではなぜそうしなかったのかしらん。ひょっとして、ローデータを失くしちゃったとか、そういうプラクティカルな理由かしらん。
　BTS条件下の報酬は、実項目では「知っている」が正、妨害項目では「知らない」が正となり、truth-tellingと整合している。さらに、系列位置の効果をみると、BTS+overclaim条件下でのみ、虚再認率が次第に減る。つまり、フィードバックを通じて対象者はtruth-tellingが報われることを学んでいる。BTSのみ条件でそうならないのは、最初から信じちゃうからだろう、とのこと。楽観的なご意見だ。
　なお、この実験では情報スコアを被験者ごとに再計算したわけだが、その値はだいたい安定していた由。
　BTSで嘘つきを同定できるだろうか？というわけで、個人ごとにROCでいうd-primeを出し情報スコアと比較すると、相関がある由。情報スコアが特に低い人の例: 実在しない映画"The Deli"を知っていると答え、"The Big Lebowski"(コーエン兄弟のコメディですね。観てないけど)を知らないと答えている。実在しないラム酒"Oronoco"を知っていると答え、"Jim Beam"を知らないと答えている。

　実験3。対象者27人。実験2のBTS条件と同じだが、教示を変える。BTSについて一切説明せず、単に報酬額だけをフィードバックする。また、全セルで２問目の予測質問を省略する(BTSは実験2のスコアを借用する)。ああ、これは面白い実験だなあ。
　結果: データの行を対象者x項目、従属変数を回答、独立変数を{系列位置、項目、系列位置x項目タイプ}にしたロジスティック回帰で、系列位置と項目タイプの交互作用が有意。妨害項目では再認反応率が系列位置とともに減少する。つまり、情報スコアのフィードバックのせいで虚再認が減少している、とのこと(チャートをみると、実項目の正再認率も少し減少しているのだけれど)。セッションの最後の1/4だけについて、実験2(BTSのみ条件、統制条件)と実験3を比べると、正再認率は有意差なし、虚再認率は統制条件に比べて低い。

　実験4。他の truth-telling メカニズムと比べてみましょうという主旨。どんなのがあるでしょうか、とここで急に先行研究レビューになって、

Jones & Sigall (1971, Psych.Bull.) の"bogus pipeline"。あたかもポリグラフみたいにみえる装置をつけて、ウソついたらわかっちゃいますよと教示するのだそうだ。ははは。ちょっと検索してみたら、これは有名な手法らしく、93年にメタ分析の論文が出ている模様(Roese & Jamieson, 1993, Psych.Bull.)。
"audio computer-assisted self-interviewing"。ヘッドホンから質問が流れてきて、キー押しで回答する。回答者の匿名性が保証される由。よくわからないんだけど、どうやら通常のCAPIとちがい、なににどう答えているか調査員にわからない、という主旨らしい。社会的望ましさバイアスが除去できるだけで、真面目に答えてくれるかどうかは別の問題である。
"solemn oath"。神聖な誓約、とでも訳せばいいのかしらん。調査参加の前に、正直に答えますという誓約書にサインさせる。馬鹿みたいだけど、効き目があるという報告がある由。まじか。Jacquemet et al.(2009, Working Paper)というのが引用されている(論文化されている模様。2013, J. Env. Econ. & Mgmt.)

というわけで、BTS条件と誓約書条件を比べる。両方ともoverclaimingのインセンティブをつける。対象者70人。BTS条件の報酬は、情報スコアを金額にしたもの。さらに再認ごとに15セント。実験2と同様、情報スコアはリアルタイムに算出。誓約書条件は、項目あたり10セント、さらに再認ごとに15セント。
　結果: BTS条件では正再認率54%, 虚再認率21%。誓約書条件では72%, 52%。実験1のコントロール条件(58%, 20%)と比べると、誓約書はあまり効いていないのに、BTSは効いている、とのこと。うーん、こういうときこそ対象者ごとのd-primeを比較すべきだろうに。

　実験5。BTSを非市場財の価値評価に適用しますという主旨。他にどんな方法があるでしょうか、とここでまた先行研究レビューになって、

ただのcontingent valuation (支払意思額の直接聴取のことであろう)。
聴取の前に、この質問への回答はふつうインフレになるんですよね、と教示する。効くかどうかは諸説ある由。
結果をなんらかの関数でキャリブレーションする。財や文脈によって関数が異なり、うまくいかない。

というわけで、実験。対象者114名。National Endowment for the Artsという連邦機関に寄付すべきかどうかの投票を求める。以下の4条件を比較する。

real条件。賛成派が勝ったら、対象者ひとりにつき4ドル、実験者が寄付する。反対派が勝ったら、対象者全員に4ドルあげる。
hypotetical条件。real条件と同一だが架空の設問だと教示する。
BTS条件。BTSについて説明し、情報スコアのぶん支払うと教示。
訓練つきBTS条件。事前に実験1-4みたいな再認課題をやってもらい、情報スコアをフィードバック。なお、BTSで事前訓練をした例としてはBarrage & Lee(2010, Economic Letters)がある由。

　結果: 寄付賛成率は順に44%, 76%, 47%, 50%。BTS条件はreal条件に近い。(real群44%ってことは、参加者に4$配ったのだろうなあ...)

　考察。

そもそもuntruthfulnessには次の3つがあるだろう。(1)intentional deception。(2)carelessness。(3)inauthenticity (社会規範etc. によるバイアス)。本研究で、BTSは再認課題におけるoverclaimingインセンティブの効果を消した。つまりBTSは(1)に効く。また、overclaimingインセンティブがない状態でも、BTS条件は統制条件より成績が良かった。つまりBTSは(2)か(3)か、ないし両方に効く。BTS条件のほうが回答に時間がかかっていたから(おいおい、その話はここではじめて出てきたぞ)、(2)に効いたのかもしれない。それに、(3)は完全に無意識的な面もあって、そういうのはインセンティブでどうにかなるものではないだろう。なお、Paulhusは社会的望ましさバイアスを印象形成と(自尊心維持のための)自己欺瞞にわけていて、後者は社会的望ましさの必要性が変わっても影響されないと考えている。
理論的には、BTSのために必要とする2問(回答と他者回答予測)のうち、他者回答予測のほうが少数の対象者だけでかまわない。
BTSのその他のメリット: 調査回答前に製品を使ってこいという宿題を出すような場合、BTSのせいで宿題実行率が上がりそうだ; 競争の要素が調査に含まれることで調査参加が楽しくなるかも; 良い回答者を選べるかも; フィードバックすることで回答の質が上がるかも。

　やれやれ、面倒な論文であった。個別の実験はしょぼいし(特に実験1)、分析もあまりエレガントでないのだが、手を変え品を変えて実験を重ねているところがすごい。

　ベイジアン自白剤のしくみについて、まだよく理解できない箇所があり... 元のScience論文を読み直したり他のをあたったりして、延々思い悩んでいる。辛い...

読了：Weaver & Prelec (2013) ベイジアン自白剤 in 市場調査

2014年4月15日 (火)

　人々に次の2問を聴取する。問1は、選択肢m個の単一選択設問。問2は、問1に対して人々がどうこたえるかの予測。たとえば、問1「これまでに万引きしたことがありますか？」, 問2「問1にハイと答える人は調査対象者のうち何パーセントだと思いますか？」。
　十分に多くの人から回答を集め、問1と問2を集計する。で、各個人について「情報スコア」と「予測スコア」を求める。
　情報スコアは、その人が問1で選んだ選択肢についての
　log (問1でのみんなの選択率/問2でのみんなの予測の平均)
とする。情報スコアは、「みんなが思ったよりも多くの人が選んだ選択肢」で正の値、「みんなが思ったよりも少ない人が選んだ選択肢」で負の値になる。
　予測スコアは、全選択肢を通しての、
　log(問2でのその人の予測 / 問1でのみんなの選択率) x (問1でのみんなの選択率)
の合計とする。予測スコアは、問2が完璧にあたっていたら 0となり、外れた程度に応じて伴って負の大きな値になる。
　で、2つをあわせた次のスコアを求めて
　(情報スコア) + $\alpha$ (予測スコア)
この値に応じて報酬を渡すことにする。
　各個人は報酬を最大化するような回答を示すとしよう。すると何が起きるか。

　ある人$r$の本当の答えをベクトル$t^r$で表す。上の例では、選択肢が(イイエ, ハイ)の2つで、もし$r$さんは本当は万引きしたことがある人だったら、$t^r=(0,1)$である。つまり、$t^r$はどこかの要素が1, ほかの要素が0である。なお、$t^r$のk番目の要素を$t_k^r$と表す。また、本当の答えが$i$であること、つまり$t^r$の$i$番目の要素が1であることを$t^r_i$と略記する。
　同様に、$r$さんの問1の回答を$x^r$,問2の回答を$y^r$とする。上の例で、$r$さんの回答が問1「イイエ」問2「20%」だったら、$x^r = (1,0), y^r=(0.8, 0.2)$である。$y^r$はどの要素も0以上、全要素を足すと 1 になる。
　問1, 問2の各選択肢における平均を、それぞれ以下のように定義する。
　$\bar{x}_k = \lim_{n → \inf} (1/n) \sum_r x_k^r$
　$\log \bar{y}_k = \lim_{n → \inf} (1/n) \sum_r \log y_k^r$
$y$のほうで対数をとっているのは、幾何平均を使いたいからで、他意はない。
　情報スコアと予測スコアは、それぞれ下式となる。
　(情報スコア) = $\sum_k x_k^r \log(\bar{x}_k/\bar{y}_k) $
　(予測スコア) = $\sum_k \bar{x}_k \log (y_k^r / \bar{x}_k)$

　母集団における$t$の分布をベクトル$\omega$で表す。たとえばさっきの例で、本当の答えがyesの人が全体の2割なら、$\omega = (0.8, 0.2)$である。それぞれの人の本当の答え $t^1, t^2, ..., t^n$は、$\omega$の下で互いに独立であると仮定する。
　選択肢$k$のみんなの選択率に対する$r$さんの推測(問2への回答そのものかどうかはわからない)を$p(t_k | t^r)$と表す。何度も読み返してようやく気がついたのだが、この表記の気持ち悪さのせいで話がすごくわかりにくくなっていると思う。$t^r$はrさんの信念を表す記号で、$t_k$は自分以外の他の人の信念についての信念を表す記号なのだ。書き分ければいいのにと思う。
　もし本当の答えが違っていたら推測も違っていると仮定する。つまり、もし$t^r \neq t^s$なら$p(t_k | t^r) \neq p(t_k | t^s)$である。
　いま、両方の問いに対して全員が正直だと仮定しよう。このとき、問1, 問2の平均は
　$\bar{x}_k = \omega_k$
　$\log \bar{y}_k = \sum_j \omega_j \log p(t_k | t_j)$
原文では右辺の$\sum$の上添字が$n$になっているけど、$m$ではないかしらん。

　本当の答えが$i$である人が、他の人は正直だと仮定したとき、自分の回答$j$によって得られる情報スコアの期待値
　$E(回答$j$への情報スコア | t_i) = E( \log(\bar{x}_j/\bar{y}_j ) | t_i)$
について考えよう。
　実は、上の式は次のように変形できる。
　$E(回答$j$への情報スコア | t_i) = \sum_k p(t_k | t_i) \int p(\omega | t_k, t_i) \log (p(\omega | t_k, t_j) / p(\omega | t_k)) d\omega$

　ここからはそのプロセス。さあ深呼吸。
　まず、$\bar{x}_j$と$\bar{y}_j$は$\omega$で決まるので、$\omega$で積分する形に書き換える。
　$E(回答$j$への情報スコア | t_i) = \int p(\omega | t_i) E( \log (\bar{x}_j / \bar{y}_j) | \omega) d\omega$
　積分のなかの期待値記号の内側, $\log (\bar{x}_j / \bar{y}_j)$について考える。
　$\log (\bar{x}_j / \bar{y}_j) = \log \bar{x}_j - \log \bar{y}_j$
問1の平均, 問2の平均を放り込んで
　$= \log \omega_j - \sum_k \omega_k \log p(t_j | t_k)$
第1項を第2項の$\sum$のなかにいれて
　$= \sum_k \omega_k (\log \omega_j - \log p(t_j | t_k))$
　$= \sum_k \omega_k \log (\omega_j / p(t_j | t_k))$
期待値記号の中に戻すと
　$E( \log (\bar{x}_j / \bar{y}_j) | \omega) = \sum_k \omega_k \log (\omega_j / p(t_j | t_k))$
元の式に戻すと
　$E(回答$j$への情報スコア | t_i) = \int p(\omega | t_i) \sum_k \omega_k \log (\omega_j / p(t_j | t_k)) d\omega$
$\sum$を頭にだしてやって
　$= \sum_k \int \omega_k p(\omega | t_i) \log (\omega_j / p(t_j | t_k)) d\omega$
$\log$の左側は、
　$\omega_k p(\omega | t_i) $
　$= p(\omega, t_k | t_i) $
　$= p(t_k | t_i) p(\omega | t_k, t_i) $
$\log$の内側は、トリッキーだけど、
　$\omega_j / p(t_j | t_k) $
　$= {p(t_j | \omega) p(t_k | t_j, \omega)} / {p(t_j | t_k) p(t_k | \omega)}$
　$= p(\omega | t_k, t_j) / p(\omega | t_k)$
　あわせて、
　$E(回答$j$への情報スコア | t_i) = \sum_k p(t_k | t_i) \int p(\omega | t_k, t_i) \log (p(\omega | t_k, t_j) / p(\omega | t_k)) d\omega$
となる。やれやれ。

　話を本筋に戻して、本当の選択肢$i$とウソの選択肢$j$を比べると、
　$E(回答 i への情報スコア | t_i) - E(回答 j への情報スコア | t_i)$
　$= E( \log(\bar{x}_i/\bar{y}_i ) | t_i) - E( \log(\bar{x}_j/\bar{y}_j ) | t_i) $
　$= - \sum_k p(t_k | t_i) \int p(\omega | t_k, t_i) \log ( p(\omega | t_k, t_j)/p(\omega | t_k, t_i) ) d\omega$
ええと、イエンゼンの不等式というのがあって、Wikipediaによれば、$p(x)$が正で合計1のとき、凸関数$f(x)$について
　$\int f(y(x)) p(x) dx > f (\int y(x) p(x) dx)$
なのだそうであります。これを使って
　$> - \sum_k p(t_k | t_i) \log { \int p(\omega | t_k, t_i) p(\omega | t_k, t_j)/p(\omega | t_k, t_i) d\omega }$
$\log$の内側を見ると、
　$\int p(\omega | t_k, t_i) p(\omega | t_k, t_j)/p(\omega | t_k, t_i) d\omega$
　$= \int p(\omega | t_k, t_j) d\omega$
　$= 1$
なので、結局
　$E(情報スコア | t_i) - E(情報スコア | t_j) = 0$
である。
　つまり、他の人の回答が正直だと仮定すれば、情報スコアを最大化する回答とは、正直な回答である。

　では、自分の予測スコアを最大化するためにはどうしたらよいか。途中すっ飛ばすけど、
　$E \{ \sum_k \bar{x}_k \log (y_k / \bar{x}_k) | t_i \}$
　$= \sum E \{ \omega_k | t_i \} \log y_k - E \{ \sum_k w_k \log w_k | t_i \}$
第二項は自力では如何ともしがたい。予測スコアを最大化するのは
　$y_k = E \{ \omega_k | t_i \} = p (t_k | t_i) $
つまり、正直な回答である。

　というわけで、正直に答えることがベイジアン・ナッシュ均衡となる。
　疲れたのでやめるけど、ほかの均衡解もあるうるが、この解の情報スコアよりも大きくなることはないことも示せる由。

　以上、Prelec さんの「ベイジアン自白剤」論文(2004, Science)のsupplementary material から抜粋。
　哀しいかな、このたった12ページにこの週末を捧げたのに、いまだ腑に落ちない。なんだか狐につままれたような気分だ。

　2015/02/22追記: 数式の誤りを修正。

「ベイジアン自白剤」メモ

2014年4月 8日 (火)

Spann, M. & Skiera, B. (2003) Internet-based virtural stock markets for business forecasting. Management Science, 49(10), 1310-1326.
　予測市場による市場予測の解説。寝不足なのか春のせいなのか、あまりに眠かったもので、要点をメモしながら読んだ。

1. イントロダクション
　市場予測は大事だ。計量経済学的モデルによる外挿のためには過去のデータが未来についての情報を含んでいることが必要である。消費者調査・専門家調査は誰にどう聴くかが難しいし時間もかかる。本論文ではネット仮想株式市場(VSM)を中短期の市場予測に用いることができると主張する。
　VSMはすでに選挙予測に適用され精度が高い。しかし市場予測は選挙予測とちがい、(1)もっと複雑で、(2)予想に使える情報が貧弱で、(3)専門家を参加させるためにインセンティブをうまく設計する必要があり、(4)予測が求められる頻度が多い。
　いっぽう、VSMによる市場予測がもしうまくいけば、(1)情報がはいるたびに素早く予測できるようになり、(2)いろいろな専門家の意見を集約するために重みづけを考える必要がなくなり、(3)低コストで、(4)単なる参加ではなく真の評価に対して報酬を渡すことができ、(5)参加者も楽しい。

2. VSMの基本的概念と理論的基盤
　VSMでは未来の市場状況を仮想株式で表現し取引させる(正確には株式stocksというより有価証券securities)。時期 T 終了時における出来事 i の状態をZ_{i,T}とし、株式の配当金 d_{i,T} をその可逆な単調変換とする。すなわち
　d_{i,T} = \phi [ Z_{i, T} ]
時点 t における株価 p_{i,T,t} は次のようになる。Z_{i,T} の期待値は、割引率を \delta として
　\hat{Z}_{i,T,t} = \phi^{-1} [ p_{i,T,t} (1+\delta)^{T-t} ]
　VSMの理論的基盤は次の2つ。(1)効率的市場仮説。(2)ハイエク仮説(市場参加者における非対称な情報を累積する最も効率的な仕組みは競争市場における価格メカニズムだ)。
　VSMがうまくいくには以下が要件となる。(1)株式の配当を決めるのがZ_{i,T}だということが明確であること。(2)参加者が未来の市場についてある程度の知識を持っていること。(3)専門家が参加してくれるだけのインセンティブがあること。

3. VSMの設計
　3つの問題にわけ、政治予測市場、実験経済学、金融市場デザインの研究を概観する。

3.1 予測の目標をどう決めるか
　以下の点を決める。(1)Z_{i,T}はなにか。次の3つがありうる。(i)絶対値(例, 売上)。(ii)相対値(例, 市場シェア)。(iii)特定の出来事の生起有無。(2)Z_{i,T}に応じた配当金d_{i,T}。(3)持続期間 T と、その間のVSMへのアクセシビリティ。(4)参加者の制限。

3.2 インセンティブをどう設計するか
　インセンティブは参加者のパフォーマンスによるものにする。次の2つがありうる。(1)参加者に自分の金を投資させる。(2)最初に仮想株式や仮想通貨を渡す。
　ゼロサムゲームにしておかないと胴元が大損するかもしれない。ゼロサムゲームにする方法は2つ。(1) d_{i,T} の i を通じた合計を定数にしておく。Z_{i,T}が絶対値である場合は工夫が必要(幅を持たせて予測させるとか)。(2)参加者の最終のポートフォリオ価値を相対評価する(線形変換、ないしトーナメント)。
　初期ポートフォリオによるバイアス(現状維持バイアス、保有効果)や、リスク志向性の増大がありうるが、あとで現金と引き換えるのなら大丈夫だろう。
　パフォーマンスによらないインセンティブを追加するのもいいかもしれない。

3.3 市場取引ルールをどうするか
　主要な方法は2つ。(1)マーケット・メーカー方式。最初の相場と、相場を注文に応じて変える方法(自動か手動か)を決める。流動性が高い反面、マーケット・メーカーが損する危険もある。(2)ダブル・オークション方式。注文ブックの公開の有無を決める。
　その他、以下の点を決める。(1)ポートフォリオ・ポジションを制限するか(すべてある株に突っ込んでいいかとか)。(2)注文・相場の最高価格・最低価格を制限するか。
　取引手数料や保証金はよろしくないことがわかっている。

4. 実証例: 映画の興行予測
(Hollywood Stock Exchange の分析。省略)

5. 補足例の要約
(ドイツのChart-and-Movie Exchange, ドイツの携帯電話サービス予測市場の分析の要約。詳しくは補足資料を読めとのこと。省略)

6. 結論と将来の研究
　我々の研究はビジネス予測のためのVSMの有用性を示している。
　今後の課題: (1)マネージャーの評価に使う (予測市場で成績の良い奴を出世させるのはどうよ、というような話。殺伐としてきたなあ...)。(2)いろんなデザインの良し悪し。(3)市場の不完全性(例, バブル)。(4)参加者には代表性が必要か、事前にどんな情報を与えればいいか、どんな決定支援システムが効果を持つか。(5)他の手法との併用(例, フォーカス・グループ)。

　頭が整理できた。くそう、去年の書籍原稿の前に読んでおけばよかった。
　著者らはVSMの要件として「配当がZ_{i,T}で決まることが明確であること」というふうに書いているから、HSXみたいに正解がはっきりする予測市場だけが念頭にあるのだろう。正解がはっきりしない奴の研究はまだなかったのかしらん、それともこのレビューに載ってないだけだろうか。

読了：Spann & Skiera (2003) 仮想株式市場によるビジネス予測

Wertenbrock, K. & Skiera, B. (2002) Measuring consumers' willingness to pay at the point of purchase. J. Marketing Research, 39 (2), 228-241.
incentive-aligned mechanismについて調べていて目を通した論文。Ding(2007, JMR)で引用されていた。著者のSkieraって、予測市場の研究をしている人ではないか。こんなところでつながっているのか。

　購入時点において支払意思金額(WTP)を聴取するいくつかの方法、特にBecker-DeGroot-Marschakの方法(BDM法)とそれ以外の方法を比較しました、という論文。

　まず、WTPを調べる方法についてレビュー。

取引データから調べる。ないし、ニールセンのBASESみたいなsimulated test market (STM)から調べる。
調査で調べる。
- コンジョイント分析。
- WTPの直接聴取。"Contingent valuation"と呼んでいる。Jones(1975, J.Mktg); Kalish & Nelson(1991, Mktg.Letters)。
仮想的課題なので妥当性が低い(Hoffman et al., 1993, Mktg.Sci.)。また直接聴取の場合、聴取そのものが財の価値についての手がかりを与えてしまう (Alberini et al.,1997,Land Economics; Carson et al.,1999, unpub. これはたぶん2007, Environmental & Resource Economics)。
Vickreyオークション。ええと、Vickrey(1961)が示したところによれば、オークションに出された財を買う権利だけを決める競りは、インセンティブ整合的である。そこで、買値を封印したオークションで、n番目に高値をつけた競り手がn+1番目の買値で買う。これをVickreyオークションという。競り手の支配戦略は自分のWTPで値づけすることになる。欠点: (1)オークションの実施は大変。(2)auctionは購買時意思決定とずいぶん違う。
Becker, DeGroot, Marschak (1964, Behavioral Sci.)の手続き。本文中の説明によれば、"the utility of lotteries was measured by eliciting minimum selling prices [...] for gambles by determining actual transacion prices randomly". わかりにくくて悩んだが、こういうことであろう。くじの効用を測るために、くじの売値の最低値をつけさせる(売値づけ課題なのだ)。ランダムに決まる買値よりもその値が低かった時にはくじがその買値で売れる、そうでないときは売れない。市場調査はともかく、行動決定理論では広く使われている由(いま調べてみたら本当だった。不勉強でした)。例として Kahneman, Knetsch, & Thaler(1990, J.Political Economy), Prelec & Simester (2001, Mktg.Letters) が挙げられている。なんと、ベイジアン自白剤のPrelecだ... 世間狭いなあ。

　実験1と2。

実験1は、ドイツのキールという町のビーチで実施。被験者はビーチにいた人、200名。商品はコカ・コーラの缶。
実験2は、キールのフェリーで実施、被験者はフェリーの乗客、200名。商品はパウンド・ケーキ一切れ。

　どちらも、100人を統制群(直接聴取)、100人を実験群(BDM法)に割り振る。実験者が寄ってって声を掛ける：「こんにちは！キール大のリサーチャーです。マーケティングの調査をやってます」。断る人はほとんどいなかったそうだ。課題をやって、最後に質問紙。なお、調査参加報酬については記載がみあたらない。なにも渡さなかったようだ。
　課題は以下の通り。

統制群では、商品をみせ、買値の最大値を聴取する。
実験群の手続きは以下の通り。(1)商品をみせて手続きを教示。(2)「提案価格」(s)を答えさせる。(3)修正のチャンスを与える。(4)買値(p)をランダムに決める。ほんとに壺からくじ引きさせるのだそうだ。買値の分布は一様分布だが、一切教えない。(5)買値が「提案価格」以下だったら、その買値で強制的に買わせる。そうでなかったら買えない。

　実験群のほう、参加者の支配戦略は真のWTPを提案価格にすることである。
　リアリティを追求するので、架空貨幣をつかうとかあらかじめ報酬として金を渡すとか、そういう生易しい話ではなく、ほんとに被験者の財布から金を出させて売りつけるのである。日本でやったら役所に叱られちゃいそうな実験だ。

　結果。WTPの平均はBDMのほうが低い。そのほか「信頼性」「表面的妥当性」「内的妥当性」「基準関連妥当性」の4つに分けて、いろいろ分析してBDMが優れていると主張しているんだけど、いまいち決め手に欠ける感じ。たぶん一番強く推している証拠は、内的妥当性と称されている箇所であろう。それぞれの条件で、横軸にWTP、縦軸に人数をとった累積分布を描く。で、買値で購入確率を予測するロジットモデルを組んで、得られる予測曲線をあてはめると、BDMのほうがフィットしていた由。うーん、それって要するに、WTPの累積分布がBDMのほうでなめらかだった、ということの言い換えのような気がするんだけど。

　想定される批判にお答えして、実験3につなぐ。

BDMはほんとにincentive compatibleだったか(支配方略は真のWTPを答えることだったか)。というのは、Vickreyオークションでも真のWTPより少し高めの値付けをしてしまうといわれているからである。この論点はさらに3つに分けられる。
- 被験者が調査の文脈を超えたところに規範的な反応目標を置いていて、戦略的に誤った表現をしていたかも。→ BDMに限らず、直接聴取についてもいえることだ。
- 買値が提案価格を下回っていたら強制的に買わされる、ということがわかってなくて、高めに答えちゃってるんじゃないか。→ コストが支払としてフレーミングされているときはそういう戦略的行動は起きないという研究がある(Casey & Delquie, 1995, OBHDP)。
- 参加しているうちに関与が高まっていて、買値が提案価格を上回っていたら手ぶらでサヨナラというのが嫌で、高めに答えちゃってるんじゃないか。→実験3で検証。
BDMのほうが優れているのは、より考慮が必要な課題だったからではないか。→実験3で検証。
買い置きに影響されるような耐久財だったらうまくいかないのでは？ →実験3で検証。

　というわけで、実験3。こんどは実験室。被験者は学生255名、商品はボールペン。課題のあとで質問紙。課題は以下の3条件。

BDM-非MM群。BDM法で聴取する。
BDM-MM群。BDM法で聴取するのだが、開始前に報酬としてM&Mのチョコレートキャンディをあげる。BDM法でボールペンを購入できなくても、手ぶらでサヨナラということはなくなった、という主旨。ははは。
BRACKETS群。これが実験1-2の直接聴取群のかわりになる。まずチョコキャンディをあげる。つぎに、Gabor-Granger法っぽい課題を行う。まず「$5なら買いますか？」と聴取。もしyesだったら$7.5に値上げ。そこでnoだったら$5.25からはじめて、$0.25ずつ$7.25まで値上げしていく。こんな風に、最初の２問で上限と下限を決め、あとは下から絞り込んでいくわけだ。こういうのをdouble-bounded discrete choiceというのだそうな。ふうん。前掲のCasey & Delquie(1995)というのが引用されている。

　結果。実験1-2と同じく、BDMだとWTPが低めになった。

BDM-非MM群とBDM-MM群のあいだにWTPの差はない。「関与が高まるので高めに答えちゃう」説を否定。(うーん、ちょっと苦しいロジックだなあ...)
BRACKETS群だって大変な課題であった。だからこの差は考慮の必要性では説明できない。
耐久財でも再現できた。

　云々。

　考察。BDMは優れた方法である。直接聴取のような主観選好法はWTPの過大評価を招く。
　今後の課題。BDMはコンセプト評価には使いにくいし、高価な商品は難しいかも。こうした限界を克服する工夫が必要。とかなんとか。

　要するに、WTPを調べるのにBecker-DeGroot-Marschakの方法が優れている、という主旨の論文である。ふうん、そうですか。
　論文の主旨とはちがうけど、むしろ、あるWTP測定の信頼性・妥当性を示すのがいかに難しいかという点を痛感した。この論文では、たとえばデータを調査の日付で分割し、日付間での変動がBDMのほうで小さい、だから信頼性が高い、なあんてことをやっている(別に日付がノイズになると考えるだけの理由があるわけではないのに)。く、苦しい...それって信頼性の検証の方法としてはどうなの？でも、ほかにいい方法も思いつかない...。
　妥当性のほうも、質問紙の回答からWTPを予測するモデルをつくったら、BDMのほうが係数が有意になった、とかなんとか(もともとWTPの生成について明確なモデルを持っているわけではないのに)。く、苦しい...。でも、ほかにいい方法も思いつかない...。

読了：Wertenbrock & Skiera (2002) 消費者の支払意思額をくじ引きを使って測定する

2014年4月 7日 (月)

SNSをみてると、新しい生活が始まっていたり、お子さんが生まれていたり、世の中はさまざまな生と死と出来事に満ちあふれているのだが、そのなかで私は静かに他人様の書いた論文をコリコリと読むのであった。コリコリ。

Tziralis, G., & Tatsiopoulos, I. (2007) Prediction markets: An extended literature review. J. Prediction Markets, 1, 75-91.
　予測市場研究レビュー。ずっと前から読もう読もうと気に病みつつ放置していた。このたびめくってみたら、意外に短い内容であった。なんだかなあ。こういうことがあるから、読まなきゃと思ったものは、拙速でもなんでもいいからいったん目を通してしまったほうが良いのである。反省。

いくつかメモ。

Berg & Rietz(2003, Info.Sys.Frontiers) による予測市場の定義: "markets that are designed and run for the primary purpose of mining and aggregating information scattered among traders and subsequently using this information in the form of market values in order to make predictions about specific future events".
最初期の予測市場研究: まず、1990年からのHansonの研究。また、Iowa Electronic Marketsは1988年に始まっていて(へー)、92年に論文が出ている。この頃はpolitical stockが多かった。ビジネスへの応用はシーメンス・オーストリアのが早い由(Ortner, 1997, Working Paper)。
98年頃から研究が急増。といっても、2006年の論文は34本と書いてあるから、この時点ではまあ追いかけられない量ではなかったのだろう。いまは大変だろうなあ。重要な研究としては:
- Pennockらのdynamic pari-mutuel market. Pennockって前にScienceに書いてた人だ。
- Hansonらのcombinatorial maket design (2003, Info.Sys.Frontiers).
- Spann & Skiera (2003, Mgmt Sci.). うわあ、これは読まなきゃ...
- Wolfers & Zitzewitz (2004, J. Economic Persopectives).
- Berg & Rietz(2003, 前掲).
研究を手当たり次第に155本集めて分類:
- 記述 ... 紹介(13)、一般的記述(13)、未解決の問題(5)、そのほか(5)。
- 理論 ... 市場モデリングとデザイン(16)、情報累積過程の収束・均衡の性質(9)、そのほか(2)。
- 応用 ... 実験(13), Iowa Electronic Markets(16), そのほかの政治市場(21)、スポーツ(7)、そのほか(15)。
- 法と政策 ... 予測市場の合法性と規制(4)、公共政策と意思決定(11)、Policy Analysis Market(4), そのほか(1)。
IEMの本数がやたらに多いなあ。なお、[応用-そのほか]の15本から雑誌論文を拾ってみると、以下の4本であった。
- Gruca(2000, J. Marketing Education) 題名をみるに、映画の興収予測らしい。
- Gruca, Berg, Cipriano (2004, Infor.Sys.Frontiers) 新製品予測。
- Gruca, Berg, Cipriano (2005, Electronic Markets)
- Mangold, et al. (20005, IEEE Computer) 最終著者はPennock.
結論: 予測市場の研究は増えるでしょう。用語を標準化する必要があります。dynamic pari-mutuel のような適切なメカニズムの開発が予測市場研究をさらに拡張するでしょう。

読了：Tziralis & Tatsiopoulos (2007) 予測市場研究レビュー in 2007

2014年4月 5日 (土)

Prelec, D. (2004) A bayesian truth serum for subjective data. Science, 306(15).
　Bayesian Truth Serum (ベイジアン自白剤) を最初に提案した、有名な論文。以前頑張って読んだんだけど、途中で理解できなくなって放り出してしまった。このたび仕事の都合で再挑戦。

　客観的真実がわからない状況で、調査対象者から真実に近い情報を引き出す手法を提案します。
　先行研究：

従来のBayesian elicitation メカニズム:
- d'Aspremont & Gerard-Varet (1979, "Incentives and incomplete information", J.Public Econ.)
- Johnson, Pratt, & Zeckhauser (1990, ”Efficiency Despite Mutually Payoff-Relevant Private Information: The Finite Case", Econometrica)
- McAfee & Reny (1992, "Correlated Information and Mechanism Design", Econometrica)
調査者側が異なる反応の間の確率的関係を知っている必要がある。
Batchelder & Romney (1988, "Test Theory without an answer key", Psychometrica). コンセンサスが真理性の規準とされている。集団全体が歪んでいると結果も歪む。
デルファイ法. Linstone & Turoff, "The Delphi Method" (1975) という本が引用されている。上と同じく、コンセンサスが真理性の規準とされている。

　著者の基本的なアイデアは、個々の回答にその真実らしさを示す「情報スコア」を与える、というもの。たとえば、まず「過去1年の間にあなたは20人以上とセックスしましたか？」と聴取する。さらに、Yesと答える人は何割いると思いますか、と尋ねる。二問の集計を比較する。たとえば、一問目のYesの集計(Yes率の実態) が10%、このYes回答についての二問目の集計(Yes率の予測)が5%だったとしよう。こういう風に予測より実態のほうが高い回答、つまり"surprisingly common"な回答に、高い情報スコアが与えられる。
　なにいってんだ、という感じですが、著者の説明は以下の通り。

surprisingly common基準は、母集団頻度についてのベイズ推論が持っているこれまで注目されてこなかった含意を利用するものである。[...] ある意見ないし特性の母集団における頻度について、それをもっとも高く予測する人とは、その意見ないし特性を持っている人である。なぜなら、その意見を持っているということ自体が、その意見が一般にポピュラリティを持っているということの、妥当かつ好まれるシグナルになるからだ。[...]

　もう少しフォーマルな説明。
　回答者の正直な答えのことを個人的意見と呼ぶ(実際の回答と一致するとは限らない)。対象者 $r$ に $m$ 個の選択肢のなかからひとつ選ばせる課題で、

個人的意見が選択肢 $k$ であるとき $t^r_k = 1$, そうでないとき $t^r_k = 0$ とする。これら $m$ 個の値からなるベクトルを $t^r$ と略記する。
同様に、一問目への回答のベクトルを $x^r$ とする。要素は0か1, 合計は1である。
二問目についての予測のベクトルを $y^r$ とする。要素は0以上、合計は1である。

　対象者は二問目の回答に際して母集団分布を推測する。未知の母集団パラメータを $\omega = (\omega_1, \ldots, \omega_m)$ と略記するとして、対象者は事前分布 $p(\omega)$ を持っていると考える。これは全員で共通だと仮定し、共通事前分布と呼ぶ。さて、回答者は自分の個人的意見を「非個人的に情報的な」シグナルとして扱い、信念を $p(\omega | t^r)$ にベイズ更新する。個人的意見が同じ時、そのときに限り、2人の人の事後分布は等しくなると仮定する。事前分布・事後分布の形状について全く仮定をおかないところがポイント。

　以下のようにスコアリングする。標本サイズは十分に大きいものとする。

　まず、それぞれの回答カテゴリについて回答を集計する。
　$\bar{x}_k = \lim_{n\rightarrow\infty} (1/n) \sum_r x^r_k$
　$\log \bar{y}_k = \lim_{n\rightarrow\infty} (1/n) \sum_r \log y^r_k$
二問目のほうに$\log$がついているのは幾何平均をとりたいからである。式を何度も見直したが、一問目になんと答えたかは無視して、全員について単純に集計するのである。(ここでどれだけ考え込んだことか...)
　次に、各カテゴリについての情報スコアを求める。
　$\log (\bar{x}_k / \bar{y}_k)$
$k$ 番目のカテゴリを回答した人にはこのスコアを渡す。つまり、
　$\sum_k x^r_k log (\bar{x}_k / \bar{y}_k)$
えーと、「みんなマイナーだと思っているけど実はメジャーな意見」に組した人は高くなるわけか。

　さらに、その人の予測の正確さについてのスコアも求める。
　$\alpha \sum_k \bar{x}_k \log (y^r_k / \bar{x}_k)$
$\alpha$は調整用の正の定数。えーと、カテゴリに対する回答率のその人の予想と実態との比の対数を、実態で重みづけて足しあげた値だ。これ、経験分布とその予測のずれの相対エントロピー(KLダイバージェンス)と比例している由。どうも納得できなくて、いろいろ値を入れて試したんだけど、要するに、ぴったり当てて0, 予測をしくじるほど負の方向に大きくなる。要は適当に予測している人へのペナルティであろう。で、その期待値を最大化するのは $y^r ＝ E(\bar{x}_k | t^r)$とすることである由。真面目にやるのが一番だってことですね。

　各対象者にはこの2種類のスコアの和を与える。みんなが正直に答えているという想定のもとで、正直な回答はこのスコアの期待値を最大化する(ベイジアン・ナッシュ均衡となる)。また、どの対象者においても、情報スコアの期待値をそれ以上に高くする他の均衡解は存在しない。

　この手法を実際に用いる際には、対象者にスコアリングの数理や均衡の概念を説明しなくてもよい。ただ、正直な回答が得点を最大化するということ、個人的な真の回答について考える際には他の対象者がなにをいうかは無視して良いということ、を伝えればよい。ある条件の下でこの主張が誠実であることは均衡分析によって確認されている。云々。

　限界。前提が満たされていないとうまくいかない。すなわち：(1)公的情報が利用可能で、個人的意見が情報的でないとき。たとえば、母集団における女性の割合についての判断には、本人の性別は効かないだろう。フォーマルにいえば、ふたりの $t$ は異なるのに、ふたりの $p(\omega | t)$ がほぼ等しい、という場合である。(2)好みや性質のちがう人が混じっていて、違う理由で同じ答えを示し、しかし母集団についての事後分布は同じ、という場合。つまり、ふたりの $t$ は同じなのに、ふたりの $p(\omega | t)$ が異なる、という場合である。
　その他、$\alpha$ の意義、数値例、他の手法との関係、など。

　うーん... 二回読んだけど、疑問点や理解できない点が山のように出てきた。やっぱり、この論文は難しい。別のを読んでから考え直した方がよさそうだ。

　一番不思議なのは次の点。表面的にいえば、ベイジアン自白剤は「自分の意見と同じ意見を他人も持っている」という認知バイアスを活用する手法だと思う。で、この認知バイアスを説明するために、母集団での意見の分布について全員が同じ事前分布を持っており、自分の意見だけを入力としたベイズ更新を行う、というモデルをつくる。著者が提案するスコアリングはこのモデルに依拠している。そこで疑問なのだけれど、第一に、「自分の意見と同じ意見を他人も持っている」という認知バイアスを説明する方法はほかにないのだろうか。もしもっと優れた説明が可能なら、全然別のスコアの最大化が均衡解になるのではないか。第二に、著者らのモデルを正当化する証拠はあるのか。直感的には、全員が同じ事前分布を持つという想定も、自分の個人的意見だけが入力だという想定も、相当に無理があるような気がするんだけど。
　もっと素朴な疑問もある。この論文では、このスコアを最大化するためには正直に答えることがナッシュ均衡だ、ということが売りになっているのだけれど、それはなにを意味しているのだろう。そのスコアを最大化することを参加者が目指したくなるようなメカニズムを設計すれば、きっとみんな正直に答えてくれますよ、でもそんなメカニズムをどうやってつくるのかは知りませんけどね、ということなのだろうか。
　最後の疑問は、正直なところここに書き留めるのがちょっと恥ずかしいようなナイーブな疑問なのだけれど... この論文に限らないのだけれど、ゲーム理論の概念を使って、この状況下ではこの行動が合理的です、だからこういう風に設計しましょう、という説明を聞くと、いつも狐につままれたような気分になってしまう。人が利用可能な情報を全て使って合理的に行動するとは限らないんじゃない？だって俺はもっと頭悪いよ？と思うからである。この論文についていえば、スコアをインセンティブに直結させるメカニズムをうまく設計したら、本当に人は正直に答えるようになるのか、という疑念がある。

読了: Prelec (2004) ベイジアン自白剤

2012年10月 5日 (金)

Ding, M. (2007) An incentive-aligned mechanism for conjoint analysis. Journal of Marketing Research, 44(2), 214-223.
　たいしたことをしているわけではないのに、こういうことをいってはいけないのだけれど、私は少々疲れているようである。
　なにかその、仕事とも実人生ともなあんにも関係なくて、気楽に読めて、頭の体操になるようなものでも持って、コーヒーショップにでも籠って、気分を変えよう。と思ったのだが、あいにくカバンに本がはいっていない。仕方なく、偶然見かけたキャッチーな論文を印刷して外に出た。truth-telling gameだなんて、面白そうじゃないですか。難しくて手におえなかったら、居眠りでもすればよい。
　で、夜更けの閑散としたスタバのソファーでパラパラめくり始めたら、これが仕事と関係ないどころか、おおありで...

　背景や目的や理屈をすっとばして実験手続きについていえば、こういう実験である(実験1)。実験が行われたのはiPod Shuffleが発売された一ヶ月後。被験者は大学生・大学院生で、デジタル・プレイヤーの購入に関心がある人、49人。実験群と統制群に折半する。

まず、以降の実験手続きについて正確に教示する。また、実験に登場するiPod Shuffleとそのアクセサリについて詳しく説明する。ところで、iPod Shuffleにはギフトセットというのがあり(「アスリート向けセット」とか)、本体と周辺機器がパッケージになっているそうである。
コンジョイント課題。iPod Shuffleの3種類のパッケージを提示し、そのなかのひとつ、ないし「どれも買わない」を選択するよう求める。パッケージを構成している属性は、本体の記憶容量、ケース、ヘッドフォン、スピーカ、カーオーディオ、電源、保証、価格(どれがどれだかわからないが、2,2,3,3,3,3,3,4水準だそうである)。これを24試行繰り返す。
[実験群のみ] コンジョイント課題には登場していない、ある特定のパッケージ X を提示する。Xは全員同じ。
妥当性チェック課題。ここまでに登場していないパッケージを16個並べて提示し、そのなかからひとつ選ぶよう求める。被験者が選んだパッケージを Y とする。
最後に報酬を渡す。

この報酬というのが要因操作になっている。まず、全員に10ドル渡す。さらに抽選を行い、40～50人にひとりの割合で、当選者を選ぶ。

統制群では、当選者にはパッケージ Y と、250ドルからYの金額を引いた額を渡す。いいかえれば、当選者は250ドルもらうかわりに、その金の一部を払って、妥当性チェック課題で自分が選んだパッケージを買わなければならないわけだ。
実験群では、各当選者についてコインを投げる。表が出たら統制群と同じ。裏が出たときがややこしい。
- あらかじめ、コンジョイント課題におけるその人の反応に基づき、パッケージ X に対するその人の支払意思額を推定しておく。仮にそれが100ドルだったとしよう。
- あるランダムな値を発生させる。その値は、0ドルからある上限額までの一様分布に従う。実験に登場するすべてのパッケージの価格はその範囲に入っている。その値をxとしよう。
- もしxがその人の支払意思額(100ドル)よりも上だったら、単にその人に250ドルを渡して、おしまい。
- もしxがその人の支払意思額以下だったら、その人にはパッケージ X と、250ドルからxを引いた額を渡す。いいかえれば、その人は250ドルもらう代わりに、ランダムな金額xを払って、パッケージXを買わなければならないわけだ。

　こうして書いてみると、先生いったいなにがしたいんですか？という感じだけど、ひとことでいえば著者は、対象者がコンジョイント課題で正直かつ真剣に答えてくれるような報酬の仕組みを提案しているのである。
　著者はこの課題を、被験者と実験者とのあいだの不完全情報ゲームとして捉えている。被験者は、自分の選好構造という私的情報を、ある方略に基づいて提示する。実験者の反応は提示された情報で決まる。で、ゲーム理論の観点からみると、実験群の被験者にとって自分の利益が最大になる方略(ベイジアン・ナッシュ均衡)は、自分の支払意思額を実験者に正確に推測させることだ、ということが証明できるのだそうである。

　うーむ... あれこれ考えてみたのだが、素人にも直観的にわかる説明としては、おそらくこういうことではないかと思う。教示を受けた実験群の被験者は、自分が運よく当選し、さらにコインの裏が出た場合について想像するだろう。Xがどんなパッケージかはまだ教わっていないが、そのXに対する自分の本当の支払意思額が、たとえば100ドルだったとしよう。
　コンジョイント課題における自分の回答から推定された支払意思額が、たとえば110ドルだったらなにが生じるか。

ランダムな値 x が、もし110ドルより大きかったら、パッケージXは買わずに済む。
もしxが100ドル以下だったら、本当の支払意思額以下のお買い得価格 x で X を買える。
問題は x が110ドル以下で100ドルより大きかった場合だ。このときは、自分の本当の支払意思額 (100ドル) よりも高い額で、無理やり X を買わされる羽目になる。これは避けたい事態だ。

　いっぽう、コンジョイント課題の回答から推定された支払意思額が、たとえば90ドルだったらなにが生じるか。

ランダムな値 x が、もし100ドル以上だったら、パッケージ X は買わずに済む。
もし x が90ドル以下だったら、本当の支払意思額以下のお買い得価格 x で Xを買える。
問題は、xが100ドルより小さく90ドルより大だった場合だ。このときは、 X を自分の本当の支払意思額(100ドル)より安いお買い得価格 x で買えるところだったのに、結局買えずじまいになる。これは避けたい事態だ。

　すなわち、避けたい事態とは、自分の本当の支払意思額と、コンジョイント課題で推定された支払意思額とのあいだのスキマに、ランダムな値 x が落ちてしまうことだ。そういう事態を避けるためには、スキマをなるべく小さくしておく必要がある。そのために、コンジョイント課題には真剣かつ正直に答えよう、と被験者は考えるだろう。
　... というような理屈ではないかしらん。

　実験で注目する結果指標は、被験者が妥当性チェック課題で選んだパッケージ Y と、コンジョイント課題の回答に基づきその人が選ぶと予測されたパッケージとの一致。統制群では24人中4人、実験群では25人中9人で一致した。つまり、コンジョイント課題で推定した効用の妥当性は、期待した通り、実験群で高くなった。云々。

　いやあ、面白かった。被験者がホントに著者のいうような考え方をしているのか、この手法そのものにどのくらい実用性があるのか、回答の妥当性向上は調査コストの増大に見合うのか、そのへんにはいろいろ議論がありうると思う。でも、リサーチにおいて正直な回答が報われるようにインセンティブの仕組みを調整しましょう、そのためにリサーチをゲーム理論の観点から分析しましょう、という発想が、私にはとても新鮮だった。

　支払意思額を正直に表明してもらうために、その人の支払意思額とランダムな値で報酬を決めるというアイデアは、Becker, DeGroot, & Marschak(1964, Behavioral Science)が考えたのだそうだ。これは経済学の研究だが、市場調査での応用としてはすでにWertenbroch & Skiera(2002, JMR)というのがあるらしい。この論文は、支払意思額の表明をコンジョイント課題で行うという点にオリジナリティがあるのだと思う

読了：Ding (2007) 調査対象者が正直かつ真剣に回答したくなるような仕組みのご提案

2012年3月26日 (月)

Pennock, D.M., Lawrence, S., Giles, C.L. & Nielsen, F.A. (2001) The real power of artificial markets. Science, 291: 987-988.
人工市場 Foresight Exchange による科学的発見の予測についての報告。よく引用されるらしいのだが、たったの1頁のLetterであった。

読了：Pennock, et al. (2001) 人工市場で科学的発見を予測

2011年6月17日 (金)

Dahan, E., Kim, A.J., Lo. A.W., Poggio, T., Chan, N. (2011) Securities Trading of Concepts (STOC). Journal of Marketing Research, 48(3), 497-517.
仕事の都合で読んだ。
ほかのところに詳しく書いたので、内容のメモは省略するが、これは確かにものすごく革新的だと感じたし、かつ、いまこの発想が出てくるのは必然だとも感じた。これからの市場調査のひとつの方向性を示していると思う。
それにしても、誤植は多いし説明はわかりにくいし、読むのはかなり苦痛だった。なんとかしてくださいよ、もう...

読了：Dahan, et.al. (2011) コンセプト取引

読書日記

読んだ本を淡々と記録します