elsur.jpn.org >

メイン > 論文:予測市場

2019年8月15日 (木)

中塚昭宏, 松川弘明(2018) 集合知メカニズムに基づく投票方式の需要予測手法に関する研究. 日本経営工学会論文誌, 69, 143-152.
 需要予測のための企業内予測市場の報告。第一著者は富士ゼロックスの方。

 提案手法は以下の通り。

  1. 予測対象商品、期間、参加者、賞品を決める。
  2. 「投票フォーム」を設計する。過去の実績データとかプロモーション状況とかを簡潔にまとめる。で、各商品の需要予測区間を設定し(つまり区間証券を取引するわけね)、投票券の枚数を決める(初期資金に相当する概念であろう)。予測区間は10個以内、投票券も商品あたり10枚以内とすべし、とのこと。
  3. 予備実験をやったり説明会をやったりして...
  4. 投票フォームを一斉送信し投票を求める。なんと、webサービスじゃなくて、Excelファイルのメール配布・回収でやるのである!
  5. 需要予測分布を求めて公開。
  6. 商品ごとに、予測が的中した票に付与し、ポイント合計の上位者に商品を配る。

 「ある大手複写機メーカー」で実験やりました。
 参加者は製造販売管理部門の31名。自社商品6個の翌月の需要をあてる。区間数10, ひとりあたり投票券10。投票フォームの送付から回収まで5日間。同じ6個の商品について、5月, 6月, 7月に、それぞれ翌月の需要を当てさせた。

 結果。
 従来社内で使っていた時系列分析による需要予測よりも性能がよかった。また予測分布の分散は予測誤差を捉えていた。
 各参加者の成績は実施月によって異なっていて、特定の優秀な予測者群はみつからなかった。(31人全員の成績が表になっている...)
 「ある予測区間に全票を突っ込む」という行動は一般職の人に多かった。かつ一般職で予測成績が悪かった。マネージャーのほうがさまざまなリスクを想定しているからだろう。(←これ面白いなあ)
 云々。
 
 ざっと目を通すつもりだったんだけど、途中からなんだか楽しくなってきてしまった。盛り上がっている様子が目に浮かぶような気がする。予備実験として「クリアケースのなかのチョコレートの数をあてる」というのをやって、参加者に集合知のパワーを見せつけた模様だ。楽しそうだなあ。
 提案手法のポイントは、取引ルールを思いっきり簡略化して、ワンショットの投票形式にしたところであろう。通常の予測市場と比べてどう変わってくるのかという点が興味深いと思った。

読了:中塚・松川(2018) 企業内予測市場で需要予測

山田祐樹(2016) 認知心理学における再現可能性の認知心理学. 心理学研究, 59(1), 15-29.
 再現可能性の危機についての意見論文。問題自体にはあんまし関心ないんだけれど、再現可能性評価のための予測市場の話が載っていたので目を通した。
 いくつかメモ:

読了:山田(2016) 再現可能性危機 in 認知心理学

2018年10月23日 (火)

Rothschild, D., Wolfers, J. (2012) Forecasting Elections: Voter Intentions versus Expectations. SSRN.

 未公刊のWorking Paperなんだけど、頻繁に引用されているので目を通したら... いやー、これは凄いわ。なぜ論文にしないんだろう。

 第一著者のRothschildさんはMicrosoftにお勤め。第二著者は予測市場のレビューWolfers & Zitzewitz(2004)を書いたWolfersさんである。世間は狭い。

1. イントロダクション
 この論文はvote intention(VI)とvote expectation(VE)のどっちが予測力を持つかを調べる。[以下、この論文のあらすじ...]
 [なお、この論文は一貫して2政党の選挙だけを考えている]

2. 当選者の予測
 American National Election Studies の1948-2008のデータを使う。この調査では、大統領選(15回)の1か月前に、VI設問(誰に投票するか)とVE設問(だれが当選すると思うか)を訊いていた。集計すると、VEのほうが当たっている。
 ここからは州レベルの分析。「この州ではどっちが勝つと思うか」というVEを訊いていた。延べで345件のレースを分析できる。集計すると、やはりVEのほうが当たっている。

3. 得票率の単純予測
 レースを単位として、得票率、VI率、VE率の関係を調べる。ここではウェイティングなし。
 得票率とVI率との相関は0.57, 線形な関係があるようにみえる。
 得票率とVE率との関係も強いんだけど、線形ではない(これは当然で、オバマが勝つだろうという人が2/3いるからといってオバマの得票率が2/3だということにはならない)。

 VE率と得票率の関係を、以下のようにモデル化しよう。
 レース$r$における個人$i$の民主党得票率シグナル(潜在変数)を$x_{r}^{*i}$, 民主党得票率を$v_r$として
 $x_{r}^{*i} = v_r + e_r^{i}, \ \ e_r^i \sim N(0, \sigma_e^2)$ [1]
で、VE回答$x_r^i$は$x_{r}^{*i} > 0.5$のときに1, そうでないときに0とする。
 ここからプロビット回帰モデル
 $E[x_r^i | v_r] = \Phi \left( \frac{1}{\sigma_e} (v_r -0.5) \right)$ [3]
が得られる。推定すると$\hat{\sigma}_e = 0.15$となった。
 これに基づき、母集団モデル
 $E[x_r | v_r] = Prob(v_r + e^i_r > 0.5) = \Phi(\frac{v_r-0.5}{\sigma_e})$ [4]
を想定する。$x_r$は母集団パラメータであることに注意。
 左辺$E[x_r | v_r]$は期待値であって、$x_r | v_r$には実際には$e_r^i$に起因するノイズが乗るんだけど、母集団が十分に大きければ無視できるから、結局
 $x_r \approx \Phi(\frac{v_r-0.5}{\sigma_e})$ [5]
と考えられる。これをひっくり返して
 $E[v_r | x_r] \approx 0.5 + \sigma_e \Phi^{-1}(x_r)$ [6]

 さて、さきほど得票率$v_r$とVE率$\hat{x}_r$の散布図が非線形であることを確認した。これは曲線 $0.5 + 0.15 \Phi^{-1}(\hat{x}_r)$として理解できるわけだ。実際には、$\hat{x}_r$には標本抽出誤差が載っているから、この曲線はデータにフィットさせて得た曲線ではない(得票率とVI率の関係を表す45度線がデータにフィットさせて得た直線でないのと同じ)。
 [↑うわあ... これ滅茶苦茶面白い... 整理すると、人々の行動生起率(ここでは民主党の得票率)について閾値を切って二値で予測させたとき、その回答の割合を、実際の行動生起率と対応付けるべく変換する方法を考えたわけだ。なるほどねええ]

 こうして得た変換後VE率$0.5 + 0.15 \Phi^{-1}(\hat{x}_r)$と、得票率との相関は0.78。生のVI率と得票率との相関よりも高い。RMSE, MAEも有意に小さい。重回帰でも重みづけ和でも圧勝である。

4. 得票率の効率的予測
 上の散布図を観察すると、生のVI率にせよ変換後VE率にせよ、実際の得票率より極端に振れる(実際の得票率はもっと接戦である)。これは標本抽出誤差のせいだ。
 ここでは予測のMSEを最小化するような縮小推定量をつくってみる。
 
 まずはVIのほうで考えよう。
 $\hat{v}_r = v_r + \alpha^v + (\eta_r + \tau_r), \ \ \eta_r \sim N(0, \sigma^2_{\eta_r}), \ \ \tau_r \sim N(0, \sigma^2_\tau), \ \ E[\eta_r \tau_r] = 0$ [7]
 $\alpha_v$はANESにおける民主党バイアス。$\eta_r$は標本抽出による変動で、そのサイズは標本サイズに依存する。$v_r$は調査時点から投票日までに生じる変動。
 ここから次式を得る。
 $E[v_r | \hat{v}_r] = \mu^v + \frac{\sigma_v^2}{\sigma_v^2 + \sigma^2_{v_r - \hat{v}_r}} (\hat{v}_r -\alpha^v - \mu^v)$ [8]
 $\mu^v, \sigma_v^2$は実際の民主党得票率の平均と分散。実際に計算してみると、$\hat{\mu}^v = 0.468, \hat{\sigma}_v^2 = 0.0089$。$\alpha^v$もANESデータベースから簡単に計算できて、$\hat{\alpha}^v = 0.031$。さて、
 $\sigma^2_{v_r - \hat{v}_r} = \sigma^2_\tau + \sigma^2_{\eta_r}$ [9]
である。実は標本の一部について、VI回答と実際の投票先をつきあわせることができる。そこから$\hat{\sigma}^2_\tau = 0.00035$と推定できた。$\sigma^2_{\eta_r}$は、[...ANESの標本設計とデザイン効果の話に突入するので大幅中略...]、まあとにかく推定できた。
 こうして、$E[v_r | \hat{v}_r]$が推定できた。実際の得票率との相関は0.59、RMSEもMAEも下がった。

 今度はVEのほうで考えると...
 [本項、読みたいんだけどいまちょっと時間がないのでスキップ]
 こうして$E[v_r | \hat{x}_r]$が推定できた。実際の得票率との相関は0.77, RMSEもMAEも下がった。

 ふたたびVIとVEを比べると、やっぱしVEの圧勝である。
 
5. out-of-sampleテスト
 上では2008年のデータを使ってなかった。当てはめてみると、やはりVEの勝ち。

6. 二次データによる結果
他のデータソースをいろいろ集めてみると... 投票日の180日前までなら、やはりVEの勝ち。

7. 構造的解釈
 思うに、対象者は選挙結果の予測に役立つさまざまな情報を持っていて、VEはそれらを反映するんだけど、VIはその一部しか反映してないのではないか。
 モデル化してみよう。

 まずは単純なモデルから。
 対象者$i$は、自分を含めた身近な$m$人に対してひそかに調査を行い、その結果に基づいてVE回答しているとしよう。で、個々の対象者が持っているこの「内輪調査」における民主党投票意向の割合を$\hat{v}_r^l$とする。
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r] = \hat{v}^l_r$ [18]
仮に「内輪調査」の標本が不偏なら、これは二項分布$B(v_r, \frac{v_r(1-v_r)}{m})$に従う。接戦だったらこれは$N(v_r, 1/(4m))$で近似できる。
 ということは、
 $E[x_r^i | v_r] = Prob(E[v_r|\hat{v}_r^l] > 0.5) \approx \Phi (2\sqrt{m}(v_r - 0.5))$ [19]
である。このプロビット回帰モデル、2節で推定した
 $E[x_r^i | v_r] = \Phi \left( \frac{1}{\sigma_e} (v_r -0.5) \right)$ [3]
と同じですわね。$\hat{\sigma}_e = 0.150$だった。ここから$\hat{m}$はだいたい$11$だ。いいかえると、VE設問において、ひとりの人は自分だけでなく、10人分の身近な人々からの情報に基づいて回答しているのである。

 もちろん、身近な人々が無作為標本ってことはない。もうちょっと精緻化しよう。
 「内輪調査」における民主党投票意向の割合$\hat{v}_r^l$の平均は、$v_r$ではなくて$v_r+\theta_r^{s_i}$であるとする。添え字$s_i$は、$i$さんのソーシャルネットワークという意味。
 仮に対象者が、自分のソーシャルネットワークのバイアスに自覚的でそれをきれいに取り除くことができるならば、
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r; \theta_r^{s_i}] = \hat{v}^l_r - \theta_r^{s_i}$ [20]
である。これは二項分布$B \left(v_r, \frac{(v_r + \theta_r^{s_i})(1 - v_r - \theta_r^{s_i})}{m} \right)$に従う。分散がちょっぴり変わったけど、正規近似しちゃうなら $N(v_r, 1/(4m))$のままでよい。つまり、実質的には変わらない。

 さらに精緻化する。対象者が身近な人々のバイアスを知らない、ないし、長い目で見れば知っているけど今回のレースにおけるバイアスは知らない、としよう。
 身近な人々における未知のショックを$\eta_r^{s_i} \sim N(0, \sigma^2_\eta)$とする。このとき、$\hat{v}^l_r$は平均$v_r + \eta_r^{s_i}$の二項分布に従う。これを正規近似すると、平均は$v_r$だが、分散は$1/(4m) + \sigma^2_\eta$に増える。この分散を級内分散 $\lambda = \frac{\sigma^2_\eta}{\sigma^2_\eta + 1/(4m)}$ を使って書き換えると、$1/(4m-(1-\lambda))$となる。よって
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r] = \hat{v}^l_r \sim N\left(v_r, \frac{1}{4m(1-\lambda)} \right)$ [21]
 $E[x_r^i | v_r] = Prob(E[v_r|\hat{v}_r^l] > 0.5) \approx \Phi ([2\sqrt{m(1-\lambda}](v_r - 0.5))$ [22]
 よぉし、じゃあ$\lambda$を他のデータソースから推測したろうじゃないの。[...おおお。すごく面白い、面白いんだけど、正直疲れちゃったので本項はメモ省略]
 ...というわけで、$\lambda=0.45$と推測しました。$\hat{m}$はだいたい20となる。

8. どんな情報がアグリゲートされているのか?
 VEが反映している情報とは何か。言い換えると、$m$ってのはほんとに友達の人数なのか、それとも、マスメディアとか過去の選挙結果とかから得た情報なのか。
 ここでは、VEが反映しているのがidiosyncraticな情報か、それともcommonな情報かという点について検討する。[←うぉぉぉぉぉぉ]

 極端にいえば、VEが反映しているのが完全にcommonな情報であれば、みんなが同じVEを返すはずである。また完全にidiosyncraticな情報であれば、VEは人によって一致しないし、(それがinformativeなのであれば)VEは接戦のときにより不一致になるだろう。

 シミュレーションしてみよう。以下、$\sigma_e=0.15$とする。
 それぞれの対象者が、独立で不偏なidiosyncraticシグナルと、(選挙間で独立で不偏な)commonシグナルを受け取る。対象者は前者に$(1-\phi)$, 後者に$\phi$の重みをつけてこれを足し、VEを返す。
 $\phi=1$ならVEは必ず0か1になる。いっぽう$\phi=0$なら、横軸に実際の民主党得票率、縦軸にVE率をとったとき、なだらかなロジスティック曲線状になる。
 $\phi$を徐々に変えていくと、$\phi=0.14$のときに実データと近くなる。つまり、VEが反映しているのはかなりidiosyncraticな情報である。

 よーし。[21]式に戻るぞ。
 idiosyncratic シグナルを$\hat{v}^l_r \sim N \left(v_r, \frac{1}{4m(1-\lambda)} \right)$、それと直交するcommonシグナルを$c_r \sim N(v_r, \sigma_c^2)$とする。[21]式は
 $x_r^{*i} = E^i[v_r | \hat{v}^l_r; c_r]$
 $= \frac{\sigma_c^{-2} c_r + 4m(1-\lambda) \hat{v}_r^l}{\sigma_c^{-2} + 4m(1-\lambda)}$
 $= v_r + \frac{\sigma_c^{-2}}{\sigma_c^{-2} + 4m(1-\lambda)}(c_r-v_r) + \frac{4m(1-\lambda)}{\sigma_c^{-2} + 4m(1-\lambda)}(\hat{v}_r^l-v_r)$ [24]
という風に化ける。最後の行の第二項がcommon シグナル, 第三項がidiosyncraticシグナルである。
 [...ちょっと時間切れなので以下メモは省略するけど、面白いなあ]

9. VEとVIの相関
 vote expectationにおけるwishful thinkingの存在は昔から知られている。また、他者に依存して選好を形成する現象も広く知られている(バンドワゴン効果とか)。
 実際、VIとVEの個人レベルでの相関は0.42。

 これは本論文のモデルで容易に説明できる。「内輪調査」の対象者のなかに自分が入っているからである。
 まずは「内輪調査」対象者が無作為だった場合。自分抜きの「内輪調査」結果を$\hat{v}_r^{-l} \sim N(v_r, \frac{v_r(1-v_r)}{m-1})$としよう。$\hat{m}=11.1$として、
 $Prob(x_r^i = 1|v_r^i = 1; \hat{v}_r^{-l}) \approx \Phi(6.4(v_r-0.45))$
 $Prob(x_r^i = 1|v_r^i = 0; \hat{v}_r^{-l}) \approx \Phi(6.4(v_r-0.55))$
となる。$v_r^i$と$x_r^i$の相関は、$v_r=0.5$のとき0.25となる。
 ソーシャルネットワークとcommon/idiosyncratic情報を付け加えると...[死ぬ―。以下省略するけど、レースごとにVIが民主党の人と共和党の人に分けて、実際の民主党得票率とVEの散布図を描き、モデルから予測される曲線を当てはめる。VIによる差をかなり説明できる]
 このように、VIとVEの相関は合理的推論モデルの範囲内で説明できる。

10. 非無作為標本からの効率的な予測
[どっちかの政党に投票した人だけに絞って分析し直す。頭が混乱してきたのでパスするけど、モデルを使うとそれでも得票率が結構予測できるという話]

11. 考察
 選挙分析者のみなさん、VIよりVEがあたります。
 構造的解釈の節ではVEが当たる理由の説明を試みた。またこのモデルを使えばVEとVIの相関が説明できるし、すごく偏った標本からでも予測できる。
 思えば、科学的な世論調査が勃興する前、選挙予測の方法は「誰が勝つと思いますか」と訊ねることだった。本研究はいわば歴史的実践へと立ち戻るものであった。
 今後はこういう手法の研究が進んで、製品の需要予測とか消費者測定とかに使えるようになるといいですね。

 ... 正直、参りました。脱帽。
 いやあ、これを最初に読んでなくてよかった。もし読んでたら、このテーマには絶対手出ししようと思わなかったわ...
 
 感動してばかりでも癪に障るので、自分なりに別の角度から考えてみると、この論文のモデルと、Hong&Pageいうところの「集合知が生じるのはエージェントが多様だからかもしれない」とはどういう関係にあるのだろうか。この論文の言葉で言うと、VEにおけるシグナルが不偏で分散が一定であれば、idiosyncraticシグナルの比率が高いほうがVEベースの予測の精度が上がる、ということになるのだと思うけれど、これは8節のモデルからいえることだろうか。

読了:Rothschild & Wolfers (2012) 「誰に投票しますか」と訊くより「誰が勝つと思いますか」と訊いたほうが良いのはなぜか、モデルで説明しよう

 引き続きcitizen forecasting 論文のメモ整理。
 政治学者Michael Lewis-Beckさんによるcitizen forecastingについての論文は、調べた限りでは3本。citizen forecastingという概念を最初に打ち出したノート Lewis-Beck & Skalaban (1989), 下記の Lewis-Beck & Tien(1999), そしてUK総選挙に適用した Lewis-Beck & Stegmaier(2011)である。

Lewis-Beck, M.S., Tien, C. (1999) Voters as forecasters: a micromodel of election prediction. Internetional Journal of Forecasting, 15, 175-184.

 Lewis-Beck & Skalaban (1989)と同じデータソース(American National Election Study)に基づき、期間を延ばして再分析した論文であった。中身はだいたい同じだが、こっちのほうが論述が整理されている。

読了:Lewis-Beck & Tien (1999) 選挙予測のcitizen forecasting (改訂版)

citizen forecasting論文読み祭りのメモ整理。自分の分析のほうが、なにがなんだかわけがわからなくなってしまったので、原点に戻って...

Lewis-Beck, M.S., Skalaban, A. (1989) Citizen forecasting: Can voters see into the future? British Journal of Political Science, 19(1), 146-153.
おそらくcitizen forecastingを研究テーマとした最初の論文。たしか前に目を通した覚えはあるんだけど...

 対象はUS大統領選。American National Election Studiesでは「誰が大統領になると思いますか」という設問をずっと訊いていた。集計すると、結構当たっている。

 個人レベルでモデルを組んでみた。予測(正解を+1, 不正解を-1)を目的変数、{政党支持、関与、関心、メディア接触、政治が複雑だと思うか}を説明変数にとったOLS回帰モデル、選挙ごとに推定した。整合的な知見はない。[二値変数を目的変数にとったOLS回帰? 著者が著者でなければ、おいおい素人か、と思ってしまうところだ。プロビットやロジットもやったけど結果は同じである由]

 今度は{政党支持、投票先意向、学歴、調査時点}を説明変数にとってみた。高学歴だと正解しやすい。投票日が近いと正解しやすい。
 
 集団レベルではよく当たるのはなぜか。選挙を分析単位として、正解者率を目的変数、勝った政党の得票率を説明率にとった単回帰ではR二乗が0.9。つまり差があるほど予測しやすい。[←そうそう、前にこれ読んだときは、なにこのモデル、アホちゃうかと思ったのだが、いまになって読むと「嗚呼、苦労してはるなあ」と涙ちょちょぎれる思いである]

 結論。
 投票者による選挙結果の予測を社会文化的諸属性が拡張する。接戦の程度も効果を持つ。投票者はアホではなく[←ほんとにこう書いてある]、結果をある程度理解しているのだが、しかしシニカルでもないので、投票に行くのである。

 ... こうして読み直してみると、この短い論文というかノートの段階で、ぱっと思いつく論点はだいたい網羅されていたのであった。
 「選挙結果が僅差だと個人の予測は外れやすい」というのも、正直「そりゃそうだろうよ」という話に聞こえるけど、この時点でのこの研究の文脈では、おそらく意味のあるステートメントだったのだろうと思う。想像するに、「投票者は選挙結果がわからないからこそ投票に行くのだ」というような対抗的な想定があったのではないか。
 いっぽうここに出現しないのは、スロウィッキーとかスコット・ペイジのような「群衆の知恵」という視点、集団の予測能力が個人の予測能力の総和を超えるという視点である。

読了:Lewis-Beck & Skalaban (1989) 選挙予測のcitizen forecasting (記念すべき第一弾)

citizen forecasting 論文読み祭り, こんどはドイツに参りました。Graefeさんが謝辞に入っている。

Ganser, C., Riordan, P. (2015) Vote expectations at the next level. Trying to predict vote shares in the 2013 German federal election by polling expectations. Electral Studies, 40, 115-126.

 いわく。
 選挙予測の手法といえば、まずはvote intention, 次が予測市場、そして多変量による統計的予測だが、本研究はvote expectationに注目する。

 vote expectationによる選挙予測の先行研究概観。[うわあ...まだノーマークのがあったよ...]

 個人による予測能力について。[ここすごく関心あるので詳しくメモ]

 集団による予測能力について。

 ドイツの選挙システムについて。[省略するけど、やたらにややこしい...まあ日本の選挙システムも十分ややこしいと思うけど]

 リサーチクエスチョンと仮説。

  1. 投票者は政党の投票率を予測できるか。仮説: 個人の予測能力は以下の要因が高いと高い。(a)学歴, (b)政治的知識, (c)情報行動, (d)投票に行く確率, (e)最新のpoll知覚。
  2. 個人の予測能力は以下の要因が高いとどうなるか。(a)政治組織のメンバーであること, (b)特定の政党への投票意向, (c)政党選好, (d)政党支持。wishful thinkingで予測能力が下がるかも知れないし、情報収集が後半で予測能力が上がるかも。
  3. 旧東ドイツに住んでる人は予測能力が低いはず。
  4. (a)集団予測は成績がいい。(b)予測能力が高そうな人の集計よりランダムな集計のほうが成績がよい。

 データ。
 2013年9月の選挙の4週前に電話調査をやった。サンプルサイズ1000。性年代学歴でウェイティング。
 vote expectation設問は、政党リスト(「その他」含めて8つ)を読み上げ、各政党に合計100点を配点してもらうかたち。訊き間違えた人、ある政党への配分が平均から3SD以上離れた人を除いて823事例を分析。
 独立変数は、教育(最終学歴)、政治知識(クイズ3問の成績)、政治的情報(政治ニュースに触れる頻度5件法)、投票見込み(5カテゴリ)、最後に選挙予測に触れたのはどのくらい前か、政治組織のメンバーか、特定の政党に投票するつもりか、投票先政党... [後略]。

 結果。
 個人の予測はかなり不正確(RMSEで5.1パーセントポイント)。RMSEとMAPEを目的変数にした回帰モデルを組むと、政治的知識は負の効果(つまり予測は正確になる)、4日以内にpollの結果に触れていると負の効果、政党所属は負の効果(所属している人は予測を大きくは外さない)、教育は負の効果、政党支持は正の効果(つまりwishful thinkingと思われる)。投票意向、政党選好、住んでる地域はあんまり効かない。政党支持別に細かくみていくと[...中略...]。
 集団の予測もあんまり良くなかった[ええええ... ウケる...]。
 もっとも、伝統的なvote intentionsによる予測に比べればそう悪くない。また集団予測の誤差は個人予測の誤差の平均よりは小さい。
 個人の予測成績が良いはずの層に絞ってみると[...中略...]変な予測は減るけど、平均して良くなるとはいえない。

 [標本や集計方法についていろいろ細かい話。略]

 考察。
 多くの先行研究に反し、vote expectationは良い予測とならなかった。
 8政党の得票率の予測というのは調査対象者にとって難しかったのかも。群衆の知恵の研究はたいてい単純な数値に焦点を当てている。
 個人の予測誤差が集約でキャンセルアウトされるというのはその平均が0だった場合の話で、みんな歪んでいる場合はやはりだめだ。
 vote expectationがうまくいくかは特定の設問の構造と複雑性によるのであろう。

読了:Ganser & Riordan (2015) citizen forecastingによる選挙予測 in 2013年ドイツ連邦議会選挙

2018年10月22日 (月)

 ここんところ都合でcitizen forecastingの論文を読みまくっていたので、そのメモを整理しておく。

Boon, M. (2012) Predicting elections: A 'Wisdom of Crowds' approach. International J. Market Research, 54(4), 465-483.
 著者はロンドンのICM Researchという会社の人。Wikipediaによれば、世論調査をやっている会社で、Creston Insightというマーケティングの会社の傘下らしいが、この業界も離合集散が激しいので、いまどうなっているかはよくわからない。著者のBoonさんは現在はDeltaPollという会社のディレクターであるらしい。

 論文の構成がわからず、イライラしながら読んだんだけど... 要するに5つの事例の報告である。
 このジャーナルって、なんだかこういう風な、ちょっとゆるい雰囲気の論文が載るような気がするんですが、どういうことなんでしょうか...

 伝統的なvote intention survey(どこに投票するかを訊く調査)による選挙予測があたらなくて困ってますという前置きがあって...
 市場調査関係者はいまや皆知っているが[そうですかね?]、群衆の知恵というものがありましてですね、賢い人々の予測より、ランダムな群衆による集合予測が良かったりするのです。スロウィッキーいわく、その条件とは、(1)多様性、(2)独立性、(3)脱中心性、(4)集約。
 市場調査というものは、現実のアウトカムと照合されることはまずないわけで、選挙予測は得がたい機会である。
 
 事例1。2010年英国総選挙で、ガーディアン紙のために投票日直前に電話調査をやって、投票意向(10件法)、vote intention設問、2005年の投票行動を訊いた。
 これを組み合わせ、我が社のスタンダードな予測技法を用います。

 これをベンチマークにします。
 さて、実はこの電話調査の最後に、群衆の知恵方式の設問を入れました。まず選挙結果について推測して貰った(三大政党とそれ以外、計4つの得票率(?)。足して100になるように)。次に、2005年の実際の結果を伝えてもういちど推測して貰った。どちらもウェイティングなし、単純平均。標本サイズは2,022。
 結果:平均誤差[各政党の得票率(?)と予測の誤差の絶対値の平均のことらしい]は、スタンダードな方法で1.2パーセントポイントなのが、群衆の知恵設問その1が2.2, その2が0.9。

 事例2。今度はオンラインのオムニバス調査でやります。隔週、最低2000人、4回。設問は上の2問で、標準的なデモグラでウェイティング。。これをガーディアン用の電話調査と比べる。
 結果:[細かいところは省略すると...] 予測して正確そうにみえるし、vote intentionのトレンドを反映している。云々。

 事例3。群衆の知恵方式の設問を集計する際に、過去の投票行動でウェイティングしたらどうなるか。[...中略...] あんまりかわらない。ただし、ある特定の政党の支持者に絞ってしまうと、それはもちろん大きく歪む。云々。
 
 事例4。2011年のふたつのレファレンダムの予測。群衆の知恵方式は予測を大きく外した。考えるに、回答者に十分な知識がなかったからだろう。

 事例5。ここまでの分析で、群衆の知恵方式の設問には対象者の代表性はいらないけど多様性は必要だということが示された。具体的にどうすればいいのかは今後の課題なんだけど、ためしに2010年総選挙の群衆の知恵設問を、標本を少数抽出して集計しなおしてみた。2つの設問とも、2022人から500人抽出しても、250人抽出しても、結果はあまり変わらない。さすがに100人だとがくっと悪くなったけど。
 このように、群衆の知恵方式は標準的なvote intention調査の代替として有望です。
 云々。

 ... わたしゃイライラしましたけど、全体にのんびりしていて楽しい論文であったような気もする。やっぱしあれだろうな、持っているデータが貴重なら、こんな感じの分析でも立派な論文になる、ってことなんだろうな。
 それにしてもこの論文、引用文献は、スロウィッキーの一般書、ウェイティングについての論文らしきIJMRの2本、そしてBrainJuicerの人のESOMAR2009での発表、以上の計4本だけ。著者は"Wisdom of Crowds"アプローチと呼んでいるが、それって選挙のcitizen forecastingそのものなんだから、政治学で先行するLewis-Beck, Murr, Graefeを引用しないのはかなり妙な感じなんだけど... 知らないわけじゃないでしょうに。実務家が研究者をやたらに持ち上げ奉る傾向もちょっとアレだけど、無視するってのはどうなの?

読了:Boon (2012) UKの選挙における citizen forecasting (by 世論調査会社の中の人)

2018年10月21日 (日)

Temporano, M., Dufresne, Y, Savoe, J., van der Linden, C. (2019) Crowdsourcing the vote: New horizons in citizen forecasting. International Journal of Forecasting, 35(1), 1-10.
 citizen forecastingによる選挙予測(「誰が勝つと思いますか」と訊いて集計する。「誰に投票しますか」と訊くよりもあたるといわれている)についての最新の論文。著者らはカナダの研究者。
 来年出る論文が先行公開されている模様。こういうのって発表年は2019年なのか...なんか変な感じだ。

 citizen forecastingについての先行研究概観と、カナダの選挙制度の説明があって...
 対象とする選挙は2011年~2017年のカナダの選挙、計10件。えーと、カナダには政治学者が作ったVote Compassというアプリがある由。ボートマッチングみたいなサービスらしい(日本にもありますね)。実に210万人くらいのデータがある。これを使います。
 分析対象はのべ1154の選挙区。対象者は平均1821となる。当然ながら偏りはあって、教育やイデオロギーが偏っていることがわかっている。
 なにを訊いたかというと、自分の選挙区で各政党が勝つ見込みを訊いた。0から11までの数直線上に政党を並べてもらうかたち。ここから、1位政党については2位との差、他の政党については1位との差(負値になる)を求める。これをrelative confidence index(RCI)と呼ぶ。なぜすべて同じ基準で揃えないか(1位政党を0とすりゃいいじゃん)と思うけど、経験的にこっちのほうがいいのだそうである。そうなの?
 
 結果...

 ... 申し訳ないんだけど、だんだん関心が薄れてきちゃったので途中から読み飛ばした。要するに、選挙区レベルの結果をcitizen forecastingでかなり予測できましたという論文であった。
 先行研究概観に全然知らない話が載ってないことが確認できたので、目的は達したということにしよう。

読了:Temporano, et al. (2019) citizen forecasting による選挙予測 in カナダ

2018年10月18日 (木)

Hong, L., Page, S.E. (2004) Groups of diverse problem solvers can outperform groups of high-ability problem solvers. PNAS, 101(46).
 都合で無理やり読んだ論文。集合知の研究で有名な、かのスコット・ペイジさんによる理論論文である。身の程知らずにもほどがあるのだが...

(イントロ)
 集団の問題解決において集団内の多様性が大事だといわれるのはなぜか。
 多くの人がこう考えている。デモグラフィック属性とか文化・エスニシティとか熟達とかの点で多様性がある集団は(これをアイデンティティ多様性と呼ぼう)、問題を表現し解決する方法においても多様性を持っているので(これを機能多様性と呼ぼう)、問題解決のパフォーマンスが高くなる。
 では、機能多様性がパフォーマンスにつながるのはなぜか。個々人の能力が低くても、機能多様性があれば、優秀な奴らに勝てるのか。
 これを説明する数学的枠組みを提案する。

多様な問題解決者のモデル
 解集合$X$を実数値にマッピングする関数$V$があり、この関数の最大化を目指す問題解決者の集団があるんだけど、ひとりひとりの能力は限られている、としよう。たとえば、$X$はエンジンのデザインの可能な集合で、$V$はエンジンの効率性である。

 問題解決者たちは内的な言語を持っており、それによって解をエンコードする。ここでいう内的な言語というのは、脳が情報を知覚し貯蔵する神経科学的仕組みだと思ってもよいし、我々が経験と訓練に基づき問題を解釈する仕組みを比喩的に指しているのだと思ってもよい。
 この内的言語による解の表現をパースペクティブと呼ぼう。つまり、パースペクティブとは解集合とエージェントの内的言語とのマッピング$M$である。

 問題解決者は解を探索する。その探索の仕方を表すために、ある問題解決者が、自分の内的言語で表現された解集合を、解の下位集合へとマッピングするヒューリスティクスを持っていると考え、このマッピングを$A$とする。つまり、問題解決者が検討するのは、$A$によって生成された解の下位集合だけである。

 というように考えると、あるエージェントの問題解決能力とは、パースペクティブとヒューリスティクスのペア$(M, A)$である。エージェントが2人いたら、$M$も違うかもしれないし$A$も違うかもしれない。
[←よくわからん。$M$はその人が内的に表象しうるすべての解の集合を生成するマッピングで、$A$はその人が実際に検討する下位集合を生成するマッピングだよね? $A$で生成された下位集合のなかでどれがいいかを選ぶ能力ってのはないかしらん。解の評価は自明であって、探索さえすればいいという設定なの? ここではきっとそうなんだろうな]

 あるエージェントが問題をエンコードし、ヒューリスティクスを適用し、検討した解のなかで解を選び、選んだ解より高い値を持つ解が検討した集合の中にないとき、選んだ解を局所最適解と呼ぶ。あるエージェントの持つ局所最適解の集合、そしてそのbasins of attractionのサイズが、そのエージェントの能力であるといえるだろう。
[←basins of attractionというのがよくわからん。$A$が生成した解の下位集合のサイズのこと?それとも、$M$が生成しうる解の集合のうち、なんといえばいいんだろうか、後になって「無視してはいなかった」といえるような範囲のこと?]

 エージェントの集団が手に入れる解は、個々のエージェントの局所最適解の共通部分に位置する解だけである。このことは、エージェントがチームとしてともに働く手順とは独立に成り立つ。しかし、相互作用の手順がちがえば、すべてのエージェントにとって局所最適解となる解のbasins of attractionも変わってくる。だから、チームの働き方はパフォーマンスに影響する。

計算実験
 整数$\{1,\ldots,n\}$を実数に変換するランダム値関数について考える。実は、値は$[0,100]$の一様分布から独立に抽出されている。
 エージェントはこの関数を最大化する値を見つけようとする。どのエージェントも、$n$個の解を、円周上に時計回りに並ぶ$n$個の点としてエンコードする(つまり、パースペクティブは皆同じ)。
 個々のエージェントは、現在位置の右にある$l$個の点のなかの$k$個をチェックする。そのヒューリスティクスは$\phi = (\phi_1, \ldots, \phi_k)$ ただし$\phi_i \in \{1,\ldots,n\}$で表される。
 例を挙げよう[←はい、さっさとそうしてください]。$n=200, k=3, l=12$とする。あるエージェントのヒューリスティクスが(1,4,11), 開始点は194であるとする。このエージェントは

  1. まず194番の値と194+1=195番の値を比べる。194番のほうが高かったとしよう。
  2. 194番の値と194+4=198番の値を比べる。198番のほうが高かったとしよう。
  3. 198番の値と、198+11=209番、すなわち(一周200個なので)9番の値を比べる。9番のほうが高かったとしよう。
  4. 9番の値と9+1=10番の値を比べる...
  5. というのを繰り返し、現在位置より高い値がみつからないのが3回続いたらストップする。

 あるヒューリスティクス$\phi$のパフォーマンスは、始点$i$のときに到達する停止点を$\phi(i)$として、
 $E[V, \phi] = \frac{1}{n} \sum_i^n V[\phi(i)]$
である。$k, l$が決まれば、ヒューリスティクスの集合が決まる。

 ここから実験。
 ここでは、$l = 12, k=3, n=2000$の結果を報告する。すべてのヒューリスティクスについてパフォーマンスを求めておき、最優秀な10個のエージェントの集団と、ランダムに選んだ10個のエージェントの集団をつくる。
 で、エージェントの集団に解を探させる。エージェント1番が解を探し、2番はそこからまた解を探す。順繰りにずっと繰り返して、誰も新しい解を見つけられなくなったらストップ。
 結果。ランダム集団のほうが成績が良い。集団内のヒューリスティクスの多様性をみると($\phi$の異同を総当たりで数える)、ランダム集団のほうが多様である。20エージェントに増やすと、成績の差も多様性の差も小さくなる。$l=20$にすると(多様性が高くなりやすくなる)、ランダム群の多様性は実際に高くなり、また成績も上がる。
 [いやぁ... 私が素人だからかもしれないけれど、セッティングが抽象的すぎて、「うまいこと騙されている」感が拭えない。まあこれはデモンストレーションで、本題はここからなんでしょね]

数学的定理
 エージェントの母集団を$\Phi$とする。以下を想定する。

 これから次の定理を示す。$\Phi$からエージェントを、なんらかの分布に従って抽出するとき、$N$人を抽出したなかからさらに個人レベルで最良の$N_1$人を選んでつくった集団のパフォーマンスより、最初から$N_1$人を抽出してつくった集団のパフォーマンスのほうが良くなるような$N_1$と$N$($N_1 < N$)が、確率1で存在する。

 [と、ここから数学の話になる... 頑張って読み始めたんだけど、気が狂いそうになったので断念。人の頭にはですね、それぞれの限界というものがあるのです]

 [2018/11/30追記: この部分はあとでメモを取った]

結語
 本論文では、知的問題の解決において、最良の問題解決者からなる集団より、ランダムに選ばれた問題解決者からなる集団のほうがパフォーマンスが良くなる条件を示した。
 理想の集団は有能かつ多様な集団だが、問題解決者のプールが大きくなるほど、最良の解決者はどうしても似てくる。
 なお、集団が小さすぎるとランダム集団はうまくいかない(局所最適解がたまたま共通してしまうから)。また集団が大きいときには有能集団も多様性が生じてパフォーマンスが上がる。
 今後の課題: コミュニケーションコストの考慮、学習の考慮。

 ... いやー、難しくて死ぬかと思たがな。
 この論文、ペイジさんの主著"The Difference" (2007) (邦訳「多様な意見はなぜ正しいか」)の8章の説明があまりに回りくどく、素人向けやからとゆうてこれはないやろ、ええ加減にせえよ、と腹を立て、探して読んでみた次第である。 先生すいませんでした。おとなしくご著書を読みますです。

読了:Hong & Page (2004) 平凡な人々のグループが賢い人々のグループよりも賢くなるメカニズム

2018年10月16日 (火)

Camerer, C.F., et al. (2018) Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour, 2, 637–644.
 ちょっと前に読んだ奴。社会科学の実験研究の大規模な追試プロジェクトの報告で、話の主旨自体には正直あまり関心がなかったんだけど(すいません)、予測市場を使っているので手に取った。

 著者は24名の連名。ファーストはコリン・キャメラ―, 他に社会心理学のノセックとか、ベイズ認知モデルのワゲンメーカーズとか、若い経済学者のTaisuke Imaiとか、わたしゃ良く知らないが錚々たるメンバーなのではないかと思う。

 2010-2015年にNatureとScienceに載った社会科学の実験論文21本について、再現性を調べた。細かく言うと、各論文で報告されている研究のうち、処理効果が有意な最初の研究に注目し、そのなかで有意かつ重要な比較1つについて調べた。
 追試は二段階で行った。

ステージ1の標本サイズは平均すると元論文の約3倍、ステージ2は約6倍になった。以上、もちろん事前登録しました。[...中略...]
 これだけじゃ再現性の有無が二値になっちゃうので、さらに以下も行った。(1)オリジナルと追試を併せたメタ分析。(2)95%信頼区間の算出。(3)small telescopesアプローチ[不勉強にしてなんだかわからん。Simonsohn(2015 Psych.Sci)をみよとのこと]。(4)ベイズファクターの算出、(5)ベイジアン混合モデル, (6)再現性についてのピアの信念[←これが読みたくて手に取った次第である]。

 ... ここで本文メモを中断して、対象となった21本の論文とはいったいなんなのかをメモしておく。Nature, ScienceをN, Sと略記する。

というわけで、私は身体化認知の2本しか読んでないけど、さぞやメディアに取り上げられたであろうというキャッチーなタイトルの論文が目白押しである。

 結果。
 有意性という観点からいうと、再現されたのはステージ2までで21個中13個。[←うわーぉ]
 標準化した効果量の平均でいうと、元研究では0.46だったのが追試では0.25になった。

 メタ分析では...[以下、いろんな角度からの分析。丸ごと中略]

 再現性についてのピアの信念を推定するため、調査と予測市場を開催した。予測市場でによる再現性の予測は63%, 調査による回答は61%で、正解(62%)に近かった。研究別にみると正解との相関は高かった。つまり、ピアによる再現性の予測はかなり当たる。
 [元論文のFig.4。ほんとだ、追試での再現性をかなり正確に予測している。どの研究に再現性がなさそうか、研究者にはなんとなく見当がつくってことなんだろうな。なお、予測市場と調査の相関は高そうだ。]

 考察。
 科学研究においては検定力の低いたくさんの研究と出版バイアスのせいで、効果量が誇張されているものと思われる。
 効果量がほぼ0となった研究が8つ出てきた。これはオリジナルの研究が偽陽性だったせいかもしれないし、プロトコルを揃えるように努力はしたものの(21本中20本までは原著者の協力を得ている)、やっぱりどっかが違ってたのかもしれない。詳しくは付録を見てくれ...。
 云々、云々... [すいません、予測市場の話が終わったあたりから読み飛ばしてます]
 これからは、分析計画の事前登録、そして全研究の出版が大事でありましょう。

 ... いやー、予測市場の使い方が知りたくて手に取ったんだけど、途中でなんだか個人的に盛り上がってしまった。
 予測市場でも調査でも、もっとも再現性が怪しいと評価されたツートップは...(ドラムロール)... Ackerman et al.(2010)とLee & Shewarz(2010)、どちらも身体化認知でありました!
 もちろんこの2件、再現に失敗した8本に含まれている。はっはっは... いやあ、身体化認知に関しては、みんなちょっと頭冷やしたほうがいいよね、ほんとに。

読了: Camerer, et al. (2018) 社会科学の有名な実験研究21本を追試してみたら、ああなんてこったい、結果は...

2018年5月 8日 (火)

Baillon, A. (2017) Bayesian markets to elicit private information. PNAS, 114(30), 7958-7962.
 アブストラクトに目を通して青くなった。ベイジアン自白剤と予測市場の合いの子という、私の心のどまんなかを撃ち抜く論文。これ去年の6月じゃん。なぜこれに気が付かなかったんだ...

 ベイジアン市場を提案します。二値の私秘的情報を引き出すための市場です。そんじゅそこらの予測市場とは異なり、結果についての客観的検証ができない場合も大丈夫です。
 ベイジアン市場の基盤にあるのは、私秘的情報は他者についての信念に影響する、というベイジアン推論の想定です[ここでDawes(1989 JESP)を引用]。いまある事柄にYesと答える人は、その事柄に対する他者のYes割合についての期待を更新する際に自分の答えを使います。[←おおお、ベイジアン自白剤と全く同じ話だ]
 予測市場では、あるイベントの賭けがその人の信念を表します。ベイジアン市場では、他の人の回答への賭けが、他者についての信念を表し、ひいては当該の問いへのその人の真の答えを表します。

 私秘情報を引き出す手法としてはすでにベイジアン自白剤やピア予測法があります[Prelec(2004 Sci.), Miller, Resnick, & Zeckhauser(2005, MgmtSci), Parkes & Witkowski (2012 Proc.AAAI)(←たぶん Witkowski & Parkes(2012)の間違い), Radanovic & Faltings(2013 Proc.AAAI; 2014 Proc.AAAI)]。でも確率推定やメタ信念推定をしているぶん複雑です。いっぽう提案手法はただの賭けなので単純。ただし二値の質問限定です。

 エージェントの数を$n$とする。私秘情報についての二値設問を$Q$、値を{0,1}とする。$i$が持つ真の情報(=$i$のタイプ)を$t_i$とし、$\omega = \sum^n t_i/n$とする。
 先行研究と同じく、すべてのエージェントは「自分のタイプを知らない場合の事前信念」$f(\omega)$を共有していると仮定する。なおこの事前信念の共有という仮定は Harsanyi(1968 MgmtSci)が支持しているぞ。
 [次の段落は大事なので全訳]

Prelec(2004)と同様に、タイプが非個人的に情報的だということ、すなわち$f(\omega|t_i)=f(\omega|t_j)$と$t_i=t_j$が等価だということ、を共通知識とする。この特性は2つの側面を含んでいる。
 第一に、タイプは非個人的である。$t_i=0$であるすべてのエージェント$i$は共通の更新後信念$f(\omega|t_i=0)$を持ち(その期待値を$\bar{\omega}_0$と書く)、$t_j=1$であるすべてのエージェント$j$は共通の更新後信念$f(\omega|t_j=1)$を持つ(その期待値を$\bar{\omega}_1$と書く)。このように、エージェントのタイプはすべての非共有情報を含んでいる。
 第二に、タイプは情報的である(ないし「確率的に関連性を持つ」)。エージェント$i$のタイプが1ならば、このシグナルのせいで彼は、$\omega$は彼が事前に想定していたよりも大きな割合だと考えるようになる。いっぽうタイプ0のエージェントは小さな割合だと考えるようになる。よって$\bar{\omega}_0 < \bar{\omega}_1$である。

 話を単純にするため、$n$は無限大であり、$f$は「すべて0」や「すべて1」でないと仮定する。

 提案手法。
 $Q$についての市場をつくる。全員が同時に参加するワンショット市場である。
 参加者はあるアセットを取引できる。そのアセットとは、価値$v$が「1と報告する人の割合」であるアセットである。
 この市場では、参加者は主観的な期待ペイオフを最大化する、参加者は主観的期待ペイオフが正の時しか市場に参加しない、というのが共有知識になっている。

  1. 参加者はまず回答$r_i$を報告する。
  2. 次に、$p$が一様分布からランダムにドローされる[←すごく混乱したんだけど、この$p$がマーケットメーカの提案価格であり、全参加者に対して共通なのだ]。
  3. $r_i$が1だったら「価格$p$でアセットを買うか」、0だったら「価格$p$でアセットを売るか」を問われる。[←これはいわば注文であって、成立するとは限らない]
  4. すべての取引はマーケット・メーカとの間でなされる。取引が成立するかどうかはあるルールで決まる。
  5. アセットを清算する。清算価格は$r_i$における1の割合とする。つまり、アセットを買った人に$v$を配り、売った人から$v$を徴収する。買い手の手元には$v-p$, 売り手の手元には$p-v$が残る。

さて、取引の成立・不成立を決めるルールとは...

話の先取りになるけど、ここで「多数派」というのを「全員一致」に置き換えても、「三分の一以上」に置き換えても、実はこの論文の結果は変わらない。実装の上で「多数派」としておくのが自然なだけで。

 結論からいうと、この市場では真実報告がベイジアン・ナッシュ均衡になる。以下、その説明。[毎度のことながら頭がこんがらがってくるので全訳する]

 まず、すべてのエージェントが市場に参加すると仮定する。後述するように、すべての期待ペイオフは0より大なので、エージェントは実際に参加することは保証されている。
 エージェント$i$について考える。他のすべてのエージェントは真実を報告する、すなわち$v=\omega$と仮定する。
 タイプ1のエージェントは買い手側となり、市場価格$p$が、アセットの価値についての彼らの期待値$\bar{\omega}_1$を下回るときに買い注文を出すだろう。同様に、タイプ0のエージェントは売り手側となり、市場価格が$\bar{\omega}_0$を上回るときに売り注文を出すだろう。
 仮定により、両方のタイプのエージェントがいることは確実であり、それぞれの側の多数派が取引を求めた時、マーケット・メーカが[逆側の]取引希望者の全員と取引することも確実である。従って、取引が生じるのは$\bar{\omega}_0 < p < \bar{\omega}_1$のとき、そのときに限られる。
 エージェント$i$はどうすべきだろうか? もし彼のタイプが1ならば、彼はアセットの価値を$\bar{\omega}_1$と期待する。売り手として利益を出すためには、彼は市場価格[$p$]が$\bar{\omega}_1$を上回ったときだけ売り注文を出すことになるが、そんな高値での取引は起こらないだろう。しかし、市場価格が$\bar{\omega}_1$までであれば彼は買い注文を出したい。従って彼は、市場価格が$\bar{\omega}_0$ と $\bar{\omega}_1$の間である時に取引で利益が得られると期待する。
 このペイオフを獲得するためには、彼はまず1と報告しなければならない。すなわち、真実を報告しなければならない。そうすれば、彼は
 $\int_{\bar{\omega}_0}^{\bar{\omega}_1} (\bar{\omega}_1 - p)dp = (\bar{\omega}_1-\bar{\omega}_0)^2)/2 > 0$
を受け取ると期待できる。つまり、$\bar{\omega}_0$と$\bar{\omega}_1$との間にあるすべての市場価格$p$について、ペイオフは$\bar{\omega}_1 - p$となる。
 いわゆる混合方略(ある確率で1と報告し、そうでないときに0と報告する)には意味が何。なぜならそれはペイオフを獲得する確率を低くするだけだからだ。
 タイプ0のエージェントにとっても真実申告が最良である。その証明は上と対称であり、期待ペイオフも同一である。

 [よーし、具体例で考えてみよう。
 人々に「幸せですか」と訊ねる。全員から回答を集めたのち、マーケット・メーカの提案価格(1円~99円)をルーレットか何かで決め、全員に提示する。

取引後に証券は清算される。清算価格は提案価格や取引とは無関係に、最初に「はい」と答えた人の割合で決まる。ここまでがルールね。
 架空例として、参加者のなかには幸せな人が60%、そうでない人が40%いるとしよう($\omega=0.6$)。このことを参加者は知らない。幸せな人は幸せ率を70%と見積もり($\bar{\omega}_1=0.7$)、不幸な人は幸せ率を50%と見積もる($\bar{\omega}_0=0.5$)、としよう。話を簡単にするために、このことを参加者全員が知っているとする(本当は$\bar{\omega}_0 < \bar{\omega}_1$であるということさえ知っていれば良い)。
 太郎は幸せである。ゆえに幸せ率は0.7、清算価格は70円となるとみている。太郎は考える:

ということは、正直に回答したほうが得だ。
 次郎は不幸である。ゆえに幸せ率は0.5, 清算価格は50円となるとみている。次郎は考える:

ということは、正直に回答したほうが得だ。
 というわけで、全員が正直に回答することになる。]

 なお、

 他の研究との比較。

 前提となる仮定について。

 最後に、応用領域について。

 。。。うっわー。。。 これ、面白い。。。
 著者はフランス出身の経済学者で、すごく若そうな人。実をいうとしばらく前に、エラスムス大ロッテルダム校の院生によるベイジアン自白剤の修論というのがネット検索でひっかかり、まあ修論なら読まなくてもいっかとブラウザのタブを閉じてから、おいちょっと待て、それを指導してる研究者がいるってことじゃん、それ誰? とひっかかっていたのである。ああ、いたよ、ここに張本人が。
 あまりに面白いので、あれこれ考え込んでしまい、まだ感想がまとまらない。とりあえずいま気になっているのは、実証実験はあるのか、やったらどうなるのかということだ。この手法はBDMメカニズムに似ていると思うんだけど、BDMメカニズムは実証的には必ずしも機能しないと聞いたことがある。
 ともあれ、論文本文を読んだメモとして記録しておく。次は付録を読もう。いやしかし、これ、面白いなあ...

読了:Baillon (2017) ベイジアン・マーケット

2018年5月 3日 (木)

Carvalho, A. (2016) A note on Sandroni-Shmaya belief elicitation mechanism. The Journal of Prediction Markets, 10(2), 14-21.
 ほんの出来心で目を通したSandroni & Shmaya(2013)がよく分からなかったので、毒を食らわば皿までという気分で(すいません)、こちらもめくってみた。短いし。
 Google Scholar上での被引用件数は... 1件だ。いやあ、風情があるなあ。

 以下にメモを取るけど、原文にある$x_{max}, x_{min}$は書きにくいので、Sandroni-Shmayaにあわせて$x, y$に書き換える。要するに、クジがあたったときのペイオフ金額と、はずれたときのペイオフ金額のことである。

 網羅的かつ相互排他なアウトカムを$\theta_1, \ldots, \theta_n$とする。専門家はアウトカムについての真の信念$p=(p_1, \ldots, p_n)$を持っている。彼が報告する信念$q=(q_1, \ldots, q_n)$を、$p=q$となるようにしたい。
 そのための伝統的テクニックとしてプロパー・スコアリング・ルールがある。アウトカム$\theta_x$が観察されたら専門家をスコア$R(q, \theta_x)$で評価し、これに応じてなんらかの報酬を渡す。$p=q$のときそのときに限りスコアが最大化されるとき、これをプロパーという。もっともポピュラーなプロパー・スコアリング・ルールとして、対数ルール$R(q, \theta_x) = log(q_x)$, 二次ルール$R(q, \theta_x) = 2q_x - \sum_k^n q_k^2$がある。
 プロパー・スコアリング・ルールは専門家がリスク中立だという仮定に基づいている。しかし、たとえばリスク志向的な専門家は信念をシャープに報告しがちになるだろう。

 リスク中立性が維持できない場合の方法として、効用関数を$U(\cdot)$としてスコアを$U^{-1}(R(q, \theta_x))$とする方法がある(Winkler, 1969 JASA)。[つまり効用がR(q, \theta_x)となるようにあらかじめ変換しておくということね。Winklerってひょっとして、おととしベイジアン合意について調べていたときに出てきた、あのWinklerさん? 世間狭いなあ...]
 このアプローチは次の2つの条件に依存する。(1)専門家の振る舞いが、期待効用理論に従って既知。(2)専門家の効用関数$U(\cdot)$が既知。これらの条件には無理がある。

 そこで登場する回避策が、あらかじめ専門家のリスク態度を規定する要素を調べておこうというもの。そうすれば、それらの要素の影響を取り除くことで、専門家の報告を事後的にキャリブレートできる。
 この路線においても、専門家がなんらかの決定モデルに従って振る舞うという仮定が必要になる。決定モデルが誤っていたらおじゃんである。

 そこでいよいよ登場するのが、支払いをクジで決めるという路線である。
 Allen(1987 MgmtSci)は、専門家の効用関数が未知である場合に、条件つきクジをつかった効用の線形化によって誠実な報告を引き出すという手法を提案した。
 またKarni(2009, Econometrica)は、金額を2つに固定し、専門家が報告した確率を[0,1]の一様乱数と比較することで支払関数を決めるという方法を提案した。この方法だと、専門家がprobablistic sophistication and dominanceを示すなら、リスク態度と関わりなく、誠実な申告が専門家にとって最適になる。
 AllenとKarniのアプローチは、考え方として古典的なBDMメカニズムと似ている。実験場面ではBDMメカニズムにうまく対処できない被験者がいることが知られている(Cason & Plott 2014 J.PoliticalEcon.; Plott & Zeiler 2005 Am.Econ.Rev.; Rutstrom 1998 IntJ.GameTheory)。

 お待たせしました。本論文の主役、Sandroni & Shmaya (2013)の登場です。
 信念報告というのはクジの選択みたいなものである。$n=2$の場合について考えよう。$q=(q_1, q_2)$と報告するということは、
 $[R(q, \theta_1):p_1, R(q, \theta_2):p_2 ]$
というクジを選んだのとおなじことである。
 報酬$x > y$, 確率$0 \leq \rho, \rho' \leq 1$として、
 クジA: $[y:\rho, x:1-\rho]$
 クジB: $[y:\rho', x:1-\rho' ]$
があるとき、$\rho < \rho'$のときそのときに限りBよりAが選好される、ということをprobabilitic dominanceという。
 Sandroni & Shmaya (2013)の主張は次の通り。proabilistic sophisticationは成り立っているとする[←これについては説明がない...]。誠実な信念報告を引き出すためには、probabilistic dominanceさえ成り立っていればよい。
 彼らが提案した支払スキーマはこうである。[0,1]に規準化されたプロパー・スコアを$S(q, \theta_x)$とする。(1)アウトカム$\theta_1$が起きたら、確率$S(q, \theta_1)$で$x$を払い、確率$1-S(q, \theta_1)$で$y$を払う。(2)アウトカム$\theta_2$が起きたら、確率$S(q, \theta_2)$で$x$を払い、確率$1-S(q, \theta_2)$で$y$を払う。

 この提案のポイントは、専門家のリスク態度についてなにも仮定していないという点である。なお、BDMメカニズムとの違いは、支払い決定にあたって外部のランダム化装置が不要であるという点である[原文: "This mechanism differes from Becker-DeGroot-Marschak based mechanisms in that no external randomization device other tha nature is required to determine an expert's payment." よくわからない。BDMメカニズムでもSandroni & Shmayaでも、ペイオフ決定にあたってはなんらかの確率乱数の生成が必要じゃないの?]

 さて、Sandroni & Shmaya が見落としている点がある。
 彼らは、専門家からみて、次の2種類のクジが等しいと考えている。
 クジその1、上述のクジ。(1)アウトカム$\theta_1$が起きたら、確率$S(q, \theta_1)$で$x$を払い、確率$1-S(q, \theta_1)$で$y$を払う。(2)アウトカム$\theta_2$が起きたら、確率$S(q, \theta_2)$で$x$を払い、確率$1-S(q, \theta_2)$で$y$を払う。
 クジその2。アウトカム$\theta_1, \theta_2$の真の主観確率を$p_1, p_2$とする。確率$p_1 S(q, \theta_1)+ p_2 S(q, \theta_1)$で$x$を払い、確率$p_1 (1-S(q, \theta_1))+ p_2 (1-S(q, \theta_1))$で$y$を払う。
 この2つのクジが等しいというのは、自明ではない。Sandroni & Shmayaは暗黙のうちに、合成くじの分解(reduction of compound lotteries; ROCL)の定理を仮定しているのである。

 残念ながら、現実にはROCL定理は必ずしも維持されない。Harrison, et al.(2014 J.Econ.Behav.Org)をみよ。彼らによれば、選択が二値の場合はROCLは維持されるが、多値の場合には維持されない。
 では、アウトカムが二値であればSandroni & Shmayaのメカニズムは真実報告を引き出すか。そうかもしれないし、そうでないかもしれない。信念報告をクジの選択と捉えた時、$q=(q_1, q_2)$と報告するということは、(2個ではなくて)無限個のクジのなかから
 $[R(q, \theta_1):p_1, R(q, \theta_2):p_2 ]$
を選ぶということだからである。
 さらにいえば、Harrisonらの実験はすべての専門家の信念が互いに等しいような場面でのものであって、一般的な不確実性についていえるのかどうかはオープン・クエスチョンである。

 ...ふうん。
 知識が足りなくて、このモヤモヤをうまく表現できないんだけど... 「人にはリスク選好ってのがある」という指摘と、「人は必ずしもROCL定理に従わない」という指摘は、同じレイヤの話なんだろうか?
 というわけで、この論文の意義については判断できないけど、先行研究概観は勉強になりました。

読了:Carvalho (2016) 当たり外れがプロパー・スコアリング・ルールで決まるクジを報酬にすれば参加者のリスク選好がどうであれ真実申告メカニズムが得られるというのは本当か

Sandroni, A., Shmaya, E. (2013) Eliciting beliefs by paying in chance. Economic Theory Bulletin, 1, 33-37.
 昨年のJ. Prediction Marketsにこの論文についてのコメントが載っていて、どうやらベイジアン自白剤のことが引き合いに出されているらしいので、読んでみた。
 雑誌名からして素人が読むべきものではないのかもしれないけれど、たったの5pだし、数式も少ないので、試しに目を通してみた次第。どうせ何についても専門家じゃないんだから、いいじゃないですか、何を読んだって。
 google scholarによる被引用回数は... 6件。渋い。

 いわく。
 専門家に自分の主観確率を誠実に報告させるインセンティブを求める方法としてプロパー・スコアリング・ルールがある。そういうのは多くの場合、専門家がリスク中立であること(ないしリスク選好が既知であること)を仮定している。本論文では非常に単純な原理を述べる。この原理を使えば、専門家の選好が既知であるという想定をdisposeすることができる。

 これから出来事$E$が起きるかもしれないし起きないかもしれない。ボブは$E$についての主観確率を持っている。Bobの主観確率をどうやって引き出すか。
 ボブが確率$\hat{p}$を申告したとして、$E$が起きたら金銭報酬 $S(\hat{p}, 1)$, 起きなかったら$S(\hat{p}, 0)$を支払うとしよう。ここで
 $S(\hat{p}, 1) = 2 - (1-\hat{p})^2$
 $S(\hat{p}, 0) = 2 - (\hat{p})^2$
とする支払スキーマ$S$をBrierスコアという。これはプロパー・スコアリング・ルールの例である。ペイオフの期待値
 $p S(\hat{p}, 1) + (1-p) S(\hat{p}, 0)$
を最大化するのは$\hat{p} = p$なので、ボブがリスク中立的なら、ボブは自分の主観確率を申告する。

 問題は、ボブのリスク選好がわからない場合、つまり$S(\hat{p}, 1), S(\hat{p}, 0)$がボブにとっての効用なのかどうかわからない場合である。
 ひとつの路線は、別の実験をやってボブの選好を調べるというものである。いっぽう、Karni(2009)は別の路線を考えた。以下で説明しよう。なお、より包括的な定式化としてLambert(2011)がある。
 金銭報酬$x, y$($x > y$)を使った次の2つのクジがあるとしよう。
 A: 確率$\mu$で$x$ドルもらえ、確率$1-\mu$で$y$ドルもらえるクジ。
 B: 確率$\mu'$で$x$ドルもらえ、確率$1-\mu'$で$y$ドルもらえるクジ。
ボブがBよりAを選好するのは、$\mu > \mu'$のとき、そのときに限ると仮定する。この仮定をprobabilistic sophistication and dominanceという。
 さて、次のランダム・スコアリング・ルールを考える。$P(\hat{p},1) = S(\hat{p},1)/2, P(\hat{p},0) = S(\hat{p},0)/2$とし、$E$が起きたら「確率$P(\hat{p},1)$で$x$ドルもらえ、確率$1-P(\hat{p},1)$で$y$ドルもらえるクジ」、$E$が起きなかったら「確率$P(\hat{p},0)$で$x$ドルもらえ、確率$1-P(\hat{p},0)$で$y$ドルもらえるクジ」を渡すのである。2で割っているのは単に確率を0~1の範囲に収めたいから。
 このとき、ボブが$x$を得る確率は
 $\{p S(\hat{p}, 1) + (1-p) S(\hat{p}, 0)\}/2$
なので、$S$がプロパーであれば、$p$を申告するのが最適となる。これはボブのリスクへの態度に関わらず成り立つ。
 [うううううう... わからないいいい... なぜそういえるの...??? リスク中立でないってことは、$S(\hat{p}, 1), S(\hat{p}, 0)$が効用でなくて、$U(S,p)$というような形の効用関数が別にあるってことだよね? それがどういう形であれ、sophisticationとdominanceという条件を満たしていれば、$\hat{p}=p$が効用を最大化するといえる、ってこと??? それって自明なの? どうも話の肝になるところが理解できていないみたいだ...]

 上の例は、支払額を偶然で決めることによって信念を引き出すという原理を示している。基本手続きは以下の通り。(1)なんらかのプロパー・スコアを基準化して、スコアが0~1に入るようにする。(2)この基準化されたプロパー・スコアを確率とみなし、この確率で高いほうの金銭報酬$x$を渡す。要するに、スコアが高いとき、高い報酬がもらえる確率が高くなるわけである。

 この原理は、多エージェントのゲーム理論的セッティングにも使える。たとえばPrelec(2004)のベイジアン自白剤について考えよう。[以下、ややこしいので全訳する]

Prelecは、それぞれの専門家の意見は共通の分布を持つある確率変数の実現値だと想定した。彼は次のようなベイジアン・ゲームを設計した。そのゲームにおいて、専門家$i$の行為空間$A_i$は、yesかnoかを述べること、そしてyesと答えた専門家の割合を予測することである。プレイヤー$i$の純戦略は、彼の実際の意見(yesないしno)を行為空間$A_i$にマップするものである。プレイヤー$i$のペイオフは、彼が構築する具体的な効用関数
 $U_i: \prod_k A_k \rightarrow R$
で与えられる。彼の論文のキーポイントは、全ての専門家たちが自分の意見を誠実に申告するナッシュ均衡が存在するというものである。
 Brierスコアの場合のように、$U_i$の下でのペイオフが金銭を単位として与えられている場合、そこではリスク中立性が仮定されている。ペイオフが効用であると仮定されている場合、そこでは専門家のリスク態度が既知だと仮定されている。しかし、いま線形の狭義単調増加関数$\tau$があり、全てのプレイヤー$i$、すべての行為プロフィール$a \in \prod_l A_k$について、$\tau(U_i(a))$が0と1の間だとしよう。行為プロフィールが$a \in \prod_l A_k$であるゲームにおいて、プレイヤー$i$が確率$\tau(U_i(a))$で金銭報酬$x$を承けとり、確率$1-\tau(U_i(a))$で金銭報酬$y$を受け取るとする(ただし$x > y$)。$x$と$y$のどちらになるかを決めるランダム化は、本質的に、それぞれのエージェントからもそれぞれの行為プロフィールからも独立である。Prelecのゲームにおける真実申告ナッシュ均衡は、この修正されたゲームにおいてもやはりナッシュ均衡である。このことは、probablistic sophistication and dominanceの下で、専門家のリスク態度と無関係に成立する。

 ...忘れちゃったんだけど、ベイジアン自白剤ってプレイヤーのリスク中立性を仮定しているんだったっけか。あとで調べておこう。
 えーと、要するに、報酬をプロパー・スコアリング・ルールで与えたときは、参加者がリスク中立でないと真実申告メカニズムにはならないんだけど、報酬を「プロパー・スコアリング・ルールに基づく確率」で決めれば、リスク選好がどうであれ真実申告メカニズムが作れるんだよ、という話なんだと思う。で、それはベイジアン自白剤にもあてはまるんだよ、ということなんだと思う。そうなんすか。
 ときに、報酬を確率的に決めるというのはBDMメカニズムもそうなんだけど、どういう関係にあるんだろうか。

読了:Sandroni & Shmaya (2013) 当たり外れがプロパー・スコアリング・ルールで決まるクジを報酬とせよ、さすれば参加者のリスク選好がどうであれ君は真実申告メカニズムを得るだろう

2017年11月26日 (日)

Frank, M.R., Cebrian, M., Pickard, G., Rahwan, I. (2017) Validating Bayesian truth serum in large-scale online human experiments. PRoS ONE. 12(5).
 原稿の準備で読んだ奴。読んだ際のメモが出てきたので記録しておく。久々のベイジアン自白剤論文で、面白く読んだという記憶がある。

 第1著者はMITメディアラボの人で、Prelecとどういうつながりがあるのかわからない(謝辞にPrelecの名前はない)。第3著者はGoogle所属。

 いわく。
 調査回答者に主観的判断を求めるということが、各分野においていかに不可欠か、という前置きがあって...
 不誠実な回答を引き起こす原因のひとつは強欲である。特にAmazon Mechanical Turk(MTurk)なんかだと回答者は利益の最大化を目指すわけで、これは深刻な問題になる。
 対処策としてベイジアン自白剤(BTS)が提案されているけれど、実証実験は小規模なのしかない。そこで大規模にやりました。

 BTSの説明。
 BTSとは、正直さ、ないし得られた情報に応じて報酬を与える方法で...[←という風に、BTSを明確にrewardingの手法として紹介している。この辺は書き手によってニュアンスが違うところだ]
 その仕組みは...[中略]...まあそういうわけで、α > 0で正直さがベイジアン・ナッシュ均衡になり、α=1でゼロサムゲームになる。本研究ではα=1とする。
 
 実験。MTurkでやる。
 以下、実験群には「情報スコアが上位1/3にはいったら追加ボーナスを金で払う」と教示。しかし情報スコアの中味は教えず、かわりに「MITの研究者が開発した真実申告検出メカニズムだ」と教示する。
 実験群は2種類。(1)透過BTS群。回答から情報スコアを動的に算出して提示。(2)BTS intimidation群。情報スコアは見せないが報酬は渡す。[恫喝群とでも訳すところか]

 結果。

 考察。
 BTSによる改善は、統制群よりも報酬の期待値が大きいせいか。先行研究によれば、金銭的インセンティブの増大は作業量の増大を招くが作業の質は増大させない(Mason & Watts, 2020 ACM SigKDD Newsletter)。本研究でもそうで、統制群の報酬を増やしたけど結果はかわんなかった(補足資料をみよ)。
 調査における回答の正直さ促進の手法として、honesty pledgeとか、宗教的正直さの喚起とかを行う手法があるけど、きっとこの実験の恫喝群でも同じ事が起きたのだろう。つまり同じ効果が、怒れる神とか個人的誠実性の喪失とかへの恐怖から得られたかもしれない[おおっと... BTSが一種のbogus pipelineである可能性を認めちゃうのね...]。いっぽう透過群では回答分布がさらに正直な方向に変わった。
 云々。

 ...小声で超偉そうな言い方をしちゃうと、わかりやすくよく書けている論文である(うわあ、何様だろうか)。PLoS ONEだからといってなめてはいけない。ちょっと図表が冗長な感じだがな(すいませんすいません)。
 この実験、統制群と実験群の比較じゃなくて、恫喝群と透過群の比較が一番面白いところだと思うんだけど、見た感じではそんなに明確な差じゃない気がする。

 イントロのところからメモ:

よくみると、やたらにWattsの論文を引用している。

読了:Frank, et al. (2017) ベイジアン自白剤 in クラウド・ソーシング

2017年9月13日 (水)

佐藤哲也 (2017) AIと政治. 人工知能, 32(5), 672-677.

 最新号の「人工知能」誌は「AI社会論」という特集で、佐藤先生が寄稿されていた。忘れないうちに内容をメモ。良いまとめとは思えないので、関心ある方は原文をお読みくださいますように。

 いわく、
 汎用人工知能というような話は横に置いておいて、現行技術が政治現象にもたらす影響について考えると、

ところで、昨今の人工知能ブームにはテクノロジー・プロパガンダという面がある。バイオや製薬では、産業界のアカデミズムへの不正な介入が社会問題になっているが、構造が似てきていないだろうか。結局割りを食うのは一般の納税者や投資家だ。人文社会的観点からの検討が必要であろう。

読了:佐藤(2017) 人工知能と政治

2017年8月17日 (木)

この春から、誰ともろくに喋らずネットにもアクセスせず、静かに暮らす日々が続いていたもので、読んだ資料のメモもそれなりに溜まってきた。せっかくなので順次載せていくことにしよう。

Prelec, D., Seung, H.S., & McCoy, J. (2017) A solution to the single-question crows wisdom problem. Nature, 541, 532-535.
 ベイジアン自白剤というわけのわからない話によって哀れな私を翻弄した、Prelecさんの新論文。入手方法がなくて嘆いていたら、M先生が親切にもお送りくださった。ありがとうございますーー、とお勤め先の方角に向かって平伏。

 原稿の準備のために頑張って読んでいたら、逐語訳に近いメモとなってしまった。

 群衆の知恵がいかなる個人よりも優れているという考え方は、かつては物議をかもしたものだが(Goltonをみよ)、いまではそれ自体が群衆の知恵の一部となった。いずれはオンライン投票が信頼される専門家たちを駆逐するかも、などと考える人もいるほどだ(キャス・サンスティーンやスロウィッキーをみよ)。
 群衆から知恵を抽出するアルゴリズムは、たいてい民主的投票手続きに基づいており、個人の判断の独立性を保存する(Lorenz et al., 2011 PNAS)。しかし、民主的手法は低レベルな共通情報に偏りがちだ(Chen et al, 2004 MgmtSci.; Simmons et al., 2011 JCR)。確信度を測って調整する方法もあるけどうまくいかない(Hertwig, 2012 Sci.)。
 そこで代替案をご提案しよう。「もっとも一般的な答え」「もっとも信頼できる答え」ではなく、「人が予測するより一般的な答え」を選ぶのだ。この方法は、機械学習から心理測定まで幅広い分野に適用できる。

 フィラデルフィアはペンシルバニア州の州都でしょうか? コロンビアはサウス・カロライナ州の州都でしょうか? 多くの人がyes, yesと答えてしまう(正解はno, yes。ペンシルバニア州の州都はハリスバーグ)。確信度で重みづけて集計しても正解は得られない。
 さて、我々の提案手法はこうだ。対象者に、「この問いに他の人々がどう答えるか」の分布を予測してもらう。で、予測よりも多くの支持を集めた答えを選ぶ。
 このアルゴリズムの背後にある考え方を直観的に示すと次の通り。いま、ふたつの可能な世界、すなわち現実世界と反事実世界があるとしよう。現実世界ではフィラデルフィアは州都でない。反事実世界ではフィラデルフィアは州都だ。現実世界においてyesと答える人は、反事実世界においてyesと答える人よりも少ないだろう。これを歪んだコインのトスをつかって形式化しよう。いまあるコインがあって、現実世界では60%の確率でオモテとなり、反事実世界では90%の確率でオモテとなる。さて、多数派の意見はどちらもyesを支持する。人々はコインが歪んでいることを知っているが、どちらの世界が正しい世界かは知らない。その結果、yes投票率についての人々の予測は60%と90%の間になる。しかるに、現実のyes投票率は60%である。従って、noが「意外に一般的な答え」、すなわち正解となる。[←はっはっはー。2004年のScience論文と比べると格段にわかりやすい説明となっているが、それでもキツネにつままれたような気がしますね]
 この選択原理を「意外に一般的」アルゴリズム(SPアルゴリズム)と呼ぶことにしよう。詳細はSupplementを読め。
 実際に試してみると、フィラデルフィア問題では、yesと答えた人のほぼ全員が「みんなもyesと答えるだろう」と予測し、noと答えた人の多くは「noと答えるのは少数派だろう」と予測した。よって、yes回答は実際よりも高めに予測され、「意外に一般的」回答はnoとなった。いっぽうコロンビア問題では、yes回答率は実際よりも低めに予測された。ね? 「意外に一般的」回答が正解になっているでしょ?

 対象者の確信度を使って、これと同じくらい妥当なアルゴリズムを構築できるだろうか?
 いま、対象者が世界の事前確率とコインのバイアスを知っているとしよう。さらに、個々の対象者は自分のプライベートなコイン・トスを観察し、ベイズ規則を用いて確信度を算出するとしよう。確信度を使ったアルゴリズムがあるとしたら、それは報告された確信度の大きな標本から実際のコインを同定しなければならない。
 しかし、確信度の分布は同じだが正解が異なる2つの問題の例を示すことができる[と架空例を示しているが、ややこしいので省略]。この例は確信度を使ったアルゴリズムを作れるという主張に対する反例となっている。もちろん、現実の人々は理想化されたベイジアン・モデルに従うわけではないが、ここでいいたいのは、事前確率に基づく手法は理想的対象者においてさえうまくいかないということであって、現実の対象者においてはさらにうまくいかないだろう。
 それに引き替え、SPアルゴリズムは理論的に保障されている。それは利用可能な証拠の下での最良の解だ。さらに、このアルゴリズムは多肢選択設問に拡張できる。また、投票予測によって、正解にもっとも高い確率を与えている対象者を同定できる。これらの結果は、歪んているコインの例を多面コインへと一般化する理論に基づいている。

 [ここで4つの実験を駆け足で紹介。正解がわかっている設問について、多数の支持を得た選択肢、SP、確信度で重みづけた集計での一位選択肢、確信度最大の選択肢、を比較する。どの設問でも、正解との相関はSPが一番高い]。

 SPの成績は、対象者が利用できる情報、そして対象者の能力によって、常に制約されるだろう。利用可能な証拠が不完全ないしミスリーディングであれば、その証拠にもっともフィットする答えは不正解となるだろう。この限定は、設問を注意深く言い換えることでよりはっきりさせることができる。たとえば、「世界の気温は5%以上上がるでしょうか」という設問は「世界の気温は5%以上上昇するかしないか、 現在の証拠に照らしてどちらがありそうでしょうか」と言い換えることができる。
 SPアルゴリズムは、理想的回答からのいくつかの逸脱に対して頑健である(Supplementをみよ)。たとえば、もし対象者が両方の世界について考えその中間の予測を行うのではなく、自分が正しいと信じる世界の投票率だけを予測したとしても、SPの結果は変わらない。また、対象者にとって予測課題が難しすぎると感じられ、50:50と予測したりランダムな予測値を出したりした場合、SPの結果は多数派の意見に接近するが、方向としては正しいままである。
 政治や環境問題の予測のような論争的なトピックにこの手法を適用する際は、操作を防ぐことがじゅゆ用になる。たとえば、対象者は不誠実に低い予測を示して、特定の選択肢を勝たせようとするかもしれない。こうした行動を防ぐためには、ベイジアン自白剤で真実申告にインセンティブを与えることができる。Prelec(2004 Sci.), John, Lowenstein, & Prelec(2012 Psych.Sci.)をみよ、我々はすでに「意外に一般的」原理が真実の診断に使えることを示している。
 予測市場とのちがいについて。SPは検証不可能な命題についても使えるところが異なる。

 意見集約においてはこれまで民主的手法の影響力が強く、また生産的でもあったのだが、それらの手法はある意味で集合知を過小評価するものであった。人々は自分の実際の信念を述べるように制約されていた。しかし、人々は仮説的シナリオの下でどんな信念が生じるかを推論することもできる。こうした知識を用いれば、伝統的な投票がうまくいかないときにも真実を復元できる。もし対象者が、正解を構築するに十分な証拠を持っていれば、「意外に一般的」原理はその答えをもたらす。より一般的にいえば、「意外に一般的」原理は利用可能な証拠の下での最良の答えをもたらす。
 これらの主張は理論的なものである。実際の対象者は理想と違うから、現実場面での成功は保障されない。しかし、ペンシルバニア問題のような単純な問題で、理想的対象者においてさえ失敗するような手法を信頼するのは難しい。我々の知る限り、提案手法はこのテストを通過する唯一の手法である。

 ... 「意外に一般的」原理はベイジアン自白剤(2004年のScience論文)の基盤でもあったので、理論的に新しい展開というわけではないんじゃないかしらん?
 いっぽう論文のストーリーは2004年の論文と大きく異なり、「意外に一般的」原理をスコアリング・ルールの基盤としてではなく、単なる意見集約アルゴリズムとして説明している。

読了:Prelec, Seung, & McCoy (2017) 「みんなが思うよりも意外に多い」回答が正解だ

2015年11月30日 (月)

Bothos, E., Apostolou, D., Mentas, G. (2009) IDEM: A prediction market for idea management. "Lecture notes in business information processing", vol 22. pp.1-13.
 いわゆるアイデア市場の研究のひとつ。書籍の章の体裁になっているが、カンファレンス・ペーパーの再録らしい。前にざっとめくっていたのだけど、都合により急遽再読。
 著者らはギリシャの人。今調べたら、どうやらSAP社と協同でやっているようだ。このチームは現在もアクティブに研究しているようだから、もっと新しい論文もありそうなものだな...

 いわく。
 予測市場を使ったアイデア生成ってのがある(先行研究としてSoukhoroukovaらのLaCombらのを挙げている)。両方ともうまくいっているようだが、既存手法との比較が大事だ。
 アイデア管理のために予測市場を使おうとする際、難しい点が3つある。(1)アイデアは必ずしも実現しないので、ふつうの予測市場とはちがって将来の出来事が定義できない。(2)アイデア評価には多様な使用シナリオが伴う[製品の使用文脈のことじゃなくて、アイデア生成か拡張か評価か、という話]。(3)市場価格しか出力がない。

 というわけで、このたびアイデア管理のための予測市場プラットホームIDEMをつくりました。以下の工夫をしています。

取引アルゴリズムはマーケット・メーカつきの連続ダブルオークション。

価格関数はオープン・ソース・ツール Zocalo にインスパイアされたもので、実世界の需給条件をシミュレートしている。この関数は対数ルールに従い、多くの人が買うとマーケット・メーカの価格を上げ、多くの人が売ると下げる。オリジナルのアルゴリズムでは価格の範囲が0から1になっているので、取引をわかりやすくするために0から100に直した。さらに、ある市場に多くのマーケット・メーカが含まれるようにした。ひとつのアイデア証券あたりひとつのマーケット・メーカがつく。これは、Zocaloの実装ではそれぞれの証券がひとつの市場を構成し、したがってそれぞれの市場にひとつのマーケット・メーカが与えられるからである。

[このくだり、以前読んだときには「お前はなにを言っているんだ??」という状態だったが、いまなら言っている意味がわかる。想像するに、個々のアイデアごとにbuy証券とsell証券をつくり、この2銘柄のマーケット・メーカを走らせているのではないだろうか。で、個々のマーケットメーカだけをみると、たぶんLMSRみたいな仕組みになっているのだと思う。くそー、こういう話だったのか...]
参加者は匿名。3週間実施。最初に架空通貨で10000単位を渡す。参加者は取引だけでなく新アイデアの投稿もできる。2人の審査員が投稿を審査し、上場を決定する[投稿ごとに審査員が変わるのか、全投稿をこの二人が審査するのか、よくわからない]。上場時の株価は50。上場された銘柄の株が50枚配られる[ここだけでは誰に配るのかはっきりしないが、次節とあわせると、どうやらアイデアが上場したらその株を全参加者に配るという話らしい。現実の株式市場とのアナロジーで考えていると度肝を抜かれる展開だ]
 [そのほか、ソフトの機能の説明。省略]

 実験。
 5人の専門家が、市場終了時点で全アイデアを100点満点で評価、これをペイオフとする。アイデア投稿者にはその株を10枚プレゼント。34アイデアの投稿があって26アイデアが上場。取引は1572回発生。
 最後に質問紙。投資家には、これまでにイノベーション過程に関与した経験、予測市場への評価、システムの使いやすさ、実験の特徴(例, 匿名性)が行動にどう影響したか。結果は[...このくだり、別にメモを取るのでここでは省略]。専門家にもアンケートをとった[省略]。

 考察。
 アイデア評価の既存手法として以下がある:

以上の手法を、アイデアの数、評価者の数、扱えるアイデアのタイプ、フィードバックのタイプ、評価者のモチベーション、の観点から比較すると...[略。予測市場は、そのアイデアがなぜ高く/低く評価されたかのフィードバックが限定的だが、他の観点では全勝、という整理であった]
 今後の課題としては... (1)アイデアがすごく増えたときに投資家にどう見せるか。アイデアの擬人化とかどうよ、というようなことを書いている[←面白いかも]。(2)上場審査の民主化。あるいは完全な無政府状態にしちゃうとか。
 云々。

 ところで、この論文の本文中で、アイデア管理のための予測市場プラットホーム(つまりIDEMと競合する既存サービス)として、Spigit, InnovateUs, VirtualVenturesの3つが挙げられている。調べてみると、Spigitは2011年から電通国際サービスが代理店をやっている(売れているのかしらん??)。日本語の宣材をみても、市場メカニズムをにおわせる記述はない。InnovateUsは現存する模様。VirtualVenturesは確認できなかった。
 本題とは関係ないけど、予測市場をつくったら魅力的な固有名詞を付けることが大事だと思った。HSXとかIEMとか、Gates-Hillman Marketとかshuugi.inとか。アイデア市場の先行研究はそこんところでしくじっていると思う。Imagination Marketでは一般的すぎる。ついでにいうと、Soukhoroukovaさんの名前が長すぎるのでメモを取るのに困る。

読了:Bethos, et al. (2009) アイデア市場プラットホームIDEM

2015年11月27日 (金)

Skiera, B., & Spann, M. (2011) Using prediction markets in new product development. in Williams, L.V. (eds.), "Prediction Markets: Theory and Applications," Routledge. pp.75-86.
 タイトル通り、「新製品開発における予測市場」というテーマでの短い概観。なんかいいこと書いてあるかな、と思ってざっと目を通した。

 著者らいわく。
 製品開発において予測市場が役立つのは次の4つのステージである。

  1. アイデア生成とスクリーニング。すなわちアイデア市場。コミュニティをつくって製品アイデアを取引させ、議論させる。リードユーザの同定にも使える(Spann et al., 2009 JPIM)。スクリーニングにも使える(Soukhoroukova et al., 2012; LaComb et al., 2012; Bothos, 2009 IDEMの奴; Chen, et al., 2010 Interfaces)。こういうアイデア市場の予測市場との大きな違いは、(1)銘柄数が決まっていない、(2)証券の価値が実際の出来事の結果では決まらない。
  2. コンセプト開発とテスト。すなわち選好市場ないしコンセプト市場(Dahan et al., 2011; Dahan et al., 2010 JPIM)。銘柄数は胴元が決める。弱点はペイオフを終値なんかで決めなきゃいけないところだが、致命的な弱点ではない(Slamka et al., 2011)。
  3. 製品テスト。マーケティング担当者を投資家にして予測市場をやる。6人でも大丈夫だという話がある(van Bruggen et al., 2010 DecisionSupportSys.)。消費者を投資家にして予測市場をやり、質問紙調査とFGIを併用するってのもできる[と書いているが、引用しているのはSpann & Skiera (2003)、これはレビューだ。実例はあるのだろうか]
  4. 上市前予測。Dahan & Hauser (2002, JPIM)を見よ。利点は、(1)新情報へのリアルタイムな反応、(2)情報が勝手に集約される、(3)市場を一旦つくっちゃえば安上がり、(4)うまくすれば真の評価を申告するインセンティブをつくれる[そんなに簡単な話じゃないように思うけど。ここでForsythe et al.(1992 Am.Econ.Rev.)が挙げられている。M先生のリストにも入ってたやつだ。やっぱこれ読まなあかんか...気が重い]。

 実証研究の紹介。
 ドイツで映画の興収の予測市場を7ラウンドやった(CMXXというそうだ)。1ラウンドあたり1か月くらいで、参加者はオープン、成績の順位を競う。架空通貨市場、実金銭報酬はなし。ダブルオークション、24時間取引、空売りなし、指値注文。
 結果。各ラウンドの投資家は50人くらい。専門家の予測より当たった。 ただし、あんまり宣伝してない映画は情報がないので成績も悪かった。81本の映画の予測精度について回帰分析すると、価格のボラタリティと上映館数が効いていた。云々。
 
 テーマを依頼されてちゃっちゃと書いたんだろうな、というコンパクトな内容であったが(失礼ヲオ許シクダサイ)、頭の整理になりました。
 完全に未知の文献はそんなに出てこなかったが、未読の奴が結構あることに気が付いた。情けないなあ。

読了:Skiera & Spann (2011) 新製品開発のための予測市場

2015年11月24日 (火)

Peters,M., Ye, Y., So, A.M. (2007) Pari-mutuel Markets: Mechanisms and Performance. in "Internet and Network Economics," Proceedings of Third International Workshop, WINE 2007, 82-95.
 後日のためにいちおう記録しておくけれど、これは読了どころか、難しすぎて途中で断念し、論文の筋立てさえわかっていない。後半にはなんかチャートがのっているから、シミュレーションでもしたんですかね、っていう感じ。
 出展もよく分からなくて、ネットに公開されているのを拾ったんだけど、2008年と書いてある。たぶん上記文献の私家改訂版であろう。

 まあとにかく、逐次凸パリ・ミュチュエル・メカニズム(SCPM)を提案した論文らしい。
 こうして落ち着いてめくってみると、この論文の内容についていけなかったのは、数理的最適化についての知識がないからだ。KKT条件とか、双対問題とか、そういう基礎知識がないのでわからないだけだ。そんな知識を俺が持っているわけがないだろう。だからあまり落ち込むことはない。と自分に言い聞かせて、次にいこう、次に。

読了:Peters, et al. (2007) 逐次凸パリ・ミュチュエル・メカニズム

読んだとは到底いえないが、諦めをつけるために記録しておく。

Agrawal, S., Delage, E., Peters, M., Wang, Z., Ye, Y. (2011) A unified framework for dynamic prediction market design. Operations Research, 59(3), 550-568.
 予測市場、金融市場、賭け市場などなど、「ある出来事が起きたらある金を払う」タイプの市場(contingent claim markets)は数多い。連続的ダブル・オークションとかだと市場が薄いときに流動性がなくなっちゃうので、自動マーケット・メーカが使われることが多い。いろんなメカニズムが提案されている。コール・オークションに由来するメカニズム(SCPM)や、スコアリング・ルールに由来するメカニズム(LMSR)があるが、「敗者が払った金を勝者に分配する」という意味でいずれもパリ・ミュチュエルである。[←他の論文でもそうなんだけど、この著者らはパリ・ミュチュエルという言葉をかなり広い意味で使っているようだ]
 メカニズムを比較する研究はすでにある(Chen & Pennock, 2007; Peters, Ye, & Son, 2007)。本論文は異なるメカニズムを統合するフレームワークを提案します。

 メカニズム概観。以下、「ある出来事が実現したら1ドル払う」という証券について考える。
 その1, マーケット・スコアリング・ルール(MSR)。
 出来事$\omega$の確率推定値を$r = (r_1, r_2, \ldots, r_N)$とする。$\omega$の結果$i$が実現したときに$S=S_i(r)$となるような$S=S_1(r), S_2(r), \ldots, S_N(r)$をスコアリング・ルールという。信念の真実申告を促進するスコアリング・ルールをプロパー・スコアリング・ルールという。
 Hansonの考えたMSRとは、マーケット・メーカ(MM)がまず初期確率推定値$r_0$を持っていて、取引でそれが変わるたびに、その取引を行った投資家にプロパー・スコアリング・ルールで求めたスコアを払わせる、というもの。スコアリング・ルールとしては、
 対数スコアリング・ルール $S_i(r) = b \log (r_i)$
 二次スコアリング・ルール $S_i(r) = 2br_i - b \sum_j r_j^2$
が用いられる。
 MSRは投資家のtruthfulなbidを引き出すことが知られている[←近視眼的な投資家については、ってことなんだろうけど]。

 その2, コスト関数ベースMM (Chen & Pennock, 2007)。
 投資家たちが現在維持している、それぞれの状態についてのクレームの数をベクトル$q \in R^N$とする[←発行株数量のことだろうか?]。全注文$q$の合計コストを、なんらかのコスト関数$C(q)$で決める。さて、ある投資家がある注文を投げたとしよう。この注文を、状態$i$についての彼のクレームを要素$a_i$とするベクトル$a \in R^N$で表す。MMはその投資家に$C(q+a) - C(q)$を課金する。
 ... という枠組みで考えると、HansonのLMSRは
 $ C(q) = b \log (\sum_j \exp(q_j/b))$
として表される。もっと一般的に言うと、所与のスコアリング・ルール$S$によるMSRは、以下の条件を満たすコスト関数ベースMMと等価である。
 すべての$i$について$S_i(p) = q_i - C(q) + k_i$ (k_iは任意の定数)
 $\sum_i p_i = 1$
 すべての$i$について$p_i = \frac{\partial C}{\partial q_i}$

その3, 効用関数ベースMM (これもChen & Pennock, 2007)。
 MMは最終的ペイオフ$x$について効用関数$u(x)$を持ち、市場をやっている間じゅう、主観確率分布$\theta$に基づく期待効用を一定に維持し続ける。
 全状態についてのペイオフをベクトル$m$とする。$x$における$u(\cdot)$の導関数を$u'(x)$とする。状態$i$のリスク中立価格を
 $p_i = \frac{\theta_i u'(m_i)}{\sum_j \theta_j u'(m_j)}$
とすると、効用$\sum_j \theta_j u(m_j)$が定数になる。
 将来のペイオフに関するMMのリスク態度という観点から問題定式化した初めての提案であったが、MMはふつうそれぞれの結果の確率を知らない、という点が問題。

 その4, 逐次凸パリ・ミュチュエル・メカニズム(SCPM)。
[このSCPMというモデル、全然理解できない。引用されている Peters, Ye, So (2007) もめくってみたんだけど、とてもじゃないが私の理解が及ぶところではなかった。腹が立つので全訳する]

SCPMは以下のように設計されている。投資家に、次の3つの要素を含む注文を投げるように求める: 指値 $\pi \in R$, 数量上限$l$, 注文を記述するベクトル$\vec{a}$。$a$の各要素は1(その状態を望んでいるというclaim)ないし0(望んでいないというclaim)からなる。指値とは、投資家が1株に対して払いたい最大の量を指す。数量上限とは、投資家が買いたいと思う株の最大数量を表す。マーケット・メーカは、ある新しい注文について、そのうち$x$株を承諾する、そしてそれにいくらいくら課金する、と決める。マーケット・メーカは以下の最適化問題を解くことによってこの決定を行う。
 ${maximize}(x,z,\vec{s}) \ \ \ \pi x - z + \sum_i \beta_i \log(s_i)$
 $s.t. \ \ \ \vec{a}x + \vec{s} + \vec{q} = z \vec{e}, \ \ 0 \leq x \leq l$
パラメータ$\vec{q}$は、この新しい注文$(\pi, l, \vec{a})$が到着する前にthe traders[たぶん投資家サイド全体という意味]が持っていた株の数量を表す。新しい注文が到着するたびに、上記の最適化問題が解かれ、state prices $\vec{p}$が、the optimal-dual variables associated with the first set of constraintsとして定義される。投資家には、state priceのベクトルと実現された注文の内積$\vec{p}^T\vec{a}$が課金される。

[具体例でいこう。巨人阪神戦の賭けで考える。すでに巨人株が3枚, 阪神株が1枚売れている($q = (3,1)^T$)。で、「巨人株くれ、最大で一株あたり0.8ドル出す, 最大で3枚まで買う」という注文が届く。$\pi = 0.8, l = 3, \vec{a} = (1,0)^T$。市場運営者は、全株あわせて各銘柄について最大で$z$枚まで売ろう、と思っている。今回の売り枚数を$x$とすると、それは0以上、3以下。そして
 $1 x + s_1 + 3 = z$
 $0 x + s_2 + 1 = z$
あ、そうか、$s_1, s_2$は「あと何枚売れるか」を表しているのか。
 その上で、以下を最大化する。
 $0.8 x - z + (\beta_1 \log s_1) + (\beta_2 \log s_2)$
 ってことは、$\beta_1, \beta_2$は売り控えを奨励する程度を表す係数だ。で、$0.8x$が今回の売上の最大値。$z$は最悪の場合の支払額だ。仮に$\beta_1 = \beta_2 = 1$とすると、目的変数は
 $0.8 x - z + \log (z-3-x) + \log(z - 1)$
ここからがわかんないんだけど、これが常に解けるんでしょうね、きっと。で、ここからどうにかして$p$が出てくるんでしょうね、きっと。いいよもう、理系の人のいうことを信じるよ]

 その他、Pennockの動的パリ・ミュチュエル市場(DPM)があるけど、最後の注文が来るまで勝ち注文の価値が決まらないという特徴があるので、以下では扱わない。

 以上を統合するフレームワークとして以下を提案する。これはオリジナルのSCPMを一般化したもので、最大化する関数を
 $maximize(x,z,\vec{s}) \ \ \ \pi x - z + v(\vec{s})$
としたもの。以下ではこっちをSCPMと呼ぶ。
 $v(\cdot)$がなんであれ、VCG値付けスキーマの下で、SCPMメカニズムは近視眼的にtruthful biddingを許容することが証明できる。
 [VCGメカニズムって、まずパレート効率的に落札者を決めて、落札者は自分の言い値じゃなくて、Vickreyオークションみたいな謎のルールで決まる謝罪料金みたいなものを払う、ってやつだよね... 駄目だ、私の能力を超えた話になってきた...]

 ... まだ全体の1/3くらいだけど、文字通り力尽きたので、ここからは見出しだけ。
 SCPMをコスト関数ベースMMとしてみたらそのコスト関数はどうなるか。
 SCPMではMMは最悪でいくら損するか。
 SCPMをリスク最小化という観点から定式化するという長い長い話(全然理解できない)。
 既存のメカニズムを片っ端からSCPMの特殊ケースとして位置づける。LMSRは$v(\vec{s})=-b \log (\sum_i \exp(-s_i /b )) $であるSCPMである、とか。
 どんなSCPMだとどういう性質を持つか。たとえば、SCPM+VCG値付けスキーマは、真実申告性、コスト関数ベースMMとの等価性、スコアリングルールとの等価性を持つ、とか。
 SCPMに基づき新たなるメカニズムを考えてみよう、とか。この辺になるともう目を通してもいない。視線がつつつーっと文面をすべっていくような感じ。

 だ・め・だ。降参。これは私には無理だ。。。
 正直、わからなすぎて途中で吐きそうになった。なんでこんなの読もうとしているんだ、という惨めな思いで胸が一杯だ。

読了:Agrawal et al.(2011) ありとあらゆる自動マーケット・メーカを統一的に説明する枠組み(ま、おまえら素人には百年経ってもわからんだろうがな)

2015年11月19日 (木)

Chen, Y., Dimitrov, S., Sami, R., Reeves, D.M., Pennock, D.M., Hanson, R.D., Fortnow, L., Gonen, R. (2010) Gaming prediction markets: Equilibrium strategies with a market maker. Algorithmica, 58(4), 930-969.
 かなりの時間を費やし、細かくメモをとりながら10頁くらい読んだが、これは私には到底歯がたたない、と云い切れる内容であった。これ以上泥沼をのたうちまわっても時間の無駄なので、涙を飲んで断念。

 理路は全くもって理解できないが、読んだ範囲では、どうやらこういう内容であるらしい。
 LMSRマーケット・メーカを使った予測市場は近視眼的にインセンティブ整合であることがわかっている。つまり短期的にいえば、投資家は予測対象についての自分の真の信念に従って取引するのが最適である。では非近視眼的にみるとどうか。つまり、序盤で自分の信念に反する取引をして他の投資家を騙しておき、あとで食い物にする、というようなことはできるか。
 市場を不完備情報の下での展開型ゲームと捉え、ごにょごにょごにょごにょごにょと、お前ら凡人には死ぬまで理解できないであろう魔術的な分析を行った結果、次のことがわかった。
 みんなが使っているある製品について、その製品の材料が高品質か低品質かを当てる予測市場について考えよう。個々の参加者は製品使用経験というプライベートなシグナルを持っているが、それら「ある製品の材料が高品質か低品質か」という真相の下で条件つき独立だ。こういう風に、投資家が持っているプライベートなシグナルが世界の真の状態のもとで条件つき独立であるような市場であれば、自分の信念に基づく取引が弱完全ベイジアン均衡(WPBE)になる。
 こんどは選挙の予測市場について考えよう。有権者は自分の投票意向というプライベートな情報を持っている。これは互いに独立である。選挙結果は投票で決まる。つまり、世界によってシグナルが決まるわけじゃなくて、シグナルが世界に影響する。このような、投資家のプライベートな情報が独立である市場では、自分の信念を貫く取引はWPBEにならない。
 そこで、新たに「割引LMSR」を提案する。なんだかよくわからんが、対数スコアリング・ルールで求めるスコアにある係数を掛けておき、取引が進むごとにその係数をちょっとずつ増やしていくらしい[ってことは、株価が次第に動かなくなるってこと??]。
 
 せっかく膨大なメモをとったのに... ああ、無性に腹が立つ。死ね、俺より頭のいい奴はみんな死ね。(まずいな、人類滅亡の危機だ)

読了:Chen, et al.(2010) LMSR予測市場で他人を騙す方法とその防止策 (を考えたが貴様ら凡人にはわかるまい)

2015年11月17日 (火)

 仕事の関連で、最近ちょっと悩んだことがあって... 市場の「流動性」って、いったいなにを指しているんだろう? どうやって測るのが正しいんだろう? 恥ずかしくて人には訊けないし...

黒崎哲夫, 熊野雄介, 岡部恒多, 長野哲平 (2015) 国債市場の流動性:取引データによる検証. 日本銀行ワーキングペーパー.
 というわけで、大慌てで目を通した。
 著者らによると、「流動性」の定義はけっこうばらばらで、「その時々で観察される市場価格に近い価格で、売りたい(買いたい)量を速やかに売れる(買える)」ことを指していたり、「個々の売り買いが市場価格に大きく影響しない」ことを指していたり、価格ボラティリティが小さいこと自体を指していたりする。

 市場流動性をどうやって測るか。Kyle(1985, Econometrica)という古典的研究があって、売値と買値の幅の狭さ(tightness)、市場の厚み(depth)、市場の弾力性(resiliency)といった複数の軸で測ろうと提案している。さらに取引数量という軸もある。
 これは次の2軸で整理できる。横軸に注文数(正が買い、負が売り)をとる。縦軸に指値注文の設定価格をとる(正のみ)。取引が成立する範囲は、このチャートの中央に浮かぶ長方形で表現される。長方形の面積がvolume。その長方形の高さがtightness。縦軸からみた横幅がdepth。この長方形は、右下から上向きに買い注文の圧力、左上から下向きに売り注文の圧力を受けており、この圧力がresiliency。[うーん、わかったような、わからんような...]

 では、国債市場の流動性指標をつくりましょう。大阪取引所の取引データを使います。
 なお背景として、2014月末の量的質的金融緩和の拡大よりこのかた、市場関係者の間には「日銀が国債をどかっと買い入れていて流動性が低下している」という実感があるんだそうだ。

 まず、長期国債先物市場について。
 tightnessとしてbid-ask spread、volumeとして日々の出来高に注目。観察すると、2014年秋以降もspreadはずっと小さいし、出来高は高い。tightnessとvolumeだけじゃいかんということですね。
 depthとしてbest ask(bid)の枚数に注目。観察すると、たしかに2014年秋から薄い時間帯が増している。しかし、これだけではまだ足りない。なぜなら、たとえばbest ask枚数が表面上は増加していても、それがなにかのきっかけで急速に減少し、なかなか回復しない(resiliencyが低い)ようであれば、市場参加者にとっては流動性が低いことになる。さらにいえば、実際そうなんじゃないかというふしもある(これまで板を提示していた投資家が、金利変動の拡大とともに金利観を見失って提示を減らしているんじゃないか)。

 では、resiliencyとしてなにに注目するか。伝統的には、日中の値幅を出来高で割った値(値幅出来高比率)をみることが多い。しかし、これは最高値と最安値しかみてないという問題点がある。そこで、日次じゃなくて高頻度取引データを使い、1単位の取引が価格に与える影響(price impact)の推移を推測しよう。
 具体的には、price impactがランダム・ウォークすると仮定して、カルマンフィルタで平滑化する[←おおお、なるほど。価格変化を状態空間で表現しようってわけだ]。5分間の先物価格の変化幅を$\Delta p_t$, 5分間のネット取引金額(買い-売り)を$q_t$として、
 $\Delta p_t = \beta_t q_t + \epsilon_t$
 $\beta_t = \beta_{t-1} + \delta_t$
この$\beta$がprice impact。観察すると、なるほど、2014年秋から高くなっている。

 こんな感じで、現物国債市場についても指標をつくる。略。
 さらに、以下の2つの角度からみた流動性を調べる。

 その1、現物国債と長期国債先物の連関性。これが不安定になると、現物のポジションから発生する金利リスクを先物でヘッジできなくなるので、マーケット・メイクの難しさが増す[←へえええ。いやー、ど素人なので、いちいち面白いわ]
 具体的には、両者の利回り変化幅の相関をとる。これは低くなってない。

 その2、「SCレポ」市場の動向。
 [なんのことだかさっぱりわからなかったのだが、調べたところどうやらこういうことらしい。国債市場のディーラーは、現物国債の取引で売りポジションをとるとき、誰かに担保の資金を差し入れて国債を借りてくる。このとき、ディーラーは貸借料を支払うが、担保として差し入れた資金に対する金利を受け取る。国債の貸し手側は、国債の貸借料の分だけ低利で金を借りていることになるし、ディーラーの側は、国債を担保にとって安全に資金運用しているともいえる。この取引を「SCレポ取引」というのだそうだ。金利から貸借料を引いた値をSCレポレートという由。SCレポレートが大きなマイナスになるということは、ディーラーが売りポジションを取りにくくなるということ、すなわちディーラーが国債市場で取引しにくいということを意味することになる。へえええ]
 [よく理解できない細かい議論があって...] どうやら貸借料は高くなっている模様。

 まとめ。
 2014年秋以降、国債市場の流動性はどう変わったか。先物市場では、tightnessとvolumeは変わらず、depthとresiliencyは低下。現物市場ではdepthが低下。先物の金利ヘッジは維持されているが、SCレポ市場での国債の希少性が増している。要するに、流動性は極端に下がってはいないが、いくつかの指標で下がっているので、今後も要注意。

 難しい話はぜんっぜんわかんないんですけど、要するに、市場の流動性ってのはいろんな角度から捉えられる、ということらしい。そうだったのか。ちょっとほっとした。
 自動マーケット・メーカ方式の予測市場にあてはめて考えると、(A)「その時々で観察される市場価格に近い価格で、売りたい(買いたい)量を速やかに売れる(買える)」ことは常に満たされている。流動性という言葉が使われるとしたら、それは(B)「個々の売り買いが市場価格に大きく影響しない」ことを指しているか、ないし(C)価格ボラティリティそのものを指しているか、であろう。LMSRマーケット・メーカのパラメータは「流動性パラメータ」と呼ばれているけれど、これは(B)の意味だな。

読了:黒崎ほか(2015) 市場の流動性とはなにか、それをどうやって測るか

2015年11月12日 (木)

Brahma, A., Chakraborty, M., Das, S., Lavoie, A., Magdon-Ismail, M. (2012) A Bayesian Market Maker. 13th ACM Conference on Electronic Commerce.
 予測市場のための自動マーケット・メーカの新機軸、BMM(ベイジアン・マーケット・メーカ)を提案するよ! LMSR(対数マーケット・スコアリング・ルール)を超える凄い奴だよ!という論文。
 筆頭著者の所属がQualcommになっているので驚いたが、Rensselaer Polytechnic Institute在学中の研究らしい。

1. イントロダクション。略。

2. マーケット・メイキング
 その1, LMSR。早速ここで躓いた。著者いわく。

価格はパラメータ $b$とマーケット・メーカの現在のインベントリー$q_t$で決まる。ここで$t$とは注文到着時を表すインデクスである。インベントリ―はゼロから始まる、すなわち$q_0$である。これは初期価格$0.5$に対応する。

おおっと。どうやらここで著者は2銘柄しかない市場について考えているわけだ。さらにいわく、

スポット価格は$\rho(q_t)= \exp(q_t/b) / (1+\exp(q_t/b))$である。取引が数量$Q$に達したとして、時点$t+1$における投資家のコストは次の式で与えられる:
 $C(Q; q_t) = \int_{q_t}^{q_t+Q} ds \ \rho(s) $
 $= b \ln (1+\exp( (q_t+Q)/b )) - b \ln (1+\exp( q_t/b )) $

うわあ。著者は2銘柄のうち一方だけが取引されるとみて、取引されないほうについては$\exp(q_t/b)$のかわりに1を置いている。ってことは、一方の銘柄の発行数量が常に0であるような2銘柄の市場について考えているのだ。なぜ? この定式化に基づいて考えた話は、多銘柄を取引する場合にもあてはまるの?

 まあいいや、先を読むと... (以下、引用表記を省略)
 LMSRにはつぎのような問題点がある。取引に参加している多くの人々が、なんらか違う信念を持ち続けているとしよう。さらに、常に何人かの投資家がいて、なんらかの取引をしており、そのサイズを$Q$としよう。時点$t$における株式発行量を$q_t$とする。
 数量$Q$におけるbid-ask spreadについて考えよう。すなわち、$Q$株の買いの平均価格と、$Q$株の売りの平均価格の差である。それは次式となる:
 $\delta (Q) = \frac{b}{Q} \ln( \frac{cosh(q_t/b) + cosh(Q/b) }{2 cosh^2(q_t/2b) } )$
[← $cosh(x) = (\exp(x) + \exp(-x))/2$であろう。この式、他の全銘柄の発行数量が0である市場については確かに成り立つようだ。わざわざスプレッド・シートをつくって確認した。ヒマなのか私は]

 仮に、均衡価格がインベントリー$q_{eq}$に対応しているとしよう。典型的な取引数量が$Q$ならば、この均衡点の周囲におけるスポット価格の変動は強度$sinh(Q/b) / (cosh(q_{eq}/b) + cosh(Q/b))$を持つ。この変動は均衡点について非対称であり持続する。[←このくだり、まったく理解できない...そもそも価格変動の強度ってどのように定義されているの?]

 そのせいで、質的な確率推定値を抽出するのが困難になる。$b$の選択は重要なオープン・クエスチョンである。小さな$b$は損失の小ささを保証するが、均衡点の周囲での変動が大きい、流動性の低い市場となる。[←ま、この結論は理解できるので、いいか]
 
 その2、流動性敏感なLMSR。LMSRにおいてはある取引数量に対する価格反応は流動性を問わず等しい。つまり、価格を $p_i (q)$ として $p_i (q + \alpha 1) = p_i(q)$である。Othmanらは$b$を市場の数量の関数にして、流動性敏感な価格関数をつくった (先日読んだOthman et al. (2013)のカンファレンスペーパー版)。しかしこの提案では、全銘柄を通した株価の合計が1を超える...云々。 [このくだり、批判してんだか単に紹介してんだかわからない]

 その3、Dasらの情報ベース・マーケット・メーカ(ZPマーケット・メーカ)。
 マーケット・メーカが証券の価値$p_t(v)$についてなんらかの信念(事前確率密度)を持っている。投資家がシグナル$s$を得る。$s$の分散は投資家が持っているシグナルの不確実性を表す。マーケットメーカは事前分布しか情報を持っていないので、ここに情報の非対称性が生じる。この非対称性は投資家の事前信念の分散と投資家の不確実性の比として表現される。
 マーケット・メーカは買値(ask)と売値(bid)を提示する。トレーダーは、$s$がaskより小さければ売るし、bidより大きければ買う。ここでaskとbidを決めるには、利益の期待値が0になる(zero profit, ZP)ことを目指せばよい。すなわち、$ask=E_{p_t(v)}[v | s \gt ask], bid = E_{p_t(v)}[v | s \lt bid]$を解けばよい。
 で、マーケット・メーカは取引を観察して$s$についての情報を手に入れ、$p_t(v)$を$p_{t+1}(v)$に更新する。というモデルである。

 その4、その他にもいろいろある。Pennockの動的パリ・ミュチュエル・マーケット、Hollywood Stock Exchangeのマーケット・メーカ。

 比較しよう。投資家の信念の分布の平均を動かして株価の変動をシミュレーションしてみると、LMSRは適応するが収束せず、情報ベースMMは収束するけど適応が遅い(MMが大損する可能性がある)。流動性敏感LMSRも適応が遅い(MMは損しないけど)。
 思うに、MMは損することなく流動性をつくりだすものであってほしい。また、均衡点に収束するものであってほしい。第三に、真値の変動にすばやく適応してほしい。

3. 市場のミクロ構造
 以下では単一の証券について考える。価格を0から100とする。出来事が起きたかがどうかでペイオフが0ないし100になるのかもしれないし、清算配当が0から100のあいだになるのかもしれない。
 投資家はその証券の取引の履歴と、「現在の株価」をみることができる。投資家は取引数量を選ぶことができ、注文前にその取引価格を知って、注文するかどうか決めることができる。

4. BMMアルゴリズム
 提案手法はDasのZPマーケット・メーカを改善し、適応性を増したものである。以下、その仕組み。
 MMはスポット価格$p_t$を出す。投資家は注文を投げる。注文の数量を$Q$、売買方向を$x_t = \pm 1$とする(正が買い)。マーケット・メーカは、$Q$枚の株のVWAPを示し、ほんとに取引するかどうか尋ね、取引したりしなかったりする。で、MMは現在の信念を更新するわけだ。そのやり方について説明する。以下では買い注文について説明する。

 まず、ZPではどうなっていたか。
 MMは市場の価値についてのガウシアン信念$V: N(\mu_t, \sigma_t^2)$を持っている。スポット価格は$p_t = \mu_t$である。で、投資家の信念は$V$の周りに分散$\sigma_e^2$で正規分布すると仮定し、MMが情報的に不利である程度を$\rho_t = \sigma_t / \sigma_e$とする。売値を以下のように決める。
 $ask = \mu_t + \sigma_e Q(\rho_t) \sqrt{1+\rho_t^2}$
$Q(\rho)$とはDasらが決めた関数。こうして決めた売値の下で、利益の期待値は0になる。ここでは取引数量について考えていないことに注意。
 さて、MMは投資家の信念$s$が取りうる範囲について考える。たとえば投資家が取引に応じたら、$s$はaskより上だ。もしキャンセルしたら、$s$は$\mu_t$と askのあいだだ。[←おおお。注文が入ってから取引価格を示してキャンセルを許容することに積極的な意味があるわけだ。これは面白いな]。そんなこんなで、$s$の上限と下限、$\mu_t$, $\rho_t$, $\sigma_e$の5つを組み合わせて、$\mu_t$と$\sigma^2_{t+1}$を更新する。詳しくはDasの論文を読め。

 これを改善して... [以下、なんだかめんどくさくなっちゃったので略。数量を反映させ、取引履歴を一定の窓でモニタしてMMの信念の不確実性を変えていく、というような話だったような気が]
 シミュレーションすると... [パス]

5. 人間による実験。めんどくさくなって飛ばし読み。
6. エージェントによる実験。一行も読んでない。
7. 結論。BMMは優れてます。ただし、LMSRみたいに組み合わせ市場には拡張しにくい。またMMの損失は小さいけど有界ではない。すでにRPI Instructor Rating Marketsというところで運用実績がある。云々。

 ワクワクしながら読み始めたのだけど、途中で読む気を失くしてしまった。先行するZPマーケットメーカについて知っていないとお話にならない。Das(2005, Quantitative Finance), Das(2008, Proc.AAMAS), Das&Magdon-Ismail(2008, NIPS)というのを読むべきらしい。

読了:Brahma, et al. (2012) ベイジアン・マーケット・メーカ

2015年11月 9日 (月)

 仕事の都合で大急ぎで読んだ奴。読了というのも憚られるが、いちおう記録しておこう。

Othman, A., Pennock, D.M., Reeves, D.M., Sandholm, T. (2013) A practical Liquidity-Sensitive Automated Market Maker. ACM Transaction on Economics and Computation (TEAC), 1(3), Article 14.
 予測市場におけるマッチング・メカニズムの一方の雄、Hansonの対数マーケット・スコアリング・ルール(LMSR)にケチをつけて改善する、という論文。第一著者はCMUの人で、Gates-Hillman予測市場という面白い研究をやった人。いまはAugurに関与しているんじゃないかな...

1. イントロダクション
 新しい自動マーケット・メーカ(MM)をご提案します。予測市場はもちろんのこと、天気の保険だろうがスポーツ賭けだろうがクレジット・スプレッドだろうが、とにかくペイオフが二値である(つまり、未来が有限の状態に分割されそのひとつが実現する)いかなる証券に対しても適切です。
 先行する提案にHansonのLMSRがある。LMSRでは流動性パラメータを事前に決める。この決め方が結構難しい。僕らもそこでしくじりました(Gates-Hillman予測市場のこと。Othman & Sandholm, 2010)。パラメータを下げ過ぎちゃうと取引のたびに価格が変動しすぎてしまう。LMSRではある固定されたbetに対する価格変動が定数なので余計問題である(普通の市場なら、人気のあるエクイティはスプレッドが小さくなり、大きなポジションをとっても価格はあまり動かない)。また、流動性は投資家には嬉しいけど、MMからみると最悪の場合の損失が大きくなる。
 本提案はLMSRの変種で、現金の流入が多いとき価格弾力性を下げる。また、LMSRでは銘柄を通した株価の合計を1ドルに固定するけど、本提案では1ドルより大きくしてMMの損失を抑える。さらにLMSRと同じくらい簡単。
 [ここ、大事だと思うので1パラグラフ全訳]

取引の増大とともにmarket depth[一単位の価格変動を引き起こすのに必要な取引サイズのことであろう]を増大させるのは、どんな場面でも適切だとはいえない。資産に制約のある投資家の市場で、世界の真の状態が頻繁に変動している場合について考えてみよう。この場面では、market depthが一定で浅いと、トレーダーたちは世界の真の状態に素早く到達できるようになる。これに対し、こうした場面で取引量とともにmarket depthを増やしてしまうと、価格は「粘着する」ようになり、正しい値に到達できなくなる。しかし、世界の真の状態が変動しているということは、我々の新しいマーケット・メーカにとっては必ずしも問題にはならない。もし取引している人々が資産の制約を受けていなかったら、価格は依然として変化し、想定される適切な値を反映するようになりうる。だから、新しい情報が生じない場面、情報が穏やかにしかあきらかにならない場面、取引機会が生じるのを「傍観者として」待っている資本が十分にある場面では、我々のマーケット・メーカは、LMSRにおける流動性パラメータを正しく選択するという必要を、不要なものにしてくれる。

2.価格ルール
 出来事の空間を$n$個の相互排他的な出来事に分割しよう。生じるのはどれか1個である。市場の状態をベクトル$q$で表す。$i$番目の要素は、$i$番目の出来事が生じた場合に投資家たちに払わないといけない支払額である。MMが提示する周辺価格[marginal price]は$q$の関数となる。$q$を価格ベクトルにマップする微分可能な関数を価格ルールと呼ぶ。
 価格ルールが持つべき特性として、convex pre-imageであることが挙げられる。convexityは、投資家が自分のポートフォリオの任意の部分を売り戻したとき、その残りにもなお値がつくことを保証する。 [すでにここで躓きつつあるが... まあいいや]

 さらに、価格ルールは以下の3つの特性を持つことが望ましい。

さて、この3つの性質をすべて満たすMMは存在しない。経路独立性と翻訳不変性の両方を満たすMMをHanson MMと呼ぼう。Hansonの文脈では流動性敏感性には到達できない[証明が書いてあるけど、理解できそうにないのでパス]。

3.我々のMMの紹介
 Hansonのルールをより実用的にしようとする提案としては、まず、取引に手数料を課す、というのがある。MMは儲けることが可能になる。でも流動性敏感にはならない。[この方向のもっとややこしい改善案についても批判している。パス]。
 流動性敏感性を確保するために翻訳不変性を緩和するという手もある。$q$の下での各出来事の価格の合計を1以上とする。ただし、投資家がMM相手に鞘取りできることになる[全銘柄を1枚売れば、価格1ドルが保証された株を1ドル以上で売りつけたことになる、という意味であろう]。これを防ぐためには、MMに契約空間を前進させればよい[←はぁ...?]。2つの方法がある。

どっちのスキーマがよいかは場合による。投資家があんまし賢くなかったら、買いがキャンセルできるという点で(2)のほうがよい。なお、HansonのMMならどちらを採用しても両方採用しなくてもコストは同じ。

 さて、ご存じLMSRは、
 コスト関数 $C(q) = b \log (\sum_i \exp(q_i / b))$
 価格 $p_i (q) = \exp(q_i/b) / ( \sum_j \exp(q_j /b))$
 でございます。MMの最悪の損失は$b \log n$です。

 お待たせしました、我々の提案です。
 コスト関数 $C(q) = b(q) \log (\sum_i \exp(q_i / b(q)))$
 流動性 $b(q) = \alpha \sum_i q_i, \ \ \ \alpha >0 $
 MMは契約空間を前進する(上記のNo sellingスキーマかCovered Short Sellingスキーマを採用する)。

4.我々のMMの性質
 まずは価格について。LMSRよりかなりややこしくなって、
 $p_i (q) = \alpha \log(\sum_j \exp(q_j/b(q))) + \frac{\sum_j q_j \exp(q_i/b(q)) - \sum_j q_j \exp(q_j / b(q))}{\sum_j q_j \sum_j \exp(q_j / b(q)) }$
他の銘柄の発行枚数が多いと、ある銘柄への投資に対する価格の変化は小さくなる。$q$の下での価格の合計は1にならないけど、厳しい制約がかかる[長くて面倒くさいのでパス]。
 このMMでは、$b$のかわりに$\alpha$をアプリオリに決めないといけない。$\alpha$はMMのコミッションに相当している。たいていのMMは2~20%くらいのコミッションをとっている。これを$v$として、$\alpha = v / (n \log n)$と置くとよい($n$は出来事の数)。なお、$\alpha$の増大に対してコスト関数は非減少である[証明略]。
 このMMの損失の範囲はどうなるか、利得の範囲はどうなるか...[略]
 このMMのコスト関数は一次の正の同次関数(homogeneous function)になっていて... これはつまり価格が比例尺度になっていると言うことで... [力尽きました。略]

5. 考察
 我々の提案する新しい自動MMは、LMSRの二つの限界を乗り越えている。(1)流動性水準$b$をマニュアルで設定しなければならず、変えられない。(2)MMは$b$に比例した損失を負うと期待される。
 我々の提案には翻訳可能性がない、つまり、価格と確率が対応しない。でも、価格は確率の範囲と対応している。たとえば$q = k1$のとき、その価格には$1/n-\alpha (n-1) \log n$から$1/n+\alpha(n-1) \log n$の範囲の確率が対応する。ふつう$\alpha$は小さいので、この幅は狭い。要するに、価格を価格合計で割って確率だと思えばいいんじゃないですか。[←結局そうなるのか]
 云々。

 ううう。私にはあまりに難解で、実質的に半分くらいしか読めてないんだけど、きりが無いので読了にしておく。
 要するに、LMSRの流動性パラメータ$b$を発行済株数の合計に比例させるというアイデアである。イントロのところで著者らも触れているけれど、「一株の取引での価格変化」が発行済株数の増大によって変わることと変わらないことには、それぞれ長所と短所があり、市場の所与の条件と目的によって決めるべきことだろうと思う次第である。そこんところを詳しく知りたいなあ。

読了:Othman, et al. (2013) LMSRマーケット・メーカの流動性を自動調整する

2015年9月24日 (木)

Chen, Y. (2011) Mechanisms for prediction markets. Williams, L.V. (eds.), "Prediction Markets: Theory and Applications," Routledge.
 題名通り、予測市場の市場メカニズムに焦点を合わせた概観。目次は以下の通り:

 いわく。
 予測市場の主目的は情報集約だ。そのためには次の3つの特徴が望まれる:

というのを踏まえて、ここからは主要メカニズムを概観します。

1. オークショナー・メカニズム。取引所は注文マッチングだけやって損失リスクを負わない。当然、負債有界である。次の3種類がある。

1.1 コール・マーケット。参加者は指値注文する。契約$\psi_i$, 数量$q_i$ (正値はbuy, 負値はsell)、指値$b_i$の注文を$(\psi_i, q_i, b_i)$としよう。ここで指値のことを、買い注文のときにはbid price, 売り注文のときにはask priceという。
 個別の契約が取引される時点は事前に決まっている。その時点で集まっている注文をまとめ、買い注文と売り注文が釣り合う価格をclearing priceとする(細かい点まで考えると決め方はいろいろある)。で、clearing priceより高い売り注文、安い買い注文は捨て、残った注文を(個別の指値ではなく) clearing priceで一気にマッチングする。
 ところで、全注文を指値の高い順に並べ、clearing price をM番目の指値$p^M$ にするのは第M価格オークションだが、M番目の指し値とM+1番目の指し値の間にするのをk-ダブルオークションという。kとは0から1までの間の値で、たとえば0.5-ダブルオークションとはclearing priceを$p^M$と$p^{M+1}$の中間にすることを指す。コール・マーケットはk-ダブル・オークションであるともいえる。

1.2 連続的ダブル・オークション(CDA)。ほとんどの予測市場はこれを使っている。取引所はorder bookを持っている[板のことであろうか]。そこではすべての注文が指し値の高い順に並んでいる。上部が売り注文、下部が買い注文、最低のaskと最高のbidの差がbid-ask spreadである。で、新しい注文が来たらk-ダブルオークションをやって、マッチングできる注文をマッチングさせる。
 CDAの問題は流動性の低さである。コール・マーケットは取引の即時性を犠牲にして流動性を確保しているわけだ。株式取引では一日の始まりと終わりにコール・マーケット、そのあいだはCDA、という組み合わせにすることが多い。[←日本では、寄りつきと引けは板寄せ、そのあいだはザラバ、と表現するらしい]

1.3 一般化コール・メカニズムと合成予測市場。コール・マーケットとCDAはbilateralだけど(ある約定について売り注文と買い注文がある)、コール・マーケットをmultilateralに拡張することができる。どういうことかというと...
 US大統領選について予測するために、50州それぞれについての独立な市場をつくったとしよう。各市場に民主党勝利の契約と共和党勝利の契約があり、勝った方の契約に1ドル配当する。いま、あるトレーダーが、「フロリダとオハイオでは民主党が勝ちニューヨークで負ける」という見込みについて情報をもっていたとしよう。この情報をこの市場で完全に表現することはできない。
 そこで、50州での結果を組み合わせた $2^{50}$ の結果空間を考える。すべてについての契約をつくるのは現実的でないが、なんらかの賭け言語をつくって、結果の組み合わせに賭けられるようにする。「民主党がフロリダとオハイオで勝つ」とか。こういう合成予測市場での注文マッチングは最適化問題としてモデル化できる。
 すべての合成契約の実現時のペイオフを1ドルとして考えよう。結果空間を$\Omega$、受けた注文の集合を$O$とする。注文$i$について、数量を$q_i$(買い注文は正値、売り注文は負値)、指値を$b_i$、それが実現したことを表す二値変数を$I_i(w)$、オークショナーがその注文を受けたことを示す二値変数を$x_i$とする[オークショナーは受けた注文一枚につき利益$b_i - I_i(w)$を得るわけだ]。オークショナーの利益を最悪の場合で$c$だとすると、すべての$w \in \Omega$について制約
 $\sum_i (b_i - I_i(w)) q_i x_i \lt c_i$
を満たしつつ、$c$を最大化する$x_i$を探す、という問題として定式化できる。[んんん? 制約式の右辺は$c$じゃなくて$c_i$なの? まあいいや。本節ここから話が難しくなるので後略]

2. パリ・ミュチュエル市場。ある出来事についての、排他的で包括的な複数の結果のリストがあって、参加者はそのうち好きなのに賭ける。結果確定後、実現しなかった結果に賭けられた賭け金を集めて、実現した結果に賭けた人に、賭け金に応じて比例配分する。たとえば結果$i$への賭け金が$W_i$ドル、合計が$W$ドルだったとして、結果$j$が実現したら、$j$への賭け1ドルあたり$W/W_j$を配当するわけだ。参加者は好きなだけ賭けられるわけで、流動性は無限大である。
 パリ・ミュチュエル市場では契約という概念がはっきりしていない。強いて云うと、1ドル賭けた人は「その結果が生じたら、すべての賭け金を株主のみなさまに等分いたします」という契約を一株もらえる。配当は市場が閉まるまで決まらない。参加者からみると、最後の瞬間に賭けることにインセンティブが生じてしまう。

3. 自動マーケット・メーカ・メカニズム。マーケット・メーカがリスクを負って価格を決定し取引する。
 オークショナー・メカニズムもパリ・ミュチュエル市場もゼロ・サム・ゲームである。合理的なリスク中立的エージェントはゼロ・サム市場で取引しないはずである(ノー・トレード定理)。いっぽうマーケット・メーカ・メカニズムならポジティブ・サム・ゲームになりうるわけで、合理的エージェントでさえ取引のインセンティブを持つ。それに流動性もある。いやーんステキ。問題は負債有界性をどうやって確保するかである。

3.1 マーケット・スコアリング・ルールとコスト関数ベース・マーケット・メーカ。予想市場におけるマーケット・メーカの事実上の標準である。さあいくぞ、歯を食いしばれ。

1) プロパー・スコアリング・ルール。いったん市場のことは忘れて、専門家に出来事の確率を評定させたとき、彼らを誠実にするようなインセンティブの決め方について考えよう。
 予測対象の離散確率変数を$v$、その相互排反で包括的な結果の数を$n$とする。確率評価の申告を $r = (r_1, r_2, \ldots, r_n)$とする。結果$i$が実現したときに与えるスコアを$s_i$とする。スコアの決め方$S=\{s_1(r), s_2(r), \ldots, s_r(r)\}$をスコアリング・ルールと呼ぶ。
 リスク中立的な専門家からみて、スコアの期待値が真実申告によって最大化されるようなスコアリング・ルールのことをプロパーであるとよぶ。プロパー・スコアリング・ルールの例:
 対数スコアリング・ルール: $s_i (r) = a_i + b \log (r_i)$
 二次スコアリング・ルール:$s_i (r) = a_i + 2 b r_i - b \sum_{j=1}^n r^2_j$ ただし$b>0$
 プロパー・スコアリング・ルールの研究はもう山のようにある。個々の参加者の申告と全員の申告の平均とのずれに従ってスコアを与えるシェアド・プロパー・スコアリング・ルールというのもある。

2) マーケット・スコアリング・ルール(MSR)。Hansonはプロパー・スコアリング・ルールをマーケット・メーカ・メカニズムに変換する方法を示した。
 市場のスタート地点はなんらかの初期確率推定$r^0$である。市場の参加者とは、現在の市場の確率推定によって決められたスコアリング・ルール・ペイメントを払って、現在の確率推定を新しい確率推定に変え、その新しい確率推定によって決まるスコアリング・ルール・ペイメントを受け取る。結果$i$が実現したら、確率推定を$r^{old}$から$r^{new}$に変えた参加者は、$s_i(r^{old})$を払って$s_i(r^{new})$をもらう。ある参加者が市場に一回しか参加しないとしたら、スコアリング・ルールはプロパーだから、彼の真実申告にインセンティブが与えられている。
 [いつもここからわけがわからなくなっちゃうんだけど...]
 参加者たちは徐々に確率推定を変えていくわけだから、MSRをシェアド・プロパー・スコアリング・ルールのシーケンシャルな適用だと捉えることができる。マーケット・メーカは、最初の参加者から金をもらって最後の参加者に金を払う。マーケットメーカの損失は最悪で
 ${max}_i sup_{r \in \Delta_n} (s_i(r)-s_i(r^0))$
ただし$\Delta_n$は確率シンプレクス。
 [あああ、やっぱりここで狐につままれたような気分になる...]

3) コスト関数ベースのマーケット・メーカ。上の説明はわかりにくいので、別のクラスのマーケット・メーカを定義します。結局は上の話と等しくなります。
 結果$i$が実現したら配当1ドル、しなかったら0ドルとなる契約を考える。全トレーダーが持っている数量合計を$q_i$とし、$i$を通したベクトルにして$q$とする。全トレーダーが$q$に払う総金額をコスト関数$C(q)$とする。あるトレーダーが取引して総数量を$q_{old}$から$q_{new}$に変えるとき、彼に$C(q_{new}) - C(q_{old}) $を払わせる。
 ある株の価格が負なのはおかしい。また、価格の合計は1にならないとおかしい(でないと鞘取りの機会があることになる)。これを指して、コスト関数が妥当であると呼ぶ。[中略...]
 えーと、プロパー・スコアリング・ルールによるMSRは、凸コスト関数ベースのマーケット・メーカと等価であることが示されている。云々云々。[このくだり、覚悟はしていたが、今回も途中で挫折した... しょぼーん]
 というわけで、もっともポピュラーなのはLMSRである。コスト関数は
 $C(q) = b \log \sum_j \exp(q_j / b)$
[おおっと... 説明例のチャートのなかで、ある株の発行数量$q_i$が負の値をとっている。やっぱしマーケット・メーカとしては負の数量でもオッケーなのか]。
 その他のマーケット・メーカとして、Chen & Penncok の効用ベース・マーケット・メーカ、Agrawalらのシーケンシャル・凸・パリ・ミュチュエル・メカニズム(SCPM)がある。

3.2 動的パリ・ミュチュエル・マーケット(DPM)。パリ・ミュチュエル市場とCDAのハイブリッド。パリ・ミュチュエル市場と同じく、実現した結果に賭けた人が賭け金を配分する。ちがいは、株価がダイナミックに変動する点。トレーダーから見ると、コスト関数ベースのマーケット・メーカのようにみえる。コスト関数は
 $C(q) = \kappa \sqrt{\sum_j q^2_k}$
結果 $k$が実現したとき、一株あたりペイオフは
 $o_k = (\kappa \sqrt{\sum_n q^2_j})/(q_k)$
$\kappa = $1とするのが自然。
 DPMでは市場価格が確率を表さない点に注意。

 ... やれやれ、疲れた。それにしても、MSRの話の難しいことときたら... いつの日か腑に落ちる日は来るのだろうか。

読了:Chen (2011) 予測市場の市場メカニズム

2015年9月23日 (水)

Forsythe, R., Rietz, T.A., Ross, T.W. (1999) Wishes, expectations and actions: a survey on price formation in election stock markets. Journal of Economic Behavior & Organization, 39, 83-110.
 予測市場の老舗、アイオワ電子市場 (IEM)における過去の選挙予測市場を中心に、選挙予測市場の価格形成における体系的バイアスを概観する、というレビュー論文。先頭の二人はIEMの中の人だと思う。

 まずはIEMにおける選挙予測市場の設計から。
 議席市場と得票率市場がある。議席市場の場合、政党Aについての約定は、選挙後の議席の割合で清算される(たとえば、30%の議席を獲得したら30セント)。得票率市場の場合はこれが得票率になるわけね。
 IEMは実金銭市場である。参加者はまず定額を払い、これがファンドになる。約定を買えばここから代金が引かれる。
 すべての政党なり候補者なりの約定を1つずつセットにしたのを「単位ポートフォリオ」と呼ぶ。これは清算価格が常に(たとえば)1ドルとなるわけで、IEMはこれをいつでも1ドルと交換してくれる。参加者はキャッシュを単位ポートフォリオを交換し、これをばらしたのを取引するわけだ。マッチングは連続的ダブルオークション。

 [ここ、いまちょっと関心があるので、細かくメモしておくと(脚注8)...]
 トレーダーはbids to buyとasks to sellをいつでも発行できる[limit order, 指値注文のことであろう]。またthey can trade at the best outstanding bid or ask [market order, 成り行き注文のこと]。後者の場合、キューに入る順番はまず価格、次に時間で決まる。成り行き注文の場合、板に残っている未成立の注文がそれにマッチするんだけど、その順番はまずは価格順、価格が同じ注文は時間順。[←ご指摘いただいて読み間違いに気が付きました。ありがとうございます!]
 注文から成立までの間に手持ちキャッシュが変動してもいいけど[保証金を入れる必要はないわけね]、いざ成立のときに必要なキャッシュがなかったらキャンセルになる。結局、注文が消える理由は次の通り。(1)取り下げ。(2)時間切れ。(3)成立の段になってキャンセル。(4)成立。
 purchase on margin[空買い]とuncovered short sales[空売り]は禁止。しかし、トレーダーはすべての広報を含むポートフォリオを買い、ある候補の株を売ることでsyntheticな売りポジションを構築できる[あーそうか。単位ポートフォリオを場外で売る理由がわかったよ...]。 この結果は、当該候補に対して売りポジションをとるのと同じペイオフとなるが、結果がどうであれトレーダーが市場に対して追加ファンドを負わないという意味で fully coveredである[著者のいうcoveredの意味がここでようやくわかった。現物取引っていうことだ、きっと]

 さて、IEMはこれまですんごく成功しております。しかし、そこには体系的なバイアスもある。

 さて、このような個人レベルでのバイアスは、果たして市場の価格形成に影響するか。
 著者らは「マージナル・トレーダー仮説」を提唱している。マージナル・トレーダーとは、市場価格に近い価格で指値を出す活動的トレーダーのこと。個人特性をみるとわずかに男性が多く、結果をみるとリターンは高め。この人たちの取引をみるとバイアスが小さい。平均的トレーダーはバイアスを持っているけど、価格形成しているのはマージナル・トレーダーだから、市場はうまく機能するのだ、という仮説である。

 著者らの実験室実験の紹介(元は紀要かなにからしい)。めんどくさいので読み飛ばしたが、鞘取りできるのにしないviolationとか、wishful thinkingとかを再現できた由。

 。。。ざっとめくっただけなので(だって長いんだもん)、細かいところを読み飛ばしているのだが、「マージナル・トレーダー仮説」って面白いな。直接的に検証する方法はないもんかしらね。

読了:Forsythe, Rietz, Ross (1999) 人の判断バイアスは選挙予測市場を歪めるか?

2015年9月 8日 (火)

Ottaviani, M. (2009) The design of idea markets: An economist's perspective. Journal of Prediction Markets, 3(1), 41-44.
 ええと、この雑誌のこの号は「予測市場の企業における応用」特集で、その一本がSpears, LaComb, Interrante, Barnett, & Senturk-Dogonaksoy (2009) という論文。2007年のGEアイデア市場の論文があるけど、その詳細分析らしい。で、これは当該論文に対する3pの短いコメント。
 要するに、GEアイデア市場は普通の市場と違って(1)ペイオフがアイデアの質についての事後情報とリンクしてないから美人投票になっちゃうはずだし(2)アイデア発案者が取引できるからインサイダー取引や価格操作がし放題だ、これではいかんよ君。というコメントであった。
 対策は、(1)についてはペイオフをなんらかの事後情報とリンクさせる。専門家とか二重市場とか(Miller,Resnick,Zackhauser(2005 MgmtSci)というのが挙げられている)。(2)については、ポートフォリオ評価をインセンティブと連動させる、アイデア発案者の取引を禁止する。
 ううむ。正論ではある。LaCombらとしては実証データで対抗したいところだろうが、そうそう実験できるものでもないのがつらいところだ。

読了:Ottaviani (2009) 経済学者からみたアイデア市場批判

2015年8月17日 (月)

Camerer, C.F., Fehr, E. (2009) When does "Economic man" dominate social behavior? Science, 311(5757), 47-52.
 いま仕事で予測市場のことを考えてて、いろいろ思い悩むこと多く、魅力的なタイトルに惹かれてふらふらと読んでしまった。実験論文かと思いきやレビューであった(REVIEWと大書している字が大きすぎてかえって気づかなかった)。よく知らないけど、第一著者は行動ゲーム理論の教科書を書いている人だと思う。

 ええと。。。
 個人は合理的意思決定者です、純粋に自己配慮的(self-regarding)な選好を持ってます。これが多くの経済的分析の基礎にある想定だ。

 多くの人々が、この合理性の想定と自己配慮的選好の想定に反した姿を示す。このことは経済学において繰り返し示されている。

 しかし、市場や政治過程といった集団レベルの実体が示す行動においても、これらの違反が姿を現すかどうかは別の問題である。参加者の一部がこれらの想定に違犯しているのに、集計レベルでの結果は全員が合理的・自己配慮的であるという想定と合致する、という実験例は数多い。
 問題は、集団レベルの結果が、異質な参加者の間の相互作用によってどのように形成されているか、である。

 集団レベルでの行動について理解するための鍵は「戦略的代替性」と「戦略的補完性」だ。[... 説明 ...]

 このちがいはなぜ生じるのか。ポイントは、美人投票ゲームの数字は戦略的補完物で(非合理的な人と同じことをすることにインセンティブがある)、ビジネス参入ゲームの選択は戦略的代替物だ(非合理的な人と違うことをすることにインセンティブがある)という点だ。

 統一的な説明原理があるかって? あります。そのひとつが「認知的階層性」の理論。戦略的推論においてまわすステップ数の分布を考えて... [説明略]

 戦略的代替性と補完性は市場においても重要だ。たとえば、予測市場による予測が正確なのは、貧しい情報しか持たないトレーダーのおかげで、豊かな情報を持つトレーダーが儲けることができるからだ(戦略的代替性)。これに対し実際の証券市場では、取引成績のプレッシャーや空売りの困難さなどのせいで、情報を持っていないトレーダーが、情報を持っていない群衆に従わざるを得ないことが起きる(戦略的補完性)。
 云々。

 。。。あんましきちんと読んでないけど、面白かったっす。意外な文脈で予測市場の話が出てきたりして、身も蓋もないご意見にウウウウと呻いたりなんかして。先生に言わせれば、予測市場の勝因は正解があとでわかる点にある、その点で実際の証券市場より良くできている、ということになろう。

 このレビュー論文のテーマとはちょっとずれるけど、集団の合理性と個人の合理性ってちょっとちがう、でもそのことをついつい忘れちゃうよなあ... と考え込んだ。
 予測市場の話でもそうで、ついつい、予測市場をうまく機能させるために、いかにして市場参加者をして利益最大化を追求せしめるか、というふうに考えてしまうのだけれど、本質的にはそうではないのでしょうね。要するに取引メカニズムを通じて情報が集約されたり生成されたりすればそれでよいのであって、そのことと、個々人が自らの選好に基づき利益最大化を図るかどうかとは、おそらくちょっとフェイズの違う問題なのだ。

読了:Camerer & Fehr (2009) 集団が合理的経済人として振る舞うのはどんなとき?

2015年7月18日 (土)

Marinovic, I., Ottaviani, M., & Sorensen, P.N. (2011) Modeling idea markets: Between beauty contests and prediction markets. in Williams, L.V., "Prediction Markets: Theory and Applications". Routledge.
 買ったまま積んであった予測市場の論文集のなかの一篇。このたび調べものをしていて、タイトルに惹かれて読んだんだけど、たいそうマニアックな論文であった。

 予測市場では市場参加者の報酬を最終的結果を予測できたかどうかで決めるけど、 アイデア市場では他の参加者の選択を予測できたかどうかで決めざるを得ない。でも人気のみに基づく純粋なアイデア市場は美人投票になってしまい、私秘的情報を集約できなくなってしまう。では、最終的結果に基づく報酬と人気に基づく報酬とを混在させたらどうなるか。

 アイデアの価値を$\theta$とし、事前分布を実数直線上の一様分布とする。いま、エージェント$i(=1,\ldots,n)$に$\theta$についての情報が渡されている。そのシグナルは2種類あって、

誤差項は互いに独立に$\eta \sim N(0, 1/\alpha), \epsilon_i \sim N(0, 1/\beta)$とする。

 市場設計者はシグナルを観察できない。そこで、参加者のみなさまに同時かつ独立に$\theta$を予測していただく。$i$さんの予測を$a_i$とする。全員の予測の平均$\bar{a}_n$をconsensus forecastと呼ぶことにする。
 参加者には公表した報酬ルールに従って報酬を払う。$i$さん以外のすべての人の予測のベクトルを$a_{-i}$として、報酬ルールを次式とする。
 $u_i (\theta, a_{-i}, a_i) = -\delta(a_i - \theta)^2 - (1-\delta)(a_i - \bar{a}_n)^2$
 第一項が予測の正確性の項、第二項が美人投票の項である。$\delta$を予測市場強度、$1-\delta$をアイデア市場強度と呼ぶ。$\delta$は定数だと考えてもいいし、確率だと考えてもいい。

 強度をどう設定したらconsensus forecastがどうなるか。次の指標を市場の情報性と呼ぼう。[←えーっと、$\theta$の事後分布の分散の小ささですね]
 $\gamma = 1 / var(\theta | \bar{a}_n )$
 以下では線形な戦略、対称的均衡について考える。[← ううむ。このようにセッティングすることの実質的な意味がよくわからない。対称的均衡ってのは、つまり全員が同じ解を選ぶような均衡ということだと思うけど、エージェントが直面している状況がエージェント間で同じだったら、対称的均衡だけについて考えればいいのかなあ。だけどさ、たとえばタカ・ハト・ゲームだと、純戦略のナッシュ均衡解はすべて非対称ですよね? 勉強不足でよくわからないぜ]

 [本文ではここでまず、$\delta=0$すなわち純粋なアイデア市場と、$\delta=1$すなわち純粋な予測市場について述べているんだけど、省略して...]

 報酬の期待値を最大化させる予測値は
 $a_i = \delta E_i(\theta) + (1-\delta) E_i(\bar{a}_n)$
 つまり、consensus forecastの期待値が必要になる。そこで、次のような線形均衡が存在すると仮定しよう:
 $a_i = \phi y + (1-\phi) x_i$
 このときconsensus forecastの期待値は
 $E_i (\bar{a}_n) = \frac{a_i + (n-a) E_i (a_{-i})}{n}$
 これをもとの式に代入してごりごり変形していくと、結局
 $\phi = \frac{(n-1+\delta) \alpha}{(n-1+\delta) \alpha + n\delta \beta}$
 となる。予測市場強度$\delta$が高くなると下がり、私秘シグナルの精度$\beta$が高くなると下がり、エージェント数が多くなると上がり、共有シグナルの精度$\alpha$が高くなると上がる。

 情報性はどうなるかというと、
 $var(\theta | \bar{a}_n) = \phi^2 / \alpha + (1-\phi)^2/(n\beta)$
 その性質について。

 というわけで、市場による予測は、特に美人投票的な要素が入ってくるといろいろ直観に反する情報特性を持つので、気をつけなさいね。という話であった。へへーっ。

 いろいろ難しい話だったので、シミュレータなんぞ作成しつつ頑張って読んだ。勉強になりましたですが...
 著者らが考える状況は、「市場運営者は予測対象の真の価値$\theta$をいずれ知り、それに基づいて私たちへの報酬を決める」と市場参加者たちにある程度まで信じてもらえる状況なのである。云うまでもなく、アイデア市場運営者にとっての真に深刻な問題とは、参加者のその信念をどうやって確保するか、という点だ。
 Skieraたちであれば「嘘でもいいから専門家委員会を開くと云え」というだろう。LacombたちやDahanたちなら「まあ人気投票でもどうにかなるよ」というだろう。この論文の面白さは、外的基準と人気投票をミックスした報酬ルールを想定し、その下での市場の振る舞いを調べる、という発想である。しかしその混在をどのように実現するかは、読み手の私たちに丸投げされている...

読了:Marinovic, Ottaviani, & Sorensen (2011) 予測市場と美人投票のあいだで

2015年3月 5日 (木)

読んだものはなんでも記録しておこう、ということで...
Schlack, J.W. (2012) Invested: Engaging Hearts and Minds through Prediction Markets. Communispace.
 Communispace社がオンライン・コミュニティ上でやったという「予測市場」のホワイト・ペーパー。面白いけど、残念ながら、これだけではなにをやったのかまったく理解できない。コンセプトが提示されて、確信度を入力するとその分の手持ちポイントをそのコンセプトに投資したことになるようだから、これはパリ・ミュチュエル市場? じゃあペイオフはいったいどうやって決めたんだ?
 仕組みをつくったのはConcensus Pointという会社らしい。→なんてこった、Robin Hansonが関係している会社だ...

読了: Schlack (2012) "予測市場" by communispace社

Lewis-Beck, M.S. & Stegmaier, M. (2011) Citizen forecasting: Can UK voters see the future? Electoral Studies, 30, 264-268.
 えーと、著者らいわく、選挙予測で有権者に "who would you vote for?" (vote intention)と訊くのでなく、"who do you think will win?" (vote expectation)と訊いて集計すると、これが案外当たる。すでにUSでの結果は論文にしましたが(Lewis-Beck & Tien, 1999 Int.J.Forecasting)、UKでの結果をご報告します。という論文。きちんと読んでないけど、そこそこ当たるよという話である模様。
 個人的には、選挙結果が予測できようができまいがどうでもよくて、vote expectationが当たるにせよ外れるにせよその機序が知りたいわけだが、そういう話をする場所ではないらしい。

読了: Lewis-Beck & Stegmaier (2011) vote expectationはそこそこ当たるよ (UK編)

Healy, P.J., Linardi ,S., Lowery, J.R., Ledyard, J.O. (2010) Prediction Markets: Alternative Mechanisms for Complex Environments with Few Traders. Management Science, 56(11), 1977–1996.
 掲載誌が体質に合わないので後回しにしていたんだけど、M先生のレビューで意外な形で取り上げられているのに気づき、念のために本文を2pほどめくってみたら... もっと早く目を通すべきだった、と大後悔。何もかもひとりでやっているからしょうがないんだけど、それにしても要領が悪すぎる。

 いわく。ダブル・オークション(DA)が予測市場のうまい仕組みだというのはわかっている。でもそれはIEMみたいな大規模市場のときの話であって、企業内市場でも最適かどうかはわからない。そこで、参加者が3人の状況で(!!!)、DA, iterated polling (デルファイ法みたいなもの。以下IP)、パリ・ミュチュエル(PM)、そしてHansonのマーケット・スコアリング・ルール(MSR)を比較しました。
 最初に結果を先取りして紹介。参加者数が多い単純な状況ではDAがおすすめ。アイテム数が多いとか、予測する事象が相関しているとか、参加者数が少ないといった状況ではIPがおすすめ。IPはsubsidy paymentsが必要だという欠点があるけど(胴元が自腹を切らなきゃいけないってことね)、人数が少なけりゃ問題にならないでしょ。
 行動の観察でわかったこと。(1)市場操作の試みはDAとPMで観察された。(2)IPとMSRでは支払総額がsubsidizeされているので参加者のやる気も増す。(3)参加者はほっとくと一部の証券にしか注意を向けない。IPはこの点で有利。(4)ヘンな参加者のせいで影響を受けるのはPMとMSR。IPは大丈夫。

 先行研究。

 この実験で使う環境を定義します。さあ、歯を食いしばれ!
 世界の状態は2次元からなっている、ということにします。次元1は観察不能な因子で、観察可能な次元2に影響する。参加者は次元1を、そしてこれからの次元2を予測する。たとえば、次元1は中央銀行の金融政策、次元2は公定歩合、というような感じ。
 具体的にはこういう課題。コインを選んで投げる。予測対象はオモテが出る確率。次元1がコインのバイアス、次元2が出目だ。
 コイン$\theta$を確率分布$f(\theta)$からドローする。$\theta$の空間を$\Theta$とする。ドローしたコインを投げ、出目$\omega$を条件つき確率分布$f(\omega | \theta)$からドローする。$\omega$の空間を$\Omega$とする。
 エージェント$i$は$\omega$についての$K_i$個の独立なシグナル $\hat\omega^i = (\hat\omega^i_1, \hat\omega^i_2, \ldots, \hat\omega^i_{K_i})$を私秘的に観察している。エージェントは$\omega$の真値を知ろうとし、事前分布$f(\theta), f(\omega | \theta)$を$\hat\omega^i$でベイズ更新して、まず事後分布$q(\theta | \hat\omega^i)$を得る(以下$q^i(\theta)$と略記)。で、さらに事後分布$p^i(\omega) = \sum_{\theta'} f(\omega | \theta') q^i(\theta')$を得る。OK?
 メカニズム設計者の目標は、個々のエージェント($I$人)の信念を集約することだ。いちばん簡単なケースは、設計者がすべてのエージェントの私秘シグナルを観察できるケースである(完全情報のケース)。$\omega = (\hat\omega^1, ..., \hat\omega^I)$のもとでの$\theta$の事後分布$q(\theta | \hat\omega)$を$q^F(\theta)$と書くとして、出目の完全情報事後分布は
 $p^F(\omega) = \sum_{\theta'} f(\omega | \theta') q^F(\theta')$
 さて、設計者が実際に作った集約メカニズムによるパフォーマンスをどう評価するか。時点$t = (0,1,\ldots,T)$における事後分布$h_t$を「ランニング事後分布」、$h_T$を「出力分布」と呼ぶことにする。すべての$\omega$を通した、$h_T(\omega)$と$p^F(\omega)$のズレの二乗を合計すればよい。いいかえれば、出目$\omega$の空間$\Omega$における$h_T$と$p^F$のユークリッド距離を求めればよい。(式省略)

 準備はできた。用意する環境はふたつ。かんたんなやつと複雑な奴。
 かんたん環境。コイン$\theta$の空間を$\Theta = \{X, Y\}$、出目$\omega$の空間を$\Omega=\{H, T\}$とする(headとtailね)。$f(X)=1/3, f(H|X) = 0.2, f(Y)=2/3, f(H|Y)=0.4$とする。
 複雑環境。コインは$X, Y, Z$の3枚、ランダムな順に並べて取り出す(これを$\theta$とする)。よって$\Theta$は6要素ある。$f(\theta)=1/6$。で、それぞれのコインを投げ、その結果(たとえばHHT)を出目とする。よって$\Omega$は8要素。$f(\omega | \theta)$は結構複雑で、えーと、$X$がオモテになる確率が0.2, $Z$がオモテになる確率が0.4, $Y$が$X$と一致する確率が2/3。だからたとえば$f(TTT | XYZ) = 0.32$となる、という... そんなもん推測できないよ、参加者のみなさんも大変だ。
 どちらの場合も、エージェント$i$はコイン$\theta$も出目$\omega$も観察できず、ただ出目のサンプル$\hat\omega^i$だけを観察できる。
 市場参加者のペイオフは、ほんとは$\omega$の実現値に基づいて決めるべきところだが、そうすると運の良し悪しが出てきちゃう。参加者にわかりやすいように、主催者だけが知っている正しい$f(\omega | \theta)$からわざわざ500回ドローした経験分布$\phi(\omega)$をつくり、これに照らしてペイオフを決める。要するに、たとえばかんたん環境では、「正解を発表します!500回投げたらオモテは350回、ウラは150回です!」っていう風に正解を発表する、ということなんだろうな。

 お待たせしました、選手入場です!

 実験。
 被験者はCaltechの学部生。3人ずつ組ませる(これをセッションといっているらしい)。全16セッション。実験は16ピリオド、1ピリオドは5分間。
 2つの環境で4つのメカニズムを比較するから、要因は2x4。詳細は略するが、各セッションは2x4=8の各セルのうち2セルを担当し、各セルについて8ピリオドの市場に参加する。

 。。。と、ここまでメモをとりながら丁寧に読んだが、時間切れ。あとはメモなしでざっと通読した。全体にIPを支持する結果であった。

読了:Healy, et al. (2010) 対数スコアリングルールで報酬を与えるデルファイ法はひょっとすると予測市場よか気が利いてるかも

2015年2月28日 (土)

Slamka, C., Jank, W., Skiera, B. (2012) Second-generation prediction markets for information aggregation: A comparison of payoff mechanisms. Journal of Forecasting, 31(6), 469–489.
 掲載時のPDFが入手できず、ネットに落ちてたdraftで読んだ。

 著者らの云い方では、いわゆる予測市場のうち、証券のペイオフを出来事の実際の帰結で決めるのが第一世代(G1)。いっぽう第二世代(G2)の例は、

第二世代では、ペイオフを市場内で決めたり(終値とかVWAPとかで決めたり)、市場外のなにかの代理変数を使ったりする(専門家委員会とか)。
 理屈からいえば、第一世代とちがって第二世代の予測市場においては参加者がプライベートな情報を明かすインセンティブがない。情報カスケードが起きても不思議でない。

 ペイオフを市場内で決める場合に注目し、3つのペイオフ決定方法を比較する。

 ところで、自動マーケット・メーカを使う状況を考えると、以下の方略が考えられる。

 というわけで、フィールド実験。2008年に実施。
 実験は3期にわかれている。どうやら各期は4日間らしい。各期でそれぞれ次の予測トピックを用いる。

 ペイオフ決定方式は4種類。

上記の3x4の組み合わせについて、各2個の市場をつくる。よって市場の数は3x4x2=24。
 MBAの学生78名。各期において、3x2個の市場のどこかに割り当てる(市場当たり9~10人となると書いてある... 計算が合わなくないっすか)。同じペイオフ決定方式を二回経験することはない。
 各期の最初にポートフォリオを一万架空ドルにリセット。3期を通じた利益の合計で順位をつけ、コース・クレジットにする (おいおい... いいのかそれ...)。
 ついでに、第一期の予備選挙予測については専門家市場もつくった由。ペイオフは実際の価格で決定、参加者は政治コンサル会社の24人の専門家。報酬は一位にのみ100ドルだが、面子がかかっている。 
 空売りあり。市場メカニズムはHansonの自動マーケットメーカを採用したと書いてあるから、LMSRを使ったのだろう。[←線形証券の価格をLMSRでどうやってきめるのだろう? → Pennockさんのブログには、上下限が決められればできると書いてあった。要するに裏で区間証券にするらしいのだが... よく理解できていない]

 結果。
 せっかく専門家の予測市場を作ったんだけど、結果は学生とかわんなかったそうだ。ははは。
 ペイオフ決定手法間で予測のMAEを比べると、やっぱし実際の結果で決定する(G1方式)のが一番よい。次が固定終値方式、僅差でランダム終値方式とVWAP方式だが、この3つはほとんど差がない。さらに、4つの順位はトピックでも入れ替わる。
 価格と取引高をG1方式と比べると、VWAP方式はやはり後半(VWAP計算期間)で価格が高く、終盤には価格・取引高が上昇。固定終値方式はずっと価格が低めで、終盤になって上昇。ランダム終値方式でも同様で、なぜか終盤に価格上昇があった。
 市場閉鎖直前に注目すると、VWAP方式では駆け込み取引があったが、なぜか固定終値方式ではみられず、なぜかランダム終値方式で駆け込み取引があったとのこと。

 私が関心を持っているのは著者らがいうところの第二世代予測市場なので、ちょっぴり意気阻喪させる結果ではあった。そっかー、やっぱしペイオフを市場内部で決めると予測精度が落ちるか。とはいえ、理論的にはうまくいかないはずであるにも関わらず第一世代と遜色ないレベルだという見方もできる(著者らの考察はその方向)。それに、予測トピックごとに見ると結果がコロコロ変わっているわけで、この研究の結果をどこまで一般化できるか、ちょっと慎重に捉える必要がありそうだ。

 選好市場・アイデア市場とふつうの予測市場との大きな違いは、(この論文が注目しているように)ペイオフが現実との照合で決定されないことではなく、そもそも「あたる」「はずれる」という概念が適用できない問題を証券化している点にあるのではないかと思う。市場メカニズムという観点からはどうでもいいことにみえるかもしれないが、参加者の立場になってみるとこれはずいぶん大きなちがいだ。通常の質問紙でも、「自分がこの商品を今後買うと思うか」という質問と「この商品を今後買いたいか」という質問とではかなり意味合いが違う。前者は概念的にはあたりはずれがあるが(誰もそれをチェックしたりしないけど)、後者にはそもそもあたりはずれというものがない。実証研究があるのかどうか知らないけど、この2問はたぶん回答の際の推論プロセスが全然ちがうし、直感的には、再検査信頼性は後者のほうが低いだろうという気がする。
 だから、この論文の著者らのように、あたりはずれのある問題について第二世代予測市場と第一世代予測市場を比較するというのもひとつの見方だけど、むしろ比べるべきは、あたりはずれのない問題についての第二世代予測市場と、ただの質問紙とか選択課題とか、はたまたデルファイ法とかワークショップとかなのではないかしらん。。。
 いや、もちろん、そういう比較はきわめて困難だとわかってもいるのだけれど。DahanらにしてもSoukhoroukovaらやLaCombらにしても、第二世代予測市場の事例報告において一番しょぼい部分は、従来手法に対する提案手法の優越性を示すくだりである。参加者の事後アンケートで「楽しかったですか」なんて訊いてみたりして、もうほんとに涙ぐましいのである(そりゃ「楽しかった」っていうよね、みんな大人だから)。うーん。なにかうまい手はないものかなあ。

読了:Slamka, Jank, & Skiera (2012) 現実と照らし合わせてペイオフを決めることができない予測市場はどうやってペイオフを決めればよいのか

2015年2月19日 (木)

Chen, Y. & Pennock, D.M. (2010) Designing markets for prediction. AI Magazine, 31(4).
予測市場をはじめとした予測メカニズムについてのレビュー。

イントロ

スコアリング・ルール

流動性とマーケット・メーカ

誘因両立性

表出性と計算的扱いやすさ

...細かいところはちゃんと読んでないけど、読了にしておく。一番の収穫は、予測市場とベイジアン自白剤のようなタイプの手法とを、メカニズムデザインという視点から統一的に捉えているところ。勉強になりましたです。そうか、後者はピア予測システムって呼べばいいのか。
 細かいことだけど、LMSRとかで使う「実現したら一ドル配当」型の証券のことをArrow-Debreu contractというらしい。へー。

読了:Chen & Pennock (2010) 予測メカニズム・レビュー

2015年2月13日 (金)

 Hansonの論文は難しくて手に負えなかったが、載ったのは予測市場の専門誌であった。Chen&Pennockのもちんぷんかんぷんだったが、人工知能系のカンファレンスであった。もう少し読者層が広そうな雑誌のほうがいいんじゃない? それに実験やっているほうが楽しくない?

Othman, A. & Sandholm, T. (2013) The Gates Hillman prediction market. Review of Economic Design, 17, 95-128.
 ... というわけで手に取った論文。アタリでした。ありがとう著者の人! 関係ないけど、ありがとうビル・ゲイツ!!
 えーと、CMUにはGates-Hillmanセンターというのがある由。Gatesはもちろんビルさんのこと(スタンフォード大のコンピュータセンターもGatesビルディングじゃなかったっけ?)。調べたところによればHillmanというのはHenry Hillman財団の名に由来するそうで、ヘンリーさんとはどうやら大成功した投資家らしい。まあとにかく、予測市場Gates Hillman Prediction Market (GHPM) のご報告。ダブルオークション方式じゃなくて、マーケット・メーカ方式による実験である。

 市場の概要は以下の通り。

当たり株一株あたりの配当チケットは何枚ってことにしたの?と不思議に思っていたら、後述されるように実は話はもっとややこしくて、参加者としては任意の区間証券を売買している気分なのである。

 LMSRマーケット・メーカを使用。さあ、著者の説明を伺いましょう。
 えーとですね。マーケット・メーカはコスト関数$C$に従って動作する。コスト関数は、ベクトル$q$を「全参加者によるシステムへの総支払額」を表すスカラーへと変換する関数である。ベクトル$q$の要素は、それぞれのイベントが実現したときにシステムが参加者に配当しなければならない金額の合計である。
 LMSRマーケット・メーカのコスト関数は:
 $C(q) = b \log (\sum_i \exp(q_i / b))$
 ただしbは市場開設時点で決めておく正の定数。大きくすると市場の流動性が高まる。つまり、この仕組みだと売れた証券の価格は高くなるのだが、その程度が小さくなる。GHPMでは$b=32$としたが、後で思うに、もっと大きくしておけばよかった、とのこと。
 株価はコスト関数の勾配である。すなわち、銘柄$i$について
 $p_i(q) = \exp(q_i / b) / \sum_j \exp(q_j / b)$
である。これを「値付けルール」と呼ぶ。この価格は出来事の生起確率の予測値と捉えることができる。

 たとえば、「レッドソックスが勝つ」「ヤンキースが勝つ」の2証券の市場を考えよう。現状、もしレッドソックスが勝ったらシステムは5ドル払うことになり、ヤンキースが勝ったら3ドル払うことになっている。$q=(5,3)$である。
 $b=32$とする。ただいまのレッドソックス株の株価は
 $\exp(5/32) / \{\exp(5/32) + \exp(3/32)\} = 0.5156$
と表示される。
 さて、いま、「レッドソックスが勝ったら1ドルもらえる」証券を新たに買いたがっている奴が現れたとしよう。この注文に応えると、コスト関数の値は $C((6,3)) - C((5,3))$だけ変化する。$b=32$として0.5195。つまり0.5195セントで売ることになる。
 [↑あっ、そうか! ひと株の取引でさえ、取引価格は「値付けルール」で求めた株価とは違うのか! ということは、「値付けルール」の意義はあくまで販売数量を生起確率に変換するという点にあり、実際の価格決定は常にコスト関数の差をみなければならないわけか...]

 さて、ここからはGHPMがご提供する特殊機能。365銘柄はさすがに多すぎるので、範囲で取引させる。
 市場の状態を$\vec{q}^0 = \{q_1^0, q_2^0, \ldots, q_n^0 \}$とする。画面にはこれを値付けルールで価格に換えた面チャートが表示されている。参加者は区間$[s, t]$を選び、スライダーでリスク$r$を決める。すると、画面に次の選択肢が表示される。

面倒なので$pi_f$の決め方だけメモ($pi_f$は中央の区間に、$\pi_a$は左側区間と右側区間に足す形になる)。見やすいように縦棒を入れた。
 $C(q_1^0, \ldots, q_{s-1}^0, | q_s^0+\pi_f, \ldots, q_t^0+\pi_f, | q_{t+1}^0, \ldots, q_n^0) = C(q_0) + r$
なるほどね、リスクというのは区間証券の購入額のことか。なお、これは閉形式では解けないそうで、ニュートン法で解いたそうだ。

 結果を紹介する前に、この市場のあんまり芳しくない特徴について。

 よくわからんが、これは両方とも、LMSRの流動性係数$b$を一定にしていることの帰結なんだそうだ。

 さて、実験の結果。
 儲かった49名について調べたところ、3つの方略がみつかった。それにしても、ずいぶんノリの良い奴らだ。

 では、市場自体のパフォーマンスはどうだったか。いろんな話が書かれているが、疲れてきたので、ここからは簡単に。

 まとめ。マーケット・メーカ方式のふたつの問題点があきらかになった。(1)価格のスパイクの出現。とはいえユーザ・インタフェイス次第かもね、とのこと。(2)流動性が変わらないこと。

 長かった... 疲れた...。でも、期待した通り、LMSRの説明が素人にもわかりやすくて、助かった。

読了:Othman & Sandholm (2013) マーケット・メーカ方式で予測市場をやってみました@CMU

Chen, Y., & Pennock, D.M. (2007) A utility framework for bounded-loss market makers. Proc. 23rd Conf. on Uncertainty in Artificial Intelligence (UAI2007), 49-56.
きっとHansonという人の説明能力に問題があるんだと思って(すいません)、別の著者のを読んでみた。効用ベース・マーケット・メーカという枠組みをご提案します、という内容。要するにマーケット・メーカが自分が思うところの適正価格で値付けする(儲けようとは思わず、期待効用を常に一定に保とうとする)という、すごく単純なメカニズム(のように見える)んだけど、LSMRもこの一種として位置づけられるのだとか、なんとか、かんとか...。ノート取りながら必死に読んだんだけど、やはり途中で理解不能に。悲しい...なんでもっと頭のいい子に生まれなかったのか...

読了: Chen & Pennock (2007) 頭の悪い君にはわからんだろうがこれが効用ベース・マーケット・メーカだ

Hanson, R. (2007) Logarithmic Market Scoring Rules for Modular Combinatorial Information Aggregation. Journal of Prediction Markets. 1, 3-15.
対数マーケット・スコアリング・ルール(LMSR)をご提案します、という論文。仕事の都合で急遽読んでみたのだが、途中の理屈のところ、難しくてついていけない。悲しい...なんで文系に生まれちゃったんだろう...

追記:内容についてのメモをつくりました。

読了: Hanson(2007) 文系の君にはわからんだろうがこれがLMSRマーケット・メーカだ

2015年1月27日 (火)

今井未来, 水山元 (2014) 予測市場を応用した商品コンセプト評価システムの設計と検証. 人工知能学会全国大会.
 資料を探していて偶然見つけたもの。第一著者の方の卒論らしい。
 
 コンジョイント分析風に、製品コンセプトを属性の束として捉え、実験計画でコンセプトを用意して予測市場を走らせる。メカニズムはマーケットメーカ方式 (LMSR)。複数の予測市場を走らせ、それぞれの市場におけるコンセプトの終値の対数を従属変数として属性の部分効用を推定する(市場ごとに推定するのではない模様)。で、各コンセプトには全体効用の指数に比例したシェアを与え、これに比例したペイオフを与える。
 シミュレーション。一市場30人。製品の数はよくわからなかった。一回の取引あたりの売買上限は1枚 (空売買あり)、ある時点に誰が取引するかはランダムに決める。プレーヤーは次の3種類で、比率をいろいろ試す:

 結果として、複数市場を走らせたことで市場の精度が高くなった。云々。

 勉強になりました。面白いなあ...
 要するに、コンジョイント分析での対象者の課題を、自分の選好に基づく評定課題や選択課題ではなく取引課題、つまり(a)他者の選好を推測させる(b)誘因整合的な課題にした、ということだと思う。実験して、普通のコンジョイント分析と比べてみたいものだ。
 シミュレーションのレベルでは、選好に消費者間異質性があったときにどうなるか、という点に関心を惹かれる。消費財でコンジョイント分析を使う状況を考えると、いまどきはたいてい階層ベイズ法で個人レベルの部分効用を推定するので、選好に異質性があるときには、それが部分効用の個人差として顕在化するぶん普通のコンジョイント分析のほうが有利かも? いや待て、選好に異質性はあっても、他者の選好の推測には異質性がなかったりして...などなど、夢が広がる。

読了:今井・水山 (2014) コンジョイント分析の架空製品についての予測市場

水山元(2014) 予測市場とその周辺. 人工知能, 29(1), 34-40.
 どうやって手に入れようかしらんと考えていたら、人工知能学会誌「人工知能」の記事にはCiNiiで記事単位で買えるものがあることが判明。正確にいうと、CiNiiでは雑誌「人工知能」について、NDL(国会図書館)のOPACに由来するエントリとNII-ELS(先日クローズした国立情報学研究所の奴)に由来するエントリが二重登録されており、後者のエントリにのみPDF購入へのリンクがついているのだ。細かいことだけど、こういうことがあるので、CiNiiで調べものをするときは要注意である。

 恩ある先生だからいうわけじゃないけど、大変勉強になりました。 市場調査の分野で予測市場に関心をお持ちの方も、読まれるとよいと思います。

 いくつかメモ:

 HansonのLMSRについて全然理解できていなかったことが判明。ちょっとメモをとっておくと...
 ある人が出力した分布を表すベクトルを$r$, その$i$番目の要素を$r_i$とする。$r$の逐次的修正$r^{[0]}$→$r^{[1]}$→$r^{[2]}$→...に対してスコアリングルールを適用するのがMSR。特に対数スコアリングルール(実現値 $n$ の下で$r$へのスコアを $b \log (r_n) $とする) を適用するのがLMSR。たとえば $r^{[2]}$→$r^{[3]}$という修正があったとして、実現値が$n$だとわかってからスコア$b \log(r_n^{[3]}) - b \log(r_n^{[2]})$を渡す。これが直接的な実装。
 さて、これと等価なマーケット・メーカをつくりたい。出力分布$r$のかわりに、証券$1,\ldots, N$の価格のベクトル$\pi$を考える。市場の状態を発行枚数のベクトル$q$で捉える。たとえば発行枚数が$q^{[2]}$→$q^{[3]}$と変わったとき、価格分布を$\pi^{[2]}$→$\pi^{[3]}$と変えるとして、この変化によって生じる参加者全員の利得[←という理解でいいのだろうか?]が、あとで振り返ると$b \log(\pi_n^{[3]}) - b \log(\pi_n^{[2]})$になっていました、というようなしくみをつくりたいわけだ。
 [...生まれながらの文系なので、途中を端折って...] これを満たすのが以下の値付けなのだそうである:
 $\pi_n = \{\exp(q_n / b) \} / \{\sum_i^N (\exp(q_i / b)\}$
ええと、各証券の価格を、発行枚数をある単位で数えた値の指数に比例させるわけだ。
 ...いずれきちんと勉強しなきゃ。Chen & Pennock (2007, Conf)というのを読むとよいらしい。

読了:水山(2014) 予測市場とその周辺

2014年12月16日 (火)

Graefe, A. (2014) Accuracy of vote expectation surveys in forecasting elections. Public Opinion Quarterly, 78, 204-232.
 ぼんやりPOQのサイトを眺めていて、アブストラクトを数行読んで、これはえらいこっちゃ、と青くなった論文。まさにこれ、こういう研究を探していたのに、これまで見つけることができなかった。探し方が悪かったのだ。嗚呼愚かなり。
 表題の vote expectation surveyというのは、「誰に投票しますか」ではなく「誰が勝つと思いますか」と尋ねる調査のことで、citizen forecastともいう、とのこと。くっそー、そういう言葉があったのか。

 話を大統領選予測に絞る。従来の方法として、専門家予測、伝統的な世論調査(誰に投票しますか。以下VI)、予測市場(具体的にはIEMのこと)、量的モデル(経済指標などで重回帰する)がある。伝統的な世論調査といっても、単独の予測だけではなく、複数の調査を組み合わせたり、時系列で追ってって投票日にどうなるか予測したり(poll projections)といった工夫が可能。
 さてvote expectation (以下VE)は、Lazarsfeldの昔からwishful thinkingの存在が指摘されてきたんだけど、これが案外正確なのである。注目を集めたのはLewis-Beck & Skalaban (1989, British J. Political Sci.)で、1956年以降のAmerican National Election Study (ANES) のVE設問を分析、69%の回答者が勝者を言い当てていたことを示した。2012年までに拡張すると70%。州別にみても69%。英国の調査の分析でも同様の結果が得られている。理論面では、Murr(2011, Electoral Survey)がコンドルセの陪審定理とVEを結びつけ、回答者数、勝者と敗者の差、そして調査回答日のばらつきが大きいときにVEの集約が正確になる、ということを示している由。とはいえ、VEの研究は少ない。
 Rothschild&Wolfers(2012,SSRN)は、ANESにおいてVI質問とVE質問を同じ対象者に聞いた調査について分析している[←ベイジアン自白剤そのものだなあ...]。VEの方が正確。考えられる理由は:(1)VIからは態度未定者が落ちる。(2)VEは他者の態度についての知識を反映する。[←面白い!!!]
 予測市場との優劣はどうか。ANESのVEとIEMの大統領選予測を比べると、VEのほうが若干正確。他の予測課題でも同様の報告がいくつかある。考えられる理由は、評定者の多様性。IEMの参加者にだってwishful thinkingはあるし、白人男性・高学歴・高収入・共和党支持者が多めだ。

 というわけで、公表されているデータを用い、大統領選予測におけるVEの正確さについて調べてみました。
 VEを聞いている調査は1932年以降で217個ある(ギャラップとかANESとかを全部合わせて)。集計結果が勝敗を予測できたのは193個、つまり89%。得票率を予測するために、VEで得票率を予測する回帰式をつくったところ、現職側の党のVE獲得率をE, 実際の得票率をVとして、V=41.0 + 17.1E。決定係数0.66。[←おおおお... 結構すごいな]
 さて、1998年から2012年までの7つの大統領選、投票日前100日間に注目し、VE、世論調査(単独、結合、結合してprojection)、予測市場(IEMの終値)、専門家予測、著者らの定量モデルについて、ヒット率、ならびに得票率予測のMAEを比較する。結果:一番成績がよかったのは... VEでした!!

 考察。
 過去30年間、我々は選挙予測の精度向上を目指して頑張ってきたよね。世論調査の結合とか、projectionとか、定量的モデリングとか、予測市場とか。でも意外や意外、長く忘れられてきたVEの成績が一番よかったわけだ。
 2012年の選挙でいえば、最終的な結果(オバマが4ポイント差で勝利)を安定的に予測していたのはVIよりVEのほうだった。ネイト・シルバーのFiveThirtyEight.comの日次予測と比べても、VEのほうがかなり精度が高かった。
 VEはなぜ注目されないのか。(1)その正確さが知られていないから。(2)オッカムの剃刀とは逆に、人は複雑な解決策を信じるから。ネイト・シルバーが好かれる理由もそこにある。(3)VEは安定しすぎていてニュース価値が低いから。「ジャーナリストが競馬的メンタリティから脱却し、vote expectation調査に注意を向けるようになれば、候補者のパフォーマンスやその政策について説明するのに集中できるだろうに、そして有権者は本当は誰が有利なのかをより正しく知ることができるだろうに」。
 
 自分の仕事とあまりに近すぎるので、感想は省略するけど... とにかく、地道に探していれば、求めていた情報が、こうして不意に目の前に現れることがあるのだ。

読了:Graefe(2014) 実はvote expectationが最強の選挙予測だった

2014年12月12日 (金)

Buckley, P., McDonagh, E. (2014) Ideas markets: A literature review and classification scheme. The Journal of Prediction Markets, 8(2), 76-88.
 予測市場の新世代(?)、「アイデア市場」についてのレビュー。

 実のところ、こういう主旨のレビューがあるはずだ、なければいっそ自分で書いちゃおうか...と思っていたところであった。で、この論文の公刊に気が付き、これはなんとしても読まねばならん、なるはやで!と勢いこんだ。あいにくマイナー誌につき入手困難。著者に連絡しちゃおうかと思案しつつも、ついクリックしてPDFを買ってしまった。例によって購入システムにトラブルが生じ(私の経験では大抵そうなる。論文をPayParViewで買う奴なんて少ないのだ)、UKの担当者に連絡したりして、結局は半日かかっちゃったのだが。
 で、届いたPDFをプリンタが吐き出すのを横に立って眺めていて、あっけにとられた。なに、このレイアウト。Excelで描いたと思しき巨大な円グラフだけで丸々1頁。棒が2本しかない棒グラフでまた1頁。とんでもないページ水増しぶりである。これって許されるんですか? これで16ポンドって、ちょっとあんまりじゃない!?

 ここでアイデア市場といっているのは、予測市場とちがって正解がなく、かつ証券が事前に決定していないタイプの市場のこと(MITのDahanたちのが含まれていないのは後者の基準のせいだと思う)。著者いわく、利点は二つ。(1)創造的なアイデアの開発。(2)アイデアの選択を集合知で改善。
 で、著者らはアイデア市場の先行研究を20本集め、いろいろな角度から分類する。応用が10本、市場設計が4本、残りが6本でした。応用はビジネス9本、アカデミック1本でした。云々。省略。
 結論。短い期間でこんだけ研究が出てきてんだからたいしたもんだね。実務家も関心持ってくれてるみたいで喜ばしいね。参加者のコミュニケーションをよりリッチにしたらイノベーションが活性化されないかね。報酬スキーマの研究も大事だね。云々。

 これだけ集めるのはさぞや大変でしたでしょうに、それに20本もの研究に目を通したんだから、なにかしら個別具体的に批評的意見をお持ちでしょうに、そういうご意見はほとんどゼロ。すごく謙虚な方々なんでしょうね。ええそうでしょうとも。

 著者らが集めた20の先行研究は以下の通り。実のところ、この論文で最も価値ある情報はこのリストじゃないかと思う。これに3000円払ったようなもんですよ、まったく。

いろいろ不備があって困ってしまうが、きっとご多忙で校正のお時間もとれなかったのでしょう。ええそうでしょうとも!

読了:Buckley & McDonagh (2014) アイデア市場についてのすっごく包括的で批判的でためになるレビュー

2014年12月 3日 (水)

LaComb, C.A., Barnett, J.A., Pan, Q. (2007) The imagination market., Information System Frontier, 9, 245-256.
 いま検索したら、"imagination market"とはナントカというバンドだか歌手の方のアルバムのタイトルで、ナントカというアニメだかゲームだかの主題歌が収録されているのだそうだ。「繊細で心地よいメロディーはまさに癒し系」なのだそうだ。検索でこの記事を見つけた方、申し訳ないですが、たぶんお探しの情報とは違います。文字通り、イマジネーションを取引する市場の話で、かなり殺伐としてます。
 GE社が企業内でのアイデア生成に市場メカニズムを活用した有名な事例報告。ざっと目を通していたのだけど、用事があって再読。

イントロ
 情報市場とは、出来事についての予測を行ったり参加者の選好を測定したりするために使われる架空の市場である[あとでalso known as prediction markets or idea marketsといっているから、「情報市場」という言葉にこだわりがあるわけではなさそう]。
 有名な情報市場としてIEM, HSXがある。ビジネス利用の例もある[挙げられているのは Bingham(2003 なんだかよくわからない), Chen & Plot (2002 Working Paper), Hapgood(2004 雑誌記事), Kivat(2004 雑誌記事)。なんだかなあ]。しかしアイデア生成に使っているのはみたことがない。
 [お約束の、既存手法ディスりの段:] アイデア生成のための手法はいろいろあるが、アイデア投稿箱とかだとフィードバックを返せないし議論もできない。ブレストとかだと大規模化できない。云々云々云々。そこで情報市場を使ってみましょう。

先行研究
 まず予測市場について。市場の情報蓄積能力は合理的期待理論に基づく。予測精度は高い(Forsythe & Lundholm 1990 Econometrica, Plott & Sunder 1988 Econometrica, Pennock et al 2002 Proc., Pennock et al 2001 Sci., Pennock et al 2001 Proc.)。
 これとぜんぜんちがう市場に選好市場がある。ちがいは測定可能なアウトカムがないこと。報酬は他の参加者の選好の予測に対して与えられる。MITの実験が有名 [挙げられているのはChan, Dahan, Kim, Lo, & Poggio(2002 TechRep); Feder(2002 NYTの記事)。前者はJMRに載ったSTOC論文の前身であろう]。この線の研究にGruca, Berg, Cipriano(2003, Info.Sys.Front.)がある。ただし、選好市場が他の集団(たとえば製品のターゲット顧客)の選好の推定量になりうるかどうかはわかっていない。
 こんどはアイデア生成の話。集団の創造性を支えるツールとしてブレストとかデルファイ法とかあって、有効性を示す研究も多い。でも全員が同時に参加しないといけないといった困難さもある。云々。

方法
 本研究でつくる市場の目的は:(1)伝統的な方法よりもたくさんアイデアを生むこと。(2)組織の全員を巻き込むこと。(3)最良のアイデアを決めること。
 ソフトはForesight softwareを使う[Foresight eXchangeで使われているソフトのことかな]。市場の特徴は以下の通り。

結果
 全部で62アイデアが投稿された。他のアイデアに触発されたアイデアも見受けられた[←そこが大事なのに...エビデンス出してくれないと...]。
 期間中の取引参加者は85名(150名中)。ランチタイムパーティの集客効果が大きかった。
 最優秀アイデアは期間の後半ずっと首位に近かった。VWAP、終値、株価平均、中央値のいずれをみても、株のランキングはそんなにかわらなかった。
 GEのリーダーシップ・チームのメンバー11名に各株を10件法で評価させ、平均のランキングをVWAPのランキングと比べると、相関0.43。それぞれのランキングを四分位点で区切って4x4のクロス表をつくると、カイ二乗検定は有意でなく[でもp=0.077なんですけどね]、39%が対角セルに落ちた。このように市場の評価とリーダーの評価はかなり一致した[く、苦しい...]。ズレの原因としては:(1)市場参加者の多くがアイデア開発者でもあったので、wishful thinkingが生じたのでは。(2)リーダーシップ・チームと市場参加者では持っている情報がちがうのかも。(3)リーダーシップチームは全アイデアを一気に通してみたからでは。

考察
 3つの目的は果たされた。[という理屈付けが、終了後アンケートなどを基にぐだぐだと書いてある。面倒なので省略]

今後の課題

 以前にめくったときは、正直言ってあまり感心しなかった論文なのだけど(話の進め方が雑な気がして。なにを偉そうに。はいすみません)、読み直してみるといろいろ発見があった。
 Skiera一派のアイデア・マーケットの論文でも思ったけど、こういう風に選好をアグリゲートする市場メカニズムって、仕組みの妥当性や有用性を示すのがすごく難しいですね。予測市場とは違って「正解」がないので、どうしても、参加者の事後アンケートとか、経営層の感想とか、そういうのに頼ることになってしまう。ううむ。

読了:LaComb, Barnett, Pan (2007) イマジネーション・マーケット

Wolfers, J., & Zitzewitz, E. (2004) Prediction Markets. Journal of Economic Perspectives. 18(2), 107-126.
ちょうど10年前に公刊された予測市場研究レビュー。進展の早い分野だから、別にいまこれを読まなくてもいいのかもしれないが...

 予測市場のタイプ。contractの種類で分けると、

 なお、たとえばwinner-take-all型のcontractを「得票率が46%だったら」「得票率が47%だったら」...と複数個用意すれば市場の期待の分布がわかるわけで、つまり市場の期待の不確実性についてもわかる。
 非線形的indexも便利である。たとえば、y に応じてペイオフが決まるindex型contractと、yの二乗に応じてペイオフが決まるindex型contactをつくれば、分散とは(二乗の平均)-(平均の二乗)だから、E[y]のSD, つまりyのSEを求めることができる。

 適用事例。Iowa Electronic Market, Austrian Electronic Market(UT Vienna)[現存するのか不明], Univ. British Columbia Election Stock Market[現 Sauder School of Business Prediction Market]。企業による市場としては、現実の通貨を使うものとしてTradesports.com[現存], Betfair.com[現存], Economic Derivatives[Goldman SachsとDeutsche Bankがやっていたらしい。現存しない模様]。架空通貨を使うものとしてNewsfutures.com[現LUMENOGIC], Foresight eXchange, それからかの有名なHallywood Stock Exchage.
 
 これまでの事例からわかっていること

市場のデザイン

予測市場による推論

 いやー、眠かった... やはりもう少し新しいのを読まないと面白くないな。よし、次にいこう。

読了:Wolfers & Zitzewitz (2004) 予測市場レビュー in 2004

2014年12月 1日 (月)

Berg, J.E. & Rietz, T.A. (2003) Prediction markets as decision support systems. Information Sysytems Frontiers, 5, 79-93.
アイデア先行・夢先行で進めてきたが、ええかげんにきちんと先行研究を当たらねばなるまい。というわけで、待ち行列をすっ飛ばして目を通した。選挙の予測市場の論文。ずっと前に読んだTziralis & Tatsiopoulos(2007)のお勧めリストにも、M先生のリストにも出てくる。著者らはアイオワ大、IEM(Iowa Electronic Markets)の中の人らしい。掲載誌についてはよくわからないんだけど、IF 0.85と書いてあったから、メジャー誌ではなさそう。

 [まずIEMの話がひとしきりあって...]
 以下では、ある未来の出来事について、他の出来事の下で(conditional on other events)予測するのが目的である予測市場を"conditional prediction market"と呼ぶ。これはただの予測市場よりも意思決定支援の役に立つことがある。たとえば、政党が大統領選の候補者を選ぶときとか(党員に人気がある人ではなくて、「もし誰々が候補者になったらうちの党が勝てるか」を予測しないといけないから)。
 予測市場は決定支援の役に立つ。なぜなら: (1)動的な予測を連続的に更新してくれる、(2)トレーダーたちの情報を蓄積してくれる、(3)過去の研究によれば正確な予測が得られ (4)他の手法より良い、(5)個々人のバイアスを取り除いてくれる、(6)いろんな問題を予測できる。
 というわけで、IEMの96年大統領選市場に注目しましょう。共和党はドールじゃなくてコリン・パウエルを候補にしておけばよかったんです。

 未来の[量的な]アウトカムを$V_1, V_2, \ldots, V_n$とし、その和を1とする(ここでいえば民主党と共和党の得票率)。市場の清算配当金[liquidating devidend]がそのアウトカムの線形関数になっているペイオフ構造の市場のことを線形市場という。
 これに対し、可能な[カテゴリカルな]アウトカム$E_1, E_2, \ldots, E_m$の生起と清算配当金を結びつけて、確率を予測する場合もある。これを勝者総取り市場と呼ぶことにする。
 では、conditional予測市場の場合はどうなるか。未来のアウトカム$V_1, V_2, \ldots, V_n$、別のアウトカム$E_1, E_2, \ldots, E_m$を考える。予測対象となるのは条件つきアウトカム $V_i | E_j$。これを清算配当金と結びつける。

 96年大統領選では、民主党はほぼクリントン一択だったのに対して、共和党にはたくさんの候補がいた。予備選の有力候補はアレクサンダー、ドール、フォーブス、グラム。パウエルも出ると思われたんだけど、95年11月に不出馬宣言。グラムは96年2月、アレクサンダーとフォーブスが3月に降り、残るはドールと、ブキャナンという弱い候補だけとなった。
 さて、IEMではこの間に3つの市場を開いた。

結果。

 論文後半に長大なappendixがついていたが、パス。

 感想:分析のくだり、2本の時系列を単純に比べて、相関があったとか回帰係数が有意だったというような分析をしているのだが、これ、時系列分析の手法として大丈夫なのだろうか。これってグレンジャー因果とかの出番なのではないかしらん...

 えーと、予測市場の先行研究のうち、これまでにメモを取って読んでブログに載せたのは、日本語を別にすれば、この論文, Soukhoroukova, Spann, & Skiera (2011)の奴、Spann & Skiera (2003)のレビュー, Tziralis & Tatsiopoulos (2007)のレビュー、Pennock et al.(2001)のScienceのLetter, それからEly Dahanさんの奴。くそう、道は遠いぜ。昔と違って、最近は一本目を通すのも一苦労なのだ。

読了:Berg & Rietz (2003) 条件つき予測市場による意思決定支援

2014年9月13日 (土)

Soukhoroukova, A., Spann, M., Skiera, B. (2011) Sourcing, filtering, and evaluating new product ideas: An empirical exploration of the performance of idea markets. Journal of Product Innovation Management., 29(1), 100-112.
 製品アイデア開発のための予測市場の先行研究。ほんとはもっと早く読んでおくべきだったのだけれど...

 著者らいわく。
 製品開発の初期段階(いわゆるファジー・フロント・エンド)においては、企業の従業員の知識をフル活用しなければならないのに、多くの企業はそれをやりそこねている。従業員から新製品アイデアを集め、絞り込み、評価するうまい方法はないものか?
 最近ではネットを使った支援システムが提案されている(ここでDahan&Hauser(2002,JPIM)というのが引用されている。やばい、読まなきゃ)。たとえば:

本論文ではそうした支援システムのひとつとして、アイデア・マーケットを提案する。これは予測市場みたいなもので、アイデアの仮想証券を仮想市場で取引する仕組みである。

 先行研究概観。(Crawford & Di Benedetto, 2006, "New Product Management" というのが挙げられている。どうやら大学の教科書らしい)

1) アイデア収集(Sourcing)。まず社員のなかのリード・ユーザを探すという手があるが、カテゴリによっては難しい。多様な人からどっさり集めてくる、意見を交換させる(ブレインストーミングとかで)、匿名性を活かす、投稿を容易にする、透明性をつくる、楽しく競争させる、といった工夫がある由。
 本筋から離れるけど、ここのくだりにすごく関心があるので、引用文献をリストにしておく。

 2) 集団によるアイデア絞り込み(Filtering)。以下の3つが必要になる。

  1. 刺激のデザイン。アイデアを文章で示すのか、絵をつけるのか、などなど。
  2. 対象者の選択。エキスパートを選びたいところだが、なかなか難しいし、あんまり少ないと問題が生じるといわれている。多様な評価者を(社内だったらたくさんの部署からの評価者を)、多数選ぶのが良い。
  3. 反応のマネジメント。評価者にアイデアを多数の基準で評価してもらって、AHPで重みづけてして集約する。ないし、全体的評価だけを尋ねる(投票とかランキングとかで)。評価者を通じた集約の方法としては、単純平均、デルファイ法、そして市場メカニズムが挙げられる。デルファイ法みたいに相互作用させるのもよい(Ozer, 2005, Euro.J.OR)。ただし集団思考に陥る危険もある(Kumar,et al.,1993,Aca.Mgmt J.)。

 3)評価(Evaluating)。これはアイデア収集と統合するのがよい。アイデア提案者に即座にフィードバックできるし、ひどいアイデアをすぐに落とせるので認知的負荷が下がる。さらに、即時的フィードバックは提案者のアイデアの質を挙げるし、良い提案者を同定できればそれは良い提案者でもあるかもしれない。

 提案手法の特徴。
 まず予測市場についての説明があって... IEMの紹介があって... (SpannとSkieraってひょっとしてIEAの関係者なのかしらん)
 アイデア・マーケットでは、参加者が考えたアイデアが証券になる。予測市場の違いは2点。

  1. 証券の種類数が参加者の提案の数によって決まる。従って開始時点では未知である。
  2. 証券の価値が、近未来の実際の結果によっては決まらない。

つまり、Dahanらのプリファレンス・マーケット(Dahan,Soukhoroukova,&Spann, 2010, JPIM) やSTOC(2011,JMR) と比べても、上記1.においては異なるわけである。

 お待ちかね、手法と実証実験。
 とある企業との協同実験である。ハイテクB2B製品の国際企業、売上は300億ドル以上、世界100ヶ国以上でビジネスをしている由。(社名は伏せられているけど、Santos&Spann(2011,R&D Mgmt.)という論文があって、それはクアルコムにおける従業員からのアイデア収集の事例研究だから...)
 仮想証券は3種類。

  1. 会社の新技術。専門家委員会が、むこう10年にその技術が収入に占める割合を推定し、それで最終配当が決まる。
  2. ある製品カテゴリにおける新製品アイデア。専門家委員会が、むこう10年の売上数量を推定し、それで最終配当が決まる。
  3. 創造的なビジネス・製品アイデア。専門家委員会がベスト10を選び、それに入ってたら配当あり、ほかは配当なし。

なあんだ、結局は専門家委員会が「正解」を決めてくれちゃうんだ。がっくり。この点ではDahanのSTOCなんかよりもオーソドックスだ。
 ええと、著者ら曰く、配当の決め方としては次の路線がある。

 というわけで、この実験では本当に社外からえらい人を連れてきて時間を掛けて議論させたらしい。なにもそこまでせんでも、適当でいいじゃん、と思っちゃいましたけど、国際企業の社内実験ともなれば従業員をかつぐことは許されないのだろう。

 市場開設期間は36日間。全正社員に対してオープン。社内報とかチラシとかで告知した。取引は仮想通貨で行われる。
 参加者は最初に仮想の金を渡される。ええと、仮想通貨の単位をポンドと呼ぶとして、最初に10000ポンド渡すんだそうです。
 さて、この研究のウリともいえるアイデア収集だが... 市場開設から23日間、誰でもアイデアを投稿できる。ただし、会社にとっても市場にとっても新しいアイデアでないといけない、という決まりがある(別にチェックはしないらしい)。説明文のほかに、画像とか、外部リンクとか、引用文献なんかを載せられる。
 投稿者には仮想通貨ではない賞品が与えられ(先着25名様には割増がある)、さらに仮想ポートフォリオにも仮想通貨がどかんと追加される。(これ、本文では投稿者にもれなく渡すように書いてあるが、図では後述するIPOフェイズを通過できたアイデアの投稿者に限って渡すように書いている。どっちなのかはっきりしない)
 投稿から7日間はIPOのフェイズ。アイデアは価格が5ポンドに固定された証券となる。一人の参加者が買える上限は4000ポンドまで。で、売上が決まった閾値(参加者数で決める。たとえば20000ポンド)を超えないと、この証券は紙くずになる。
 これを通過した証券は、初値5ポンドから取引開始(ダブルオークション)。あれれ、初値が公募価格と同じだということは、IPOに応募する特別なインセンティブはないわけか。
 なお、このルールだと初期に取引する証券がまだないことになるので、主催者がIPOフェイズに3証券、取引フェイズに7証券を初日に投入した由。
 さて、市場が閉まると専門家委員会の評価で配当が決まる。これで利益が確定する。
 成績優秀者10名に100ドルから1500ドルの賞金を渡す。つまり、最終的なポートフォリオと報酬が連動するわけではない。それでも大丈夫という研究がある由(Servan-Schreiber, Pennock, et al., 2004, Electronic Markets)。

 結果。市場がうまく機能したかどうかを4つの観点から評価する。

  1. アイデア・マーケットは従業員に受容されたか。参加してくれたのは397名、アクティブに取引してくれたのは157名。投稿数は252個。IPOを通過したのは100個。参加者調査の結果、大勢の参加者が「楽しかった、またやりたい」って言ってます、大勢の投稿者が「いやーこれやらなかったら新アイデアなんて出さなかったよ」って言ってます、とかなんとか。はいはい。スキップ。
  2. 収集・フィルタリングされたアイデアの質。IPOフェイズで半分以上が落ちたわけで、つまりフィルタリングは機能している(おいおい... 妥当なフィルタリングかどうかが問題なのに)。市場終了1週間前にやった経営層への調査では、上位20アイデアへの評価はとてもよかった。とかなんとか。うーん、ここの議論もちょっと弱い感じだ。
  3. アイデア評価の質。参加者調査では「すべての参加者がアイデアを評価できたのは良かった」という回答が得られたとか、経営層調査でも「この結果を参考にしたい」という回答が得られたとか。はいはいはい、省略。非投稿者より投稿者のほうが取引が活発で、かつ成績が良い。終値と専門家評価の相関は.10~.47で、一致しているとはいえない。著者らいわく、この不一致は新製品アイデアの成功の予測における不確実性の高さを表しているのでしょう、高価な市場調査を経た新製品導入さえ半分以上が失敗するといわれているのも道理ですよね、とのこと。おいおい。
  4. 全体的パフォーマンス。参加者調査ではみんな有用だっていってくれました、とか、他の会社でもやるといいと思うよっていってくれました、とか... この研究者たちはリップサービスという言葉を知らないのだろうか。

 考察。
 マネジリアルな含意:企業はアイデア開発の管理が不得手だ(Berczak, Griffin, Kahn, 2009, JPIM. あーこれ読んでおけばよかった...)。この研究が示したように、アイデア・マーケットのようなうまいプラットフォームがあれば、従業員からアイデアを集め同時にフィルタリングできるし、イノベーティブな組織文化をつくれるだろう。
 今後の課題:手続きやインセンティブ・スキーマの改善。専門家委員会を使わないですむ方法。社外の人の参加。ブレストのようなアイデア創造手法との組み合わせ(←なるほど)。エキスパートの有効活用。

 わかりやすい論文だし、勉強にはなったけど...
 この手法の売りがアイデア評価ならば、専門家による評価と市場による評価のどちらが優れているのか、という問いに答えなければならないはずである。また、手法の売りがアイデアの収集とフィルタリングにあるならば、他の手法と比べて収集したアイデアの数が多いとか、IPOフェイズ通過有無がアイデアの質を正しく反映しているとか、そういうことを示さないといけないはずである。
 この研究では、どちらについてもしっかりしたエビデンスがない。せいぜい、「アンケートでみんなそうだって言ってました」というレベルである。うーん。きっとこの研究分野では、検証が甘くてもアイデアが良ければ受け入れられるんだなあ。いわゆる社会科学的研究とはちょっと違うのかもしれない。まあ、別にそれでもかまわないような気もする。

 ポジティブに捉えると、提案手法そのものは確かに面白いと思う。自分の投稿したアイデアが取引されるなんて、とても楽しそうだ。参加してみたい。
 自分でアイデアを投稿している人のほうが取引成績が良いという知見もちょっと面白いと思った。単にコミットメントによる疑似相関かもしれないけど、とにかく投稿者を飽きさせない仕組みではあるわけだ。もしかすると、大きな組織のなかには埋もれたアイデアマンがいて、それをこの手法で探し出せるんじゃないかしらん。

読了:Soukhoroukova, Spann, & Skiera (2001) 新アイデアの仮想市場を社内で開設

2014年9月11日 (木)

Brynjolfsson, E., Geva, T., & Reichman, S. (2013) Crowd-Squared: A New Method for Improving Predictions by Crowd-sourcing Google Trends Keyword Selection. Workshop on Information Systems and Economics (WISE2013).
 ネットで調べものをしていて見つけたもの。あることをwebで調べるときの検索語をクラウドソーシングで決めましょう、という提案。
 背景には、Google trendなんかを使って将来予測を試みるとき、どうやって検索語を決めたらいいか、という問題がある。著者らはもともとGoogle trendで不動産価格を予測するというような研究をやっているらしい。
 もちろん、Googleの中の人であれば片っ端から調べるという手もあるわけで、たとえばGinsberg et al.(2008, Nature)のインフルエンザ予測は5000万語を調べているそうなのだが、普通の人には望むべくもない。

 そこで、検索語を決めるためのオンライン・ゲームをつくり、クラウド・ソーシング(Amazon Mechanical Turk)でデータを集める。ううむ、面白そうではないですか。いったいどんな仕掛けかと、興味深々だったのだが...
 たとえばインフルエンザの場合。webページにキュー単語"Flu"を表示し、それを取り巻くように5つのテキストボックスを表示する。で、"Flu"から連想される単語でボックスを埋めさせる。単純に集計して、連想語ベストテンを使う。なお一位は"sick"で出現率53%だそうです。
 そ・れ・だ・け。脱力。それ、ネットパネルに「連想する語を5つ挙げてください」という調査を掛けるのと同じことではないか。クラウドって言いたかっただけちゃうんかと。

 検証実験。まずインフルエンザの例。上の方法で集めた連想語ベストテンについてGoogleトレンドで検索量を調べ、CDCのインフルエンザ流行データに対する単純な回帰式を組む。Googleの中の人たちがやった研究と遜色のない予測力が得られました。云々。
 ほかに、不動産の予測、失業率の予測をやっている。いずれも連想語ベストテンを使うだけで、連想出現率を使うとか、そういう工夫はない模様。面倒なので飛ばし読み。

 というわけで、期待が高かった分ガックリしちゃって、後半はパラパラめくった程度。まあ、人の学会発表にケチをつけるのも野暮というものであろうが...
 せっかく目を通したのでちょっと前向きに考えると、インフルエンザ予測のための検索語特定という局面でインフルエンザの連想語を使うというアイデアは筋が通っている。これはそれらの検索語のトレンドの背後に単一の潜在トレンド(インフルエンザの流行)があると考えているからだ。いっぽう、Du&Kamakuraのマーケティングにおけるトレンド抽出のように、ある領域に関する多様な語の検索トレンドから複数の潜在トレンドを抽出したい局面では、単一のキーワードからの上位連想語を使うのはおかしいと思う。その領域における典型性の高い語だけを調べていてもしかたがない。むしろ、「100人中2人の人だけが挙げる連想語を考えてください」というような課題が向いているのではないか。そのときこそクラウド・ソーシングの出番であろう。

 引用のなかから面白そうな論文をメモ:

読了:Brynjolfsson, Geva, & Reichman (2013) クラウドソーシングによって将来予測を改善する超画期的な方法

Forlines, C., Miller, S., Guelcher, L., & Bruzzi, R. (2014) Crowdsourcing the future: Predictions make with a social network. Proceeding of CHI '14 Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. pp.3655-3664.
 今年の ACM CHI Conference on Human Factors in Computing Systems (CHI2014) という学会で発表された研究。要旨があまりに魅力的なので、ぐだぐだ迷った末、ぽちっとクリックして買ってしまった...10pで$15。うぐぐぐ。
 つまらないと困るので、固唾を飲むような感じで目を通した。どう位置づけたらいいのか、自分のなかでまだちょっと整理できていないのだけれど...

 要するに、個人の予測を集約して集合知を得る際にどうやって集計するか、というスコアリング・ルールの話である。いちばん単純なのは平均しちゃうことで、たいていの場合うまくいく。これに反旗を翻しているのが、PrelecのBTSによるスコアリングである。BTSでは、まずある事柄について回答させる(この研究の文脈でいえば、将来の出来事について予測させる)。さらに、その設問について他の人々が全体としてどう答えるかを予測させる(著者らにならってこれをメタ予測と呼ぶ)。この2問から各個人のBTSスコアが得られる。これをウェイトにして重み付け集計する。
 さて、著者らはOne-on-one スコアリングというのを提案する。この手法では、BTSでのメタ予測設問とちがって、自分以外の回答者ひとりひとりについてその人がどう答えるかを予測させる。つまり、N人の集団であれば、各人にN-1回のメタ予測を求めるわけである。
 最初に全回答者にある一定のスコアを持たせておく。で、回答者のすべてのペアについて以下の計算を行う。いま、Aさん自身の予測値が72%, Bさん自身の予測値が24%だったとする。さらに、AさんはBさんが70%と答えるだろうとメタ予測し、BさんはAさんが70%と答えるだろうとメタ予測したとする。メタ予測に関して言えば、Bさんの勝ちである。このとき、AさんはBさんに自分のスコアを、abs ( ln (Bさんについてのメタ予測 / Bさんの実際の予測) ) だけ献上する。こうして決まった個人のスコアをウェイトにして重み付け集計する。

 実験。対象者は学生30人。さすがに自分以外の29人について全部答えるのは無理なので、10人ずつ3群に分ける。将来の出来事についての10個の予測を行い(例, 2013年4月1日までにユーロ圏から離脱する意思を表明する国は現れるか?)、BTS式の全体的メタ予測、9人に対する個別的メタ予測、その他いろいろを聴取。予測課題はすべて2013年4月に正解が確定するものばかりなので、予測誤差を測れる。結果、単なる平均よりBTSでウェイティングした集計が優れていたが、One-on-oneスコアで重みづけた集計はもっと優れていた。

 ううううむ。。。
 問題意識はわかる、ような気がする。BTSでは集団の意見分布について予測させ(メタ予測)、その正確さを予測スコアと呼び、BTSスコアに加味する。でも、集団を構成するネットワークには疎密があって、ある人は集団の多くのメンバーについてよく知っているし、ある人はあまり知らない。だから、単に集団全体の意見分布についての予測が当たったかどうかをみるのではなく、「たくさんの人についてよく知っている人」を重視しよう。ということだと思う。
 一番わからないのは、スコアをゼロサム的にやり取りさせている点だ。つまり、多くの他人の態度を正しく推測した人が重視されるだけでなく、自分の態度を多くの他人に正しく推測された人は軽視されることになる。サトラレさんは損をするのである。なぜそんな仕組みにする必要があるのだろうか?
 実験手続きにもよくわからない点がある。この課題では、たぶん事象の生起確率をパーセンテージで答えさせているのだと思う。もしそうなら、対象者のBTSスコアはいったいどうやって求めたのだろう。連続量の回答についてBTSスコアを算出するには、訊き方に工夫が必要なはずだ。あるいは、事象の生起有無を二値で答えさせたのだろうか。だとしたら、今度はOne-to-oneスコアの算出方法がわからない。
 BTSと単純に比較している点もちょっと不思議である。BTSスコアは情報スコアと予測スコアの重み付け和で、肝になっているアイデアは情報スコアのほうだ。One-to-oneスコアは予測スコアの代替に相当している。だったら、BTSスコアをOne-to-oneスコアと比べるだけではなく、情報スコアとOne-to-oneスコアの重みづけ和のパフォーマンスを調べるのが筋ではないか。
 研究のなかでの提案手法の位置付けもよくわからない。One-to-oneスコアは、2者間のスコアの移動にあたってその親密さは問うていない(親密さを考慮した改訂版スコアも一緒に実験しているが、パフォーマンスはOne-to-oneスコアより劣る)。つまり、良く考えてみると題名とは異なり、著者らの本命であるところのOne-to-oneスコアは、ソーシャル・ネットワークについての理解とは無関係に得られるスコアだ。ちょっと看板に偽りがあるような気がする。
 最後に、提案手法の適用分野がわからない。この手法はメンバーがある程度顔見知りであるような集団における意見の集約に焦点を当てている。それってどんな場面だ。そのような状況があるとして、そこでの対抗馬はBTSなのか? もともとBTSは小集団には向いていない。もっと現実的な対抗馬を立てないと、この手法の優越性が示せないのではないか。

 などなど、疑問は山ほどあるのだが、でも大変に刺激的な研究であった。個人の予測を集計する際にソーシャル・ネットワークに注目する、という発想がとても面白い。視野が広がったような気分だ。

読了:Forlines, Miller, Guelcher, & Bruzzi (2014) 予測の集約を社会的ネットワークを使って改善する

2014年9月10日 (水)

以下、日本経営工学会(JIMA)という学会の機関誌「経営システム」の、2010年の「予測市場と集合知」特集号の論文。実はこれ、すべてWeb上で公開されており, 前半は既読だったのだが(ディスプレイ上で)、先日冊子版を頂いたので、出張の帰りに読み直した。せっかくなのでメモしておく。

山口浩 (2010) 予測市場と集合知メカニズムの現状と展望: 「神の手」と「衆愚」の間. 経営システム, 20(5), 234-238.
 ええと、予測市場の先行研究として、ハイエク、Rollという人(オレンジジュースの先物市場と将来の天候)、IEMを紹介。メカニズム例を紹介(ダブル・オークション)。予測市場の背景として以下を挙げる: (1)標本の偏りの影響を受けにくい, (2)分散型意思決定メカニズム全体への関心の高まり。証券市場メカニズム以外の提案として、(1)UIをわかりやすくする(マシンエージェントとか), (2)選択肢に対する投票, (3)予測対象が取りうる値の範囲を推測させ集計。展望として、予測・意思決定メカニズムとしてだけではなく、組織コミットメント促進のツールとしての用途を示唆。

佐藤哲也 (2010) 選挙と対象とした予測市場. 経営システム, 20(5), 239-242.
 選挙予測はそれ自体に経済的意義がある。さらに予測市場による選挙予測は、様々な予測者が観察した事実、それに基づくメタ認知を継続的に集約する、世論計測技術としての意義がある。先行例としてIEM、はてな総選挙を紹介。最後に、佐藤先生がやってたshuugi.inの2009年の結果を紹介。
 shuugi.inではバブル防止のためにこういう工夫をしていたそうだ。内部で「値上がり期待」「値下がり期待」という証券を用意する。価格は常に同じ。前者はふつうの株式と同じで、値が上がると利益が出る。後者は逆に値が下がると利益が出る、つまり空売りしているようなものである(損失が膨れ上がると強制的に精算させられる)。空売りっていうのはつまり価格の下落局面でも利益がでる仕組みなわけで、バブルの防止になる由。へええ。

水山元 (2010) 予測市場による経営の意思決定支援に向けて. 経営システム, 20(5), 243-248.
 これはもう繰り返し読んで、プレゼンやら学会発表やらでさんざん引用させていただいているものなので、省略。

池田心 (2010) 予測市場シミュレーションのためのエージェント群構成法. 経営システム, 20(5), 249-254.
 まずABMの紹介。著者らは個々のエージェントのミクロな挙動にではなく、「エージェント群がマクロにみてある特徴を満たすようにするためにはどうしたらいいか」に関心を持っている。
 実験例。選挙の予測市場で、候補者は二人。各エージェントの意思決定についていくつか単純な仮定をおき、各エージェントの戦略パラメータを進化させていく。ええと、多様な戦略を共進化させると、負けっぱなしの奴もいないしうまく勝ち越す戦略もない、つまりは自然な市場となっていくのだそうだ。
 うーむ、これ、難しいけど面白いなあ。いつか仕事に生かせないだろうか。

ここからは未読であった。

伊藤孝行 (2010) マルチエージェントの自動交渉機構と集合的コラボレーション支援への応用. 経営システム, 20(5), 255-267.
 大規模な意見集約や合意形成を支援するシステムの話。先行例として、MIT SloanのCollaboratoriumプロジェクトというのがあるそうだ。
 えーと、自動車かなにかの設計システム上で、ユーザが何かを作成すると、エージェントが他の人と交渉したりなんだりを勝手にやってくれる、というような仕組みらしい。従ってエージェントの課題は次の3つとなる: (1)自動交渉と合意。(2)人間の好みの推定。(3)交渉の場の提供。
 交渉とは、すなわち可能な合意点を探索すること。先行研究は多いんだけど、エージェントが持っている多属性効用関数において属性間の独立性を仮定することが多い由(フィッシュバイン・モデルみたいなもんですかね)。属性が独立していない、複雑な効用関数に基づく交渉としては、オークションを開く方法があって、でもいろいろ大変なことも多くて... 云々。ううむ、門外漢にはなかなか難しいぜ。
後半は著者らの開発事例の紹介。車、公園、庭、キャンパス緑化のデザイン支援システム。

岡村秀一郎 (2010) 投票方式による予測市場の実証実験: 数値範囲指定予測とランキング予測. 経営システム, 20(5), 268-273.
 著者はNRIの方。企業ユースを想定して開発した二つの予測システムの紹介と実証実験。
 ひとつめは、ある数値を予測するためにその範囲を投票させるシステム。いわく、企業が予測したいのは事象の生起有無よりなにかの数値であることが多いし(売上とかね)、ダブルオークションは少人数だと難しいし大変だし、マーケットメイクは予測の正しさを儲けに連動させにくいし、数値のピンポイント予測は至難の業だし、結局は範囲の投票が一番いい、とのこと。なるほど。
 予測の正確さに応じて配当を渡す。配当の計算式は、範囲が狭いとハイリスク・ハイリターンになるとか、早めに投票すると得しやすいとか、いろいろ工夫してある。
 実験。調査モニタパネル(どこのだろう?)を対象者として、ガソリン価格、プラズマテレビの最安値、ドラマ「イノセント・ラブ」の視聴率を予測させた。あんましうまくいかなかった。
 ふたつめは、選択肢に資金を投入させるシステム。実験: ツタヤ・オンラインの会員を対象に、セルCDシングルの来週のベストテンを予測させる、というのを8週繰り返した。調べているのは、全員を合計した投資配分の順位と実際の順位の一致。なんだかんだでいろいろ課題がある、というのが結論。
 二つ目の実験、面白いなあ。集計データではなく個人データを分析してみたいものだ。

多ヶ谷有・淺田 克暢 (2010) 新商品需要予測のための予測市場システム. 経営システム, 20(5), 274-278.
 著者はキャノンITソリューションの方。やばい... これ超面白い... 早く読んでおくべきだった...
 題名のとおり、新製品の需要予測のための社内ユース向け予測市場をつくったという話である。証券は需要予測の範囲、つまり「aからbまでのあいだに需要が落ちる」という証券である。当然、ダブルオークションってわけにもいかなくなるので、マーケットメーカ方式になる。マーケットメーカは、予測値の数直線の上に正規分布があると考えていて、区間[a, b]の面積に応じて価格を決める。で、株の販売状況に応じて、人気のある区間の価格が高くなるように、正規分布を更新していく。最終的にはこの正規分布が予測分布になるわけだ。
 で、実際にシステムをつくった。画面上で数値範囲をクリックすると価格が表示されたり、自己資産がどう変わるかシミュレーションが出たりする。売買の際にはコメントを書いてもらってそれを公開する(←面白い!)。
 実験。社内での実験で、内閣支持率、スキー場の降雪量、ある週の部内出勤延べ数、を取引させたら、短期売買で差益を狙ったり、沈んでいる参加者が逆転を狙って変な区間を大量買いしたりしたそうだ。さすがは理系企業...
 いやあ、これは勉強になった。
 それにしても、こうやって区間可変型の証券を使うことのメリットとデメリットはなんだろう。参加者にとっては、たとえマーケットメーカ方式であっても、固定区間ごとに証券が発行されているほうがずっとわかりやすいような気がする (現在の価格が表で一覧できるから)。証券は固定区間型にし、区切り方を事前にちゃっちゃとうまく決める方法を開発する、という路線もありそうだ(質問紙調査の出番ではないかしらん)。あるいは、最初はおおざっぱな区間にしておいて、人気の区間を途中で分割していくのはどうだろう。発行済み証券も1株を0.5株ふたつに分割しちゃうのだ。
 このシステムで使っている価格更新の仕方についてはMizuyama, et al.(2010, J. Japan Industrial Mgmt Assoc.)を、固定区間型証券についてはPlott(2000, Southern Econ. J.)を読むといいらしい。 

読了:「予測市場と集合知」特集号 (2010)

2014年8月 5日 (火)

Jurca, R., Falting, B. (2008) Incentives for expressing opinions in online polls. EC '08: Proceedings of the 9th ACM conference on Electronic commerce.
いま一番気になる男(私の中で)、GoogleスイスのR. Jurcaさんの研究。小さいフォントで10pある論文だが、要するに、Prelecのベイジアン自白剤(BTS)をオンライン化しました、というものである。オンライン化というのはつまり、調査終了まで待たずとも報酬が決まるという意味。

 面倒なので一部端折って読んでいるのだけれど... 理解した限りで、提案手法を平たく言い換えると、こんな感じである。
 例として、2択の設問に対するオンライン投票を考える。「世界経済は不況に突入するでしょうか?」というような、正解のない設問でかまわない。
 「世界経済は不況に突入すると思いますか? 賛成か反対かでお答えください。なお、この調査に対してあなたよりも前に答えた人たちの賛成率はX%です。
 さて、これから回答していただくわけですが、回答とあわせて、あなたの『参照回答者』を決めてください。決め方は次のどちらかです。(1)『次の回答者』と指定する。このとき、あなたの次に回答した人があなたの参照回答者になります。(2)『閾値θ』を指定する。θは、もしあなたの回答が『反対』ならば0%とX%の間の値、あなたの回答が『賛成』ならばX%と100%の間の値でなければなりません。この指定を選んだ場合、あなた、あなたの次の回答者、あなたの次の次の回答者...が回答するたびに、その時点での賛成率を再計算し、その値がX%とθの間に入るまで待機します。賛成率がこの範囲に入り次第、その次の回答者があなたの『参照回答者』になります。
 さて、この調査に回答してくださった報酬は次のルールで決まります。もしあなたの『参照回答者』の回答とあなたの回答が一致していたら、報酬が支払われます。報酬額は、もしあなたの回答が賛成ならあなたが回答した直後の反対率、あなたの回答が反対ならあなたの回答の直後の賛成率に、ある定数を掛けた値になります。いっぽう、もしあなたの『参照回答者』の回答とあなたの回答が異なっていたら、報酬はゼロです。
 それでは回答してください。賛成ですか、反対ですか?」
 著者らいわく、この報酬メカニズムは"very simple"とのこと。嘘をつけっ!

 えーと、この仕組みによって、調査対象者の真の賛成率が明らかになるのである。以下、その説明。
 次のように想定する。すべての対象者は、全対象者の意見の分布についての事前分布を共有している。さらに、対象者 i は自分の意見 s_i ={0,1} を持ち、これをシグナルとして全対象者の意見の分布をベイズ更新する。意見 w={0,1}についての s_i の下での事後分布を Pr[w | s_i] とする。BTSと同じセッティングですね。
 t 番目の回答者の意見を s_t, この回答者の回答を r_t, そこまでの賛成率を R_t, 報酬を \tau_t(s_t)とする。対象者 t には R_{t-1}が提示されるわけである。
 さて、共通の事前分布を自分の意見でベイズ更新しているのだから、Pr[1|0] < Pr[1|1] である。ということは、提示されるR_{t-1}は次の3通りあって...

...という戦略がナッシュ均衡になる。なお、わざわざ参照回答者として次の回答者ではなく未来の回答者を指定できるようにしているのは、人数が少ないとき、(1)の状態が(2)の状態にオーバーシュートしちゃったりするかもしれないからである由。
 さて、このとき投票の最終結果は真の意見分布に収束する。なぜなら、中間集計された賛成率 R_t がPr[1|0]とPr[1|1]の間にある限り対象者は誠実に回答するし、外側にあったらそれを内側に動かすように回答するからである。

 なお、全員が反対と答え続ける、賛成と答え続ける、ランダムに答え続ける、といった戦略もナッシュ均衡ではあるがそういうことは起きないだろう、共謀にも抵抗できるだろう、云々という説明がある。パス。
 
 ちゃんと読んでないのに申し訳ないのですが... 通常のオンライン投票にこういう報酬スキーマを追加するのは、さすがに現実的でないような気がする。参加者にとっては複雑すぎて理解できないのではないか。いっぽう、たとえばデルファイ法のような専門家の知識集約の仕掛けとして使う、予測市場に類した意見集約ゲームとして使う、といった場面ならば想像しやすいと思う。

読了:Jurca & Falting (2008) オンライン自白剤

2014年8月 4日 (月)

Faltings, B., Li, J.J., Jurca, R. (2012) Eliciting Truthful Measurements from a Community of Sensors. 3rd International Conference on the Internet of Things.
 ベイジアン自白剤について調べていて見つけたもの。仕事とは直接関係ないので、別に読まなくてもいいんだけど、あまりにナナメウエな発想に呆れて、つい目を通した。第三著者のRadu Jurcaさんという方、チューリッヒのgoogleにお勤めらしいのだが、こういう(私から見て)想像の範囲を超えた突拍子もない研究をしていて、気になる人である。

 いろんなモノがネットでつながる時代になると、個々人が所有するモノから広く情報を集めて活用したくなる。そういうのをコミュニティ・センシングという。ところが、個々人が正しい値を報告してくれるとは限らない。もしあとで正解がわかるなら、それと突き合せて報酬を渡すこともできるだろうが、ふつう正解はわからない。そこで、真実申告にインセンティブを与えるメカニズム、その名も「ピア自白剤 peer truth serum」を考えました。という論文。

 たとえば、大気汚染を測っているセンサーについて考えよう。ある場所と時点において、大気汚染のレベル V がN段階で表現できるとする。すなわち V = {v_1, ... v_N}。
 各エージェントは観察 o に基づきレポート s を刻々とセンターに送りつづける。センター側は集めた情報をモデルに入力し(それがどんなモデルかはこの際どうでもよい)、地域 l, 時点 t における汚染がレベルvである確率 R^{l,t}(v) を出力する。
 各エージェントは、次の時点でセンターが出力する汚染レベルが v である確率 R^{l, t+1}(v) について、自分なりの信念を持っている。o を測定する前の信念(事前信念)をPr^{l, t}(v), 測定した後の信念(事後信念)を Pr^{l,t}_o (v) とする。以下、上添字 l, t は略記する。
 各エージェントがどうやって信念を更新しているのかは問わないが、ベイズの定理に従って、次のような意味で「合理的に更新」していると想定する。
 [命題1] Pr_x(x) / Pr(x) > Pr_x(y) / Pr(y)
すなわち、センサーが「あっ汚染度高っぽい!」と観察したとして、「汚染度は高だ」という主観確率は変わるだろうし、ひょっとしたら「汚染度は中だ」の主観確率も変わるだろう。それはどうでもいいけど、「汚染度は高だ」の主観確率の増大率は、「汚染度は中だ」の主観確率の増大率よりも高くなきゃおかしい、という話である。

 さて、ピア自白剤の基本的なアイデアは以下のとおり。
 事前確率分布 R が共有されているとしよう(←なかなかぴんとこなかったのだが、センターが発表した最新の確率分布だと考えればよいのだと思う)。さらにセンターは、誰かのレポート m を参照値としているとしよう(←これも意味がよくわからなかったのだが、エージェントがそう信じているという点がポイントで、実際に誰の測定値を参照値にしているかはどうでもよい)。
 レポート s を報告してきたエージェントに対する報酬を、\alpha + \beta \tau (s, m, R) とする。ただし、\alphaと\betaは正。\tau(s, m, R)は、s=mのときに 1/R(m), それ以外のときに0とする。
 つまり、「あなたのレポートsがセンター側の参照値 mと一致しているときのみ、m の共有事前確率に反比例した報酬を払いますよ」というルールである。

 これがなぜ真実申告メカニズムなのかというと...
 まず、すべてのエージェントの事前信念が、共有事前分布とある程度一致している場合について考えよう。任意のvについての事前信念 Pr(v)の上下±\epsilonの範囲内に、共有されている事前確率 R(v)が入っているものとする。すなわち
 Pr(v) + \epsilon > R(v) > Pr(v) - \epsilon
さて、oを観察し s をレポートするエージェントの報酬の期待値は
 pay(o, s) = \alpha + \beta \sum_x Pr_o (x) \tau (s, x, R) = \alpha + \beta Pr_o(s) / R(s)
これが真実申告メカニズムであるとは、任意の v について pay(o, o) ≧ pay(o, v) であるということだ。上の式を代入して
 Pr_o(v) / R(v) ≦ Pr_o(o) / R(o)
逆数をとって
 R(v) / Pr_o(v) ≧ R(o) / Pr_o(o)
左辺分子のR(v)の下限は Pr(v) - \epsilon, 右辺分子の上限はPr(o) + \epsilonだから、この式は
 (Pr(v)-\epsilon) / Pr_o(v) ≧ (Pr(o)+\epsilon) / Pr_o(o)
のときに成り立つ。つまり、エージェントの事前信念と共有事前分布 のあいだのずれが \epsilon 未満であれば、ピア自白剤ルールは真実申告メカニズムになる。イエーイ。
 この \epsilon の値は単純な算術で求められる。つまり、すべての v, o (v \neq o) において
 ( Pr(v)Pr_o(o) - Pr(o)Pr_o(v) ) / ( Pr_o(v) + Pr_o(o) )
 を求めた、その最小値が \epsilon である。

 ... ほんまかいな。試してみましょう。いま、大気汚染のレベルが{低, 中, 高}の3段階で、
エージェントの事前信念は{0.2, 0.6, 0.2}
「低」を観察したエージェントの事後信念は{0.6, 0.3, 0.1}
「中」を観察したエージェントの事後信念は{0.1, 0.8, 0.1}
「高」を観察したエージェントの事後信念は{0.1, 0.3, 0.6}
としよう(これは合理的更新である)。計算すると \epsilon = 1/9なので、共有事前分布をたとえば {0.25, 0.5, 0.25} とする(ズレは\epsilon未満におさまっている)。あるエージェントが「低」を観察したとしよう。「低」と報告したら報酬の期待値は 0.6/0.25 = 2.4。「中」と報告したら 0.3/0.5 = 0.6。「高」と報告したら0.1/0.25=0.4。真実申告において期待値最大である。「中」「高」を観察した場合でもそうなる。

 さあ、ここからがすごく厄介です。
 エージェントの事前信念が共有事前分布と一致しているとは限らない。たとえば上の例で、共有事前分布が{0.5, 0.1, 0.4}だとしよう。エージェントが「低」を観察したとして、「低」と報告したら報酬の期待値は 0.6/0.5 = 1.2, 「中」と報告したら0.3/0.1=3, 「高」と報告したら0.1/0.4=0.25。「低」を観察したにも関わらず、「中」と報告したほうが期待値が大きい。つまり、エージェントは嘘をつく動機を持っている。
 ところが... ここでまた呆気にとられたのだけど、著者はこう主張する。こういう場合は「中」と報告してもらったほうがいいのではないか? だって、エージェントは「現に目の前で交通渋滞が起きている」というような、センターが知らないことを知っているのかもしれないのだから。

 真の分布 Q(\dot) を想定する。すべての v において共有事前分布 R(v) よりも事前信念 Pr(v)のほうが真の分布 Q(v)に近いとき、事前信念 Pr (\dot) は"informed"であると呼ぶことにする。
 ここの段落、すごくわかりにくいので逐語訳。

 こうした場合、公共的なマップ R がなるべく早くプライベートな信念へと収束することがもっともhelpfulだろう。そこで以下では次のことを示す。ピア自白剤はhelpfulな報告にインセンティブを与える。すなわち、必ずしもtruthfulではないやりかたで、公共的なマップを真の分布へと近づけていく報告にインセンティブを与える。
 したがって、収束は2つの段階を通じて生じる。
1) まず、さまざまなプライベートな事前分布と、公表されている汚染マップが、同一の分布へと収束し、共通の参照枠を構築する。
2) この参照枠が構築されると、インセンティブはtruthfulな報告に与えられるようになり、公共的マップとプライベートな事前分布が真の分布へと漸近的に収束する。
こうした2段階プロセスはコミュニティ・センシングにとってとても意義あるものである。なぜなら、センサーはふつうシステムにある長い時間にわたって存在し、その初期フェイズはネットワークに参加する際に通過しさえすればよいからである(since a sensor is usually present in the system for an exteded period of time and will only have to pass the initial phase once when joining the network)。

ううむ、なにをいっているのかさっぱりわからない。truthfulな報告とは、客観的真実に近い報告という意味ではなく、観察をそのまま報告するということでしょう? ピア自白剤がhelpfulかどうかはともかく、ピア自白剤がtruthfulな報告を引き出すとはいえないのではないか?

 まあとにかく、ピア自白剤がhelpfulだという説明を追いかけよう。
 すべてのエージェントの事前分布がinformedだという想定の下で、次の命題が成り立つ。
 [命題2] Pr(a)/R(a) > Pr(b)/R(b) ならば、aを観察したエージェントがbと報告することはない。
 証明。あるエージェントが a を観察したとする。このエージェントが「参照値 m は真実である」と信じているとしよう。このときは、aを報告する期待値は Pr_a(a) / R(a)。aを観察してbを報告する期待値はPr_a(b) / R(b)。前者のほうが大きいことは簡単に示せる(略)。したがってこのエージェントはbではなくaを報告する。
 では、このエージェントが「参照値 m を報告しているエージェントはなんらかのinformedな事前分布のせいで嘘をついている」と信じていたらどうなるか。この場合でも、そいつがaを観察しているにも関わらずbと報告することはない。だからやはり、このエージェントはbではなくaと報告する。証明終わり。

 現在の共有事前分布Rにおいて、エージェントから見て過小評価されている (R(a)<Pr(a)) 値の集合をA, 過大評価されている値の集合をBとする。informedな事前分布を持っているエージェントについて、次の命題が成り立つ。
 [命題3] Bの報告総数は、そのエージェントのPr(b)の和を超えない。
 証明。aにおいてR(a)/Pr(a)<1, bにおいてR(b)/Pr(b) ≧1である。命題2より、Aのなかにはいっている値を観察したエージェントがBのなかの値を報告することはない。したがって、Bの報告総数は、Bの値の真の頻度の和 \sum Q(b) を超えない。このエージェントはinformedだから、\sum Pr(b)は \sum R(b)よりも \sum Q(b)に近い。ということは、\sum Q(b) ≦ \sum Pr(b) ≦ \sum R(b) という順に並ぶ。ということは、Bの報告総数は、そのエージェントのPr(b)の和を超えない。証明終わり。

 すでに狐につままれているが、まだ続くぞ!
 [命題4] 有限回の更新を通じて、R(b) < Pr(b) + \epsilon, R(a) > Pr(a) - \epsilonである。
 証明。命題3より、Bの報告総数はエージェントの事前信念の和を超えない。したがって共通事前確率は次第に減少し事前信念に近づく。逆にAの報告総数はエージェントの事前信念の和以上である。したがって共通事前確率は次第に増大し事前信念に近づく。証明終わり。

 というわけで、エージェントがinformedな事前信念を持っていれば、ピア自白剤の下での報告を集積してつくった共通事前分布はその事前信念に近づいていく、というわけである。
 ぐぬぬぬぬ。全然納得できない。すごく騙されているような気がするんだけど、どこで騙されたのかわからない。。。

 ここで当然の疑問となるのは、エージェントの事前信念がinformedでなかったらどうなるのさ? という点であるが... 全訳しよう。

プライベートな事前分布がinformedでない場合、こうした収束は生じるかもしれないが保証されない。もっとも、そんな事例は現実的でない。エージェントがセンターの知らない背景情報を持っていたら事前信念はinformedであるはずだし、そうでないならそのエージェントはセンターが示した分布を信じるはずだから。また、これとは別の問題として、エージェントのプライベートな事前分布がinformedではあるがお互いに著しく異なっていたらどうなるか、という問題もある。
 どちらの場合にせよ、合理的なエージェントなら、モデルの出力についての彼らの信念を、公表された分布 R へと徐々に近づけていくはずである。したがって、それらはいずれ単一の分布へと収束する。もっともこうした収束は遅すぎるかもしれないが。

ううううむ。そうか?そうなのか?

 論文は、このあと簡単な数値例を示し、正解を使ったproper scoring ruleよりも提案法のほうが優れていることを示している。省略。

 いやあ、最初から最後まで奇想天外、話がどう転がるか全くわからない論文であった。
 そもそも、タイトルにはeliciting truthful measurement と書いてあるけれど、ある報告において真実申告が均衡解になるようなメカニズムを提案しているわけではないのである。
 よくわからないんだけど、あるエージェントがものすごく奇妙な、informedでない事前信念を持っていたとして(「日付に3のつく日は大気汚染がひどくなるはずだ、だから空気は綺麗だけど汚染度高って報告しちゃうぞ」とか)、報酬と確率分布Rをフィードバックするということを繰り返したとして、このエージェントが事前信念を修正するという保証はどこにあるのだろうか。合理的なエージェントならばベイズの定理に従う、とはいえるだろう。合理的なエージェントならば各時点における期待効用の最大化を図るはずだ、ともいえるだろう。でも、合理的なエージェントならば報酬のフィードバックの繰り返しを通じて変な外部情報に頼るのをやめてくれるはずだ、といえる理由はあるのだろうか?

 まあとにかく、こんな問題と発想があるのかという意味で、大変勉強になりました。

読了:Faltings, Li, & Jurca (2012) センサーのためのピア自白剤

2014年7月25日 (金)

Offerman, T., Sonnemans, J., van de Kuilen, G., Wakker, P.P. (2009) A truth serum for non-bayesians: Correcting proper scoring rules for risk attitudes. The Review of Economic Studies, 76, 1461-1489.
 主観的信念を調べる方法として、真実開示が最適戦略になるようなインセンティブを回答から算出する方法がある(proper scoring rule)。従来の提案は期待効用理論に基づいていた。これを非期待効用理論に拡張します。という論文。
 難しすぎて死にそうだ、と恐怖しながらめくったのだが、やはり超難しかった。こんなの、素人が手を出せる代物ではない。死ぬ死ぬ死んでしまう。というわけで、ざっと目を通しただけだけど、読了にしておく。

読了: Offerman, Sonneman, van de Kuilen, Wakker (2009) 非期待効用理論のもとでのプロパー・スコアリング・ルール

しばらく前のメモ。整理がつかないので読了にしておくけど、これをもって読了と呼ぶのってどうなのか? 映画開始30分で眠りはじめ、終了と同時に目覚めて「うーんいまいちだったなあ」なんていうのと同じことではないか。

Becker, G.M., DeGroot, M.H., Marschak, J. (1964) Measuring utility by a single-response sequential method. Behavioral Science. 9(3), 226–232.
 WTP測定方法の一つであるBDM法のオリジナル論文。ちょうど半世紀前の論文を、切羽詰ったこの期に及んで読むだなんて、どんな好事家か... と思うが、引用したいんだから仕方ない。掲載誌は現在 Systems Research and Behavioral Science という誌名になっている模様。IFは0.47だそうだから、メジャー誌ではなさそうだが、当時どうだったかはわからない。

 ええと...
 被験者に「確率pでaドルを得る、確率1-pでbドルを失う」(これを (a, p, -b)と書く) のとなにもしないのとどっちを選びますかという聴取を繰り返す、という実験はすでにあった(Mosteller & Nogee, 1951)。この手法で効用関数を求めることができるけど、いくら試行を繰り返しても対象者の選択確率は同じであるという仮定が必要だし、pは既知でなければならない。そこで、(y, p, z)の最低の売値 s を設定させて... 以下、BDM法の提案。あまりに眠いので、メモは省略...

読了: Becker, DeGroot, & Marschak (1964) Becker-DeGroot-Marschak法のご提案

2014年5月10日 (土)

Show, A.D, Horton, J.J., Chen, D.L. (2011) Designing incentives for inexpert human raters. Proceedings of the 2011 ACM Conference on Computer Supported Cooperative Work (CSCW 2011).
 クラウド・ソーシングでたくさんの素人になにかを評定してもらうとき、どういうインセンティブ設計にすると良いか、という実験研究。ベイジアン自白剤(BTS)を使っているようなので手に取った。
 バリバリに工学系の研究かと思ったら、行動実験であった。いま調べてみたら、第一著者は社会学の出身。

 Amazon Mechanical Turk で実験、被験者2055人。あるwebサイトをみてもらい、5項目を聴取(例, 「サイトにはユーザを表すアバターがありましたか」)。答えを実験者が想定する正解と比較し採点する(0~5点)。要因は被験者間一要因で... えーと、14水準!

なお、操作するのは教示だけで、実際には報酬は一律だそうだ。事情はわかるが、ひどいなあ。

 結果。おおお、intention-to-treat推定量を使っている... 医療系の無作為化比較試験ではみたことあるけど、こういう行動実験では恥ずかしながらはじめて見た...
 平均処理効果をみると、成績を向上させたベスト3は、BTS, Punishment disagreement, Betting on resultsであった。
 デモグラ等をいれた回帰でも確認している(インド在住の被験者は成績が有意に低い。はっはっは)。

 考察。BTSが効いたのは、あとで自分の回答がどのくらい調べられるかについて被験者を混乱させるから、そして他の回答者の回答について真剣に考えさせるからだろう。Punishmentが効いたのは、そもそもAmazon Mechanical Turkでは仕事発注者による以後の参加禁止という処置があるからではないか(←punishment accuracyがあまり効かなかった理由にはならないと思うけど...)。云々。

 というわけで、この研究では実際にベイジアン自白剤のスコアリングをやっているわけでなく、その意味ではベイジアン自白剤の研究とは言い難い。でもここでは「みんなが思うより普通な回答をする」ことを報酬に結びつけるというメカニズムについて調べているわけで、その意味ではオリジナルの提案の精神に近い。
 ええと、ここまで読んだ論文をあらためて整理すると、

 ベイジアン自白剤の"suprisingly common"ルールは、被験者にとってはどのような意味を持って捉えられるのだろうか。それは正直かつ真剣に答えようという意識につながり、それによって行動が変わるのだろうか。それとも(この論文の著者らが考えているように)なにか別のルートを通じて行動を変えるのだろうか。もし後者が正しいならば、スコアの最大化がベイジアン・ナッシュ均衡であろうがなかろうが、別に構わないことにならないだろうか。工学系の方や経済学系の方は鼻で笑うかもしれないけど、やはり被験者の心的プロセスが知りたいと思うなあ。

読了:Show, Horton, & Chen (2011) ベイジアン自白剤 in クラウド・ソーシング

2014年5月 7日 (水)

Miller, S.R., Brailey, B.P., Kirlik, A. (in press) Exploring the utility of Bayesian truth serum for assessing design knowledge. Human–Computer Interaction.
 デザイン教育における教育評価にベイジアン自白剤(BTS)を使うという研究。著者の方にお送りいただきました。日本語のブログなんてお読みになってないでしょうけど、深く感謝いたします。とても勉強になりました。
 全く予備知識のない分野なので、メモを取りながら読んだ。

イントロダクション
 デザイン思考は大事だ。だからデザイン教育は大事だ。ところが教育評価がすごく大変だ。そこで学生の作品を学生同士で評価させることがある。でもそれはそれで大変だ。そこでBTSを使った評価方法をご提案いたします。

先行研究
 デザイン思考は大事だという研究はいっぱいある。だからデザイン思考の教育も大事だ。ということは、ビジネスでも教育でも、デザイン思考の能力評価は大事だ。評価にあたっては多様な観点がありうるが、教育者が特に注目するのは、分析・評価・創造という高次な思考能力であろう。
 従来の評価方法としては:

提案手法
 BTSの紹介(←BTSを構成する2要素のうち、あんまり本質的でない「予測スコア」のほうを重視しているところが面白い。集団の回答の予測は学生のメタ知識を反映しているだろうという理屈。うーん、まあこの課題ならそうかも...)。個人レベルのスコアを以下の2種類算出。これを学生の能力評価として用いる。

実験
 被験者はイリノイ大のデザイン・コースの学生71名。4週の実験。

(あとでアイデアのスケッチ例が紹介されるんだけど、これがちょっと笑ってしまった。idea score最高点を得たアイデアは「機器にGPSをつけて危険を知らせる」、最低のアイデアは「頭を下に向けると快適でなくなるイヤフォン」)
 で、以下の変数について分析:

結果

考察 (これがすごく長い...)

結論
BTSは有用であろう。採点者の主観性を排除できるし、楽だし、スケールアウトするし。

 ううううむ。。。
 この論文は、ほかのベイジアン自白剤の研究とはかなり毛色が違っている。まず、ベイジアン自白剤が持っている真実申告メカニズムという性質には関心がない(だからBTSスコアのフィードバックはおろか、説明さえしていない)。さらに、スコアを回答の真実性を表すものと捉えるのではなく、回答者の能力を表すものとして捉えている。
 つらつら考えるに... この実験で写真評価のBTSが(かすかではあるが)対象者の能力らしきものを表したのは、写真評価課題が単なる推論課題ではなく、「それに答えるために必要な知識体系がこのコースで教授されている」課題だったからではないか、と思う。当然ながら学生の中には「物理的アフォーダンスの原理って、ええとなんだっけ」というような出来の悪い奴もいただろう。そういう奴は、写真評価において当てずっぽうに答えざるをえないし(回答の事前分布を持っていないから、予測スコアも情報スコアも下がる)、批評もうまくできないはずだ。

 ということは、逆にいうと... BTSスコアは回答の真実性を表す(と主張されている)が、それだって回答者の問題についての知識と切り離せないわけだ。たとえば「集団的自衛権の行使に賛成ですか反対ですか」という設問についてBTSスコアを調べ、スコアが低かったとして、それはなにかの事情で真実を語っていない可能性が高いということを示しているのかもしれないし、そもそも集団的自衛権とはなにかがよく分かっていない可能性が高いということを示しているかもしれないわけだ。こうやって書いちゃうと当たり前だけど、正直、この発想はなかった...。

読了:Miller, Brailey, & Kirlik (in press) ベイジアン自白剤 in デザイン教育評価

2014年5月 3日 (土)

Kuncel, N.R., Borneman, M., & Kiger, T. (2012) Innovative item response process and Bayesian faking detection methods: More questions than answers. in Ziegler, M., Maccann, C., & Roberts, R.D. (eds.) "New prospectives on faking in personality assessment", Oxford University Press.
 時間がないので、やけになって論文集ごと買ってしまった(資料費が原稿料を上回りそうだ...)。社会心理系の調査法研究者からみたベイジアン自白剤の位置づけを知りたくて買ったのだけど、短い章であった。まあ、他の章も面白そうだし、いつか役に立つかもしれないし。
 いくつかメモ:

読了:Kuncel., Borneman, & Kiger (2012) 意図的虚偽回答の検出 feat. ベイジアン自白剤

2014年5月 2日 (金)

Prelecのベイジアン自白剤に関連する論文を手当たり次第にめくっている今日この頃。いまこの瞬間に限っていえば、23区内で一番ベイジアン自白剤について考えているのは私かもしれない。こうやって集中していると、効率はいいんだけど、飽きてくるのが難点だなあ。

Howie, P.J., Wang, Y., Tsai, J. (2011) Predicting new product adoption using Bayesian truth serum. Journal of Medical Marketing, 11, 6-16.
 薬品の新製品についての医師による受容性評価にベイジアン自白剤(BTS)を使うという話。著者所属は、筆頭の人がTargetRx、あとはファイザー。TargetRxというのはヘルスケア系の調査会社で、現存しない模様(Symphonyグループに買われたらしい)。いずこも大変ですね。

 医師1763人、13個の新製品について調査。1人は1製品だけらしい。製品非認知者はあらかじめ外してある。
 この研究は、truth-tellingメカニズムというBTSの特徴には関心がないので、対象者にBTSについての教示はしていない模様。設問はオリジナルのBTSとちょっと違っている。「(新製品)が利用できるとして、疾患ほにゃららを持つあなたの患者に対して以下の治療を処方するパーセンテージは?」治療のリストのなかに新製品がはいっている。新製品に対する回答をXとする。「あなたの同僚や他の医師はほにゃらら患者をどのように扱うと思うかを伺います。ほにゃらら患者のうち(新製品)を処方される人のパーセンテージは?」回答をYとする。
 BTSではXはカテゴリカル変数, Yは各水準への離散確率分布でないといけないので、どうするのかと思ったら、Xは101水準のカテゴリカル変数だとみなし、Yをポワソン分布の平均とみなして101水準への離散確率分布を無理矢理つくった模様。なるほど。
 で、ここが医薬品業界のすごいところだが、調査対象者の医者がどんな処方をしたかのデータベースがある。そこから、新製品上市の次の四半期における実際の処方シェアを計算して、突き合せちゃうのである。

 分析。
 まずBTSのことは忘れて、予測シェアで実シェアを説明するモデルを組む。説明率4%、βは0.18。予測シェアXは、実シェアを過大評価する傾向がある由。
 で、BTSスコアを使うのだが... 原文には"we can now evaluate whether whether using the BTS to weight the individuals will improve predictive performance"とあるから、BTSスコアをウェイトにしたWLS回帰を行う、ということかしらん?
 なお、BTSスコアは情報スコアと予測スコアの和だが、原論文には予測スコアに重みづけしてよいと書いてあるので(重みをalphaと呼ぶ)、0.0001, 0.5, 1の3種類のalphaを試す。スコアが負である対象者は除外する(200人くらいが除外される)。
 結果は... BTSスコアで重みをつけると、説明率はちょっぴり上がりました。βも上がりました。回帰じゃなくて製品別の累積でみると、alpha=0.0001でMSE最小であった由。そうか、予測スコアはいらないのか... もっともこれはポアソン分布による近似のせいかもしれない、とのこと。

 上市前新製品についての医師の処方意向が、上市後のその医師の処方選択をほとんど説明しないというところ、泣かせますね。著者のみなさまには悪いが、BTSを使っても焼け石に水、という感じである。関係者のみなさま、ご一緒に泣きましょう。
 細かいことだけど、BTSスコアと予測シェアXの関連が知りたいところだ。Xがキリのよい値だとBTSスコアが低い、なんていう関連性なら、それはすごく納得する。でも、たとえばXが高いとBTSスコアが低い、なんていう関連性だったら、BTSスコアが回答の質と関連したのはポアソン分布による近似で生じたアーティファクトかもしれないと思う。BTSスコアとは要するにカテゴリ選択率と他者のカテゴリ選択率予測値の平均との比の対数だから、高いほうのカテゴリの選択率予測値を高めに近似すれば、Xの高いほうのカテゴリに対するBTSスコアは低くなる。Xが高い医者、つまり派手にoverclaimしている医者が除外されれば、そりゃあ説明率は上がるだろう。

 これまで読んできた研究をおおまかに整理すると、次の3つがあった:

この研究は路線 C である。
 著者いわく、BTSとはどんなものかということ、自分がそれによって評価されているということ、を回答者に理解してもらうのは大変なわけで、教示がある場合とない場合のちがいの検討が必要だね、とのこと。全くその通りだと思う。BTS関連の研究を読んでいて感じるのは、総じて回答の心的プロセスに関心が持たれていないという点で(「事前分布が共通だとして」なあんて簡単に仮定しちゃうのだ)、このへんが、調査回答の認知心理学的研究と、ゲーム理論やメカニズム・デザインに由来する研究とのスタンスの違いだという気がする。うーん、Prelecさん自身は心理学者だと思うんだけど。そこんところもちょっと不思議だ。

読了: Howie, Wang, & Tsai (2011) ベイジアン自白剤 for 医薬品の新製品受容性予測

 市場調査では、ある製品の値付けのために消費者の態度・知覚を調べることがある。いちばん単純なのは、これにいくら払いますか、と支払意思額(WTP)を直接に訊くことだが、さすがにそれではあまりうまくいかないので、いろいろな工夫をする。
 経済学のほうでも、調査で人々のWTPを調べるということは広く行われているようで、どうやら公園とか環境とか歴史遺産とか、市場で取引されないもの(非市場財)の評価に使うらしい。よくわかんないけど、市民の主観効用に応じて政策を決めるため、なんですかね。
 あれこれ文献を読んでいると、そうした文脈でのWTPの直接聴取はcontingent valuation (CV)と呼ばれていることが多い。いま検索してみたら、なんと「仮想評価法」という立派な訳語があった。世の中にからきし疎いもので、こういうときに困る。

 Barrage, L., Lee, M.S. (2010) A penny for your thoughts: Inducing truth-telling in stated preference elicitation. Economic Letters, 106, 140-142.
 当然ながら、CVで調べたWTPは高めに歪む。だって、架空の話なら、「この公園を維持するためならワタシ年に100万円でも払いますよ」なあんて言いたい放題ですもんね。この「仮説バイアス」をどうにかしたいので、手法をいくつか比較します、という主旨。
 そのうち目新しい手法はベイジアン自白剤である。つまり、これは Weaver & Prelec (2013) の実験5に相当する研究だ。

 被験者は上海の学生240名(セルあたり24名か...)。評価するのは、災害救援のためのテントへの寄付、ないし公害被害者の法的支援のためのホットラインのスタッフへの寄付。要因は被験者間5水準。さあ、選手入場です。

 結果。賛成率は、テントでは順に48%, 79%, 77%, 50%, 77%。ホットラインでは、32%, 83%, 50%, 17%, 55%。real条件を正解と捉えると、consequentialがやたらに効いている。ベイジアン自白剤はいまいちだ。なんだかなあ。

 事後的分析なので、あんまり深読みするのもどうかと思うけど、cheap-talkと自白剤は、貧困対策団体について良く知らないと答えた人、ならびに女性によく効いたそうだ。ふうん。

読了: Barrage, & Lee (2010) ベイジアン自白剤 for 支払意思額聴取

John, L.K., Lowenstein, G., Prelec, D. (2012) Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23(5), 524-532.
 Prelec先生、ベイジアン自白剤を引っ提げて各領域を荒らしまわるの巻。今回の舞台は心理学だ! なんだか昔のTVシリーズ「特攻野郎Aチーム」みたいだな。懐かしいなあ。
 今回のお題はこうだ。世間では研究者による捏造が注目を集めているが、その一歩手前のグレーゾーンもなかなか深刻です。たとえば、ちょっと都合の悪いデータを数件、後付けの理由をつけて除外しちゃう、とか。以下、そういう行為をQRP (questionable research practices) と呼ぶ。心理学者にアンケートして、どのくらいQRPに手を染めているか訊いてみましよう。正直に答えそうにないって? 大丈夫!そこでベイジアン自白剤ですよ!

 USの心理学者5964名に電子メールで調査参加を依頼、2155名から回収。回答は匿名で行う。項目は以下の通り。

各回答者の各QRPに対する告白有無と普及率評定から、御存知ベイジアン自白剤スコアを算出できる。この論文の説明だけではなんのことだかさっぱりわからないと思うんだけど、えーと、告白と普及率評定を回答するたびにスコアが付与される仕組みで、そのスコアは、それを最大化するためには正直かつ真剣に答えるしかないという不思議な性質を持っているのでございます。
 インセンティブを被験者間で操作する。

 結果。

 というわけで、QRPはとても一般的です。研究に再現性がないといわれるのももっともですね。云々。

 この論文には、アメリカの心理学における研究不正についての実態調査という記述的な意義と、ベイジアン自白剤という真実申告メカニズムの適用という方法論的な意義があると思う。でも自白剤群では対象者にベイジアン自白剤の理屈を説明しているわけではないし、スコアのフィードバックもしていないのだから、自白剤群と統制群との差は、要するに「偉い学者が考えたすごい方法であなたの正直さがわかっちゃうんですよ」という教示の効果に過ぎない。だから、後者のほうの意義は怪しいと思う。この論文の本旨ではないのかもしれないけど、失礼ながら、なにやってんすか先生、という気持ちで一杯である。
 せっかく数千人の専門家から回答を集めるんだから、メール調査じゃなくてweb調査にして、Weaver & Prelec (2013) の実験2みたいに、各QRPについて回答するたびに自白剤スコアがフィードバックされる条件をつくれば、もっと面白かったのになあ...

読了: John, Lowenstein, & Prelec (2012) 心理学者にベイジアン自白剤を飲ませたら

2014年5月 1日 (木)

Witkowski, J. & Parkes, D.C. (2012) A robust bayesian truth serum for small populations. Proceedings of the 26th AAAI Conference on Artificial Intelligence. 1492-1498.
 Prelec のベイジアン自白剤は、サンプルサイズが大きいときにはうまくいくが、小さいとうまくいかない。そこで、二値回答に限定し、3人以上ならうまくいく改訂版をご提案します。という論文。

 導出過程はぜんぶすっとばして結論をいえば、こういう手法である。
 対象者 $i$ の回答を $x_i$, 回答率予測の回答を $y_i$ とする。対象者 $i$ について、隣の人 $j$ を「リファレンス」、そのまた隣の人 $k$ を「ピア」と呼ぶ。リファレンスに注目し、$\delta = \min (y_j, 1 - y_j)$ を求める (たとえば $y_j = 0.8$ なら $\delta = 0.2$だ)。で、もし $x_i = 1$だったら$y_j$ に$\delta$を足し(1になる)、でなかったら引く(0.6になる)。これを $y'$とする。で、ピアに注目し、もし $x_k = 1$だったら $2y' - y'^2$ を情報スコア、$2y_i - y_i^2$ を予測スコアにする。でなかったら、$1 - y'^2$ を情報スコア、$1 - y_i^2$ を予測スコアにする。
 。。。頭おかしいんじゃないかというような話だが、こうして得た情報スコアと予測スコアの和は、それを最大化するには正直に答えるしかないスコアになるのだそうだ。知らんがな!!!
 
 途中までは数式を丁寧に追いかけたんだけど、途中で混乱して挫折した。
 混乱した理由はふたつあって、まず、BTSの定式化のしかたがPrelecの論文とはちょっとちがう(Prelecは n→∞ について定式化している)。
 さらに、えーと、この論文の著者らは、真の状態の事前分布と各状態の下でのシグナルの条件つき確率が共有されているとき、自分の観察したシグナルで状態の事後分布をベイズ更新する、と説明しているんだけど、事前分布が共有されているのはともかくとして、シグナルの条件付き確率までも共有されているというのは、具体例に当てはめるといったいどういうことなのだろう? と考え始めたら、だんだん混乱してきてしまい。。。 一晩寝てゆっくり考えよう。

読了:Witkowski & Parkes (2012) ベイジアン自白剤 for 少人数

櫻井 祐子, 沖本 天太, 岡 雅晃, 兵藤 明彦, 篠田 正人, 横尾 真 (2012) クラウドソーシングにおける品質コントロールの一考察. 合同エージェントワークショップ&シンポジウム(JAWS), 2012.10.
 Prelecのベイジアン自白剤(BTS)を紹介している日本語文献として、いまのところ唯一発見できたもの。
 クラウド・ソーシングで、ワーカに作業結果と一緒に「作業結果についての自信」を報告させる(ないし、期待利得が異なる二つの価格プランから一方を選ばせる)。このとき、どういう報酬にすれば真の解答と真の主観的自信を報告することが最適戦略になるか、という研究。
 実際に、Amazon Mechanical Turkとランサーズで実験している。価格プラン選択のほうで、提案手法はうまくいきました、とのこと。

 先行研究概観。エージェントに主観確率を真実申告させるためのメカニズムとしては、まず proper scoring rule がある。Bickel (2007, Decision Analysis)というのが挙げられている。また、条件付き事前確率が共有知識である場合のメカニズムとしてはBTSがある。
 クラウドソーシングの品質管理の研究はいっぱいある。BTSを導入した例もある由(Shaw, et al., 2011, Proceedings)。
 マルチエージェントシステムの研究にも関連したのがある由。チームリーダーとメンバーのそれぞれにメンバーの作業時間を予測させるとか。へー。

 肝心の提案手法については、ちゃんと読んでないのだが(すいません)... BTSについて、ずーっと質問紙調査の手法という観点から考えていたので、こういう視点は大変勉強になった。

読了:櫻井 et al. (2012) クラウドソーシングで品質の主観的自信を正直に報告させるメカニズム・デザイン

 "Bayesian Truth Serum"をwebで検索すると、もちろんいっぱいヒットするけど、日本語のページはほとんど見当たらない(このブログが上のほうに出てくる始末だ)。なぜだろう。誘因整合性やメカニズム・デザインにご関心をお持ちの方は日本にも山ほどいるだろうに。調査のメカニズム・デザインなんて、やはり周縁的な話題なのだろうか...

Weaver, R. & Prelec, D. (2013) Creating truth-telling incentives withthe Bayesian Truth Serum. Journal of Marketing Research, 50(3), 289-302.
 2004年のScience論文以来、Prelecさんはベイジアン自白剤(BTS)を引っ提げていろんな分野に乗り込んでいるようだが、これはその市場調査版。先生は心理学者だが、お勤め先はビジネススクール(MIT Sloan)だから何の不思議もない。
 
 BTSというのは要するに、対象者の個々の回答に「それを最大化するためには正直に答えるしかないスコア」を割り振る手法である。回答を求めるついでに、この質問に他の人はどう答えると思いますかと尋ね、この2つの答えからスコアをはじき出す(この論文でもその理屈を縷々説明しているのだけど、やっぱりわかりにくい...)。もともとの提案では、BTSは情報スコアと予測スコアの2要素からなるのだけれど、この論文はその肝となる情報スコアのほうだけを扱っている。

 えーと、研究の背景。BTSを支持した報告としては Barrage & Lee (2010, Economics Letters), John, Loewenstein, Prelec (2012, Psych. Sci.) がある。いっぽう疑念としては以下が挙げられる: 想定が非現実的だ;情報スコアが正直さに報酬を与えているからといって、それが正直さを引き起こすかどうかは別の問題だ(←そうですよね); データの質の向上が複雑さの増大に見合うとは限らない。本論文ではこれらの疑念にお答えいたします。

 実験は5つ。使う課題はブランド名などの再認実験で、リストのなかに妨害項目(実在しない名称)がはいっている。こういう課題、元はPhillips & Clancy (1972, Am.J.Sociology)まで遡れるが、直近のではPaulhusらの手続きを参考にした由。うーん、調査参加者の誠実さを再認課題で測るという発想であれば、もっと昔からあるような気がするけど。

 実験1。
 一般的知識についての調査を行う。歴史上の人物など6カテゴリについて、実項目を47個, 妨害項目を24個用意。各項目について、知っているかどうかと、他の人がどのくらい知っていると思うか(0%から100%までの11件法)を回答する。
 対象者133人。要因は2x2の被験者間デザイン。

結果:実項目への正再認率は、コントロールで58%, overclaimのみで71%、BTSのみで57%。BTS+overclaimでも57%。妨害項目の虚再認率は、順に20%, 42%(この欲張りどもめ), 14%, 14%。というわけで、truth-tellingインセンティブは効き、overclaimngインセンティブの効果を消す。
 反応を従属変数、項目タイプ(実/妨害)と2要因を放り込んだ回帰もやっていて、3つの主効果のほかに2要因間の交互作用も有意だった由。細かいことだけど、これ、データの行をは対象者x項目タイプ、従属変数は再認反応率、であろう。そんな分析でいいのだろうか? 行を対象者x項目、従属変数を二値反応にして対象者番号を投入したロジスティック回帰をやるとか、行を対象者、従属変数をROCのd-primeのような成績指標にして条件間比較するとかにしないといかんのではなかろうか。記憶の研究してる方は昔からそういうのにうるさいと思うのだが... この掲載誌はあまり気にしないほうなのだろう。
 4条件のそれぞれについて、Hit, Miss, False Alerm, Correct Rejection (論文ではこういう言い方はしてないけど) について、情報スコアの平均を算出。たとえばBTSのみ条件では、順に+0.16, +0.08, -0.99, +0.34。情報スコアはtruth-tellingと整合している、との仰せである。Missの情報スコアが正になってますけどね...。

 実験2。実験1は結局のところ教示の効果を調べただけであった。今度は情報スコアをフィードバックする。
 対象者117名。60項目、うち20項目が妨害。要因計画は実験1と同じ2x2だが、報酬がちょっと違う。

項目に反応するたびにフィードバックがでる。BTS条件では、「知っている」「知らない」両方の情報スコアと、当該対象者の獲得額が表示される。この情報スコアはほんとに、この実験の当該セルでそれまでに集めたデータで算出したのだそうだ(最初のほうの対象者に出すスコアを求めるために、各セルでプレ実験を10人やった由)。凝りましたね。
  結果: 再認率は実験1を再現。おっと、今度はデータの行を対象者x項目にしたロジスティック回帰をやっているぞ。実験1ではなぜそうしなかったのかしらん。ひょっとして、ローデータを失くしちゃったとか、そういうプラクティカルな理由かしらん。
 BTS条件下の報酬は、実項目では「知っている」が正、妨害項目では「知らない」が正となり、truth-tellingと整合している。さらに、系列位置の効果をみると、BTS+overclaim条件下でのみ、虚再認率が次第に減る。つまり、フィードバックを通じて対象者はtruth-tellingが報われることを学んでいる。BTSのみ条件でそうならないのは、最初から信じちゃうからだろう、とのこと。楽観的なご意見だ。
 なお、この実験では情報スコアを被験者ごとに再計算したわけだが、その値はだいたい安定していた由。
 BTSで嘘つきを同定できるだろうか? というわけで、個人ごとにROCでいうd-primeを出し情報スコアと比較すると、相関がある由。情報スコアが特に低い人の例: 実在しない映画"The Deli"を知っていると答え、"The Big Lebowski"(コーエン兄弟のコメディですね。観てないけど)を知らないと答えている。実在しないラム酒"Oronoco"を知っていると答え、"Jim Beam"を知らないと答えている。

 実験3。対象者27人。実験2のBTS条件と同じだが、教示を変える。BTSについて一切説明せず、単に報酬額だけをフィードバックする。また、全セルで2問目の予測質問を省略する(BTSは実験2のスコアを借用する)。ああ、これは面白い実験だなあ。
 結果: データの行を対象者x項目、従属変数を回答、独立変数を{系列位置、項目、系列位置x項目タイプ}にしたロジスティック回帰で、系列位置と項目タイプの交互作用が有意。妨害項目では再認反応率が系列位置とともに減少する。つまり、情報スコアのフィードバックのせいで虚再認が減少している、とのこと(チャートをみると、実項目の正再認率も少し減少しているのだけれど)。セッションの最後の1/4だけについて、実験2(BTSのみ条件、統制条件)と実験3を比べると、正再認率は有意差なし、虚再認率は統制条件に比べて低い。

 実験4。他の truth-telling メカニズムと比べてみましょうという主旨。どんなのがあるでしょうか、とここで急に先行研究レビューになって、

というわけで、BTS条件と誓約書条件を比べる。両方ともoverclaimingのインセンティブをつける。対象者70人。BTS条件の報酬は、情報スコアを金額にしたもの。さらに再認ごとに15セント。実験2と同様、情報スコアはリアルタイムに算出。誓約書条件は、項目あたり10セント、さらに再認ごとに15セント。
 結果: BTS条件では正再認率54%, 虚再認率21%。誓約書条件では72%, 52%。実験1のコントロール条件(58%, 20%)と比べると、誓約書はあまり効いていないのに、BTSは効いている、とのこと。うーん、こういうときこそ対象者ごとのd-primeを比較すべきだろうに。

 実験5。BTSを非市場財の価値評価に適用しますという主旨。他にどんな方法があるでしょうか、とここでまた先行研究レビューになって、

というわけで、実験。対象者114名。National Endowment for the Artsという連邦機関に寄付すべきかどうかの投票を求める。以下の4条件を比較する。

 結果: 寄付賛成率は順に44%, 76%, 47%, 50%。BTS条件はreal条件に近い。(real群44%ってことは、参加者に4$配ったのだろうなあ...)

 考察。

 やれやれ、面倒な論文であった。個別の実験はしょぼいし(特に実験1)、分析もあまりエレガントでないのだが、手を変え品を変えて実験を重ねているところがすごい。

 ベイジアン自白剤のしくみについて、まだよく理解できない箇所があり... 元のScience論文を読み直したり他のをあたったりして、延々思い悩んでいる。辛い...

読了:Weaver & Prelec (2013) ベイジアン自白剤 in 市場調査

2014年4月15日 (火)

 人々に次の2問を聴取する。問1は、選択肢m個の単一選択設問。問2は、問1に対して人々がどうこたえるかの予測。たとえば、問1「これまでに万引きしたことがありますか?」, 問2「問1にハイと答える人は調査対象者のうち何パーセントだと思いますか?」。
 十分に多くの人から回答を集め、問1と問2を集計する。で、各個人について「情報スコア」 と「予測スコア」 を求める。
 情報スコアは、その人が問1で選んだ選択肢についての
 log (問1でのみんなの選択率/問2でのみんなの予測の平均)
とする。情報スコアは、「みんなが思ったよりも多くの人が選んだ選択肢」で正の値、「みんなが思ったよりも少ない人が選んだ選択肢」で負の値になる。
 予測スコアは、全選択肢を通しての、
 log(問2でのその人の予測 / 問1でのみんなの選択率) x (問1でのみんなの選択率)
の合計とする。予測スコアは、問2が完璧にあたっていたら 0となり、外れた程度に応じて伴って負の大きな値になる。
 で、2つをあわせた次のスコアを求めて
 (情報スコア) + $\alpha$ (予測スコア)
この値に応じて報酬を渡すことにする。
 各個人は報酬を最大化するような回答を示すとしよう。すると何が起きるか。

 ある人$r$の本当の答えをベクトル$t^r$で表す。上の例では、選択肢が(イイエ, ハイ)の2つで、もし$r$さんは本当は万引きしたことがある人だったら、$t^r=(0,1)$である。つまり、$t^r$はどこかの要素が1, ほかの要素が0である。なお、$t^r$のk番目の要素を$t_k^r$と表す。また、本当の答えが$i$であること、つまり$t^r$の$i$番目の要素が1であることを$t^r_i$と略記する。
 同様に、$r$さんの問1の回答を$x^r$,問2の回答を$y^r$とする。上の例で、$r$さんの回答が問1「イイエ」問2「20%」だったら、$x^r = (1,0), y^r=(0.8, 0.2)$である。$y^r$はどの要素も0以上、全要素を足すと 1 になる。
 問1, 問2の各選択肢における平均を、それぞれ以下のように定義する。
 $\bar{x}_k = \lim_{n → \inf} (1/n) \sum_r x_k^r$
 $\log \bar{y}_k = \lim_{n → \inf} (1/n) \sum_r \log y_k^r$
$y$のほうで対数をとっているのは、幾何平均を使いたいからで、他意はない。
 情報スコアと予測スコアは、それぞれ下式となる。
 (情報スコア) = $\sum_k x_k^r \log(\bar{x}_k/\bar{y}_k) $
 (予測スコア) = $\sum_k \bar{x}_k \log (y_k^r / \bar{x}_k)$

 母集団における$t$の分布をベクトル$\omega$で表す。たとえばさっきの例で、本当の答えがyesの人が全体の2割なら、$\omega = (0.8, 0.2)$である。それぞれの人の本当の答え $t^1, t^2, ..., t^n$は、$\omega$の下で互いに独立であると仮定する。
 選択肢$k$のみんなの選択率に対する$r$さんの推測(問2への回答そのものかどうかはわからない)を$p(t_k | t^r)$と表す。何度も読み返してようやく気がついたのだが、この表記の気持ち悪さのせいで話がすごくわかりにくくなっていると思う。$t^r$はrさんの信念を表す記号で、$t_k$は自分以外の他の人の信念についての信念を表す記号なのだ。書き分ければいいのにと思う。
 もし本当の答えが違っていたら推測も違っていると仮定する。つまり、もし$t^r \neq t^s$なら$p(t_k | t^r) \neq p(t_k | t^s)$である。
 いま、両方の問いに対して全員が正直だと仮定しよう。このとき、問1, 問2の平均は
 $\bar{x}_k = \omega_k$
 $\log \bar{y}_k = \sum_j \omega_j \log p(t_k | t_j)$
原文では右辺の$\sum$の上添字が$n$になっているけど、$m$ではないかしらん。

 本当の答えが$i$である人が、他の人は正直だと仮定したとき、自分の回答$j$によって得られる情報スコアの期待値
 $E(回答$j$への情報スコア | t_i) = E( \log(\bar{x}_j/\bar{y}_j ) | t_i)$
について考えよう。
 実は、上の式は次のように変形できる。
 $E(回答$j$への情報スコア | t_i) = \sum_k p(t_k | t_i) \int p(\omega | t_k, t_i) \log (p(\omega | t_k, t_j) / p(\omega | t_k)) d\omega$

 ここからはそのプロセス。さあ深呼吸。
 まず、$\bar{x}_j$と$\bar{y}_j$は$\omega$で決まるので、$\omega$で積分する形に書き換える。
 $E(回答$j$への情報スコア | t_i) = \int p(\omega | t_i) E( \log (\bar{x}_j / \bar{y}_j) | \omega) d\omega$
 積分のなかの期待値記号の内側, $\log (\bar{x}_j / \bar{y}_j)$について考える。
 $\log (\bar{x}_j / \bar{y}_j) = \log \bar{x}_j - \log \bar{y}_j$
問1の平均, 問2の平均を放り込んで
 $= \log \omega_j - \sum_k \omega_k \log p(t_j | t_k)$
第1項を第2項の$\sum$のなかにいれて
 $= \sum_k \omega_k (\log \omega_j - \log p(t_j | t_k))$
 $= \sum_k \omega_k \log (\omega_j / p(t_j | t_k))$
期待値記号の中に戻すと
 $E( \log (\bar{x}_j / \bar{y}_j) | \omega) = \sum_k \omega_k \log (\omega_j / p(t_j | t_k))$
元の式に戻すと
 $E(回答$j$への情報スコア | t_i) = \int p(\omega | t_i) \sum_k \omega_k \log (\omega_j / p(t_j | t_k)) d\omega$
$\sum$を頭にだしてやって
 $= \sum_k \int \omega_k p(\omega | t_i) \log (\omega_j / p(t_j | t_k)) d\omega$
$\log$の左側は、
 $\omega_k p(\omega | t_i) $
 $= p(\omega, t_k | t_i) $
 $= p(t_k | t_i) p(\omega | t_k, t_i) $
$\log$の内側は、トリッキーだけど、
 $\omega_j / p(t_j | t_k) $
 $= {p(t_j | \omega) p(t_k | t_j, \omega)} / {p(t_j | t_k) p(t_k | \omega)}$
 $= p(\omega | t_k, t_j) / p(\omega | t_k)$
 あわせて、
 $E(回答$j$への情報スコア | t_i) = \sum_k p(t_k | t_i) \int p(\omega | t_k, t_i) \log (p(\omega | t_k, t_j) / p(\omega | t_k)) d\omega$
となる。やれやれ。

 話を本筋に戻して、本当の選択肢$i$とウソの選択肢$j$を比べると、
 $E(回答 i への情報スコア | t_i) - E(回答 j への情報スコア | t_i)$
 $= E( \log(\bar{x}_i/\bar{y}_i ) | t_i) - E( \log(\bar{x}_j/\bar{y}_j ) | t_i) $
 $= - \sum_k p(t_k | t_i) \int p(\omega | t_k, t_i) \log ( p(\omega | t_k, t_j)/p(\omega | t_k, t_i) ) d\omega$
ええと、イエンゼンの不等式というのがあって、Wikipediaによれば、$p(x)$が正で合計1のとき、凸関数$f(x)$について
 $\int f(y(x)) p(x) dx > f (\int y(x) p(x) dx)$
なのだそうであります。これを使って
 $> - \sum_k p(t_k | t_i) \log { \int p(\omega | t_k, t_i) p(\omega | t_k, t_j)/p(\omega | t_k, t_i) d\omega }$
$\log$の内側を見ると、
 $\int p(\omega | t_k, t_i) p(\omega | t_k, t_j)/p(\omega | t_k, t_i) d\omega$
 $= \int p(\omega | t_k, t_j) d\omega$
 $= 1$
なので、結局
 $E(情報スコア | t_i) - E(情報スコア | t_j) = 0$
である。
 つまり、他の人の回答が正直だと仮定すれば、情報スコアを最大化する回答とは、正直な回答である。

 では、自分の予測スコアを最大化するためにはどうしたらよいか。途中すっ飛ばすけど、
 $E \{ \sum_k \bar{x}_k \log (y_k / \bar{x}_k) | t_i \}$
 $= \sum E \{ \omega_k | t_i \} \log y_k - E \{ \sum_k w_k \log w_k | t_i \}$
第二項は自力では如何ともしがたい。予測スコアを最大化するのは
 $y_k = E \{ \omega_k | t_i \} = p (t_k | t_i) $
つまり、正直な回答である。

 というわけで、正直に答えることがベイジアン・ナッシュ均衡となる。
 疲れたのでやめるけど、ほかの均衡解もあるうるが、この解の情報スコアよりも大きくなることはないことも示せる由。

 以上、Prelec さんの「ベイジアン自白剤」論文(2004, Science)のsupplementary material から抜粋。
 哀しいかな、このたった12ページにこの週末を捧げたのに、いまだ腑に落ちない。なんだか狐につままれたような気分だ。

 2015/02/22追記: 数式の誤りを修正。

「ベイジアン自白剤」メモ

2014年4月 8日 (火)

Spann, M. & Skiera, B. (2003) Internet-based virtural stock markets for business forecasting. Management Science, 49(10), 1310-1326.
 予測市場による市場予測の解説。寝不足なのか春のせいなのか、あまりに眠かったもので、要点をメモしながら読んだ。

1. イントロダクション
 市場予測は大事だ。計量経済学的モデルによる外挿のためには過去のデータが未来についての情報を含んでいることが必要である。消費者調査・専門家調査は誰にどう聴くかが難しいし時間もかかる。本論文ではネット仮想株式市場(VSM)を中短期の市場予測に用いることができると主張する。
 VSMはすでに選挙予測に適用され精度が高い。しかし市場予測は選挙予測とちがい、(1)もっと複雑で、(2)予想に使える情報が貧弱で、(3)専門家を参加させるためにインセンティブをうまく設計する必要があり、(4)予測が求められる頻度が多い。
 いっぽう、VSMによる市場予測がもしうまくいけば、(1)情報がはいるたびに素早く予測できるようになり、(2)いろいろな専門家の意見を集約するために重みづけを考える必要がなくなり、(3)低コストで、(4)単なる参加ではなく真の評価に対して報酬を渡すことができ、(5)参加者も楽しい。

2. VSMの基本的概念と理論的基盤
 VSMでは未来の市場状況を仮想株式で表現し取引させる(正確には株式stocksというより有価証券securities)。時期 T 終了時における出来事 i の状態をZ_{i,T}とし、株式の配当金 d_{i,T} をその可逆な単調変換とする。すなわち
 d_{i,T} = \phi [ Z_{i, T} ]
時点 t における株価 p_{i,T,t} は次のようになる。Z_{i,T} の期待値は、割引率を \delta として
 \hat{Z}_{i,T,t} = \phi^{-1} [ p_{i,T,t} (1+\delta)^{T-t} ]
 VSMの理論的基盤は次の2つ。(1)効率的市場仮説。(2)ハイエク仮説(市場参加者における非対称な情報を累積する最も効率的な仕組みは競争市場における価格メカニズムだ)。
 VSMがうまくいくには以下が要件となる。(1)株式の配当を決めるのがZ_{i,T}だということが明確であること。(2)参加者が未来の市場についてある程度の知識を持っていること。(3)専門家が参加してくれるだけのインセンティブがあること。

3. VSMの設計
 3つの問題にわけ、政治予測市場、実験経済学、金融市場デザインの研究を概観する。

3.1 予測の目標をどう決めるか
 以下の点を決める。(1)Z_{i,T}はなにか。次の3つがありうる。(i)絶対値(例, 売上)。(ii)相対値(例, 市場シェア)。(iii)特定の出来事の生起有無。(2)Z_{i,T}に応じた配当金d_{i,T}。(3)持続期間 T と、その間のVSMへのアクセシビリティ。(4)参加者の制限。

3.2 インセンティブをどう設計するか
 インセンティブは参加者のパフォーマンスによるものにする。次の2つがありうる。(1)参加者に自分の金を投資させる。(2)最初に仮想株式や仮想通貨を渡す。
 ゼロサムゲームにしておかないと胴元が大損するかもしれない。ゼロサムゲームにする方法は2つ。(1) d_{i,T} の i を通じた合計を定数にしておく。Z_{i,T}が絶対値である場合は工夫が必要(幅を持たせて予測させるとか)。(2)参加者の最終のポートフォリオ価値を相対評価する(線形変換、ないしトーナメント)。
 初期ポートフォリオによるバイアス(現状維持バイアス、保有効果)や、リスク志向性の増大がありうるが、あとで現金と引き換えるのなら大丈夫だろう。
 パフォーマンスによらないインセンティブを追加するのもいいかもしれない。

3.3 市場取引ルールをどうするか
 主要な方法は2つ。(1)マーケット・メーカー方式。最初の相場と、相場を注文に応じて変える方法(自動か手動か)を決める。流動性が高い反面、マーケット・メーカーが損する危険もある。(2)ダブル・オークション方式。注文ブックの公開の有無を決める。
 その他、以下の点を決める。(1)ポートフォリオ・ポジションを制限するか(すべてある株に突っ込んでいいかとか)。(2)注文・相場の最高価格・最低価格を制限するか。
 取引手数料や保証金はよろしくないことがわかっている。

4. 実証例: 映画の興行予測

(Hollywood Stock Exchange の分析。省略)

5. 補足例の要約
(ドイツのChart-and-Movie Exchange, ドイツの携帯電話サービス予測市場の分析の要約。詳しくは補足資料を読めとのこと。省略)

6. 結論と将来の研究
 我々の研究はビジネス予測のためのVSMの有用性を示している。
 今後の課題: (1)マネージャーの評価に使う (予測市場で成績の良い奴を出世させるのはどうよ、というような話。殺伐としてきたなあ...)。(2)いろんなデザインの良し悪し。(3)市場の不完全性(例, バブル)。(4)参加者には代表性が必要か、事前にどんな情報を与えればいいか、どんな決定支援システムが効果を持つか。(5)他の手法との併用(例, フォーカス・グループ)。

 頭が整理できた。くそう、去年の書籍原稿の前に読んでおけばよかった。
 著者らはVSMの要件として「配当がZ_{i,T}で決まることが明確であること」というふうに書いているから、HSXみたいに正解がはっきりする予測市場だけが念頭にあるのだろう。正解がはっきりしない奴の研究はまだなかったのかしらん、それともこのレビューに載ってないだけだろうか。

読了:Spann & Skiera (2003) 仮想株式市場によるビジネス予測

Wertenbrock, K. & Skiera, B. (2002) Measuring consumers' willingness to pay at the point of purchase. J. Marketing Research, 39 (2), 228-241.
incentive-aligned mechanismについて調べていて目を通した論文。Ding(2007, JMR)で引用されていた。著者のSkieraって、予測市場の研究をしている人ではないか。こんなところでつながっているのか。

 購入時点において支払意思金額(WTP)を聴取するいくつかの方法、特にBecker-DeGroot-Marschakの方法(BDM法)とそれ以外の方法を比較しました、という論文。

 まず、WTPを調べる方法についてレビュー。

 実験1と2。

 どちらも、100人を統制群(直接聴取)、100人を実験群(BDM法)に割り振る。実験者が寄ってって声を掛ける:「こんにちは!キール大のリサーチャーです。マーケティングの調査をやってます」。断る人はほとんどいなかったそうだ。課題をやって、最後に質問紙。なお、調査参加報酬については記載がみあたらない。なにも渡さなかったようだ。
 課題は以下の通り。

 実験群のほう、参加者の支配戦略は真のWTPを提案価格にすることである。
 リアリティを追求するので、架空貨幣をつかうとかあらかじめ報酬として金を渡すとか、そういう生易しい話ではなく、ほんとに被験者の財布から金を出させて売りつけるのである。日本でやったら役所に叱られちゃいそうな実験だ。

 結果。WTPの平均はBDMのほうが低い。そのほか「信頼性」「表面的妥当性」「内的妥当性」「基準関連妥当性」の4つに分けて、いろいろ分析してBDMが優れていると主張しているんだけど、いまいち決め手に欠ける感じ。たぶん一番強く推している証拠は、内的妥当性と称されている箇所であろう。それぞれの条件で、横軸にWTP、縦軸に人数をとった累積分布を描く。で、買値で購入確率を予測するロジットモデルを組んで、得られる予測曲線をあてはめると、BDMのほうがフィットしていた由。うーん、それって要するに、WTPの累積分布がBDMのほうでなめらかだった、ということの言い換えのような気がするんだけど。

 想定される批判にお答えして、実験3につなぐ。

 というわけで、実験3。こんどは実験室。被験者は学生255名、商品はボールペン。課題のあとで質問紙。課題は以下の3条件。

 結果。実験1-2と同じく、BDMだとWTPが低めになった。

 云々。

 考察。BDMは優れた方法である。直接聴取のような主観選好法はWTPの過大評価を招く。
 今後の課題。BDMはコンセプト評価には使いにくいし、高価な商品は難しいかも。こうした限界を克服する工夫が必要。とかなんとか。

 要するに、WTPを調べるのにBecker-DeGroot-Marschakの方法が優れている、という主旨の論文である。ふうん、そうですか。
 論文の主旨とはちがうけど、むしろ、あるWTP測定の信頼性・妥当性を示すのがいかに難しいかという点を痛感した。この論文では、たとえばデータを調査の日付で分割し、日付間での変動がBDMのほうで小さい、だから信頼性が高い、なあんてことをやっている(別に日付がノイズになると考えるだけの理由があるわけではないのに)。く、苦しい...それって信頼性の検証の方法としてはどうなの? でも、ほかにいい方法も思いつかない...。
 妥当性のほうも、質問紙の回答からWTPを予測するモデルをつくったら、BDMのほうが係数が有意になった、とかなんとか(もともとWTPの生成について明確なモデルを持っているわけではないのに)。く、苦しい...。でも、ほかにいい方法も思いつかない...。

読了:Wertenbrock & Skiera (2002) 消費者の支払意思額をくじ引きを使って測定する

2014年4月 7日 (月)

SNSをみてると、新しい生活が始まっていたり、お子さんが生まれていたり、世の中はさまざまな生と死と出来事に満ちあふれているのだが、そのなかで私は静かに他人様の書いた論文をコリコリと読むのであった。コリコリ。

Tziralis, G., & Tatsiopoulos, I. (2007) Prediction markets: An extended literature review. J. Prediction Markets, 1, 75-91.
 予測市場研究レビュー。ずっと前から読もう読もうと気に病みつつ放置していた。このたびめくってみたら、意外に短い内容であった。なんだかなあ。こういうことがあるから、読まなきゃと思ったものは、拙速でもなんでもいいからいったん目を通してしまったほうが良いのである。反省。

いくつかメモ。

読了:Tziralis & Tatsiopoulos (2007) 予測市場研究レビュー in 2007

2014年4月 5日 (土)

Prelec, D. (2004) A bayesian truth serum for subjective data. Science, 306(15).
 Bayesian Truth Serum (ベイジアン自白剤) を最初に提案した、有名な論文。以前頑張って読んだんだけど、途中で理解できなくなって放り出してしまった。このたび仕事の都合で再挑戦。

 客観的真実がわからない状況で、調査対象者から真実に近い情報を引き出す手法を提案します。
 先行研究:

 著者の基本的なアイデアは、個々の回答にその真実らしさを示す「情報スコア」を与える、というもの。たとえば、まず「過去1年の間にあなたは20人以上とセックスしましたか?」と聴取する。さらに、Yesと答える人は何割いると思いますか、と尋ねる。二問の集計を比較する。たとえば、一問目のYesの集計(Yes率の実態) が10%、このYes回答についての二問目の集計(Yes率の予測)が5%だったとしよう。こういう風に予測より実態のほうが高い回答、つまり"surprisingly common"な回答に、高い情報スコアが与えられる。
 なにいってんだ、という感じですが、著者の説明は以下の通り。

surprisingly common基準は、母集団頻度についてのベイズ推論が持っているこれまで注目されてこなかった含意を利用するものである。[...] ある意見ないし特性の母集団における頻度について、それをもっとも高く予測する人とは、その意見ないし特性を持っている人である。なぜなら、その意見を持っているということ自体が、その意見が一般にポピュラリティを持っているということの、妥当かつ好まれるシグナルになるからだ。[...]

 もう少しフォーマルな説明。
 回答者の正直な答えのことを個人的意見と呼ぶ(実際の回答と一致するとは限らない)。対象者 $r$ に $m$ 個の選択肢のなかからひとつ選ばせる課題で、

 対象者は二問目の回答に際して母集団分布を推測する。未知の母集団パラメータを $\omega = (\omega_1, \ldots, \omega_m)$ と略記するとして、対象者は事前分布 $p(\omega)$ を持っていると考える。これは全員で共通だと仮定し、共通事前分布と呼ぶ。さて、回答者は自分の個人的意見を「非個人的に情報的な」シグナルとして扱い、信念を $p(\omega | t^r)$ にベイズ更新する。個人的意見が同じ時、そのときに限り、2人の人の事後分布は等しくなると仮定する。事前分布・事後分布の形状について全く仮定をおかないところがポイント。

 以下のようにスコアリングする。標本サイズは十分に大きいものとする。

 まず、それぞれの回答カテゴリについて回答を集計する。
 $\bar{x}_k = \lim_{n\rightarrow\infty} (1/n) \sum_r x^r_k$
 $\log \bar{y}_k = \lim_{n\rightarrow\infty} (1/n) \sum_r \log y^r_k$
二問目のほうに$\log$がついているのは幾何平均をとりたいからである。式を何度も見直したが、一問目になんと答えたかは無視して、全員について単純に集計するのである。(ここでどれだけ考え込んだことか...)
 次に、各カテゴリについての情報スコアを求める。
 $\log (\bar{x}_k / \bar{y}_k)$
$k$ 番目のカテゴリを回答した人にはこのスコアを渡す。つまり、
 $\sum_k x^r_k log (\bar{x}_k / \bar{y}_k)$
えーと、「みんなマイナーだと思っているけど実はメジャーな意見」に組した人は高くなるわけか。

 さらに、その人の予測の正確さについてのスコアも求める。
 $\alpha \sum_k \bar{x}_k \log (y^r_k / \bar{x}_k)$
$\alpha$は調整用の正の定数。えーと、カテゴリに対する回答率のその人の予想と実態との比の対数を、実態で重みづけて足しあげた値だ。これ、経験分布とその予測のずれの相対エントロピー(KLダイバージェンス)と比例している由。どうも納得できなくて、いろいろ値を入れて試したんだけど、要するに、ぴったり当てて0, 予測をしくじるほど負の方向に大きくなる。要は適当に予測している人へのペナルティであろう。で、その期待値を最大化するのは $y^r = E(\bar{x}_k | t^r)$とすることである由。真面目にやるのが一番だってことですね。

 各対象者にはこの2種類のスコアの和を与える。みんなが正直に答えているという想定のもとで、正直な回答はこのスコアの期待値を最大化する(ベイジアン・ナッシュ均衡となる)。また、どの対象者においても、情報スコアの期待値をそれ以上に高くする他の均衡解は存在しない。

 この手法を実際に用いる際には、対象者にスコアリングの数理や均衡の概念を説明しなくてもよい。ただ、正直な回答が得点を最大化するということ、個人的な真の回答について考える際には他の対象者がなにをいうかは無視して良いということ、を伝えればよい。ある条件の下でこの主張が誠実であることは均衡分析によって確認されている。云々。

 限界。前提が満たされていないとうまくいかない。すなわち:(1)公的情報が利用可能で、個人的意見が情報的でないとき。たとえば、母集団における女性の割合についての判断には、本人の性別は効かないだろう。フォーマルにいえば、ふたりの $t$ は異なるのに、ふたりの $p(\omega | t)$ がほぼ等しい、という場合である。(2)好みや性質のちがう人が混じっていて、違う理由で同じ答えを示し、しかし母集団についての事後分布は同じ、という場合。つまり、ふたりの $t$ は同じなのに、ふたりの $p(\omega | t)$ が異なる、という場合である。
 その他、$\alpha$ の意義、数値例、他の手法との関係、など。

 うーん... 二回読んだけど、疑問点や理解できない点が山のように出てきた。やっぱり、この論文は難しい。別のを読んでから考え直した方がよさそうだ。

 一番不思議なのは次の点。表面的にいえば、ベイジアン自白剤は「自分の意見と同じ意見を他人も持っている」という認知バイアスを活用する手法だと思う。で、この認知バイアスを説明するために、母集団での意見の分布について全員が同じ事前分布を持っており、自分の意見だけを入力としたベイズ更新を行う、というモデルをつくる。著者が提案するスコアリングはこのモデルに依拠している。そこで疑問なのだけれど、第一に、「自分の意見と同じ意見を他人も持っている」という認知バイアスを説明する方法はほかにないのだろうか。もしもっと優れた説明が可能なら、全然別のスコアの最大化が均衡解になるのではないか。第二に、著者らのモデルを正当化する証拠はあるのか。直感的には、全員が同じ事前分布を持つという想定も、自分の個人的意見だけが入力だという想定も、相当に無理があるような気がするんだけど。
 もっと素朴な疑問もある。この論文では、このスコアを最大化するためには正直に答えることがナッシュ均衡だ、ということが売りになっているのだけれど、それはなにを意味しているのだろう。そのスコアを最大化することを参加者が目指したくなるようなメカニズムを設計すれば、きっとみんな正直に答えてくれますよ、でもそんなメカニズムをどうやってつくるのかは知りませんけどね、ということなのだろうか。
 最後の疑問は、正直なところここに書き留めるのがちょっと恥ずかしいようなナイーブな疑問なのだけれど... この論文に限らないのだけれど、ゲーム理論の概念を使って、この状況下ではこの行動が合理的です、だからこういう風に設計しましょう、という説明を聞くと、いつも狐につままれたような気分になってしまう。人が利用可能な情報を全て使って合理的に行動するとは限らないんじゃない?だって俺はもっと頭悪いよ? と思うからである。この論文についていえば、スコアをインセンティブに直結させるメカニズムをうまく設計したら、本当に人は正直に答えるようになるのか、という疑念がある。

読了: Prelec (2004) ベイジアン自白剤

2012年10月 5日 (金)

Ding, M. (2007) An incentive-aligned mechanism for conjoint analysis. Journal of Marketing Research, 44(2), 214-223.
 たいしたことをしているわけではないのに、こういうことをいってはいけないのだけれど、私は少々疲れているようである。
 なにかその、仕事とも実人生ともなあんにも関係なくて、気楽に読めて、頭の体操になるようなものでも持って、コーヒーショップにでも籠って、気分を変えよう。と思ったのだが、あいにくカバンに本がはいっていない。仕方なく、偶然見かけたキャッチーな論文を印刷して外に出た。truth-telling gameだなんて、面白そうじゃないですか。難しくて手におえなかったら、居眠りでもすればよい。
 で、夜更けの閑散としたスタバのソファーでパラパラめくり始めたら、これが仕事と関係ないどころか、おおありで...

 背景や目的や理屈をすっとばして実験手続きについていえば、こういう実験である(実験1)。実験が行われたのはiPod Shuffleが発売された一ヶ月後。被験者は大学生・大学院生で、デジタル・プレイヤーの購入に関心がある人、49人。実験群と統制群に折半する。

  1. まず、以降の実験手続きについて正確に教示する。また、実験に登場するiPod Shuffleとそのアクセサリについて詳しく説明する。ところで、iPod Shuffleにはギフトセットというのがあり(「アスリート向けセット」とか)、本体と周辺機器がパッケージになっているそうである。
  2. コンジョイント課題。iPod Shuffleの3種類のパッケージを提示し、そのなかのひとつ、ないし「どれも買わない」を選択するよう求める。パッケージを構成している属性は、本体の記憶容量、ケース、ヘッドフォン、スピーカ、カーオーディオ、電源、保証、価格(どれがどれだかわからないが、2,2,3,3,3,3,3,4水準だそうである)。これを24試行繰り返す。
  3. [実験群のみ] コンジョイント課題には登場していない、ある特定のパッケージ X を提示する。Xは全員同じ。
  4. 妥当性チェック課題。ここまでに登場していないパッケージを16個並べて提示し、そのなかからひとつ選ぶよう求める。被験者が選んだパッケージを Y とする。
  5. 最後に報酬を渡す。

この報酬というのが要因操作になっている。まず、全員に10ドル渡す。さらに抽選を行い、40~50人にひとりの割合で、当選者を選ぶ。

 こうして書いてみると、先生いったいなにがしたいんですか? という感じだけど、ひとことでいえば著者は、対象者がコンジョイント課題で正直かつ真剣に答えてくれるような報酬の仕組みを提案しているのである。
 著者はこの課題を、被験者と実験者とのあいだの不完全情報ゲームとして捉えている。被験者は、自分の選好構造という私的情報を、ある方略に基づいて提示する。実験者の反応は提示された情報で決まる。で、ゲーム理論の観点からみると、実験群の被験者にとって自分の利益が最大になる方略(ベイジアン・ナッシュ均衡)は、自分の支払意思額を実験者に正確に推測させることだ、ということが証明できるのだそうである。

 うーむ... あれこれ考えてみたのだが、素人にも直観的にわかる説明としては、おそらくこういうことではないかと思う。教示を受けた実験群の被験者は、自分が運よく当選し、さらにコインの裏が出た場合について想像するだろう。Xがどんなパッケージかはまだ教わっていないが、そのXに対する自分の本当の支払意思額が、たとえば100ドルだったとしよう。
 コンジョイント課題における自分の回答から推定された支払意思額が、たとえば110ドルだったらなにが生じるか。

 いっぽう、コンジョイント課題の回答から推定された支払意思額が、たとえば90ドルだったらなにが生じるか。

 すなわち、避けたい事態とは、自分の本当の支払意思額と、コンジョイント課題で推定された支払意思額とのあいだのスキマに、ランダムな値 x が落ちてしまうことだ。そういう事態を避けるためには、スキマをなるべく小さくしておく必要がある。そのために、コンジョイント課題には真剣かつ正直に答えよう、と被験者は考えるだろう。
 ... というような理屈ではないかしらん。

 実験で注目する結果指標は、被験者が妥当性チェック課題で選んだパッケージ Y と、コンジョイント課題の回答に基づきその人が選ぶと予測されたパッケージとの一致。統制群では24人中4人、実験群では25人中9人で一致した。つまり、コンジョイント課題で推定した効用の妥当性は、期待した通り、実験群で高くなった。云々。

 いやあ、面白かった。被験者がホントに著者のいうような考え方をしているのか、この手法そのものにどのくらい実用性があるのか、回答の妥当性向上は調査コストの増大に見合うのか、そのへんにはいろいろ議論がありうると思う。でも、リサーチにおいて正直な回答が報われるようにインセンティブの仕組みを調整しましょう、そのためにリサーチをゲーム理論の観点から分析しましょう、という発想が、私にはとても新鮮だった。

 支払意思額を正直に表明してもらうために、その人の支払意思額とランダムな値で報酬を決めるというアイデアは、Becker, DeGroot, & Marschak(1964, Behavioral Science)が考えたのだそうだ。これは経済学の研究だが、市場調査での応用としてはすでにWertenbroch & Skiera(2002, JMR)というのがあるらしい。この論文は、支払意思額の表明をコンジョイント課題で行うという点にオリジナリティがあるのだと思う

読了:Ding (2007) 調査対象者が正直かつ真剣に回答したくなるような仕組みのご提案

2012年3月26日 (月)

Pennock, D.M., Lawrence, S., Giles, C.L. & Nielsen, F.A. (2001) The real power of artificial markets. Science, 291: 987-988.
人工市場 Foresight Exchange による科学的発見の予測についての報告。よく引用されるらしいのだが、たったの1頁のLetterであった。

読了:Pennock, et al. (2001) 人工市場で科学的発見を予測

2011年6月17日 (金)

Dahan, E., Kim, A.J., Lo. A.W., Poggio, T., Chan, N. (2011) Securities Trading of Concepts (STOC). Journal of Marketing Research, 48(3), 497-517.
仕事の都合で読んだ。
ほかのところに詳しく書いたので、内容のメモは省略するが、これは確かにものすごく革新的だと感じたし、かつ、いまこの発想が出てくるのは必然だとも感じた。これからの市場調査のひとつの方向性を示していると思う。
それにしても、誤植は多いし説明はわかりにくいし、読むのはかなり苦痛だった。なんとかしてくださいよ、もう...

読了:Dahan, et.al. (2011) コンセプト取引

rebuilt: 2020年11月16日 22:34
validate this page