elsur.jpn.org >

« 2015年1月 | メイン | 2015年3月 »

2015年2月28日 (土)

Slamka, C., Jank, W., Skiera, B. (2012) Second-generation prediction markets for information aggregation: A comparison of payoff mechanisms. Journal of Forecasting, 31(6), 469–489.
 掲載時のPDFが入手できず、ネットに落ちてたdraftで読んだ。

 著者らの云い方では、いわゆる予測市場のうち、証券のペイオフを出来事の実際の帰結で決めるのが第一世代(G1)。いっぽう第二世代(G2)の例は、

第二世代では、ペイオフを市場内で決めたり(終値とかVWAPとかで決めたり)、市場外のなにかの代理変数を使ったりする(専門家委員会とか)。
 理屈からいえば、第一世代とちがって第二世代の予測市場においては参加者がプライベートな情報を明かすインセンティブがない。情報カスケードが起きても不思議でない。

 ペイオフを市場内で決める場合に注目し、3つのペイオフ決定方法を比較する。

 ところで、自動マーケット・メーカを使う状況を考えると、以下の方略が考えられる。

 というわけで、フィールド実験。2008年に実施。
 実験は3期にわかれている。どうやら各期は4日間らしい。各期でそれぞれ次の予測トピックを用いる。

 ペイオフ決定方式は4種類。

上記の3x4の組み合わせについて、各2個の市場をつくる。よって市場の数は3x4x2=24。
 MBAの学生78名。各期において、3x2個の市場のどこかに割り当てる(市場当たり9~10人となると書いてある... 計算が合わなくないっすか)。同じペイオフ決定方式を二回経験することはない。
 各期の最初にポートフォリオを一万架空ドルにリセット。3期を通じた利益の合計で順位をつけ、コース・クレジットにする (おいおい... いいのかそれ...)。
 ついでに、第一期の予備選挙予測については専門家市場もつくった由。ペイオフは実際の価格で決定、参加者は政治コンサル会社の24人の専門家。報酬は一位にのみ100ドルだが、面子がかかっている。 
 空売りあり。市場メカニズムはHansonの自動マーケットメーカを採用したと書いてあるから、LMSRを使ったのだろう。[←線形証券の価格をLMSRでどうやってきめるのだろう? → Pennockさんのブログには、上下限が決められればできると書いてあった。要するに裏で区間証券にするらしいのだが... よく理解できていない]

 結果。
 せっかく専門家の予測市場を作ったんだけど、結果は学生とかわんなかったそうだ。ははは。
 ペイオフ決定手法間で予測のMAEを比べると、やっぱし実際の結果で決定する(G1方式)のが一番よい。次が固定終値方式、僅差でランダム終値方式とVWAP方式だが、この3つはほとんど差がない。さらに、4つの順位はトピックでも入れ替わる。
 価格と取引高をG1方式と比べると、VWAP方式はやはり後半(VWAP計算期間)で価格が高く、終盤には価格・取引高が上昇。固定終値方式はずっと価格が低めで、終盤になって上昇。ランダム終値方式でも同様で、なぜか終盤に価格上昇があった。
 市場閉鎖直前に注目すると、VWAP方式では駆け込み取引があったが、なぜか固定終値方式ではみられず、なぜかランダム終値方式で駆け込み取引があったとのこと。

 私が関心を持っているのは著者らがいうところの第二世代予測市場なので、ちょっぴり意気阻喪させる結果ではあった。そっかー、やっぱしペイオフを市場内部で決めると予測精度が落ちるか。とはいえ、理論的にはうまくいかないはずであるにも関わらず第一世代と遜色ないレベルだという見方もできる(著者らの考察はその方向)。それに、予測トピックごとに見ると結果がコロコロ変わっているわけで、この研究の結果をどこまで一般化できるか、ちょっと慎重に捉える必要がありそうだ。

 選好市場・アイデア市場とふつうの予測市場との大きな違いは、(この論文が注目しているように)ペイオフが現実との照合で決定されないことではなく、そもそも「あたる」「はずれる」という概念が適用できない問題を証券化している点にあるのではないかと思う。市場メカニズムという観点からはどうでもいいことにみえるかもしれないが、参加者の立場になってみるとこれはずいぶん大きなちがいだ。通常の質問紙でも、「自分がこの商品を今後買うと思うか」という質問と「この商品を今後買いたいか」という質問とではかなり意味合いが違う。前者は概念的にはあたりはずれがあるが(誰もそれをチェックしたりしないけど)、後者にはそもそもあたりはずれというものがない。実証研究があるのかどうか知らないけど、この2問はたぶん回答の際の推論プロセスが全然ちがうし、直感的には、再検査信頼性は後者のほうが低いだろうという気がする。
 だから、この論文の著者らのように、あたりはずれのある問題について第二世代予測市場と第一世代予測市場を比較するというのもひとつの見方だけど、むしろ比べるべきは、あたりはずれのない問題についての第二世代予測市場と、ただの質問紙とか選択課題とか、はたまたデルファイ法とかワークショップとかなのではないかしらん。。。
 いや、もちろん、そういう比較はきわめて困難だとわかってもいるのだけれど。DahanらにしてもSoukhoroukovaらやLaCombらにしても、第二世代予測市場の事例報告において一番しょぼい部分は、従来手法に対する提案手法の優越性を示すくだりである。参加者の事後アンケートで「楽しかったですか」なんて訊いてみたりして、もうほんとに涙ぐましいのである(そりゃ「楽しかった」っていうよね、みんな大人だから)。うーん。なにかうまい手はないものかなあ。

論文:予測市場 - 読了:Slamka, Jank, & Skiera (2012) 現実と照らし合わせてペイオフを決めることができない予測市場はどうやってペイオフを決めればよいのか

2015年2月23日 (月)

Bookcover イスラーム国の衝撃 (文春新書) [a]
池内 恵 / 文藝春秋 / 2015-01-20

Bookcover 吉田松陰: 「日本」を発見した思想家 (ちくま新書) [a]
桐原 健真 / 筑摩書房 / 2014-12-08

Bookcover イスラム戦争 中東崩壊と欧米の敗北 (集英社新書) [a]
内藤 正典 / 集英社 / 2015-01-16

Bookcover ユダ - 烙印された負の符号の心性史 [a]
竹下 節子 / 中央公論新社 / 2014-04-09

Bookcover 捏造の科学者 STAP細胞事件 [a]
須田 桃子 / 文藝春秋 / 2015-01-07

Bookcover 妄想彼女 [a]
地主恵亮(じぬし けいすけ) / 鉄人社 / 2014-10-27
なんというか... これは、奇書だなあ...

ノンフィクション(2011-) - 読了:「イスラーム国の衝撃」「イスラム戦争」「吉田松陰」「ユダ」「捏造の科学者」「妄想彼女」

Bookcover しきぶとんさん かけぶとんさん まくらさん (幼児絵本シリーズ) [a]
高野 文子 / 福音館書店 / 2014-02-05
高野文子さんの絵本。すばらしい。

Bookcover パートナー〈上〉 (新潮文庫) [a]
ジョン グリシャム / 新潮社 / 2000-10
Bookcover パートナー〈下〉 (新潮文庫) [a]
ジョン グリシャム / 新潮社 / 2000-10
なにが悲しくてこの忙しいときにグリシャムなどを読まねばならんのかと思うけど、ついうっかり読んでしまった。

フィクション - 読了:「しきぶとんさん かけぶとんさん まくらさん」「パートナー」

Bookcover 空の思想史 原始仏教から日本近代へ (講談社学術文庫) [a]
立川 武蔵 / 講談社 / 2003-06-11

Bookcover 『涅槃経』を読む (岩波現代文庫) [a]
高崎 直道 / 岩波書店 / 2014-11-15

哲学・思想(2011-) - 読了:「空の思想史」「『涅槃経』を読む」

Bookcover チェーザレ 破壊の創造者(11) (KCデラックス モーニング) [a]
惣領 冬実 / 講談社 / 2015-01-23

Bookcover アップルシードα(1) (モーニング KC) [a]
黒田 硫黄 / 講談社 / 2015-01-16

Bookcover コトノバドライブ(1) (アフタヌーンKC) [a]
芦奈野 ひとし / 講談社 / 2015-01-23

Bookcover 繕い裁つ人(6)<完> (KCデラックス Kiss) [a]
池辺 葵 / 講談社 / 2015-01-23

Bookcover 私を連れて逃げて、お願い。1 (ビームコミックス) [a]
松田 洋子 / KADOKAWA/エンターブレイン / 2015-01-24

Bookcover いちマルはち (電撃コミックスEX) [a]
上野顕太郎 / KADOKAWA/アスキー・メディアワークス / 2014-11-26

コミックス(2015-) - 読了:「いちマルはち」「私を連れて逃げて、お願い。」「繕い裁つ人」「コトノバドライブ」「アップルシードα」「チェーザレ」

Bookcover 中国嫁日記(四) [a]
井上 純一 / KADOKAWA/エンターブレイン / 2015-01-31

Bookcover プリニウス 2 (バンチコミックス45プレミアム) [a]
ヤマザキ マリ,とり・みき / 新潮社 / 2015-02-09

Bookcover ダンジョン飯 1巻 (ビームコミックス) [a]
九井 諒子 / KADOKAWA/エンターブレイン / 2015-01-15

Bookcover 少女漫画 (クイーンズコミックス) [a]
松田 奈緒子 / 集英社 / 2008-02-19
これは再読かも...

Bookcover めしばな刑事タチバナ 16 (トクマコミックス) [a]
坂戸佐兵衛 / 徳間書店 / 2015-01-31

Bookcover 説経 小栗判官 (ビームコミックス) [a]
近藤 ようこ / KADOKAWA/エンターブレイン / 2014-12-25

コミックス(2015-) - 読了:「中国嫁日記」「プリニウス」「ダンジョン飯」「少女漫画」「めしばな刑事タチバナ」「説経小栗判官」

2015年2月21日 (土)

黒木学 (2014) 統計的因果推論による原因の確率とその評価. 統計数理, 62(1), 45-58.
 疫学系データ解析特集号のなかの一本。Pearlが定義した「原因の確率」の3つの概念を、疫学の文脈で紹介する論文。おお、なんだか寄与危険度と関係ありそうだ、と思って手に取った。あまり知られていないけど、寄与危険度というのはマーケティング・リサーチの文脈でも重要な概念であります。
 せっかくなので、勉強のために、原文の「曝露」を「ミニスカートのお姉さんに新製品のサンプルをもらった」、発症を「その後の一定期間内にその製品を購入した」に読み替えてメモを取ってみた。さらに、添字のネストが深くなるのが辛いので、勉強を兼ねて、原文の数式の表記をちょっと簡略化してみた。

 サンプル受領を表す変数を$X$とし、もらった場合を$X=1$, もらってない場合を$X=0$とする。製品購入を表す変数を$Y$とし、購入した場合を$Y=1$, しなかった場合を$Y=0$とする。$X=1$となる確率を$pr(x_1)$というふうに略記する。
 対象者$i$が「もしサンプルを受けとっていたら購入していたか」を表す変数を$Y_1(i)$, 「もしサンプルを受け取っていなかったら購入していたか」を表す変数を$Y_0(i)$とする。これらを確率変数$Y_1, Y_0$とみなし、$Y_j=k$である確率を「因果リスク」causal risk と呼ぶことにし、$pr(y_{jk})$と書く(添字が購入有無$j$, 受領有無$k$の順になっている点に注意!)。

 $pr(y_{11}) - pr(y_{10})$を「因果リスク差」と呼ぶことにする。無作為割付していれば、$X$と$(Y_1, Y_2)$が独立だから、因果リスク差はリスク差$pr(y_1|x_1) - pr(y_1|x_0)$で推定できる。ただの観察でも、たとえば変数集合$S$の下で強い無視可能性であれば(=「$S$がSITA条件(strongly ignorable treatment assignment条件)を満たせば」=「バックドア基準を満たせば」)、$pr(y_1|x_1, S) - pr(y1|x_0, S)$の$S$の下での期待値でもって推定できる。

 さて。Pearlは3つの「原因の確率」を提案している。

さらに、たとえば無能化の確率(Probability of Disablement): $PD = pr(y_{00}|y_1)$といった確率も定義できる由。

 PNSの性質について考えてみよう。Xで場合分けしてみる。
 $PNS=pr(y_{11}, y_{00}) = pr(y_{11}, y_{00}, x_1) + pr(y_{11}, y_{00}, x_0)$
第一項に注目すると、「$Y_1=1$である確率」とは「$X=1$であるときに$Y=1$である確率」だから、それと「$X=1$である確率」との同時確率はすなわち「$Y=1$である確率」だ(禅問答みたいですね)。よって$pr(y_{11}, y_{00}, x_1) = pr(y_1, y_{00}, x_1) = pr(y_{00} | x_1, y_1) pr(x_1, y_1) = PN \times pr(x_1, y_1)$。第二項も同様で、結局
 $PNS=PN \times pr(x_1, y_1) + PS \times pr(x_0, y_0)$
つまり必要十分性の確率とは、必要性の確率に「受領かつ購入」確率を掛け、十分性の確率に「非受領かつ非購入」確率を掛け、足したものである。

 このPN, PS, PNSは、(...途中に一か所、理解できない箇所があるんだけど...まぁとにかく)、因果リスク差が推定できれば、その存在範囲を求めることができる。
 ランダム化試験の状況であれば、PNSの下限は$pr(y_1|x_1) - pr(y_1|x_0)$(それが負だったら0), 上限は$pr(y_1|x_1)$と$pr(y_0|x_0)$のうち小さい方、となるのだそうだ。えーと、PNSはリスク差よりも小さいことはないし、「受領者の購入確率」や「非受領者の非購入確率」よりも大きいことはない、ってわけね。

 ではPNはどうなるかというと、その下限は$\{ pr(y_1|x_1) - pr(y_1|x_0) \} / pr(y_1 | x_1)$(もしそれが負だったら0)となるのだそうだ。この式をよく見ると... リスク差を「受領者における購入確率」で割ったもの。疫学でいうところの曝露群寄与危険度割合ではありませんか。
 曝露群寄与危険度割合はふつう、「サンプル受領者における購入のうち、サンプル配布に起因する部分の割合」を意味する指標として解釈されている。でもその解釈はむしろ$PN=pr(y_{00}| x_1, y_1)$に対する解釈だ。ってことは、曝露群寄与危険度割合ってのは「受領者における購入のうち、受領に起因する部分の割合」を過小評価しているわけだ。どれだけ過小評価しているのか。図を延々と眺めてようやく得心したのだけど、$pr(y_{10}, y_{01})$だけ、つまり、「仮に受領していなかったら購入していた」と「仮に受領していたら購入していなかった」との同時確率のぶんだけ過小評価されている。これが0であることを単調性というそうだ。なるほどね、「ほっとけば買うがサンプルを渡すと買わない」奴はいないということか...

 同じことが人口寄与危険度割合$\{ pr(y_1) - pr(y_1|x_0) \} / pr(y_1)$にもいえて、それが$PD=pr(y_{00}|y_1)$と一致するのは単調性の仮定が成り立っているときなのだそうである。えーと、ふつう人口寄与危険度割合は「購入者のうち、サンプル配布に起因する部分の割合」だと思われているけど、それは「ほっとけば買うがサンプルを渡すと買わない」奴がいなければの話だ、ということかな。なるほどー。

 勉強になった、ような気がするが、すぐにわかんなくなっちゃいそうでもある...

論文:データ解析(2015-) - 読了:黒木(2014) 「原因の確率」とその評価

2015年2月19日 (木)

Chen, Y. & Pennock, D.M. (2010) Designing markets for prediction. AI Magazine, 31(4).
予測市場をはじめとした予測メカニズムについてのレビュー。

イントロ

スコアリング・ルール

流動性とマーケット・メーカ

誘因両立性

表出性と計算的扱いやすさ

...細かいところはちゃんと読んでないけど、読了にしておく。一番の収穫は、予測市場とベイジアン自白剤のようなタイプの手法とを、メカニズムデザインという視点から統一的に捉えているところ。勉強になりましたです。そうか、後者はピア予測システムって呼べばいいのか。
 細かいことだけど、LMSRとかで使う「実現したら一ドル配当」型の証券のことをArrow-Debreu contractというらしい。へー。

論文:予測市場 - 読了:Chen & Pennock (2010) 予測メカニズム・レビュー

2015年2月13日 (金)

 研究者の方々は論文をお書きになりますが(原則として)、たとえば実験なり調査なりをやっても、その結果をすべて論文にする(できる)とは限らないわけで、引き出しに仕舞われたままになる結果もある。
 いま「魚を食べると頭がよくなる」という説があるとして、その説について調べた研究者のうち、支持する証拠を得た研究者は「やったぜ」とその結果を論文にし、支持する証拠を得られなかった研究者は「やれやれ、ぱっとしないな」と結果を引き出しにしまいこんだとしよう。人々は出版された論文を見渡して「なんということだ、魚を食べると頭がよくなるという証拠ばかりだ」と考えることになる。魚屋さんは嬉しい。でも社会にとって望ましいことかどうかはわからない。これを「引き出し問題」と呼ぶ、と私は前に習ったが、より広義に「出版バイアス」と呼ぶことが多いようだ。

Franco, A., Malhotra, N., Simonovits, G. (2014) Publication bias in the social sciences: Unlocking the file drawer. Science, 345, 1502-1504.
 題名を見て気になっていたのだけど、たまたまPDFを拾ったので、お茶のついでに目を通した。

 アメリカにTESS(Time-sharing Experiments in the Social Sciences)というプログラムがあって、国レベルの代表性のある調査パネルを確保し、応募してきた研究計画を厳正に審査した上で、合格した研究者に助成金を与え、質問紙調査による実験をやらせている由。へー。
 TESSで走った研究249件を分析。うち113件が政治学、60件が心理学、ほかに社会学、経済学、コミュニーケション、公衆衛生、などなど。
 で、ググってみたりメールで問い合わせてみたり、四方八方手を尽くし、結局その研究がどうなったかを追跡した由。酔狂というかなんというか...おつかれさまでした。{一流誌に載った、非一流誌に載った、本の章になった、書いたけど載らなかった、書かなかった、不明}に分類。
 さらに、実験を分析した結果が統計的に有意であったかどうかを調べた。ここではその分析方法が正しいかどうかではなく、当該の研究者がどう思ったかが大事なので、分析をやり直したりはしない。{仮説を支持、不支持、混在、不明}に分類。

 結果。仮説を支持しなかった研究の65%は論文を書かずじまいなのに対し、混在だと12%, 支持だと4%。強烈な出版バイアスである。なお、「書いた」結果だけに注目すると、{載らなかった, 非一流誌, 一流誌}と検定の結果は関連しない由。
 「仮説が支持されず論文を書かなかった」人にそうした理由をメールで問い合わせ、返事を分類したところ、「面白いと思ったんだけど有意じゃないのであきらめた」が26人中15人、後回しにしてるだけですいずれ書きますと言い訳するタイプが9人、他のデータで書いちゃったもんねという人が2人、だった由。著者いわく、出版バイアスってのは研究者のモチベーションに起因する面も大きい、とのこと。

 話は違うが、このTESSというプログラム、実査はGfKカスタムリサーチさんが一手にやっているんだそうだ。へぇー。面白いなあ。
 いま日本のネット調査会社で、研究者向け割引というのを用意しているところが少なくないけど、なんのためにやっておるのか、と不思議に思う。いっそ院生さんにプロポーザルを出させて審査し、良い調査計画を選んで無料でやったげればいいんじゃないですかね。そのへんのスレた先生に割引価格でやらせるより全然いいと思います。きっと泣いて喜んでくれますよ、卓上カレンダーをダンボールで送りつけたら周囲に必死に配ってくれますよ。

論文:データ解析(2015-) - 読了: Franco, Malhotra, & Simonovits (2014) 社会科学における「引き出し問題」はどのくらい深刻か

 Hansonの論文は難しくて手に負えなかったが、載ったのは予測市場の専門誌であった。Chen&Pennockのもちんぷんかんぷんだったが、人工知能系のカンファレンスであった。もう少し読者層が広そうな雑誌のほうがいいんじゃない? それに実験やっているほうが楽しくない?

Othman, A. & Sandholm, T. (2013) The Gates Hillman prediction market. Review of Economic Design, 17, 95-128.
 ... というわけで手に取った論文。アタリでした。ありがとう著者の人! 関係ないけど、ありがとうビル・ゲイツ!!
 えーと、CMUにはGates-Hillmanセンターというのがある由。Gatesはもちろんビルさんのこと(スタンフォード大のコンピュータセンターもGatesビルディングじゃなかったっけ?)。調べたところによればHillmanというのはHenry Hillman財団の名に由来するそうで、ヘンリーさんとはどうやら大成功した投資家らしい。まあとにかく、予測市場Gates Hillman Prediction Market (GHPM) のご報告。ダブルオークション方式じゃなくて、マーケット・メーカ方式による実験である。

 市場の概要は以下の通り。

当たり株一株あたりの配当チケットは何枚ってことにしたの?と不思議に思っていたら、後述されるように実は話はもっとややこしくて、参加者としては任意の区間証券を売買している気分なのである。

 LMSRマーケット・メーカを使用。さあ、著者の説明を伺いましょう。
 えーとですね。マーケット・メーカはコスト関数$C$に従って動作する。コスト関数は、ベクトル$q$を「全参加者によるシステムへの総支払額」を表すスカラーへと変換する関数である。ベクトル$q$の要素は、それぞれのイベントが実現したときにシステムが参加者に配当しなければならない金額の合計である。
 LMSRマーケット・メーカのコスト関数は:
 $C(q) = b \log (\sum_i \exp(q_i / b))$
 ただしbは市場開設時点で決めておく正の定数。大きくすると市場の流動性が高まる。つまり、この仕組みだと売れた証券の価格は高くなるのだが、その程度が小さくなる。GHPMでは$b=32$としたが、後で思うに、もっと大きくしておけばよかった、とのこと。
 株価はコスト関数の勾配である。すなわち、銘柄$i$について
 $p_i(q) = \exp(q_i / b) / \sum_j \exp(q_j / b)$
である。これを「値付けルール」と呼ぶ。この価格は出来事の生起確率の予測値と捉えることができる。

 たとえば、「レッドソックスが勝つ」「ヤンキースが勝つ」の2証券の市場を考えよう。現状、もしレッドソックスが勝ったらシステムは5ドル払うことになり、ヤンキースが勝ったら3ドル払うことになっている。$q=(5,3)$である。
 $b=32$とする。ただいまのレッドソックス株の株価は
 $\exp(5/32) / \{\exp(5/32) + \exp(3/32)\} = 0.5156$
と表示される。
 さて、いま、「レッドソックスが勝ったら1ドルもらえる」証券を新たに買いたがっている奴が現れたとしよう。この注文に応えると、コスト関数の値は $C((6,3)) - C((5,3))$だけ変化する。$b=32$として0.5195。つまり0.5195セントで売ることになる。
 [↑あっ、そうか! ひと株の取引でさえ、取引価格は「値付けルール」で求めた株価とは違うのか! ということは、「値付けルール」の意義はあくまで販売数量を生起確率に変換するという点にあり、実際の価格決定は常にコスト関数の差をみなければならないわけか...]

 さて、ここからはGHPMがご提供する特殊機能。365銘柄はさすがに多すぎるので、範囲で取引させる。
 市場の状態を$\vec{q}^0 = \{q_1^0, q_2^0, \ldots, q_n^0 \}$とする。画面にはこれを値付けルールで価格に換えた面チャートが表示されている。参加者は区間$[s, t]$を選び、スライダーでリスク$r$を決める。すると、画面に次の選択肢が表示される。

面倒なので$pi_f$の決め方だけメモ($pi_f$は中央の区間に、$\pi_a$は左側区間と右側区間に足す形になる)。見やすいように縦棒を入れた。
 $C(q_1^0, \ldots, q_{s-1}^0, | q_s^0+\pi_f, \ldots, q_t^0+\pi_f, | q_{t+1}^0, \ldots, q_n^0) = C(q_0) + r$
なるほどね、リスクというのは区間証券の購入額のことか。なお、これは閉形式では解けないそうで、ニュートン法で解いたそうだ。

 結果を紹介する前に、この市場のあんまり芳しくない特徴について。

 よくわからんが、これは両方とも、LMSRの流動性係数$b$を一定にしていることの帰結なんだそうだ。

 さて、実験の結果。
 儲かった49名について調べたところ、3つの方略がみつかった。それにしても、ずいぶんノリの良い奴らだ。

 では、市場自体のパフォーマンスはどうだったか。いろんな話が書かれているが、疲れてきたので、ここからは簡単に。

 まとめ。マーケット・メーカ方式のふたつの問題点があきらかになった。(1)価格のスパイクの出現。とはいえユーザ・インタフェイス次第かもね、とのこと。(2)流動性が変わらないこと。

 長かった... 疲れた...。でも、期待した通り、LMSRの説明が素人にもわかりやすくて、助かった。

論文:予測市場 - 読了:Othman & Sandholm (2013) マーケット・メーカ方式で予測市場をやってみました@CMU

Chen, Y., & Pennock, D.M. (2007) A utility framework for bounded-loss market makers. Proc. 23rd Conf. on Uncertainty in Artificial Intelligence (UAI2007), 49-56.
きっとHansonという人の説明能力に問題があるんだと思って(すいません)、別の著者のを読んでみた。効用ベース・マーケット・メーカという枠組みをご提案します、という内容。要するにマーケット・メーカが自分が思うところの適正価格で値付けする(儲けようとは思わず、期待効用を常に一定に保とうとする)という、すごく単純なメカニズム(のように見える)んだけど、LSMRもこの一種として位置づけられるのだとか、なんとか、かんとか...。ノート取りながら必死に読んだんだけど、やはり途中で理解不能に。悲しい...なんでもっと頭のいい子に生まれなかったのか...

論文:予測市場 - 読了: Chen & Pennock (2007) 頭の悪い君にはわからんだろうがこれが効用ベース・マーケット・メーカだ

Hanson, R. (2007) Logarithmic Market Scoring Rules for Modular Combinatorial Information Aggregation. Journal of Prediction Markets. 1, 3-15.
対数マーケット・スコアリング・ルール(LMSR)をご提案します、という論文。仕事の都合で急遽読んでみたのだが、途中の理屈のところ、難しくてついていけない。悲しい...なんで文系に生まれちゃったんだろう...

追記:内容についてのメモをつくりました。

論文:予測市場 - 読了: Hanson(2007) 文系の君にはわからんだろうがこれがLMSRマーケット・メーカだ

2015年2月11日 (水)

Jain, A.K. (2010) Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 31(8), 651-666.
魅力的題名に惹かれて、MCMCが止まるまでの時間つぶしに手に取った。雑誌についてはよく知らないが、工学系でIF 1.06というのはきっとマイナー誌であろう。著者のなにかの会議での受賞記念講演をまとめたものらしい。

いくつかメモ:

先生曰く、「たいていの応用場面では、本当に大事なのは最良のクラスタリング・アルゴリズムを選ぶことではない。むしろ、データの背後にあるクラスタリング構造を同定するための、適切な特徴抽出手法を選ぶことのほうがより重要である」とのこと。へへーっ(平伏)。

論文:データ解析(2015-) - 読了: Jain (2010) クラスタリング50年史

2015年2月 5日 (木)

Li, X., Song, Z., & Gray, R.H. (2004) Comparison of the missing-indicator method and conditional logistic regression in 1:m matched case-control studies with missing exposure values. Americal Journal of Epidemiology, 159(6), 603-610.
 一対多マッチングしたケース・コントロール・デザインで、曝露変数に欠損があるとき、どうやって分析すればいいかシミュレーションで調べましたという、なんというか、風雅な論文。
 仕事とちょっと関係あるかなと勘違いして印刷したのだが、よく考えてみたらまったく、全然、露ほども関係ないことに気が付いた。でも面白そうなので、眠気覚ましのコーヒーをすすりつつ、ついつい全部読んでしまい、さらにメモまでとってしまった。一体なにをやっとるのか。

 データの作成。
 曝露変数がひとつで二値の場面を考える。もしケースとコントロールが1:1マッチングになっていたら、これはもう、対応のある2水準の割合の比較、つまりMcNemar検定の世界だ。というわけで、ケースの曝露有無とコントロールの曝露有無の2x2クロス表を考える。
 以下の3つのシナリオを用意する。

 私の知識不足のせいだろうけど、ここで大いに混乱しました。

 すべてのシナリオで、1ケースに対して1コントロールがマッチしている場合と、1ケースに対して4コントロールがマッチしている場合を用意する。
 ええと、データ生成の操作は、ケース曝露確率3 x オッズ比3 x シナリオ3 x マッチング2 = 54セルあるわけね。

 で、つくったデータの曝露変数にぽこぽこと欠損を入れていく。つまり、曝露があったかなかったかわかんなくしてしまう。
 欠損のタイプは以下の4種類。

  1. MCAR。全体を「参照群」とみなす。
  2. ケース依存欠損。ケースはコントロール(=参照群)より欠損率が50%{多い, 少ない}。
  3. 曝露依存欠損。曝露は非曝露(=参照群)よりも欠損率が50%{多い, 少ない}。
  4. ケース曝露依存欠損。曝露ケースの欠損率が他のすべて(=参照群)の欠損率より50%{多い, 少ない}。

 上で定義した「参照群」の欠損率を、0.1, 0.2, 0.3と動かす。ええと、欠損タイプ2,3,4はそれぞれ「多い」と「少ない」があるから、欠損タイプは全部で7個、つまり欠損の操作は7x3=21セルあるわけね。
 
 こうして用意したデータを条件つきロジスティック回帰で分析し、オッズ比を推定する。他に実データも分析するんだけど、そっちは省略。
 従属変数を{ケース, コントロール}を表す2値変数, 独立変数を曝露有無, マッチングしたセットを層とする。欠損の処理の仕方は次の2通り。

 全8頁の論文の、ここまでで2.5頁。疲れたのでここからは簡単に。(本文中でオッズ比4は対数オッズ比で1.89だと書いてるけど、1.39でしょう... おかげでしばし悩みましたよ先生)
 まず、欠損がMCAR、ケース依存、曝露依存の場合。交絡がなければどっちでもあまり歪まない。負の交絡があると推定値は低めに、正の交絡があると推定値は高めに歪む。このとき欠損指標法のほうがちょっと歪みが大きいが[←へぇー]、検定力はちょっと上がる。著者曰く、欠損指標法を使うときは気をつけろ、とのこと。
 なお、コントロールが多いほうが歪みが大きい[←これもちょっと意外。そういうもんなんですか?]。
 ケース曝露依存欠損の場合、推定値は欠損率増大につれて歪みまくり、使い物にならない。[←それはそうでしょうね。ケーキを始終食っているデブに限り調査に協力してくれなかったら、調査非協力をモデル化しないかぎり、ケーキと肥満の関連はわからなくなるだろう]
 とかなんとか...

論文:データ解析(2015-) - 読了: Li, Song, & Gray (2004) マッチングのあるケース・コントロール・デザインの条件付きロジスティック回帰で曝露変数に欠損があったら除去すべきか0埋めしてフラグを立てるべきか

2015年2月 4日 (水)

準備中の資料の役に立つかと思って, Ciniiで探して片っ端から目を通したもの;

黒田重雄 (2014) マーケティングを学問にする試み : マーケティングはマーケティング・リサーチのことである. 北海学園大学経営論集, 12(2),141-159.

丸山一彦 (2006) 商品企画におけるマーケティングリサーチの問題点に関する研究. 成城大學經濟研究, 172, 33-55

栗木契 (2007) 構想としてのマーケティング・リサーチ. 国民経済雑誌, 95(5), 39-57.
マーケティング・リサーチの話なのだが、論理実証主義批判からはじまって(哲学史の本以外の場所で「論理実証主義」という言葉が出てきたら9割方悪口である)、ポパーとラカトシュを経由し、しまいにはクリプキとか出てきます。すごいな。

論文:マーケティング - 読了: 紀要論文に垣間見るさまざまな人生

 調査だか実験だかの参加者に刺激 P と Q を提示し、それぞれに対してなんらかの反応を得た。反応の分布を比べたとき、PとQのあいだに統計的に意味のある差はあるか。
 反応が量的ならば、分布の平均に注目し、いわゆる「対応のある二水準」のあいだの平均の差の検定を行うことが多いだろう。手法としていちばんポピュラーなのは t 検定である。反応が二値ならば、(仮に反応を{0,1}とコード化したとして)各刺激に対する1の割合に注目し、「対応のある二水準」の間の割合の差の検定を行うことが多いだろう。McNemar検定が広く用いられている。

 では、刺激が3つ以上あったらどうか。反応が量的ならばANOVAを用いることが多い。反応が二値の場合はCochranのQ検定を行うことが多いだろう。しかしこれらはオムニバス検定、すなわち、K個の水準のあいだの「どこか」に差があるといえるかどうかを調べている検定である。「どこ」に差があるのかを調べるためには別の手法が必要だ。
 K個の水準から2つを取り出す全てのペアに関心があるとしよう。反応が量的である場合については、多重比較法と呼ばれる手法がたくさんあり、良い解説もたくさんある。問題は反応が二値の場合だ。いちばん簡単に思いつくのは、McNemar検定をすべてのペアについて繰り返す方法だが、ファミリーワイズの第一種過誤(Type I FWE)が増大する。そこで思いつくのは、Bonferroni法かなんかでp値を調整しちゃう、という手である。ちょっといま手元にないのだけれど、この手法を推奨している参考書が多いんじゃないかと思う。しかし、ちょっと不思議ではありませんか? Bonferroni型の調整手法は汎用的な手法であって、個別の課題においては必ずしも最適でない。反応が量的な場合なら多重比較法はよりどりみどりなのに、反応が二値になると急に品揃えが悪くなっちゃうわけ?

 手元の本を探してみたところ、困ったときの助け神、森・吉田本には、McNemar検定とRyan法を併用しろ、と一行だけ書いてある。森・吉田本は他の箇所でもRyan法推しなのである。Ryan法ってなに? わたくし、それってTukey-Welsch法の別名なんじゃないかと疑っているのだが、詳しいことはわからない。SASやSPSSのANOVAの機能には多重比較法としてREGW法というのが搭載されてるけど(REGWQとか)、あれとの違いもよくわからない。
 泣く子も黙る権威、AgrestiのCDA本は、章末の注でWestfall, Troendle, & Pennello (2010) を参照せよと書いている。私はこの本のいうことは頭から信じることに決めている。だって高かったんだもん。私費で買ったんだもん。

 正直言って、細かい話だと思う。もし私の好き勝手が許されるならば、検定しないで済ませる方法を全力で考える。いかんともしがたい場合は、McNemar検定を繰り返し、Type I FWEが増大してますけどそれがなにか? と開き直る方法を考える (←冗談ではない。これがもっとも正しい態度である場合も少なくない)。それがだめでも、細かいことを考えるのはうんざりなので、反復測定データのロジスティック回帰だかGLMMだかGEEだかに持ち込み、推定したパラメータをTukey法かなにかでツルッと多重比較することを考える。
 しかし、娑婆は細かい話であふれておりまして...

Westfall, P.H., Troendle, J.F., & Pennello, G. (2010) Multiple McNemar Tests. Biometrics, 66(4), 1185-1191.
 そんなこんなで、仕事の都合で読んだ。Agresti先生ご紹介の、McNemar検定を多水準に拡張して多重比較する手法についての論文。単にBonferroni法やSheffe法で調整するよりも良い方法をご提案します、とのこと。具体的には、検定は正確McNemar検定、多重比較の理屈はHolm法だと思う。
 多重比較には疎いので、よくわからない箇所も多いんだけど...

 まずは二群のケース。
 IIDな二変量ベルヌーイ試行系列$(Y_{i1}, Y_{i2})$について考える。平均ベクトルを$(\theta_1, \theta_2)$とする。帰無仮説 $H: \theta_1 = \theta_2$について正確検定しよう。
 $Y_1$と$Y_2$の同時確率分布を$\theta_{00}, \theta_{01}, \theta_{10}, \theta_{11}$とする。以下、$H$の下での非対角セルの確率を$\theta_d = \theta_{01} = \theta_{10}$とする。
 $H$の下で、2x2クロス表の非対角セルの観察頻度の和を $N_d = N_{01} + N_{10}$としよう。$N_d=n_d$のときの$N_{01}$の条件分布は、言うまでもなく$B(n_d, .5)$だ。$N_{01}$の実現値が$n_{01}$だったとしよう。$B_{n_d, .5} \sim B(n_d, .5)$として、p値は
 $p(n_{01}, n_d; upper) = P(B_{n_d, .5} \gt n_{01})$
 $p(n_{01}, n_d; lower) = P(B_{n_d, .5} \lt n_{01})$
 $p(n_{01}, n_d; two) = 2 \min \{ p(n_{01}, n_d; upper), p(n_{01}, n_d; lower) \}$
どれでもいいけど、とにかくMcNemar検定において、p値は$n_{01}$と$n_d$の関数として決まるわけである。

 多重比較に拡張します。
 仮説を$H_1, H_2, \ldots, H_m$とする。仮説$l$に対応するデータを$\{ y_{i1}^{(\ell)}, y_{i2}^{(\ell)} \}, i=1, \ldots, n^{(\ell)}$とする。仮説のあいだでデータが重複しているかどうかは問わない。個々の仮説について正確McNemar検定をしたときの、$m$個を通したFWERを制御したい。
 もし$m$個の仮説のなかに真の仮説がなかったら、タイプIエラーもないことになるから、まあひとつは真の仮説があるとしよう。真の仮説の集合を$I$として、
 FWER($I$) = sup $P$(Reject $H_l$ for some $\ell \in I$)
 ただしsupは上限を表す記号。
 実際にはどの仮説が$I$に属しているのかわからないわけだけど、それがどれであってもFWER($I$) $\leq \alpha$ となるようにしたいものである。こういうのをstrong controlという。これに対して、すべての仮説が真であったときにFWER($I$) $\leq \alpha$ となることを weak controlという。以下ではstrong controlについて考える。
 
 仮説の論理積を表す仮説(つまり「どこにも有意差がない」仮説) $H_I = \cap_{\ell \in I} H_\ell$の検定統計量について考える。ある仮説$\ell$のp値を$p(N_{01}^{(\ell)}, N_d^{(\ell)})$として、
 $T_I (N^+_I) = \min_{\ell \in I} p_\ell (N_{01}^{(\ell)}, N_d^{(\ell)})$
 $N_I = \{N^{(\ell)}_d | \ell \in I\}$が与えられれば、この検定統計量について、Type I Error率が$\alpha$以下になるような臨界値$c^\alpha_I(N_I)$を定めることができる由(詳細略)。
 検定統計量の棄却域を決めるより、対応するp値をつくったほうが楽である。すなわち:
 $\tilde{p}_I (n^+_I) = \sum_{\ell \in I} P_{H_\ell} \{ p_\ell (N_{01}^{(\ell)}, N_d^{(\ell)}) \leq T_I (n^+_I) | N_d^{(\ell)} = n_d^{(\ell)} \}$
 このp値を使ってdiscrete Bonferroni-Holm法を用いる由。知識不足でちょっと理解できないのだが、すべてのp値を大きい順に並べてステップダウン、仮説集合の p 値として上の式を使う... ということだろうか。ほかにブートストラップを使った手法も提案しているが、そちらは力尽きたのでパス。
 後半は数値例とシミュレーション。パス。

 どうでもいいけど、大文字のアイと小文字のエルを併用するのはやめてくださいな、先生。しょうがないので後者はわざわざ$\ell$と書いた。
 読んだはいいけど、実際の計算はなにでどうやればいいかしらん。SASでもRでも、まるごとの実装はみあたらなかった。WestfallさんってSASのMULTTESTプロシジャやRのmultcompパッケージの開発者だと思うんだけど。見落としてるのかな。

論文:データ解析(2015-) - 読了:Westfall, Troendle, & Pennello (2010) 多重マクニマー検定

2015年2月 3日 (火)

岩崎祐貴, 折原良平, 清雄一, 中川博之, 田原康之, 大須賀昭彦 (2015) CGMにおける炎上の分析とその応用. 人工知能論文誌, 30(1), 152-156.
 ネット上の「炎上」を機械学習で予知するという研究。第一著者は現在サイバーエージェント所属の若い方。

 内容メモ。数式によくわからない箇所があって、表記を勝手に少し変えてます。失礼をお許し下さいませ。
 著者らいわく、ネット上の炎上は犯罪自慢型、Struggles between conflicting values型(「価値観押しつけ」型, SBCV型)、暴露型の三タイプにわけられる。このうちSBCV型の炎上の予測を試みる。具体的にはtwitterの分析である。

 まず、ある所与のトピックについての世評を動的に数値化する方法を考える。時点$t$におけるトピック$I$についてのtweetの総数を$A_I(t)$とする。これを辞書マッチングによって肯定$P_I(t)$, 否定$N_I(t)$, 中立$E_I(t)$に分類する。期間$T$における話題$I$の日次極性を
$DP_{I,T}(t) = \{ P_I(t) - N_I(t) \} / \{ \sum_{i \in T} A_I(i) \} $
とし、これを$T$における最大値で割って $NDP_{I,T}(t)$とする。呟きが炎上するのはその極性がその時点での世評の蓄積と対立しているからだろう、というわけで、過去のNDPの影響を積分した値を持つ指標「割引累積日次極性」DCNDPを定義する。ここの式がよくわからないんだけど、たぶん
$DCNDP_{I,T}(t) = \sum_{i=1}^{\infty} 0.95^{i-1} NDP_{I,T}(t-i)$
という主旨なのであろうと思う。0.95というのは忘却を表す係数。

 つぎに、炎上ツイートを集めるモデルをつくる。SBCV型で炎上したといえる呟き(A)を人力で20件収集。当該の呟きをしたアカウントの2013年上半期の呟きを収集。各アカウントの被RT数の40倍を超えた呟き(B)は123件[どうやらここにはAは含まれていないらしい]。うち17件が炎上している[ちょ、ちょっと待って、ではBでいう炎上の定義は???]
 A20件+B123件=計143件、うち炎上37件。これを学習データとし、決定木(WekaのJ48)に放り込む。説明変数は、アカウントのフォロー数、フォロアー数、平均非RT数とこの正規化、平均非Fav数とその正規化、平均ツイート数(正規化)、当該発言の極性、味方率(当該発言をリツイートした人におけるフォロアーの割合)、有名人か(アカウントがWikipediaに載ってるか)。できた決定木をみると、たとえばフォロアー数11755以下のアカウントの味方率11%以下のツイートは22件中22件が炎上、だそうだ。ひゃー。
 さて、日本のフォロアー数ランキング上位5000アカウントについて、学習データと同じ手順で1533件を収集、ブログ更新情報などでない235件(C)をテストデータにして上の決定木にあてはめると、炎上しているはずのツイートが24件。「真の炎上tweetについて調査したところ、適合率100%、再現率93%であった」とのこと。[←ここもよくわからない。真の炎上tweetはどう定義したのか]

 上のモデルでは「味方率」という説明変数が効くんだけど、これは投稿前にはわからないので、投稿時点のDCNPDに取り換えてモデルを組みなおす[←あ、そういう筋なのね... DCNPDがいつ使われるのかわからず混乱した]。こんどはA+B+Cの378件のなかから53件(うち炎上22件)を抽出し、J48に食わせたところ、発言の極性とDCNDPだけを使う単純な決定木となった。予測精度94%。

 興味深い内容であった。大変勉強になりました。
 提案手法の使い方として想定されているのは、有名人のクライアントが投稿する瞬間に炎上確率を予測し警告する、というような用途ではないかと思う。無名の高校生がバイト先の冷蔵庫に入った写真を投稿して炎上、というようなのは視野の外にある。
 感想:

 この研究によれば「価値観押しつけ型」炎上は投稿内容と世評のposi-nega極性のズレなわけだ。価値観の対立ってのは、発言のposi-nega極性で表現できるような単純なものかなあ? と疑問に思う面もある。
 北朝鮮の拉致被害者が帰国した頃、評論家の故・栗本薫さんが「被害者の方々の北朝鮮での苦難の日々のなかにも、それぞれの豊饒な生があったのではないか」という意味のことを発言して大炎上したことがあった。しかし、おそらく「拉致被害者」についての世評の極性はpositive, この発言の極性もやはりpositiveだろう。極性のズレでは説明がつかない例だ。
 いや待てよ、栗本さんの発言は「被害者の人生は悲劇ではない」という形で流通して叩かれていたような気もする。この形なら、なるほど、辞書マッチング的な意味での極性がズレているわけだ。炎上なんて案外その程度に単純な、言葉尻の問題なのかもな、と思う面もある... うーむ。

論文:マーケティング - 読了:岩崎 et al. (2015) ツイッター上の炎上を予知する

« 2015年1月 | メイン | 2015年3月 »

rebuilt: 2020年11月16日 22:41
validate this page