2015年2月28日 (土)
Slamka, C., Jank, W., Skiera, B. (2012) Second-generation prediction markets for information aggregation: A comparison of payoff mechanisms. Journal of Forecasting, 31(6), 469–489.
掲載時のPDFが入手できず、ネットに落ちてたdraftで読んだ。
著者らの云い方では、いわゆる予測市場のうち、証券のペイオフを出来事の実際の帰結で決めるのが第一世代(G1)。いっぽう第二世代(G2)の例は、
- 選好市場。例, Chan, Dahan, Kim, Lo, & Poggis (2002 STOCのWorking Paper)、Dahan & Hauser (2002, JPIM)、Dahan, Soukhoroukova, Spann (2007, UCLAのWorking Paper)、Soukhoroukova & Spann (2005, ECISというConf.)。
- アイデア市場。市場参加者が自分でアイデアを創造できる。例, Lacomb et al. (2007, Info.Sys.Frontier), Soukhoroukova, Spann, & Skiera (2009, Working Paper)[たぶんクアルコムの事例のことだろう]。
第二世代では、ペイオフを市場内で決めたり(終値とかVWAPとかで決めたり)、市場外のなにかの代理変数を使ったりする(専門家委員会とか)。
理屈からいえば、第一世代とちがって第二世代の予測市場においては参加者がプライベートな情報を明かすインセンティブがない。情報カスケードが起きても不思議でない。
ペイオフを市場内で決める場合に注目し、3つのペイオフ決定方法を比較する。
- VWAP(売買高加重平均価格)を使う。LaCombらが使った方法。
- ある時点(既知)からみた終値を使う。ChanらとSoukhoroukova & Spannが使った方法。
- ある期間内で時点をランダムに決め、そこからみた終値を使う。Dahanらが使った方法。[←DahanらのJMRのSTOC論文ではVWAPを使っていたと思うんだけど...]
ところで、自動マーケット・メーカを使う状況を考えると、以下の方略が考えられる。
- VWAPの場合、VWAP計算期間中は、枚数の少ない取引が減るはずだ。買いを入れると取引価格もVWAPも上がるが、枚数が少ないと取引価格の上昇のほうが大きいから。枚数が多いとVWAPの上昇のほうが大きくなる由。
- 固定終値の場合、買えば終値は上がるし、売れば終値は下がるんだから、市場終了に近づくほど取引高が増え、群集行動的な取引となるはずだ。
というわけで、フィールド実験。2008年に実施。
実験は3期にわかれている。どうやら各期は4日間らしい。各期でそれぞれ次の予測トピックを用いる。
- 第一期: 3月の予備選挙の結果。「クリントンかオバマがオハイオで10%以上の差で勝つ」株、「クリントンが勝つ州の数」株など、勝者総取り証券4, 線形証券7。
- 第二期: 4月のバスケの試合結果。勝者総取り証券4, 線形証券6。
- 第三期: 4月の経済的な出来事。勝者総取り証券5, 線形証券4。
ペイオフ決定方式は4種類。
- 実際の結果で決定(G1方式)。
- 最終2日間のVWAPで決定。
- 終値で決定。
- 最終4時間のどこかの時点における価格で決定(ランダム終値方式)。
上記の3x4の組み合わせについて、各2個の市場をつくる。よって市場の数は3x4x2=24。
MBAの学生78名。各期において、3x2個の市場のどこかに割り当てる(市場当たり9~10人となると書いてある... 計算が合わなくないっすか)。同じペイオフ決定方式を二回経験することはない。
各期の最初にポートフォリオを一万架空ドルにリセット。3期を通じた利益の合計で順位をつけ、コース・クレジットにする (おいおい... いいのかそれ...)。
ついでに、第一期の予備選挙予測については専門家市場もつくった由。ペイオフは実際の価格で決定、参加者は政治コンサル会社の24人の専門家。報酬は一位にのみ100ドルだが、面子がかかっている。
空売りあり。市場メカニズムはHansonの自動マーケットメーカを採用したと書いてあるから、LMSRを使ったのだろう。[←線形証券の価格をLMSRでどうやってきめるのだろう? → Pennockさんのブログには、上下限が決められればできると書いてあった。要するに裏で区間証券にするらしいのだが... よく理解できていない]
結果。
せっかく専門家の予測市場を作ったんだけど、結果は学生とかわんなかったそうだ。ははは。
ペイオフ決定手法間で予測のMAEを比べると、やっぱし実際の結果で決定する(G1方式)のが一番よい。次が固定終値方式、僅差でランダム終値方式とVWAP方式だが、この3つはほとんど差がない。さらに、4つの順位はトピックでも入れ替わる。
価格と取引高をG1方式と比べると、VWAP方式はやはり後半(VWAP計算期間)で価格が高く、終盤には価格・取引高が上昇。固定終値方式はずっと価格が低めで、終盤になって上昇。ランダム終値方式でも同様で、なぜか終盤に価格上昇があった。
市場閉鎖直前に注目すると、VWAP方式では駆け込み取引があったが、なぜか固定終値方式ではみられず、なぜかランダム終値方式で駆け込み取引があったとのこと。
私が関心を持っているのは著者らがいうところの第二世代予測市場なので、ちょっぴり意気阻喪させる結果ではあった。そっかー、やっぱしペイオフを市場内部で決めると予測精度が落ちるか。とはいえ、理論的にはうまくいかないはずであるにも関わらず第一世代と遜色ないレベルだという見方もできる(著者らの考察はその方向)。それに、予測トピックごとに見ると結果がコロコロ変わっているわけで、この研究の結果をどこまで一般化できるか、ちょっと慎重に捉える必要がありそうだ。
選好市場・アイデア市場とふつうの予測市場との大きな違いは、(この論文が注目しているように)ペイオフが現実との照合で決定されないことではなく、そもそも「あたる」「はずれる」という概念が適用できない問題を証券化している点にあるのではないかと思う。市場メカニズムという観点からはどうでもいいことにみえるかもしれないが、参加者の立場になってみるとこれはずいぶん大きなちがいだ。通常の質問紙でも、「自分がこの商品を今後買うと思うか」という質問と「この商品を今後買いたいか」という質問とではかなり意味合いが違う。前者は概念的にはあたりはずれがあるが(誰もそれをチェックしたりしないけど)、後者にはそもそもあたりはずれというものがない。実証研究があるのかどうか知らないけど、この2問はたぶん回答の際の推論プロセスが全然ちがうし、直感的には、再検査信頼性は後者のほうが低いだろうという気がする。
だから、この論文の著者らのように、あたりはずれのある問題について第二世代予測市場と第一世代予測市場を比較するというのもひとつの見方だけど、むしろ比べるべきは、あたりはずれのない問題についての第二世代予測市場と、ただの質問紙とか選択課題とか、はたまたデルファイ法とかワークショップとかなのではないかしらん。。。
いや、もちろん、そういう比較はきわめて困難だとわかってもいるのだけれど。DahanらにしてもSoukhoroukovaらやLaCombらにしても、第二世代予測市場の事例報告において一番しょぼい部分は、従来手法に対する提案手法の優越性を示すくだりである。参加者の事後アンケートで「楽しかったですか」なんて訊いてみたりして、もうほんとに涙ぐましいのである(そりゃ「楽しかった」っていうよね、みんな大人だから)。うーん。なにかうまい手はないものかなあ。
論文:予測市場 - 読了:Slamka, Jank, & Skiera (2012) 現実と照らし合わせてペイオフを決めることができない予測市場はどうやってペイオフを決めればよいのか
2015年2月23日 (月)
イスラーム国の衝撃 (文春新書)
[a]
池内 恵 / 文藝春秋 / 2015-01-20
吉田松陰: 「日本」を発見した思想家 (ちくま新書)
[a]
桐原 健真 / 筑摩書房 / 2014-12-08
イスラム戦争 中東崩壊と欧米の敗北 (集英社新書)
[a]
内藤 正典 / 集英社 / 2015-01-16
ユダ - 烙印された負の符号の心性史
[a]
竹下 節子 / 中央公論新社 / 2014-04-09
捏造の科学者 STAP細胞事件
[a]
須田 桃子 / 文藝春秋 / 2015-01-07
妄想彼女
[a]
地主恵亮(じぬし けいすけ) / 鉄人社 / 2014-10-27
なんというか... これは、奇書だなあ...
ノンフィクション(2011-) - 読了:「イスラーム国の衝撃」「イスラム戦争」「吉田松陰」「ユダ」「捏造の科学者」「妄想彼女」
しきぶとんさん かけぶとんさん まくらさん (幼児絵本シリーズ)
[a]
高野 文子 / 福音館書店 / 2014-02-05
高野文子さんの絵本。すばらしい。
パートナー〈上〉 (新潮文庫)
[a]
ジョン グリシャム / 新潮社 / 2000-10
パートナー〈下〉 (新潮文庫)
[a]
ジョン グリシャム / 新潮社 / 2000-10
なにが悲しくてこの忙しいときにグリシャムなどを読まねばならんのかと思うけど、ついうっかり読んでしまった。
フィクション - 読了:「しきぶとんさん かけぶとんさん まくらさん」「パートナー」
空の思想史 原始仏教から日本近代へ (講談社学術文庫)
[a]
立川 武蔵 / 講談社 / 2003-06-11
『涅槃経』を読む (岩波現代文庫)
[a]
高崎 直道 / 岩波書店 / 2014-11-15
哲学・思想(2011-) - 読了:「空の思想史」「『涅槃経』を読む」
チェーザレ 破壊の創造者(11) (KCデラックス モーニング)
[a]
惣領 冬実 / 講談社 / 2015-01-23
アップルシードα(1) (モーニング KC)
[a]
黒田 硫黄 / 講談社 / 2015-01-16
コトノバドライブ(1) (アフタヌーンKC)
[a]
芦奈野 ひとし / 講談社 / 2015-01-23
繕い裁つ人(6)<完> (KCデラックス Kiss)
[a]
池辺 葵 / 講談社 / 2015-01-23
私を連れて逃げて、お願い。1 (ビームコミックス)
[a]
松田 洋子 / KADOKAWA/エンターブレイン / 2015-01-24
いちマルはち (電撃コミックスEX)
[a]
上野顕太郎 / KADOKAWA/アスキー・メディアワークス / 2014-11-26
コミックス(2015-) - 読了:「いちマルはち」「私を連れて逃げて、お願い。」「繕い裁つ人」「コトノバドライブ」「アップルシードα」「チェーザレ」
中国嫁日記(四)
[a]
井上 純一 / KADOKAWA/エンターブレイン / 2015-01-31
プリニウス 2 (バンチコミックス45プレミアム)
[a]
ヤマザキ マリ,とり・みき / 新潮社 / 2015-02-09
ダンジョン飯 1巻 (ビームコミックス)
[a]
九井 諒子 / KADOKAWA/エンターブレイン / 2015-01-15
少女漫画 (クイーンズコミックス)
[a]
松田 奈緒子 / 集英社 / 2008-02-19
これは再読かも...
めしばな刑事タチバナ 16 (トクマコミックス)
[a]
坂戸佐兵衛 / 徳間書店 / 2015-01-31
説経 小栗判官 (ビームコミックス)
[a]
近藤 ようこ / KADOKAWA/エンターブレイン / 2014-12-25
コミックス(2015-) - 読了:「中国嫁日記」「プリニウス」「ダンジョン飯」「少女漫画」「めしばな刑事タチバナ」「説経小栗判官」
2015年2月21日 (土)
黒木学 (2014) 統計的因果推論による原因の確率とその評価. 統計数理, 62(1), 45-58.
疫学系データ解析特集号のなかの一本。Pearlが定義した「原因の確率」の3つの概念を、疫学の文脈で紹介する論文。おお、なんだか寄与危険度と関係ありそうだ、と思って手に取った。あまり知られていないけど、寄与危険度というのはマーケティング・リサーチの文脈でも重要な概念であります。
せっかくなので、勉強のために、原文の「曝露」を「ミニスカートのお姉さんに新製品のサンプルをもらった」、発症を「その後の一定期間内にその製品を購入した」に読み替えてメモを取ってみた。さらに、添字のネストが深くなるのが辛いので、勉強を兼ねて、原文の数式の表記をちょっと簡略化してみた。
サンプル受領を表す変数を$X$とし、もらった場合を$X=1$, もらってない場合を$X=0$とする。製品購入を表す変数を$Y$とし、購入した場合を$Y=1$, しなかった場合を$Y=0$とする。$X=1$となる確率を$pr(x_1)$というふうに略記する。
対象者$i$が「もしサンプルを受けとっていたら購入していたか」を表す変数を$Y_1(i)$, 「もしサンプルを受け取っていなかったら購入していたか」を表す変数を$Y_0(i)$とする。これらを確率変数$Y_1, Y_0$とみなし、$Y_j=k$である確率を「因果リスク」causal risk と呼ぶことにし、$pr(y_{jk})$と書く(添字が購入有無$j$, 受領有無$k$の順になっている点に注意!)。
$pr(y_{11}) - pr(y_{10})$を「因果リスク差」と呼ぶことにする。無作為割付していれば、$X$と$(Y_1, Y_2)$が独立だから、因果リスク差はリスク差$pr(y_1|x_1) - pr(y_1|x_0)$で推定できる。ただの観察でも、たとえば変数集合$S$の下で強い無視可能性であれば(=「$S$がSITA条件(strongly ignorable treatment assignment条件)を満たせば」=「バックドア基準を満たせば」)、$pr(y_1|x_1, S) - pr(y1|x_0, S)$の$S$の下での期待値でもって推定できる。
さて。Pearlは3つの「原因の確率」を提案している。
- 必要性の確率(Probability of necessity): $PN=pr(y_{00}| x_1, y_1)$。すなわち、「受領かつ購入」者が、仮に受領していなかったとして、購入していなかった確率。いいかえれば、受領が購入の必要条件になっている程度。
- 十分性の確率(Probability of sufficiency): $PS = pr(y_{11} | x_0, y_0)$。すなわち、「非受領かつ非購入」者が、仮に受領していたとして、購入していた確率。いいかえれば、受領が購入の十分条件になっている程度。
- 必要十分性の確率(Probability of necessity and sufficency): $PNS = pr(y_{11}, y_{00})$。すなわち、「仮に受領していなかったら購入していなかった」と「仮に受領していたら購入していた」の同時確率。これは、受領が購入に対する「実際の原因」actual causeとなっている程度を表している。
さらに、たとえば無能化の確率(Probability of Disablement): $PD = pr(y_{00}|y_1)$といった確率も定義できる由。
PNSの性質について考えてみよう。Xで場合分けしてみる。
$PNS=pr(y_{11}, y_{00}) = pr(y_{11}, y_{00}, x_1) + pr(y_{11}, y_{00}, x_0)$
第一項に注目すると、「$Y_1=1$である確率」とは「$X=1$であるときに$Y=1$である確率」だから、それと「$X=1$である確率」との同時確率はすなわち「$Y=1$である確率」だ(禅問答みたいですね)。よって$pr(y_{11}, y_{00}, x_1) = pr(y_1, y_{00}, x_1) = pr(y_{00} | x_1, y_1) pr(x_1, y_1) = PN \times pr(x_1, y_1)$。第二項も同様で、結局
$PNS=PN \times pr(x_1, y_1) + PS \times pr(x_0, y_0)$
つまり必要十分性の確率とは、必要性の確率に「受領かつ購入」確率を掛け、十分性の確率に「非受領かつ非購入」確率を掛け、足したものである。
このPN, PS, PNSは、(...途中に一か所、理解できない箇所があるんだけど...まぁとにかく)、因果リスク差が推定できれば、その存在範囲を求めることができる。
ランダム化試験の状況であれば、PNSの下限は$pr(y_1|x_1) - pr(y_1|x_0)$(それが負だったら0), 上限は$pr(y_1|x_1)$と$pr(y_0|x_0)$のうち小さい方、となるのだそうだ。えーと、PNSはリスク差よりも小さいことはないし、「受領者の購入確率」や「非受領者の非購入確率」よりも大きいことはない、ってわけね。
ではPNはどうなるかというと、その下限は$\{ pr(y_1|x_1) - pr(y_1|x_0) \} / pr(y_1 | x_1)$(もしそれが負だったら0)となるのだそうだ。この式をよく見ると... リスク差を「受領者における購入確率」で割ったもの。疫学でいうところの曝露群寄与危険度割合ではありませんか。
曝露群寄与危険度割合はふつう、「サンプル受領者における購入のうち、サンプル配布に起因する部分の割合」を意味する指標として解釈されている。でもその解釈はむしろ$PN=pr(y_{00}| x_1, y_1)$に対する解釈だ。ってことは、曝露群寄与危険度割合ってのは「受領者における購入のうち、受領に起因する部分の割合」を過小評価しているわけだ。どれだけ過小評価しているのか。図を延々と眺めてようやく得心したのだけど、$pr(y_{10}, y_{01})$だけ、つまり、「仮に受領していなかったら購入していた」と「仮に受領していたら購入していなかった」との同時確率のぶんだけ過小評価されている。これが0であることを単調性というそうだ。なるほどね、「ほっとけば買うがサンプルを渡すと買わない」奴はいないということか...
同じことが人口寄与危険度割合$\{ pr(y_1) - pr(y_1|x_0) \} / pr(y_1)$にもいえて、それが$PD=pr(y_{00}|y_1)$と一致するのは単調性の仮定が成り立っているときなのだそうである。えーと、ふつう人口寄与危険度割合は「購入者のうち、サンプル配布に起因する部分の割合」だと思われているけど、それは「ほっとけば買うがサンプルを渡すと買わない」奴がいなければの話だ、ということかな。なるほどー。
勉強になった、ような気がするが、すぐにわかんなくなっちゃいそうでもある...
論文:データ解析(2015-) - 読了:黒木(2014) 「原因の確率」とその評価
2015年2月19日 (木)
Chen, Y. & Pennock, D.M. (2010) Designing markets for prediction. AI Magazine, 31(4).
予測市場をはじめとした予測メカニズムについてのレビュー。
イントロ
- 予測のためのメカニズム・デザインには主に次のタイプがある: (1)予測市場, (2)ピア予測システム。後者はアウトカムがはっきりしない場合でも使える。
- 予測メカニズムの主目的は分散している情報を集約することだ。その重要な特徴として、表出性expressiveness(エージェントが柔軟に情報伝達できること)と流動性がある。また副次的目的として、誘因両立性、計算的扱いやすさ、個人的合理性がある。
スコアリング・ルール
- プロパー・スコアリング・ルールとは [...略]。
- 複数の予測を得たい場合はshared scoring ruleというのがある。[←M先生のレビューに出てきた「競争的スコアリング」のことらしい。Kilgour & Gershak(2004, Decision Analysis)。]
流動性とマーケット・メーカ
- オークションじゃなくてマーケット・メーカを使うと損失の可能性が生じるけど流動性が高まる。
- Hansonのマーケット・スコアリング・ルールについて。それはコスト関数ベースのマーケット・メーカと等価だ。例として対数スコアリング・ルールを使ったLMSRがある。なお、no-regret learningアルゴリズムとも深い関係がある[... よくわからんのでパス]。
- Chen & Pennock (2007) の効用ベース・マーケット・メーカ。
- Penncock(2004)のダイナミック・パリミュチュエル・マーケット[... DPMの説明、やっぱしよくわからん。困ったなあ]。
- 損失に上界があるか [...関心ないので略]。
- 現状ではLMSRがデファクト・スタンダードだが、流動性パラメータ(b)の決め方が難しい。bの値を徐々に変えていく提案もある(Othman et al., 2010 Proc.EC10)。
誘因両立性
- 予測メカニズムは一般に誘因両立性がない。たとえば連続的ダブル・オークションでは取引しない方が合理的だ(no tradeの定理)。ノイジーな投資家がいれば合理的投資家は取引するのが合理的になるかもしれないけど、依然として誘因両立性はないかもしれない。またMSRは近視眼的には誘因両立だが、ブラフで長期的に儲けようという発想もできる。
- メカニズム・デザインでいう誘因両立性とは、多くの場合、支配戦略誘因両立性のことを指している。いっぽう予測メカニズムでいう誘因両立性とは、ふつうベイジアン・ナッシュ誘因両立性だ[←真実申告がベイジアン・ナッシュ均衡になっている、という意味かしらん]。
- 予測市場で真実申告がゲーム理論的均衡になるかというと[...云々云々。このくだり、私には難しいので略]。
- 結果を意図的に操作する可能性とその対策について[...略。なにがなんだかさっぱりわかんないんだけど、Dimitrov & Sami (2010, Proc.EC10)というので、2つの市場が並行している状況のゲーム理論的分析をしているそうだ。ふーん]。
- ground truthがないときのピア予測手法について。その始まりはMiller, Resnick, Zeckhauser (2005 Mgmt Sci)[←読まなきゃ!!]。出来事を表す離散確率変数$\omega$について、その真の状態の下での確率分布からランダムドローされたシグナル$s$を、各エージェントが独立に受け取るとしよう。$\omega$の事前分布とシグナル$s_i | \omega$の条件付き確率分布が共有知識だとする。仮にエージェント$i$が$s_i$を真実申告していたら、リファレンスとなるエージェント$j$のシグナルについての$i$の事後確率$P(s_j|s_i)$を算出できるので、$j$の申告に従ったプロパー・スコアリング・ルールをつかって報酬を渡せる[...うむむむ...混乱してきた...]。こうすると、他の人が真実申告しているという前提の下で、$i$にとって報酬の期待値を最大化するのは真実申告だと言うことになる(ただしほかにも均衡がある)。この方向の提案として、Jurca & Faltings (2006, Proc.EC06)、Jurca & Faltings (2007, Proc.EC07)、Goel, Reeves, & Pennock(2009, Proc.EC09)がある。
- ピア予測手法は共通の事前分布が共有知識だという前提を持っている。いっぽうPrelec(2007)のベイジアン自白剤はもう少し弱い仮定を置いていて、事前分布は未知でよい。なおベイジアン自白剤では報酬が最後まで決まらないんだけど、Jurca&Flatings(2006)による提案もある(真実申告がベイジアンナッシュ均衡なわけじゃないけど、投票結果が真値に収束する)。
- 真実申告じゃなくて、代表的サンプルを抽出するメカニズム、という発想もある。Lambert & Shoham (2008 Proc.WINE08, 2009 Proc.EC09)。[←これも面白そう...]
表出性と計算的扱いやすさ
- 組み合わせビッドを許すと表出性が高まる。実施例もいくつかある。計算負荷は高くなるかもしれないけど。
- その特殊ケースとして... (1)boolean betting, (2)tournament betting, (3)permutation betting, (4)taxonomy betting. [あんまり関心ないのでパス]
...細かいところはちゃんと読んでないけど、読了にしておく。一番の収穫は、予測市場とベイジアン自白剤のようなタイプの手法とを、メカニズムデザインという視点から統一的に捉えているところ。勉強になりましたです。そうか、後者はピア予測システムって呼べばいいのか。
細かいことだけど、LMSRとかで使う「実現したら一ドル配当」型の証券のことをArrow-Debreu contractというらしい。へー。
論文:予測市場 - 読了:Chen & Pennock (2010) 予測メカニズム・レビュー
2015年2月13日 (金)
研究者の方々は論文をお書きになりますが(原則として)、たとえば実験なり調査なりをやっても、その結果をすべて論文にする(できる)とは限らないわけで、引き出しに仕舞われたままになる結果もある。
いま「魚を食べると頭がよくなる」という説があるとして、その説について調べた研究者のうち、支持する証拠を得た研究者は「やったぜ」とその結果を論文にし、支持する証拠を得られなかった研究者は「やれやれ、ぱっとしないな」と結果を引き出しにしまいこんだとしよう。人々は出版された論文を見渡して「なんということだ、魚を食べると頭がよくなるという証拠ばかりだ」と考えることになる。魚屋さんは嬉しい。でも社会にとって望ましいことかどうかはわからない。これを「引き出し問題」と呼ぶ、と私は前に習ったが、より広義に「出版バイアス」と呼ぶことが多いようだ。
Franco, A., Malhotra, N., Simonovits, G. (2014) Publication bias in the social sciences: Unlocking the file drawer. Science, 345, 1502-1504.
題名を見て気になっていたのだけど、たまたまPDFを拾ったので、お茶のついでに目を通した。
アメリカにTESS(Time-sharing Experiments in the Social Sciences)というプログラムがあって、国レベルの代表性のある調査パネルを確保し、応募してきた研究計画を厳正に審査した上で、合格した研究者に助成金を与え、質問紙調査による実験をやらせている由。へー。
TESSで走った研究249件を分析。うち113件が政治学、60件が心理学、ほかに社会学、経済学、コミュニーケション、公衆衛生、などなど。
で、ググってみたりメールで問い合わせてみたり、四方八方手を尽くし、結局その研究がどうなったかを追跡した由。酔狂というかなんというか...おつかれさまでした。{一流誌に載った、非一流誌に載った、本の章になった、書いたけど載らなかった、書かなかった、不明}に分類。
さらに、実験を分析した結果が統計的に有意であったかどうかを調べた。ここではその分析方法が正しいかどうかではなく、当該の研究者がどう思ったかが大事なので、分析をやり直したりはしない。{仮説を支持、不支持、混在、不明}に分類。
結果。仮説を支持しなかった研究の65%は論文を書かずじまいなのに対し、混在だと12%, 支持だと4%。強烈な出版バイアスである。なお、「書いた」結果だけに注目すると、{載らなかった, 非一流誌, 一流誌}と検定の結果は関連しない由。
「仮説が支持されず論文を書かなかった」人にそうした理由をメールで問い合わせ、返事を分類したところ、「面白いと思ったんだけど有意じゃないのであきらめた」が26人中15人、後回しにしてるだけですいずれ書きますと言い訳するタイプが9人、他のデータで書いちゃったもんねという人が2人、だった由。著者いわく、出版バイアスってのは研究者のモチベーションに起因する面も大きい、とのこと。
話は違うが、このTESSというプログラム、実査はGfKカスタムリサーチさんが一手にやっているんだそうだ。へぇー。面白いなあ。
いま日本のネット調査会社で、研究者向け割引というのを用意しているところが少なくないけど、なんのためにやっておるのか、と不思議に思う。いっそ院生さんにプロポーザルを出させて審査し、良い調査計画を選んで無料でやったげればいいんじゃないですかね。そのへんのスレた先生に割引価格でやらせるより全然いいと思います。きっと泣いて喜んでくれますよ、卓上カレンダーをダンボールで送りつけたら周囲に必死に配ってくれますよ。
論文:データ解析(2015-) - 読了: Franco, Malhotra, & Simonovits (2014) 社会科学における「引き出し問題」はどのくらい深刻か
Hansonの論文は難しくて手に負えなかったが、載ったのは予測市場の専門誌であった。Chen&Pennockのもちんぷんかんぷんだったが、人工知能系のカンファレンスであった。もう少し読者層が広そうな雑誌のほうがいいんじゃない? それに実験やっているほうが楽しくない?
Othman, A. & Sandholm, T. (2013) The Gates Hillman prediction market. Review of Economic Design, 17, 95-128.
... というわけで手に取った論文。アタリでした。ありがとう著者の人! 関係ないけど、ありがとうビル・ゲイツ!!
えーと、CMUにはGates-Hillmanセンターというのがある由。Gatesはもちろんビルさんのこと(スタンフォード大のコンピュータセンターもGatesビルディングじゃなかったっけ?)。調べたところによればHillmanというのはHenry Hillman財団の名に由来するそうで、ヘンリーさんとはどうやら大成功した投資家らしい。まあとにかく、予測市場Gates Hillman Prediction Market (GHPM) のご報告。ダブルオークション方式じゃなくて、マーケット・メーカ方式による実験である。
市場の概要は以下の通り。
- 通貨の代わりにチケットを使う。2500ドル分の賞品を用意。市場終了後、参加者に手持ちチケット数に応じた確率でランダムに賞品選択権を与え、賞品が尽きるまで繰り返すよ、という約束。
- 参加者はCMUの人。サインインしただけでチケットが20枚もらえる。ある週に1度でも取引したらチケットが2枚もらえる。
- 取引する証券は「コンピュータサイエンス学部のGates Hillmanセンターの移転が許可されるのはいつでしょう?」(もっと厳密な定義があるけど)。「2009/4/1以前」「2009/4/2」(...一日刻み...)「2010/3/10」「2010/3/31以降」の365銘柄。
- 市場開設期間は2008/9/4 - 2009/8/7。この最終日、移転が許可された由。
- 2009/4/1以降は紙くず株が生じたわけだが、取引停止にはしなかった。しかし価格はちゃんと下がった由(売りが殺到したということかなあ)。
- 参加登録者210名。参加者169名。注文総数39,482だが、実はその2/3はボットによるもの。
当たり株一株あたりの配当チケットは何枚ってことにしたの?と不思議に思っていたら、後述されるように実は話はもっとややこしくて、参加者としては任意の区間証券を売買している気分なのである。
LMSRマーケット・メーカを使用。さあ、著者の説明を伺いましょう。
えーとですね。マーケット・メーカはコスト関数$C$に従って動作する。コスト関数は、ベクトル$q$を「全参加者によるシステムへの総支払額」を表すスカラーへと変換する関数である。ベクトル$q$の要素は、それぞれのイベントが実現したときにシステムが参加者に配当しなければならない金額の合計である。
LMSRマーケット・メーカのコスト関数は:
$C(q) = b \log (\sum_i \exp(q_i / b))$
ただしbは市場開設時点で決めておく正の定数。大きくすると市場の流動性が高まる。つまり、この仕組みだと売れた証券の価格は高くなるのだが、その程度が小さくなる。GHPMでは$b=32$としたが、後で思うに、もっと大きくしておけばよかった、とのこと。
株価はコスト関数の勾配である。すなわち、銘柄$i$について
$p_i(q) = \exp(q_i / b) / \sum_j \exp(q_j / b)$
である。これを「値付けルール」と呼ぶ。この価格は出来事の生起確率の予測値と捉えることができる。
たとえば、「レッドソックスが勝つ」「ヤンキースが勝つ」の2証券の市場を考えよう。現状、もしレッドソックスが勝ったらシステムは5ドル払うことになり、ヤンキースが勝ったら3ドル払うことになっている。$q=(5,3)$である。
$b=32$とする。ただいまのレッドソックス株の株価は
$\exp(5/32) / \{\exp(5/32) + \exp(3/32)\} = 0.5156$
と表示される。
さて、いま、「レッドソックスが勝ったら1ドルもらえる」証券を新たに買いたがっている奴が現れたとしよう。この注文に応えると、コスト関数の値は $C((6,3)) - C((5,3))$だけ変化する。$b=32$として0.5195。つまり0.5195セントで売ることになる。
[↑あっ、そうか! ひと株の取引でさえ、取引価格は「値付けルール」で求めた株価とは違うのか! ということは、「値付けルール」の意義はあくまで販売数量を生起確率に変換するという点にあり、実際の価格決定は常にコスト関数の差をみなければならないわけか...]
さて、ここからはGHPMがご提供する特殊機能。365銘柄はさすがに多すぎるので、範囲で取引させる。
市場の状態を$\vec{q}^0 = \{q_1^0, q_2^0, \ldots, q_n^0 \}$とする。画面にはこれを値付けルールで価格に換えた面チャートが表示されている。参加者は区間$[s, t]$を選び、スライダーでリスク$r$を決める。すると、画面に次の選択肢が表示される。
- 買い注文。もしその期間が当たったら下式の$\pi_f$が配当される。
- 売り注文。その期間以外のすべてを買ったことになる。もしその期間が外れたら(=その期間以外のどこかが当たった)、$\pi_a$が配当される。
面倒なので$pi_f$の決め方だけメモ($pi_f$は中央の区間に、$\pi_a$は左側区間と右側区間に足す形になる)。見やすいように縦棒を入れた。
$C(q_1^0, \ldots, q_{s-1}^0, | q_s^0+\pi_f, \ldots, q_t^0+\pi_f, | q_{t+1}^0, \ldots, q_n^0) = C(q_0) + r$
なるほどね、リスクというのは区間証券の購入額のことか。なお、これは閉形式では解けないそうで、ニュートン法で解いたそうだ。
結果を紹介する前に、この市場のあんまり芳しくない特徴について。
- まず、価格(=予測確率)の面チャートを見ると、なぜかものすごいスパイクが現れている。つまり、理由はないのに、ある短い期間だけ発行枚数がどんと増えているのである。これは数理的にそうなっちゃうそうだ。
- どれだけ発行枚数が増えても流動性が変わらない。市場終盤に至っても、ちょっと売買しただけで価格が変わってしまう。これはちょっと変な感じだ。
よくわからんが、これは両方とも、LMSRの流動性係数$b$を一定にしていることの帰結なんだそうだ。
さて、実験の結果。
儲かった49名について調べたところ、3つの方略がみつかった。それにしても、ずいぶんノリの良い奴らだ。
- spike dampening方略。スパイクを狙って売る。
- relative smoothing方略。スパイクの合間の低いところを買う。
- information gathering方略。コンピュータサイエンス学部の博士課程に在籍しているElieくんは、工事現場に通いつめ、建築監理者の携帯の番号まで手に入れる苦労の末、発表当日朝に情報をつかんで今日の株を買いまくり、果たして取引成績100位付近から15位にまで急上昇した由。自分の研究しろよ...
では、市場自体のパフォーマンスはどうだったか。いろんな話が書かれているが、疲れてきたので、ここからは簡単に。
- 市場は移転日予定の公式発表や天気に反応した。
- サインアップの際、参加者に「あなたは平均的参加者と比べて自分がどのくらいsavvyだと思いますか」と5件法で聴取している。うーん、なんて訳せばいいんだろう。「取引がうまい」かな。回答は意外に謙虚で、かつ実際の成績とは関係なかった由。
- 一人当たり取引数の分布はべき法則に従った。
- なんと、ボットで取引する奴が現れた。APIも公開してなかったのに。作ったのはコンピュータ・サイエンス学部の院生ジムくんで、2日間かけてボットをつくり、現在の価格を混合正規分布にあてはめ、そこから外れている日を売り買いしやがった。ボットの成績は素晴らしく、一時は2位にまで上昇したが、2月14日の第二回予定日公式発表を機に彼は手動取引に戻し、以後ほとんどのチケットを失ったそうだ。残念でしたね。
- IEMの研究では、予測市場の好成績は少数のmarginal trader (鞘取りを狙う投資家)に支えられているのだそうだ。この仮説はGHPMでも支持された由 (6頁にわたって延々分析されているが、超面倒なので読み飛ばした。IEMとちがって各銘柄の確率分布が常に整合しているので、marginal traderを同定することさえ難しいのである)
まとめ。マーケット・メーカ方式のふたつの問題点があきらかになった。(1)価格のスパイクの出現。とはいえユーザ・インタフェイス次第かもね、とのこと。(2)流動性が変わらないこと。
長かった... 疲れた...。でも、期待した通り、LMSRの説明が素人にもわかりやすくて、助かった。
論文:予測市場 - 読了:Othman & Sandholm (2013) マーケット・メーカ方式で予測市場をやってみました@CMU
Chen, Y., & Pennock, D.M. (2007) A utility framework for bounded-loss market makers. Proc. 23rd Conf. on Uncertainty in Artificial Intelligence (UAI2007), 49-56.
きっとHansonという人の説明能力に問題があるんだと思って(すいません)、別の著者のを読んでみた。効用ベース・マーケット・メーカという枠組みをご提案します、という内容。要するにマーケット・メーカが自分が思うところの適正価格で値付けする(儲けようとは思わず、期待効用を常に一定に保とうとする)という、すごく単純なメカニズム(のように見える)んだけど、LSMRもこの一種として位置づけられるのだとか、なんとか、かんとか...。ノート取りながら必死に読んだんだけど、やはり途中で理解不能に。悲しい...なんでもっと頭のいい子に生まれなかったのか...
論文:予測市場 - 読了: Chen & Pennock (2007) 頭の悪い君にはわからんだろうがこれが効用ベース・マーケット・メーカだ
Hanson, R. (2007) Logarithmic Market Scoring Rules for Modular Combinatorial Information Aggregation. Journal of Prediction Markets. 1, 3-15.
対数マーケット・スコアリング・ルール(LMSR)をご提案します、という論文。仕事の都合で急遽読んでみたのだが、途中の理屈のところ、難しくてついていけない。悲しい...なんで文系に生まれちゃったんだろう...
追記:内容についてのメモをつくりました。
論文:予測市場 - 読了: Hanson(2007) 文系の君にはわからんだろうがこれがLMSRマーケット・メーカだ
2015年2月11日 (水)
Jain, A.K. (2010) Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 31(8), 651-666.
魅力的題名に惹かれて、MCMCが止まるまでの時間つぶしに手に取った。雑誌についてはよく知らないが、工学系でIF 1.06というのはきっとマイナー誌であろう。著者のなにかの会議での受賞記念講演をまとめたものらしい。
いくつかメモ:
- k-means法の話。
- k-means法ではふつうユークリッド距離を使う。マハラノビス距離を使うこともあるけど計算コストがかかる。ほかに、板倉-斎藤距離を使う例(音声処理で), L1距離を使う例、Bregman距離を使う例、がある由。[←知らんがな...]
- k-meansの拡張としては ISODATA, FORGY, ファジーc-meansが有名。ほかに、bisecting k-means, kd-tree, Bradleyらの巨大データへの拡張、x-means, k-medoid, カーネルk-means、がある。[←恥ずかしながら、初耳のが多い...]
- そのほかのクラスタリング手法:
- 密度が高い領域を分離するアプローチ: Jarvis-PatrickアルゴリズムとDBSCAN, 混合分布モデル, ベイジアンアプローチ(LDA, Pachinko Allocation, 無向グラフィカルモデル)。高次元に弱い。
- 下位空間クラスタリング: CLIQUE。
- グラフ理論アプローチ: minimum cut, ratio cut, normalized cut, MNCut, Ngらの方法, Laplacian Eigenmap, 決定論的焼きなましアルゴリズム, dominant sets アプローチ。
- 情報理論によるアプローチ。分割のエントロピーを最小化するアプローチ, information bottleneck法,。[←ほとんど理解できない]
- クラスタリングにおける難題:
- 特徴量をどうやって選ぶか。これはグルーピングの目的はなにかという点と密接に関連している。
- クラスタ数をどう決めるか。最小メッセージ長基準、最小記述長基準、AICやBIC、ギャップ統計量、ディリクレ過程でクラスタ数の事前分布を求める[???]、といった方法があるが、決め手はない。
- クラスタの妥当性をどうやって調べるか(仮に一様分布であっても複数のクラスタが得られちゃうわけだから)。3つの基準が挙げられる: 内的妥当性(クラスタ構造とデータの適合)、相対的妥当性(複数の構造を比べる)、外的妥当性(外的基準と比べる)。内的妥当性の指標のひとつに安定性がある。複数のサブサンプルを通じたクラスタリング解の分散のこと。
- クラスタリング手法の比較。
- アルゴリズムを結果の観点からクラスタリングするという試みもあって、やはりアプローチが近いと結果も似てくる。
- 理論的観点からは「手法」と「アルゴリズム」を分けて考える必要がある。たとえば「二乗誤差を最小化する」というのが手法、k-meansというのがアルゴリズム。ちがう手法が結局は等価、ということもある。
- まあとにかく、最良のアルゴリズムなんてない。
- 最近のトレンド:
- アンサンブル。k-meansをいっぱいやって結果を集約するとか。
- 準教師つきクラスタリング。must-linkとかcannot-linkとかを指定する、一部のデータにラベルをつける、などなど。例としてBoostClusterというのがある。
- 大データのクラスタリング。[いろいろ紹介してるけど省略]
- 多元クラスタリング。行列の行と列を同時にクラスタリングするとか。
- heterogeneousなデータ。グラフとして表現されているデータとか、動的データとか...
先生曰く、「たいていの応用場面では、本当に大事なのは最良のクラスタリング・アルゴリズムを選ぶことではない。むしろ、データの背後にあるクラスタリング構造を同定するための、適切な特徴抽出手法を選ぶことのほうがより重要である」とのこと。へへーっ(平伏)。
論文:データ解析(2015-) - 読了: Jain (2010) クラスタリング50年史
2015年2月 5日 (木)
Li, X., Song, Z., & Gray, R.H. (2004) Comparison of the missing-indicator method and conditional logistic regression in 1:m matched case-control studies with missing exposure values. Americal Journal of Epidemiology, 159(6), 603-610.
一対多マッチングしたケース・コントロール・デザインで、曝露変数に欠損があるとき、どうやって分析すればいいかシミュレーションで調べましたという、なんというか、風雅な論文。
仕事とちょっと関係あるかなと勘違いして印刷したのだが、よく考えてみたらまったく、全然、露ほども関係ないことに気が付いた。でも面白そうなので、眠気覚ましのコーヒーをすすりつつ、ついつい全部読んでしまい、さらにメモまでとってしまった。一体なにをやっとるのか。
データの作成。
曝露変数がひとつで二値の場面を考える。もしケースとコントロールが1:1マッチングになっていたら、これはもう、対応のある2水準の割合の比較、つまりMcNemar検定の世界だ。というわけで、ケースの曝露有無とコントロールの曝露有無の2x2クロス表を考える。
以下の3つのシナリオを用意する。
- シナリオ1. ケースの曝露確率(行和の割合)を0.3, 0.5, 0.7と動かす。コントロールの曝露確率(列和の割合)は、オッズ比が2,4,6となるように動かす。たとえばケースの曝露確率を0.5、オッズ比を4とする場合でいえば、コントロールの曝露確率をpとすると (0.5/0.5)/(p/(1-p)) = 4, これを解いてp=1/5である。こうして9通りのデータができる。なお、シナリオ1には交絡がない。
- シナリオ2。シナリオ1のコントロールの曝露確率(行和の割合)を固定し、「マッチングを考慮したオッズ比」も固定したまま、曝露コントロールとマッチしているケースの曝露率(上の行の中の左セルの割合)を、非曝露コントロールとマッチしているケースの曝露率(下の行の中の左セルの割合)の1.5倍にする。上の例だと、コントロール曝露下のケース曝露率を3/11, コントロール非曝露下のケース曝露率を2/11とする。このとき、「マッチングを考慮しないオッズ比」は1に接近するので(上の例では3.4)、これを負の交絡と呼ぶ。
- シナリオ3、正の交絡。シナリオ2の逆向き。「マッチングを考慮しないオッズ比」が1から離れる。
私の知識不足のせいだろうけど、ここで大いに混乱しました。
- ここでいう交絡とは、ケースの曝露とコントロールの曝露との間に連関があることなのである。しばし悩んだんだけど、マッチング変数が交絡変数になっているということ(つまり曝露有無とも罹患有無とも相関しているということ)と、ケースの曝露とコントロールの曝露との間に連関があるということは、等価なのかなあ。等価なんだろうなあ。
- 「マッチングを考慮したオッズ比」を固定する、というくだり。「マッチングを考慮しないオッズ比」とは2x2クロス表の周辺度数から求めたオッズ比であるのに対し、「マッチングを考慮したオッズ比」とは非対角2セルの比である。この点に納得するまでに時間がかかった。
すべてのシナリオで、1ケースに対して1コントロールがマッチしている場合と、1ケースに対して4コントロールがマッチしている場合を用意する。
ええと、データ生成の操作は、ケース曝露確率3 x オッズ比3 x シナリオ3 x マッチング2 = 54セルあるわけね。
で、つくったデータの曝露変数にぽこぽこと欠損を入れていく。つまり、曝露があったかなかったかわかんなくしてしまう。
欠損のタイプは以下の4種類。
- MCAR。全体を「参照群」とみなす。
- ケース依存欠損。ケースはコントロール(=参照群)より欠損率が50%{多い, 少ない}。
- 曝露依存欠損。曝露は非曝露(=参照群)よりも欠損率が50%{多い, 少ない}。
- ケース曝露依存欠損。曝露ケースの欠損率が他のすべて(=参照群)の欠損率より50%{多い, 少ない}。
上で定義した「参照群」の欠損率を、0.1, 0.2, 0.3と動かす。ええと、欠損タイプ2,3,4はそれぞれ「多い」と「少ない」があるから、欠損タイプは全部で7個、つまり欠損の操作は7x3=21セルあるわけね。
こうして用意したデータを条件つきロジスティック回帰で分析し、オッズ比を推定する。他に実データも分析するんだけど、そっちは省略。
従属変数を{ケース, コントロール}を表す2値変数, 独立変数を曝露有無, マッチングしたセットを層とする。欠損の処理の仕方は次の2通り。
- ケースの曝露変数が欠損している場合、ないしコントロールの曝露変数が全滅している場合に、マッチングしたセットごと抜く。これがStataとかSASのphregとかのデフォルトなのだそうだ。
- 欠損指標法。欠損を0で埋め、かわりに「曝露変数が欠損してましたぜ」フラグ Z をモデルに投入する。
全8頁の論文の、ここまでで2.5頁。疲れたのでここからは簡単に。(本文中でオッズ比4は対数オッズ比で1.89だと書いてるけど、1.39でしょう... おかげでしばし悩みましたよ先生)
まず、欠損がMCAR、ケース依存、曝露依存の場合。交絡がなければどっちでもあまり歪まない。負の交絡があると推定値は低めに、正の交絡があると推定値は高めに歪む。このとき欠損指標法のほうがちょっと歪みが大きいが[←へぇー]、検定力はちょっと上がる。著者曰く、欠損指標法を使うときは気をつけろ、とのこと。
なお、コントロールが多いほうが歪みが大きい[←これもちょっと意外。そういうもんなんですか?]。
ケース曝露依存欠損の場合、推定値は欠損率増大につれて歪みまくり、使い物にならない。[←それはそうでしょうね。ケーキを始終食っているデブに限り調査に協力してくれなかったら、調査非協力をモデル化しないかぎり、ケーキと肥満の関連はわからなくなるだろう]
とかなんとか...
論文:データ解析(2015-) - 読了: Li, Song, & Gray (2004) マッチングのあるケース・コントロール・デザインの条件付きロジスティック回帰で曝露変数に欠損があったら除去すべきか0埋めしてフラグを立てるべきか
2015年2月 4日 (水)
準備中の資料の役に立つかと思って, Ciniiで探して片っ端から目を通したもの;
黒田重雄 (2014) マーケティングを学問にする試み : マーケティングはマーケティング・リサーチのことである. 北海学園大学経営論集, 12(2),141-159.
丸山一彦 (2006) 商品企画におけるマーケティングリサーチの問題点に関する研究. 成城大學經濟研究, 172, 33-55
栗木契 (2007) 構想としてのマーケティング・リサーチ. 国民経済雑誌, 95(5), 39-57.
マーケティング・リサーチの話なのだが、論理実証主義批判からはじまって(哲学史の本以外の場所で「論理実証主義」という言葉が出てきたら9割方悪口である)、ポパーとラカトシュを経由し、しまいにはクリプキとか出てきます。すごいな。
論文:マーケティング - 読了: 紀要論文に垣間見るさまざまな人生
調査だか実験だかの参加者に刺激 P と Q を提示し、それぞれに対してなんらかの反応を得た。反応の分布を比べたとき、PとQのあいだに統計的に意味のある差はあるか。
反応が量的ならば、分布の平均に注目し、いわゆる「対応のある二水準」のあいだの平均の差の検定を行うことが多いだろう。手法としていちばんポピュラーなのは t 検定である。反応が二値ならば、(仮に反応を{0,1}とコード化したとして)各刺激に対する1の割合に注目し、「対応のある二水準」の間の割合の差の検定を行うことが多いだろう。McNemar検定が広く用いられている。
では、刺激が3つ以上あったらどうか。反応が量的ならばANOVAを用いることが多い。反応が二値の場合はCochranのQ検定を行うことが多いだろう。しかしこれらはオムニバス検定、すなわち、K個の水準のあいだの「どこか」に差があるといえるかどうかを調べている検定である。「どこ」に差があるのかを調べるためには別の手法が必要だ。
K個の水準から2つを取り出す全てのペアに関心があるとしよう。反応が量的である場合については、多重比較法と呼ばれる手法がたくさんあり、良い解説もたくさんある。問題は反応が二値の場合だ。いちばん簡単に思いつくのは、McNemar検定をすべてのペアについて繰り返す方法だが、ファミリーワイズの第一種過誤(Type I FWE)が増大する。そこで思いつくのは、Bonferroni法かなんかでp値を調整しちゃう、という手である。ちょっといま手元にないのだけれど、この手法を推奨している参考書が多いんじゃないかと思う。しかし、ちょっと不思議ではありませんか? Bonferroni型の調整手法は汎用的な手法であって、個別の課題においては必ずしも最適でない。反応が量的な場合なら多重比較法はよりどりみどりなのに、反応が二値になると急に品揃えが悪くなっちゃうわけ?
手元の本を探してみたところ、困ったときの助け神、森・吉田本には、McNemar検定とRyan法を併用しろ、と一行だけ書いてある。森・吉田本は他の箇所でもRyan法推しなのである。Ryan法ってなに? わたくし、それってTukey-Welsch法の別名なんじゃないかと疑っているのだが、詳しいことはわからない。SASやSPSSのANOVAの機能には多重比較法としてREGW法というのが搭載されてるけど(REGWQとか)、あれとの違いもよくわからない。
泣く子も黙る権威、AgrestiのCDA本は、章末の注でWestfall, Troendle, & Pennello (2010) を参照せよと書いている。私はこの本のいうことは頭から信じることに決めている。だって高かったんだもん。私費で買ったんだもん。
正直言って、細かい話だと思う。もし私の好き勝手が許されるならば、検定しないで済ませる方法を全力で考える。いかんともしがたい場合は、McNemar検定を繰り返し、Type I FWEが増大してますけどそれがなにか? と開き直る方法を考える (←冗談ではない。これがもっとも正しい態度である場合も少なくない)。それがだめでも、細かいことを考えるのはうんざりなので、反復測定データのロジスティック回帰だかGLMMだかGEEだかに持ち込み、推定したパラメータをTukey法かなにかでツルッと多重比較することを考える。
しかし、娑婆は細かい話であふれておりまして...
Westfall, P.H., Troendle, J.F., & Pennello, G. (2010) Multiple McNemar Tests. Biometrics, 66(4), 1185-1191.
そんなこんなで、仕事の都合で読んだ。Agresti先生ご紹介の、McNemar検定を多水準に拡張して多重比較する手法についての論文。単にBonferroni法やSheffe法で調整するよりも良い方法をご提案します、とのこと。具体的には、検定は正確McNemar検定、多重比較の理屈はHolm法だと思う。
多重比較には疎いので、よくわからない箇所も多いんだけど...
まずは二群のケース。
IIDな二変量ベルヌーイ試行系列$(Y_{i1}, Y_{i2})$について考える。平均ベクトルを$(\theta_1, \theta_2)$とする。帰無仮説 $H: \theta_1 = \theta_2$について正確検定しよう。
$Y_1$と$Y_2$の同時確率分布を$\theta_{00}, \theta_{01}, \theta_{10}, \theta_{11}$とする。以下、$H$の下での非対角セルの確率を$\theta_d = \theta_{01} = \theta_{10}$とする。
$H$の下で、2x2クロス表の非対角セルの観察頻度の和を $N_d = N_{01} + N_{10}$としよう。$N_d=n_d$のときの$N_{01}$の条件分布は、言うまでもなく$B(n_d, .5)$だ。$N_{01}$の実現値が$n_{01}$だったとしよう。$B_{n_d, .5} \sim B(n_d, .5)$として、p値は
$p(n_{01}, n_d; upper) = P(B_{n_d, .5} \gt n_{01})$
$p(n_{01}, n_d; lower) = P(B_{n_d, .5} \lt n_{01})$
$p(n_{01}, n_d; two) = 2 \min \{ p(n_{01}, n_d; upper), p(n_{01}, n_d; lower) \}$
どれでもいいけど、とにかくMcNemar検定において、p値は$n_{01}$と$n_d$の関数として決まるわけである。
多重比較に拡張します。
仮説を$H_1, H_2, \ldots, H_m$とする。仮説$l$に対応するデータを$\{ y_{i1}^{(\ell)}, y_{i2}^{(\ell)} \}, i=1, \ldots, n^{(\ell)}$とする。仮説のあいだでデータが重複しているかどうかは問わない。個々の仮説について正確McNemar検定をしたときの、$m$個を通したFWERを制御したい。
もし$m$個の仮説のなかに真の仮説がなかったら、タイプIエラーもないことになるから、まあひとつは真の仮説があるとしよう。真の仮説の集合を$I$として、
FWER($I$) = sup $P$(Reject $H_l$ for some $\ell \in I$)
ただしsupは上限を表す記号。
実際にはどの仮説が$I$に属しているのかわからないわけだけど、それがどれであってもFWER($I$) $\leq \alpha$ となるようにしたいものである。こういうのをstrong controlという。これに対して、すべての仮説が真であったときにFWER($I$) $\leq \alpha$ となることを weak controlという。以下ではstrong controlについて考える。
仮説の論理積を表す仮説(つまり「どこにも有意差がない」仮説) $H_I = \cap_{\ell \in I} H_\ell$の検定統計量について考える。ある仮説$\ell$のp値を$p(N_{01}^{(\ell)}, N_d^{(\ell)})$として、
$T_I (N^+_I) = \min_{\ell \in I} p_\ell (N_{01}^{(\ell)}, N_d^{(\ell)})$
$N_I = \{N^{(\ell)}_d | \ell \in I\}$が与えられれば、この検定統計量について、Type I Error率が$\alpha$以下になるような臨界値$c^\alpha_I(N_I)$を定めることができる由(詳細略)。
検定統計量の棄却域を決めるより、対応するp値をつくったほうが楽である。すなわち:
$\tilde{p}_I (n^+_I) = \sum_{\ell \in I} P_{H_\ell} \{ p_\ell (N_{01}^{(\ell)}, N_d^{(\ell)}) \leq T_I (n^+_I) | N_d^{(\ell)} = n_d^{(\ell)} \}$
このp値を使ってdiscrete Bonferroni-Holm法を用いる由。知識不足でちょっと理解できないのだが、すべてのp値を大きい順に並べてステップダウン、仮説集合の p 値として上の式を使う... ということだろうか。ほかにブートストラップを使った手法も提案しているが、そちらは力尽きたのでパス。
後半は数値例とシミュレーション。パス。
どうでもいいけど、大文字のアイと小文字のエルを併用するのはやめてくださいな、先生。しょうがないので後者はわざわざ$\ell$と書いた。
読んだはいいけど、実際の計算はなにでどうやればいいかしらん。SASでもRでも、まるごとの実装はみあたらなかった。WestfallさんってSASのMULTTESTプロシジャやRのmultcompパッケージの開発者だと思うんだけど。見落としてるのかな。
論文:データ解析(2015-) - 読了:Westfall, Troendle, & Pennello (2010) 多重マクニマー検定
2015年2月 3日 (火)
岩崎祐貴, 折原良平, 清雄一, 中川博之, 田原康之, 大須賀昭彦 (2015) CGMにおける炎上の分析とその応用. 人工知能論文誌, 30(1), 152-156.
ネット上の「炎上」を機械学習で予知するという研究。第一著者は現在サイバーエージェント所属の若い方。
内容メモ。数式によくわからない箇所があって、表記を勝手に少し変えてます。失礼をお許し下さいませ。
著者らいわく、ネット上の炎上は犯罪自慢型、Struggles between conflicting values型(「価値観押しつけ」型, SBCV型)、暴露型の三タイプにわけられる。このうちSBCV型の炎上の予測を試みる。具体的にはtwitterの分析である。
まず、ある所与のトピックについての世評を動的に数値化する方法を考える。時点$t$におけるトピック$I$についてのtweetの総数を$A_I(t)$とする。これを辞書マッチングによって肯定$P_I(t)$, 否定$N_I(t)$, 中立$E_I(t)$に分類する。期間$T$における話題$I$の日次極性を
$DP_{I,T}(t) = \{ P_I(t) - N_I(t) \} / \{ \sum_{i \in T} A_I(i) \} $
とし、これを$T$における最大値で割って $NDP_{I,T}(t)$とする。呟きが炎上するのはその極性がその時点での世評の蓄積と対立しているからだろう、というわけで、過去のNDPの影響を積分した値を持つ指標「割引累積日次極性」DCNDPを定義する。ここの式がよくわからないんだけど、たぶん
$DCNDP_{I,T}(t) = \sum_{i=1}^{\infty} 0.95^{i-1} NDP_{I,T}(t-i)$
という主旨なのであろうと思う。0.95というのは忘却を表す係数。
つぎに、炎上ツイートを集めるモデルをつくる。SBCV型で炎上したといえる呟き(A)を人力で20件収集。当該の呟きをしたアカウントの2013年上半期の呟きを収集。各アカウントの被RT数の40倍を超えた呟き(B)は123件[どうやらここにはAは含まれていないらしい]。うち17件が炎上している[ちょ、ちょっと待って、ではBでいう炎上の定義は???]
A20件+B123件=計143件、うち炎上37件。これを学習データとし、決定木(WekaのJ48)に放り込む。説明変数は、アカウントのフォロー数、フォロアー数、平均非RT数とこの正規化、平均非Fav数とその正規化、平均ツイート数(正規化)、当該発言の極性、味方率(当該発言をリツイートした人におけるフォロアーの割合)、有名人か(アカウントがWikipediaに載ってるか)。できた決定木をみると、たとえばフォロアー数11755以下のアカウントの味方率11%以下のツイートは22件中22件が炎上、だそうだ。ひゃー。
さて、日本のフォロアー数ランキング上位5000アカウントについて、学習データと同じ手順で1533件を収集、ブログ更新情報などでない235件(C)をテストデータにして上の決定木にあてはめると、炎上しているはずのツイートが24件。「真の炎上tweetについて調査したところ、適合率100%、再現率93%であった」とのこと。[←ここもよくわからない。真の炎上tweetはどう定義したのか]
上のモデルでは「味方率」という説明変数が効くんだけど、これは投稿前にはわからないので、投稿時点のDCNPDに取り換えてモデルを組みなおす[←あ、そういう筋なのね... DCNPDがいつ使われるのかわからず混乱した]。こんどはA+B+Cの378件のなかから53件(うち炎上22件)を抽出し、J48に食わせたところ、発言の極性とDCNDPだけを使う単純な決定木となった。予測精度94%。
興味深い内容であった。大変勉強になりました。
提案手法の使い方として想定されているのは、有名人のクライアントが投稿する瞬間に炎上確率を予測し警告する、というような用途ではないかと思う。無名の高校生がバイト先の冷蔵庫に入った写真を投稿して炎上、というようなのは視野の外にある。
感想:
- 用いたデータはすべて一定の被RT数を持っているようだ。でも被RT数は投稿時点ではわからないわけで、被RT数で絞らないテストデータに対する予測成績が知りたいなあ。
- 2個目のモデルでは「ジェンダー・政治思想・宗教・社会/国際問題をトピックとして持たないもの」を選んでいるんだけど、世間の「価値観押しつけ型」炎上のうち、それらがトピックでない事例はどのくらいあるのかしらん。
この研究によれば「価値観押しつけ型」炎上は投稿内容と世評のposi-nega極性のズレなわけだ。価値観の対立ってのは、発言のposi-nega極性で表現できるような単純なものかなあ? と疑問に思う面もある。
北朝鮮の拉致被害者が帰国した頃、評論家の故・栗本薫さんが「被害者の方々の北朝鮮での苦難の日々のなかにも、それぞれの豊饒な生があったのではないか」という意味のことを発言して大炎上したことがあった。しかし、おそらく「拉致被害者」についての世評の極性はpositive, この発言の極性もやはりpositiveだろう。極性のズレでは説明がつかない例だ。
いや待てよ、栗本さんの発言は「被害者の人生は悲劇ではない」という形で流通して叩かれていたような気もする。この形なら、なるほど、辞書マッチング的な意味での極性がズレているわけだ。炎上なんて案外その程度に単純な、言葉尻の問題なのかもな、と思う面もある... うーむ。