« 「ベイジアン自白剤」メモ | メイン | 読了:櫻井 et al. (2012) クラウドソーシングで品質の主観的自信を正直に報告させるメカニズム・デザイン »
2014年5月 1日 (木)
"Bayesian Truth Serum"をwebで検索すると、もちろんいっぱいヒットするけど、日本語のページはほとんど見当たらない(このブログが上のほうに出てくる始末だ)。なぜだろう。誘因整合性やメカニズム・デザインにご関心をお持ちの方は日本にも山ほどいるだろうに。調査のメカニズム・デザインなんて、やはり周縁的な話題なのだろうか...
Weaver, R. & Prelec, D. (2013) Creating truth-telling incentives withthe Bayesian Truth Serum. Journal of Marketing Research, 50(3), 289-302.
2004年のScience論文以来、Prelecさんはベイジアン自白剤(BTS)を引っ提げていろんな分野に乗り込んでいるようだが、これはその市場調査版。先生は心理学者だが、お勤め先はビジネススクール(MIT Sloan)だから何の不思議もない。
BTSというのは要するに、対象者の個々の回答に「それを最大化するためには正直に答えるしかないスコア」を割り振る手法である。回答を求めるついでに、この質問に他の人はどう答えると思いますかと尋ね、この2つの答えからスコアをはじき出す(この論文でもその理屈を縷々説明しているのだけど、やっぱりわかりにくい...)。もともとの提案では、BTSは情報スコアと予測スコアの2要素からなるのだけれど、この論文はその肝となる情報スコアのほうだけを扱っている。
えーと、研究の背景。BTSを支持した報告としては Barrage & Lee (2010, Economics Letters), John, Loewenstein, Prelec (2012, Psych. Sci.) がある。いっぽう疑念としては以下が挙げられる: 想定が非現実的だ;情報スコアが正直さに報酬を与えているからといって、それが正直さを引き起こすかどうかは別の問題だ(←そうですよね); データの質の向上が複雑さの増大に見合うとは限らない。本論文ではこれらの疑念にお答えいたします。
実験は5つ。使う課題はブランド名などの再認実験で、リストのなかに妨害項目(実在しない名称)がはいっている。こういう課題、元はPhillips & Clancy (1972, Am.J.Sociology)まで遡れるが、直近のではPaulhusらの手続きを参考にした由。うーん、調査参加者の誠実さを再認課題で測るという発想であれば、もっと昔からあるような気がするけど。
実験1。
一般的知識についての調査を行う。歴史上の人物など6カテゴリについて、実項目を47個, 妨害項目を24個用意。各項目について、知っているかどうかと、他の人がどのくらい知っていると思うか(0%から100%までの11件法)を回答する。
対象者133人。要因は2x2の被験者間デザイン。
- truth-tellingインセンティブ。BTS条件では、MITの教授が開発してサイエンス誌にも載った手法で回答の正直さをスコアリングします、上位1/3に25ドルあげます、と教示。全項目への回答後に情報スコアの合計が表示される(ほんとは調査が終わるまで算出できないから、パイロット調査で出したスコアを使う)。統制条件では、ランダムに選んだ1/3の対象者に25ドルあげます、正直に答えてねと教示。回答後にランダムな値を表示する。
- deceptionインセンティブ。overclaiming条件では「知っていると答えた項目ごとにさらに10セントあげます」と教示。統制条件では教示なし。
結果:実項目への正再認率は、コントロールで58%, overclaimのみで71%、BTSのみで57%。BTS+overclaimでも57%。妨害項目の虚再認率は、順に20%, 42%(この欲張りどもめ), 14%, 14%。というわけで、truth-tellingインセンティブは効き、overclaimngインセンティブの効果を消す。
反応を従属変数、項目タイプ(実/妨害)と2要因を放り込んだ回帰もやっていて、3つの主効果のほかに2要因間の交互作用も有意だった由。細かいことだけど、これ、データの行をは対象者x項目タイプ、従属変数は再認反応率、であろう。そんな分析でいいのだろうか? 行を対象者x項目、従属変数を二値反応にして対象者番号を投入したロジスティック回帰をやるとか、行を対象者、従属変数をROCのd-primeのような成績指標にして条件間比較するとかにしないといかんのではなかろうか。記憶の研究してる方は昔からそういうのにうるさいと思うのだが... この掲載誌はあまり気にしないほうなのだろう。
4条件のそれぞれについて、Hit, Miss, False Alerm, Correct Rejection (論文ではこういう言い方はしてないけど) について、情報スコアの平均を算出。たとえばBTSのみ条件では、順に+0.16, +0.08, -0.99, +0.34。情報スコアはtruth-tellingと整合している、との仰せである。Missの情報スコアが正になってますけどね...。
実験2。実験1は結局のところ教示の効果を調べただけであった。今度は情報スコアをフィードバックする。
対象者117名。60項目、うち20項目が妨害。要因計画は実験1と同じ2x2だが、報酬がちょっと違う。
- truth-tellingインセンティブ: BTS条件では(情報スコアx1.5)ドル。統制条件では項目あたり25セント(ってことは15ドルか)。
- deceptionインセンティブ: overclaiming条件では、「知っている項目ごとにさらに25セントあげます」と教示。統制条件では教示なし。
項目に反応するたびにフィードバックがでる。BTS条件では、「知っている」「知らない」両方の情報スコアと、当該対象者の獲得額が表示される。この情報スコアはほんとに、この実験の当該セルでそれまでに集めたデータで算出したのだそうだ(最初のほうの対象者に出すスコアを求めるために、各セルでプレ実験を10人やった由)。凝りましたね。
結果: 再認率は実験1を再現。おっと、今度はデータの行を対象者x項目にしたロジスティック回帰をやっているぞ。実験1ではなぜそうしなかったのかしらん。ひょっとして、ローデータを失くしちゃったとか、そういうプラクティカルな理由かしらん。
BTS条件下の報酬は、実項目では「知っている」が正、妨害項目では「知らない」が正となり、truth-tellingと整合している。さらに、系列位置の効果をみると、BTS+overclaim条件下でのみ、虚再認率が次第に減る。つまり、フィードバックを通じて対象者はtruth-tellingが報われることを学んでいる。BTSのみ条件でそうならないのは、最初から信じちゃうからだろう、とのこと。楽観的なご意見だ。
なお、この実験では情報スコアを被験者ごとに再計算したわけだが、その値はだいたい安定していた由。
BTSで嘘つきを同定できるだろうか? というわけで、個人ごとにROCでいうd-primeを出し情報スコアと比較すると、相関がある由。情報スコアが特に低い人の例: 実在しない映画"The Deli"を知っていると答え、"The Big Lebowski"(コーエン兄弟のコメディですね。観てないけど)を知らないと答えている。実在しないラム酒"Oronoco"を知っていると答え、"Jim Beam"を知らないと答えている。
実験3。対象者27人。実験2のBTS条件と同じだが、教示を変える。BTSについて一切説明せず、単に報酬額だけをフィードバックする。また、全セルで2問目の予測質問を省略する(BTSは実験2のスコアを借用する)。ああ、これは面白い実験だなあ。
結果: データの行を対象者x項目、従属変数を回答、独立変数を{系列位置、項目、系列位置x項目タイプ}にしたロジスティック回帰で、系列位置と項目タイプの交互作用が有意。妨害項目では再認反応率が系列位置とともに減少する。つまり、情報スコアのフィードバックのせいで虚再認が減少している、とのこと(チャートをみると、実項目の正再認率も少し減少しているのだけれど)。セッションの最後の1/4だけについて、実験2(BTSのみ条件、統制条件)と実験3を比べると、正再認率は有意差なし、虚再認率は統制条件に比べて低い。
実験4。他の truth-telling メカニズムと比べてみましょうという主旨。どんなのがあるでしょうか、とここで急に先行研究レビューになって、
- Jones & Sigall (1971, Psych.Bull.) の"bogus pipeline"。あたかもポリグラフみたいにみえる装置をつけて、ウソついたらわかっちゃいますよと教示するのだそうだ。ははは。ちょっと検索してみたら、これは有名な手法らしく、93年にメタ分析の論文が出ている模様(Roese & Jamieson, 1993, Psych.Bull.)。
- "audio computer-assisted self-interviewing"。ヘッドホンから質問が流れてきて、キー押しで回答する。回答者の匿名性が保証される由。よくわからないんだけど、どうやら通常のCAPIとちがい、なににどう答えているか調査員にわからない、という主旨らしい。社会的望ましさバイアスが除去できるだけで、真面目に答えてくれるかどうかは別の問題である。
- "solemn oath"。神聖な誓約、とでも訳せばいいのかしらん。調査参加の前に、正直に答えますという誓約書にサインさせる。馬鹿みたいだけど、効き目があるという報告がある由。まじか。Jacquemet et al.(2009, Working Paper)というのが引用されている(論文化されている模様。2013, J. Env. Econ. & Mgmt.)
というわけで、BTS条件と誓約書条件を比べる。両方ともoverclaimingのインセンティブをつける。対象者70人。BTS条件の報酬は、情報スコアを金額にしたもの。さらに再認ごとに15セント。実験2と同様、情報スコアはリアルタイムに算出。誓約書条件は、項目あたり10セント、さらに再認ごとに15セント。
結果: BTS条件では正再認率54%, 虚再認率21%。誓約書条件では72%, 52%。実験1のコントロール条件(58%, 20%)と比べると、誓約書はあまり効いていないのに、BTSは効いている、とのこと。うーん、こういうときこそ対象者ごとのd-primeを比較すべきだろうに。
実験5。BTSを非市場財の価値評価に適用しますという主旨。他にどんな方法があるでしょうか、とここでまた先行研究レビューになって、
- ただのcontingent valuation (支払意思額の直接聴取のことであろう)。
- 聴取の前に、この質問への回答はふつうインフレになるんですよね、と教示する。効くかどうかは諸説ある由。
- 結果をなんらかの関数でキャリブレーションする。財や文脈によって関数が異なり、うまくいかない。
というわけで、実験。対象者114名。National Endowment for the Artsという連邦機関に寄付すべきかどうかの投票を求める。以下の4条件を比較する。
- real条件。賛成派が勝ったら、対象者ひとりにつき4ドル、実験者が寄付する。反対派が勝ったら、対象者全員に4ドルあげる。
- hypotetical条件。real条件と同一だが架空の設問だと教示する。
- BTS条件。BTSについて説明し、情報スコアのぶん支払うと教示。
- 訓練つきBTS条件。事前に実験1-4みたいな再認課題をやってもらい、情報スコアをフィードバック。なお、BTSで事前訓練をした例としてはBarrage & Lee(2010, Economic Letters)がある由。
結果: 寄付賛成率は順に44%, 76%, 47%, 50%。BTS条件はreal条件に近い。(real群44%ってことは、参加者に4$配ったのだろうなあ...)
考察。
- そもそもuntruthfulnessには次の3つがあるだろう。(1)intentional deception。(2)carelessness。(3)inauthenticity (社会規範etc. によるバイアス)。本研究で、BTSは再認課題におけるoverclaimingインセンティブの効果を消した。つまりBTSは(1)に効く。また、overclaimingインセンティブがない状態でも、BTS条件は統制条件より成績が良かった。つまりBTSは(2)か(3)か、ないし両方に効く。BTS条件のほうが回答に時間がかかっていたから(おいおい、その話はここではじめて出てきたぞ)、(2)に効いたのかもしれない。それに、(3)は完全に無意識的な面もあって、そういうのはインセンティブでどうにかなるものではないだろう。なお、Paulhusは社会的望ましさバイアスを印象形成と(自尊心維持のための)自己欺瞞にわけていて、後者は社会的望ましさの必要性が変わっても影響されないと考えている。
- 理論的には、BTSのために必要とする2問(回答と他者回答予測)のうち、他者回答予測のほうが少数の対象者だけでかまわない。
- BTSのその他のメリット: 調査回答前に製品を使ってこいという宿題を出すような場合、BTSのせいで宿題実行率が上がりそうだ; 競争の要素が調査に含まれることで調査参加が楽しくなるかも; 良い回答者を選べるかも; フィードバックすることで回答の質が上がるかも。
やれやれ、面倒な論文であった。個別の実験はしょぼいし(特に実験1)、分析もあまりエレガントでないのだが、手を変え品を変えて実験を重ねているところがすごい。
ベイジアン自白剤のしくみについて、まだよく理解できない箇所があり... 元のScience論文を読み直したり他のをあたったりして、延々思い悩んでいる。辛い...
論文:予測市場 - 読了:Weaver & Prelec (2013) ベイジアン自白剤 in 市場調査