読書日記: 2014年5月アーカイブ

« 2014年4月 | メイン | 2014年6月 »

2014年5月28日 (水)

Carlson, B.D., Suter, T.A., Brown, T.J. (2008) Social versus psycholoical brand community: The role of psychological sense of brand community. Journal of Business Research. 61, 284-291.
　先日唐突に訪れたベネディクト・アンダーソン「想像の共同体」の一大ブームのあおりで、「読みたい資料」の山に追加したもの。整理のためにぱらぱらめくっていて、気になってつい最後まで読んでしまった。

　最近のブランド研究では、みなさんブランド・コミュニティに注目しておられますが(Muniz&O'Guinn(2001)が提唱した、ブランドを中心としたコミュニティとでも呼ぶべき現象のこと。企業が構築するブランド・ユーザ・コミュニティのことではない)、実際にメンバー間の相互作用があるコミュニティだけではなく、相互作用を伴わない、単なる想像されたコミュニティも大事なんですよ。という主旨の調査研究。
　以下、実際に社会的相互作用を伴うタイプのブランド・コミュニティを社会的ブランド・コミュニテイ、単にメンバーがコミュニティの感覚を持っているというだけで実際には社会的相互作用は起きていないタイプのブランド・コミュニティを心理的ブランド・コミュニティと呼ぶ。

　Muniz&O'Guinnはブランド・コミュニティの構成要素として、意識の共有、儀式の共有、道義的責任可能性の3点を挙げている。でも心理的ブランド・コミュニティにおいてはこの３つは必須でない。ここの説明、大事なのにさらっと書かれているので訳出しておくと、

たとえば、心理的ブランド・コミュニティのメンバーはそのブランドの他のユーザが存在することを知っているが、自分たちを内集団の一部として分類したり外集団と区別したりしているとは限らない。コミュニティの感覚の背後にある起動力(impetus)は、コミュナルな関係や意識の共有ではなく、ブランドである。さらに、共有された儀式と伝統はコミュニティの文化を維持し適切な振る舞いの規準を提供する助けになるだろうが、心理的コミュニティにおいては必須でない、なぜなら社会的相互作用は生じないかもしれないからである。最後に、道義的責任可能性の感覚は社会的ブランド・コミュニティにおいては見つかるだろうが、心理的ブランド・コミュニティとはあまり関連していない。それ[道義的責任可能性の感覚]が表しているのは「コミュニティ全体に対する、そして個々のメンバーに対する、義務・責務の感覚」(Muniz & O'Guinn, 2001, p.413)である。これらの責務の下にあるのは、ブランドの使用を助けることと共に、メンバーを統合し維持することであろう。[いっぽう]心理的ブランド・コミュニティは、本質的に、そのconstituents[メンバーのこと?]によって持続されるような実体ではない。

　。。。うーむ。まあとにかく、著者らは、従来のブランド・コミュニティってのは社会的ブランド・コミュニティのこと、それに対して心理的ブランド・コミュニティはもっと広い概念だと考えているわけである。

　で、著者らいわく、従来指摘されていたブランド・コミュニティのベネフィットは、心理的ブランド・コミュニティにおいても得られる。つまり、大事なのはブランド・コミュニティという心理的感覚 (PSBC)、すなわち「ある個人が他のブランド・ユーザと関係的な絆を知覚している程度」である。

　というわけで、因果モデルを作ります。
　PSBCを生みだすのは、ブランドそれ自体への自己同一化、そしてそのブランドのユーザ集団への自己同一化であろう。なお、自己同一化については認知的に捉え、自己スキーマと対象スキーマの重複の程度とみなす。というわけで、
　　H1. ブランドとの自己同一化はPSBCにポジティブな影響をもたらす。
　　H2. ブランドのユーザ集団との自己同一化はPSBCにポジティブな影響をもたらす。
　リレーションシップ・マーケティングでは関与(commitment)が大事だといわれている。関与をもたらすのはきっとPSBCであろう。というわけで、
　　H3. PSCBはブランド関与にポジティブな影響をもたらす。
　image congruence 仮説によれば(Grubb & Grathwol(1967)というのが挙げられている)、個人の消費行動は、象徴的意味をもたらす製品の消費を通じて自己概念を拡張させる。また、自己定義的欲求が満たされる時、消費者のブランドに対する自己同一化はしばしば消費者とブランドの強い関係をもたらす。とかなんとかというわけで、
　　H4. ブランドとの自己同一化はブランド関与にポジティブな影響をもたらす。
　先行研究によれば、ブランド・コミュニティのメンバーは集団の規範と整合的な行動・意図を示す。たとえば当該のブランドを選好するし、イベントに参加するし、クチコミするし、ブランドの歴史を称える。というわけで、
　　H5. ブランド関与は、ブランド選好、ブランドのイベントへの参加意向、クチコミ、ブランドの歴史の称賛にポジティブな影響をもたらす。
　社会的ブランド・コミュニティが存在するときは、そうでないときに比べ、ユーザ集団との自己同一化の影響がより大きくなるだろう。というわけで、
　　H6. H1の効果は社会的ブランドコミュニティが存在するときに小さくなる。
　　H7. H2の効果は社会的ブランドコミュニティが存在するときに大きくなる。
　というわけで、出来上がったモデルは次のとおり。外生変数は、ブランドとの自己同一化と、集団との自己同一化。この二つがPSBCに効く(H1, H2)。効き方は社会的ブランドコミュニティによって異なる(H6, H7)。PSBCとブランドとの自己同一化がブランド関与に効く(H3, H4)。ブランド関与がブランド選好、イベント参加意向、クチコミ、ブランド史称賛に効く(H5)。多母集団の4層逐次モデルである。

　実証。面倒になってきたので早送りで...
　USのとあるテーマパークを対象とする(ディズニーランドかなあ...)。調査項目は、PSBCは7件リッカート尺度で6項目。ブランド同一化と集団同一化は各2項目、ブランド関与5項目、選好4項目、イベント参加以降1項目、クチコミ3項目、ブランド史称賛2項目、これらは先行研究から引っ張ってくる。
　研究1. ユーザが勝手に作ったオンライン・グループから対象者をリクルートしてweb調査。結果: 適合度は良好。構造モデルのパス係数は、H1は有意でなかったがH2, H3, H4, H5で有意。なお、PSBCから4つの結果変数に直接パスを引くと適合度がもっと上がる。
　研究2. このテーマパークの来場者をリクルートして郵送調査。結果: 適合度は良好。H1は有意、H2は有意でない。PSBCから結果変数に直接パスを引いても適合度は上がらない。
　2つのデータを合わせて分析して、H6, H7を支持している。面倒なのでパス。

　考察。PSBCはブランド関与を高め、ブランドとの関係を促進する。PSBCを高めるためには、社会的ブランド・コミュニティがあるときにはそのコミュニティに関連したマーケティング・アクションが有効だし、ないときにはブランドイメージの操作が有効だ。云々、云々。

　うーむ。。。私がなにか誤解しているのかもしれないけど。。。感想が2点。

　まず、コミュニティという概念について。
　コミュニティという概念に関する著者らの論点は2つある。(1)ブランド・コミュニティはメンバー間の相互作用を含むとは限らない。(2)Muniz& O'Guinnが挙げた3要件はブランド・コミュニティの必須要件ではない。
　ちょっと混乱があるのではないかという気がする。Muniz&O'Guinn(2001)がいっていたのは、「現代社会においてはブランドの周りに、コミュニティと呼び得るようなナニカが生じていますね」ということだったのではないか。彼らが挙げた3つの要件とは、そもそも私たちがある現象をコミュニティと呼び得るのはどんなときか？という一般的要件で、彼らの主張は「ほらブランドの周りにあるナニカはこの３つの要件を満たしていますよ、だから(伝統的な意味でのコミュニティらしくはないけれど)コミュニティと呼んでいいのではないですか？」というロジックに沿っていたと思う。
　このロジックに従えば、実際の社会的相互作用があろうがなかろうが、コミュニティ感覚が存在していようがいまいが、この3つの要件を満たしていないナニカはコミュニティではない。従って、著者らの考える「心理的ブランド・コミュニティ」は、Muniz&O'Guinnが考えるところのコミュニティでないことになると思う。その理由は、実際の社会的相互作用を伴っていないからではなくて、3つの要件のうちいくつかを満たしていないからである。
　つまり、著者らがいうところの「コミュニティ」はMuniz&O'Guinnのいう「コミュニティ」よりも広い概念である。結構。では著者らのいう「コミュニティ」とはなにか。著者らいわく、社会的アイデンティティ理論によれば、社会的相互作用がなくてもコミュニティ感覚は存在しうる(そりゃまあそうだろう)。で、著者らはこのコミュニティ感覚(PSBC)をもって「心理的ブランド・コミュニティ」を特徴づけている。ううむ。いまブランド・コミュニティ研究のいきさつを抜きにして、いきなり「コミュニティの感覚を持っている人たちのことをコミュニティと呼びます」と宣言したら、(アンダーソンを含めて)たいていの社会科学者は、そのあまりに広範囲な定義に呆れちゃうんじゃないだろうか。

　まあこれは「なにをコミュニティと呼ぶべきか」という論点、社会科学において長い伝統を持つコミュニティという概念を心理主義的に再定義しちゃっていいのかという話であって、それはそれでとても大事だけど、ちょっと横に置いておくこともできるだろう。よし、横に置くぞ。

　２点目。ふらっと一本論文を通読しただけで、プロの研究者の方に対して大変失礼な言い方だと思うけれど、これ、「横断調査を一発やってSEMでモデリングしました」的研究の典型だと思う。
　まず、ある心理学的なダイナミクスを想定する。そこから、心的構成概念間のスタティックな関連性についての統計的仮説を生成する。それぞれの構成概念を複数の調査項目で測定する。潜在変数モデルをつくり、潜在変数間に仮説に従ってパスを引き、パス係数やモデルの適合度で仮説を支持してみせる。
　その限りにおいては美しい。でも問題は、仮説を支持することが理論を支持する証拠になっているのか、という点だ。
　第一に、全然別のダイナミクスから、ほぼ同一の統計的仮説を演繹することができるかもしれない。たとえばこの論文とちがって、「ブランドへの選好がブランド関与の基盤となる」というダイナミクスを考えたとしても、ほぼ同じパス図が得られる。矢印は一か所逆向きになるけど、データに基づき矢印の向きを検証するのは困難だ。
　第二に、そもそも構成概念自体が理論に基づいている。たとえばこの論文では「PSCBがブランド関与に影響する」というダイナミクスを考えているわけだけど、想像するに、「ブランド関与」なる構成概念を用いたこれまでの研究を調べれば、その測定項目のなかにPSBCに相当する項目(ブランド・ユーザのコミュニティという感覚について問う項目)を含めている研究が、きっと見つかるだろう。ブランド関与とPSBCは異なる構成概念か？この理論に言わせれば異なる、でもほかの理論に言わせれば同じことかもしれない。それは測定モデルの比較を通じて決着をつけるべき問題だ、なんていうのはあまりにデータ分析寄りな見方であって、実のところ、潜在変数の弁別的妥当性なんて言うのは項目選択しだいでどうにでもなっちゃうのである。

　もちろん、SEMで理論的主張が検証できないというわけではない。たとえば、ある包括的な理論的枠組みの下で構成概念の測定モデルが構築できます、さて構成概念間の因果関係の特定の部分について対立する2つの下位理論がある、そこでそれぞれの下位理論に沿ってモデルを構築し、パス係数やモデル比較で決着をつけましょう、というような使い方もあるし、そういうのならば納得しやすい。
　しかし、この研究のように、ある理論的主張を行います、そこから仮説を引き出します、仮説をモデルで表します、うまくいきました、よかった... というタイプのモデルは、よほど精緻に積み上げないと、理論的主張を支持する証拠にはならないように思う。

　世の中には「SEMってのを使うと好き勝手なことが云える、実に恣意的だ」と毛嫌いする人がいるようだが、それはあまりに短絡的だと思う。統計モデルが恣意的だと感じられるのは、統計モデルを根拠づける理論に説得力がないからであって、モデルのタイプ自体に罪はない。
　でも、プロの研究者の方によるこういう研究をみると... いえいえ価値がないとは申しません、一連の研究の流れのなかでそれぞれに価値があったりなかったりするのだと思いますが... ちょっぴり、SEMかあ、ナンダカナア、と思ってしまう。

論文：マーケティング - 読了: Carlson, Suter, Brown (2008) 大事なのは社会的ブランド・コミュニティじゃない、心理的なブランド・コミュニティ感覚だ

Trusov, M., Rand, W., Joshi, Y.V. (2013) Improving prelaunch diffusion forecasts: Using synthetic networks as simulated priors. Journal of Marketing Research, 50(6), 675-690.
　上市前販売予測に社会ネットワークを使うという論文。当面の仕事とは関係ないけど、先日友人といろいろ議論していて、社会ネットワークの話は読んでおいた方がよいと思ったので、隙をみて目を通した。

　先行研究レビュー。社会的相互作用ネットワークがマーケティング戦略に与える影響についての研究としては以下がある:

Goldberg, Libai, & Muller (2001, Mktg Letters)
Valente (1995, 書籍"Network models of the duffusion of innovations")
Haenlein & Libai (2013, J.Mktg) : ターゲティングに活用
Kempe, Kleinberg, Kleinbert, & Tardos (2003, Conf.) : ターゲティングに活用
Dasgupta, Singh, Viswanathan, & Chakraborty (2008, Conf.) : チャーン予測
Nitzan & Libai (2011, J.Mktg): チャーン予測
Haenlein (2011, Mktg Letters): 顧客からの収入の分布
Iacobucci & Hokins (1992, JMR): 影響力がある人の同定
Iyengar, Van den Bulte, & Valente (2011, Mktg Sci.): 影響力がある人の同定
Toubia, Goldenberg, & Garcia (2008, MSI Working Paper): 新製品普及予測; 集計レベルの拡散モデルにネットワーク効果を組み込む
Rahmandat & Sterman (2008, Mngt Sci.): ネットワーク構造と普及速度
Van den Blute & Joshi (2007, Mktg Sci.): ネットワーク構造と普及速度
Van den Blute & Wuyts (2007, "Social networks and marketing". 書籍というより、MSIが出しているモノグラフみたいなものらしい): ネットワーク構造と普及速度
Watts(2002, PNAS), Watts & Dodds(2007, JCR): 製品普及における影響力がある人の役割
Goldenberg, Han, Lehmann, & Hong (2009, J.Mktg): 製品普及における影響力がある人の役割
Shaikh, Rangaswamy, & Balakrishnan (2005, working paper): ネットワーク構造と普及曲線
Dover, Goldenberg, & Shapira (2012, Mktg Sci.): 集計レベルの普及モデルにネットワーク効果を組み込む; 普及曲線からネットワーク次数を推定
本研究の直接の先行研究(集計レベルの普及モデル): Lilien, Rangaswamy, & Van den Blute(2000, "New product diffusion models"), Trajtenberg & Yitzhaki (1989, J. Business & Econ. Stat), Van den Blute & Lilien (1997, Mktg Sci.)

　で、この研究の特徴は: 複数の製品の集計レベルの普及曲線(つまり、横軸が上市からの時間、縦軸が購入経験者数を表す曲線)から、その製品カテゴリの消費者相互作用ネットワークの性質を推定する。つまり、普及曲線そのものではなく、普及曲線のパラメータの確率分布を推定するわけである。これを使って予測の精度を上げる。

　えーっと... 大変面倒な話だし、詳細は本文には書いてないのだけど(Appendixを読めとのこと。勘弁してください)、かみ砕いてレシピ風にいえば、こういうことだと思う。
　まず、シミュレーションでデータベースみたいなものをつくっておく。

架空の消費者のネットワークをつくります。格子型、ランダム型、スモール・ワールド型、preferential attachment型(スケール・フリー性を持つ)、の4タイプのネットワークを考える。著者いわく、この分野ではこれだけ調べれば十分なのよ、とのこと。それぞれについて、エッジの密度を4水準で動かして、ネットワークを生成する。4x4=16個のネットワークが手に入る。なお、いずれもノード数は1000とする。
新製品の普及(拡散)をシミュレーションします。それぞれのネットワークについて、まず、製品が普及しうるノードを一定割合ランダムに選ぶ。で、ある時点におけるあるノードの製品普及をSIRモデルで表す。SIRモデルのパラメータは受容係数と社会的汚染係数のふたつ(えっ、そうだっけ？感染率と隔離率だと習ったけど。あとでよく考えてみよう)。つまり、ノードの割合、受容係数、社会的汚染係数の3つのパラメータがあるわけだ。これをいろいろ変えて、計193,600通りのシミュレーションを行い、普及曲線を得る。
ネットワークごとに普及曲線の分布を調べます。まず、一本一本の曲線にBassモデルをあてはめる(いきなり古い話になるので、ちょっとガクッとなりましたが、それで構わないんでしょうね)。Bassモデルには3つのパラメータがあるけど、そのうち p と q に注目する (もうひとつのパラメータは普及可能者割合の推定だから)。こうして、たくさんの(p, q)が手に入る。で、ほんとはあるネットワークから(p, q)を得るパラメトリックなモデルを作りたかったそうなんだけど、うまくいかないので、pを11階級、qを10階級に切って二次元のヒストグラムを描く。このヒストグラムが4x4=16枚。これを「拡散超立方体」と呼ぶことにする。途中からローテクな割には、やたらにかっこいい名前だ。

　次に、実データを使った分析を行うのだが、モデルの立てつけはこうなっている。
　ある普及曲線のパラメータ(p,q)は、上の2次元ヒストグラムのどこかのビンに落ちるわけだ。ビンは11x10=110個ある。だから、あるカテゴリで観察された複数の普及曲線のパラメータは、長さ110の頻度ベクトルで表現できる。これを Y とする。
　ある製品カテゴリの消費者ネットワークは、上の16個のネットワーク M_1, ..., M_{16} のどれか M_k であると考える。
　さあ、Yを生成するモデルを考えよう。

Yは多項確率分布 \Psi (Y | \theta_k) に従っていると考える。\theta_k は長さ 110の確率ベクトルである。
\theta_k の事前確率 \varphi (\theta_k | M_k) はDirichlet(\alpha_{M_k})とする。無情報事前分布を使うのではなく、パラメータ \alpha_{M_k}を拡散超立体から得る。もっとも、M_k の2次元ヒストグラムから\alphaを得るにはいろいろ工夫が必要なのだが (すべての\alphaを0より大きくするためにどうのこうのとか、シミュレーションの回数を考慮するためにどうのこうのとか)、省略。
消費者ネットワークが M_k である事前確率を p(M_k)=1/16とする。

　さて、ある製品カテゴリについて、それが消費者ネットワーク k を持ち、普及曲線のパラメータについての事前確率 \theta_k を持ち、実際の普及曲線のパラメータが Y となる同時確率は
　f( Y, \theta_k, M_k) = \Psi (Y | \theta_k) × \varphi (\theta_k | M_k) × p(M_k)
ここから、消費者ネットワーク k の下で普及曲線のパラメータ Y を得る確率は、\theta_kについて積分して
　p(Y | M_k) = \int_{\theta_k} \Psi (Y | \theta_k) × \varphi (\theta_k | M_k) d\theta_k

オーケー、いま Y が手に入ったとしましょう。その製品カテゴリが消費者ネットワーク k を持っている事後確率は
　p(M_k | Y) = {p (Y | M_k) × p(M_k)} / (分子の総和)
\theta_k の事後分布は
　\tilda\varphi (\theta_k | M_k, Y) = \Psi (Y | \theta_k) × \varphi (\theta_k | M_k) / p(Y | M_k)
これから発売される製品から手に入るパラメータの分布 Y* の予測分布は
　p( Y* | Y ) = \sum_K p(M_k | Y) × \int_{\theta_k} \Psi(Y* | \theta_k) × \tilda\varphi (\theta_k | M_k, Y) d\theta_k
Y*から(p, q)の平均を求め、普及曲線のパラメータとする。というわけで、過去製品群の普及曲線から、新製品の普及曲線を予測できたわけです。

　この方法を通じて、ある製品カテゴリが持っている消費者ネットワークを正しく推測できるとは限らないのだけれど(たとえば低密度なランダム・ネットワークとスモール・ワールド・ネットワークは区別しにくい)、予測の精度は上がるとのこと。

　実証研究。2007年から2008年にかけて登場したFacebookアプリ900個の日次インストール数を用いる(どこがデータを持っていたのかしらん...)。それぞれのアプリの普及曲線をBassモデルに当てはめ, パラメータの分布 Yを得た。
　なお、p(M_k | Y)を推定したところ、低密度のpreferential attachment型ネットワークにおいて 1 に近い値が得られた。これは社会的ネットワークについての先行研究と合致している (と、バラバシを引用)。Facebookの先行研究では、友達ネットワークは高密度だといわれているが、いま調べているのはアプリ普及の基盤にあるネットワークであって、友達ネットワークそのものではないから、これは矛盾ではない。それに、そもそもネットワークの特性を推測したいわけじゃないので、まあどうでもよい。本題は予測である。
　第一試合。600個のアプリをホールドアウトしておき、残りの300個からランダムに選んだアプリ群をテストに用いる。3つの予測方法を比較する。

提案モデル。
ナイーブ・モデル。16個ネットワークに等しい重みを与える。つまり
　p( Y* | Y ) = 1/16 × \sum_K \int_{\theta_k} \Psi(Y* | \theta_k) × \tilda\varphi (\theta_k | M_k, Y) d\theta_k
カリブレーション・モデル。学習データのp, qのヒストグラムそのものを使う。

　予測の良さの指標は、(p, q)の予測分布とホールドアウトの分布とのK-Lダイバージェンス。結果: 提案モデルの勝ち。ナイーブモデルはわずかに劣る(そうか、消費者ネットワークのトポロジーや密度を頑張って推測したけど、そこには大した旨味はないわけだ)。サンプルサイズが大きくなると差が小さくなる。
　第二試合。集計レベルの普及モデルによる予測と勝負する。選手入場です。

提案モデル。
Bassモデル。
the gamma/shifted ゴンペルツ・モデル。
ワイブル-ガンマ・モデル。

各アプリのマーケット・サイズを過去データから推定する場合と、別の方法で調べておいてモデル推定の際には既知だとみなす場合の両方を試す(後者の手順についていろいろ説明してあったが、面倒なのでスキップ)。結果: 提案モデルの勝ち。以下、おおまかに、Bassモデル、ゴンペルツモデル、ガンマモデルの順に良い。

　考察。クチコミが影響するカテゴリで予測精度はより向上するであろう。今後の課題: マーケット・サイズを拡散超立体に組み込む; 消費者間異質性を組み込む; 学習データになんらかの外的な重みをつける; 製品特性を組み込む。

　なるほどねえ...
　具体的な場面に当てはめて考えてみよう。これからあるカテゴリのある製品を発売します。マーケット・サイズは消費者調査かなにかで見当がついています。配荷率もわかってます。発売3ヶ月後の普及率(購入経験者率)を予測したいんです。という場面について考えてみる。
　まず思いつくのは、インテージ様なりマクロミル様なりにお願いし、過去にその会社が発売した製品だか、競合を含めた全製品だかの月次トライアル購買率のデータをもらってくる。で、普及曲線をBassモデルに当てはめ、そのカテゴリでの標準的な普及曲線を求め、これを使って予測する、という方法である(第二試合のBassモデル)。もしそれで当たるってんなら、それでよろしい。
　次に思いつくのは、過去に発売された製品の普及曲線をBassモデルに当てはめ、それぞれの製品についてパラメータを求め、このパラメータの分布を求め、これを使って予測する、という方法である(第一試合のカリブレーション・モデル)。過去の製品の数が何百個もあるのなら、これでよろしい。
　ところが、過去の製品の数は数十個しかない、と。そこで提案モデルの登場である。まず著者らのレシピで「拡散超立方体」をつくる。これはコンピュータ・シミュレーションによって作り出された、製品カテゴリと無関係な、普遍的なデータベースであって、消費者がもし(クチコミやらなにやらで)こんな風に相互作用するならば、トライアル率はこんな風に増えますわね、という無数のシナリオを含んでいる。で、過去データとこのデータベースを併用し、上記の謎の数式(p( Y* | Y )の式)に当てはめると、消費者間相互作用について特段の洞察が得られるわけではないんだけど、予測の精度は上がる。というわけである。もちろん、考察で著者も触れているけれど、精度が向上するというのは製品普及にクチコミが影響するカテゴリでの話であろう。

　なるほどー。こりゃあ面白いなあ。
　実務的には、著者のいうとおり、マーケット・サイズについての確率的推測も同時にできると助かる。また、たとえば発売3ヶ月後の普及率予測に発売1ヶ月後の普及率を使えると便利だ。当該カテゴリの新製品購買におけるクチコミの重要性についてのデータ(リサーチデータやSNSでの出現率)を使えば、わざわざこのモデルを使うべきかどうかを決める手助けになるだろうし、M_kの事後確率推定にも役立つかもしれない。普及曲線を消費者のデモグラフィック属性別に切って調べるのも、精度向上の役に立ちそうだ。などなど。。。いずれも、簡単に拡張できそうだ。
　「社会ネットワークを使います」という割には地味な展開の論文なんだけど(消費者相互作用自体について知見を得ようとはしないから)、でもすごく面白かった。

論文：マーケティング - 読了: Trusov, Rand, Joshi (2013) 社会的ネットワークで新製品普及予測を改善する

2014年5月11日 (日)

逆さまゲーム (白水Uブックス―海外小説の誘惑) [a]
アントニオタブッキ / 白水社 / 1998-08
これも数年間書棚にあった本。収録短編を一編読んでは、頁を閉じて考え込み... というのを繰り返していた。変な話だけど、読み終えてほっとしている。
　プチブル西洋人の虚飾を描いた「空色の楽園」、それからなんといっても、表題作が素晴らしいと思った。そうだ、冒頭の表題作にショックを受けたせいで、なかなか続きを読む気になれなかったのだ。

色彩を持たない多崎つくると、彼の巡礼の年 [a]
村上春樹 / 文藝春秋 / 2013-04-12
昨年の大ベストセラー。4/15が一刷発行日、手元の本は4/26の六刷。狂ってますね。
　買ったきりなんとなく放置していたんだけど、連休を機に読了。懐かしく思い出すのだけれど、「ダンス・ダンス・ダンス」発売の日は(今調べたら1988年)、開店直後の書店で上下巻を買い込み、アルバイト先の大学の空き教室だったか、どこかのビルの非常階段だったか、とにかくそんなところで、夕方まで飯も食わずにひたすら読みふけったのであった。時間が経つといろんなことが変わる。

フィクション - 読了：「逆さまゲーム」「色彩を持たない多崎つくると、彼の巡礼の年」

輿論と世論―日本的民意の系譜学 (新潮選書) [a]
佐藤卓己 / 新潮社 / 2008-09
あまりに面白すぎてうんざりし、途中で放り出してしまう本、というのがあるように思う。この本もそんな一冊で、読みかけのまま三年ほど書棚の奥にあった。このたび意を決して無理矢理読了。
　輿論(ヨロン, public opinion)と世論(セロン, popular sentiments)を区別すべきだ、という主張を軸に、戦後言論史を縦横に語る。

　いくつか覚え書き。

たとえば小山栄三という人。戦前にナチス・ドイツの新聞学を日本に紹介、39年に大学から官庁に移り、戦時宣伝研究の第一人者に。終戦直後の9月、彼はGHQから出頭命令を受け、「国民の世論はどう変化したでしょうか」と問われる。彼はすでにギャラップ調査などアメリカの科学的調査に通じていた。占領軍に能力を買われて国立世論調査所初代所長に。のちに立教大に戻り、世論調査協会会長などを歴任する。この人に限らず、戦時宣伝研究と戦後マス・コミュニケーション研究は意外なほどに連続している。著者いわく、輿論調査は戦後民主化の産物ではない、それは「戦前からの密輸品」である。へええええええ。
海軍技術研究所は戦争心理対策本部を持ち、東京帝大文学部心理学科出身のスタッフを擁していた(兼子宙、池内一ら。なんと、のちの社会心理学のビッグ・ネームではありませんか？)。彼らはレヴィンのゲシュタルト心理学を学んでいた(レヴィン自身はユダヤ系で、すでにアメリカに亡命していたんだけど)。戦後彼らが設立したのが輿論科学協会(なんと、いまでも健在ですね)。民間調査機関ではあるが、設立資金は農水省の農村情報調査員の予算から割かれた。彼らはギャラップより一年早く無作為抽出法の選挙予測を行っている。
占領下日本では世論調査が盛んに行われた。たとえば祝祭日を決める際、総理庁は大規模な「祝祭日に関する世論調査」を行っている。こうした世論民主主義はGHQへの牽制でもあった。占領終了後、国立世論調査所は行政整理で時事通信社調査室と合併、現在の中央調査社となる(へえええええ)。
東京オリンピック前後の世論の変化について、藤竹暁による研究がある由。NHK放送世論研究所「東京オリンピック」(1967)所収。こ、これは... どうにかして読んでみなきゃ...

日本近現代史 - 読了：「輿論と世論」

ベケットと「いじめ」 (白水uブックス) [a]
別役実 / 白水社 / 2005-08
中野の中学校でのいじめ自殺事件(86年)を題材にして、ベケットと現代の演劇を論じる本。
　別役実の評論の代表作ともいうべきとても有名な本だと思うけど、インテリが事件を題材に何事かを語るということ自体に私は強い拒否感を感じていて、どうしても手に取る気になれなかった。連休中にふと入った小さな本屋さんで白水社の在庫僅少本フェアをやっていて、深く考えずにふと手に取ったら、原著は87年刊、意外にも、すでに四半世紀が経過している。なんとなく、もういいかなあ...という気持ちになった。
　彼と同じ事態のなかで、同じことを夢見て死に、しかしその自死が隠され、忘れ去られた子どもたちが、たくさんいたと思う。亡くなった少年は勝ったのだ。彼は命と引き替えに彼の欲した勝利を手に入れた。だから、彼を哀れむのではなく讃えるべきだ。彼がそのようにして勝利すべきであったかどうかは別にして。と、その頃私は思った。今でも少しだけそう思っている。

お菓子でたどるフランス史 (岩波ジュニア新書) [a]
池上俊一 / 岩波書店 / 2013-11-21

ハンナ・アーレント - 「戦争の世紀」を生きた政治哲学者 (中公新書) [a]
矢野久美子 / 中央公論新社 / 2014-03-24

ノンフィクション(2011-) - 読了：「ベケットといじめ」「お菓子でたどるフランス史」「ハンナ・アーレント」

青木昌彦の経済学入門: 制度論の地平を拡げる (ちくま新書) [a]
青木昌彦 / 筑摩書房 / 2014-03-05
タイトルを誤解して手に取ったのだが、ほんとは「『青木昌彦の経済学』入門」と呼ぶべき内容であった。でも勉強になりました。

黙示録――イメージの源泉 (岩波新書) [a]
岡田温司 / 岩波書店 / 2014-02-21
新約聖書のヨハネ黙示録を中心に、黙示録とそれを巡る文化史について述べた本。残念ながら、考え事をしながら読んでたせいで、いまいち頭に入らなかった。

社会学の歴史 [a]
奥井智之 / 東京大学出版会 / 2010-09
あえて講談調で語る社会学史、という感じの本であった。

マーケットデザイン: 最先端の実用的な経済学 (ちくま新書) [a]
坂井豊貴 / 筑摩書房 / 2013-09-04

パレスチナとは何か (岩波現代文庫―社会) [a]
エドワード・W.サイード / 岩波書店 / 2005-08-19

文楽の歴史 (岩波現代文庫) [a]
倉田喜弘 / 岩波書店 / 2013-06-15

ヘイト・スピーチとは何か (岩波新書) [a]
師岡康子 / 岩波書店 / 2013-12-21

ノンフィクション(2011-) - 読了：「社会学の歴史」「パレスチナとはなにか」「文楽の歴史」「黙示録」「マーケットデザイン」「ヘイト・スピーチとは何か」「青木昌彦の経済学入門」

たそがれたかこ(1) (KCデラックス BE LOVE) [a]
入江喜和 / 講談社 / 2014-04-11
お椀の味噌汁のアップに「あ」という声が重なる。カメラを引くと、ちゃぶ台の前で眼鏡の中年女が箸とお椀を手に眉をひそめていて、「シラガ...はいってる」横で気のよさそうな老女が、「んん？はいてるって？／モモシキ？／さすがに脱いだワ～／あ～っつくって～／たかちゃんは？まだはいてんの？芽が出ちゃうわヨ」「補聴器やってる？」季節は夏、下町の木造アパート、45歳独身女性と老母の朝食の会話。なんて鮮やかなファーストシーンだろうか。
　市井に生きる人々の哀歓を描いて右に出る人のいない寡作のベテラン作家・入江喜和さんの、これが最新作。私は95年の第二作「のんちゃんのり弁」以来のファンなので甘くなってしまうのかもしれないけれど、夜ふとんで静かに涙を流し、こっそり家を抜け出して隅田川のほとりで酒を呷る主人公たかこさんに、心をぎゅっと鷲掴みにされた。まだ一巻だけど、これは傑作になるに違いない。

受付の白雪さん(1) (アクションコミックス(月刊アクション)) [a]
吉沢緑時 / 双葉社 / 2014-04-10

日の鳥 [a]
こうの史代 / 日本文芸社 / 2014-04-25

イムリ 15 (ビームコミックス) [a]
三宅乱丈 / KADOKAWA/エンターブレイン / 2014-04-25

リューシカ・リューシカ(8) (ガンガンコミックスONLINE) [a]
安倍吉俊 / スクウェア・エニックス / 2014-04-22

僕らはみんな河合荘 1 (ヤングキングコミックス) [a]
宮原るり / 少年画報社 / 2011-05-30
僕らはみんな河合荘 2 (ヤングキングコミックス) [a]
宮原るり / 少年画報社 / 2012-01-30
僕らはみんな河合荘 3 (ヤングキングコミックス) [a]
宮原るり / 少年画報社 / 2012-08-30
僕らはみんな河合荘 4巻 (ヤングキングコミックス) [a]
宮原るり / 少年画報社 / 2013-05-30
僕らはみんな河合荘 5 (ヤングキングコミックス) [a]
宮原るり / 少年画報社 / 2014-03-26
高校生の主人公の下宿先には、個性豊かな同居人たちと、無口だけどかわいらしい先輩がいて... という、ティーン向けの恋愛コメディ。評判になっているので読んでみたら、なるほど、面白い。
　一中年男性として意見を言わせて頂くと、もしこのような日々が、そうだなあ、一週間でも経験できたなら、きっとその人は若き日の思い出をするめのようにくっちゃくっちゃとかみしめて、その後の生涯を送ることになるだろうなあ、と思う。

コミックス(2011-) - 読了：「たそがれたかこ」「僕らはみんな河合荘」「リューシカ・リューシカ」「イムリ」「日の鳥」「受付の白雪さん」

2014年5月10日 (土)

Show, A.D, Horton, J.J., Chen, D.L. (2011) Designing incentives for inexpert human raters. Proceedings of the 2011 ACM Conference on Computer Supported Cooperative Work (CSCW 2011).
　クラウド・ソーシングでたくさんの素人になにかを評定してもらうとき、どういうインセンティブ設計にすると良いか、という実験研究。ベイジアン自白剤(BTS)を使っているようなので手に取った。
　バリバリに工学系の研究かと思ったら、行動実験であった。いま調べてみたら、第一著者は社会学の出身。

　Amazon Mechanical Turk で実験、被験者2055人。あるwebサイトをみてもらい、5項目を聴取(例, 「サイトにはユーザを表すアバターがありましたか」)。答えを実験者が想定する正解と比較し採点する(0～5点)。要因は被験者間一要因で... えーと、14水準!

(コントロール系)
- Control: 教示なし。
- Demographic: 質問なし。全員共通の別の質問(デモグラフィクスとか)だけでおしまい。
(ソーシャル系)
- Tournament scoring: 他の回答者と得点を競争してもらいます。結果をあとで表示します。
- Cheap talk - Surveillance : あとであなたの回答の正確さを確認します。
- Cheap talk - Normative : あなたの仕事は正確に答えることです。
- Solidality: あなたは赤組です。チーム全体の成績によってはチームの全員がボーナスをもらえます。
- Humanization: 回答が終わる前に、あなたにもう一度お礼を申し上げたいと思います。私の名前はアーロンです。(著者の顔写真を提示。なお、第一著者はほんとにアーロンさん)
- Trust: ここまでご回答くださいましてありがとうございます。ここで確認コードをお渡しします。このコードを入力すればあなたはいつでも謝礼をもらえます。引き続きご回答いただけるものと信じております。
- Normative priming questions : あなた自身について、またあなたの仕事に対する態度について伺います。
(フィナンシャル系)
- Reward accuracy: あとで少なくとも1問についてはあなたの回答を確認します。正しかったら報酬1割増。
- Reward agreement: あとで少なくとも1問についてはあなたの回答を確認します。多数派の回答だったら報酬1割増。
- Punishment accuracy: あとで少なくとも1問についてはあなたの回答を確認します。間違ってたら報酬1割減。
- Punishment disagreement: あとで少なくとも1問についてはあなたの回答を確認します。多数派の回答でなかったら報酬1割減。
- Promise of future work: あとであなたの回答を調べます、平均以上だったらまた仕事をお願いするかも。
- BTS: あとで他の人の回答を予測してもらいます。みんなが思うより一般的な回答をした人は、ボーナスがもらえる確率が高くなります。
- Betting on results: あとで報酬の一部を賭けてボーナスにチャレンジしていただけます。勝率は回答の正確さに応じて決まります。

なお、操作するのは教示だけで、実際には報酬は一律だそうだ。事情はわかるが、ひどいなあ。

　結果。おおお、intention-to-treat推定量を使っている... 医療系の無作為化比較試験ではみたことあるけど、こういう行動実験では恥ずかしながらはじめて見た...
　平均処理効果をみると、成績を向上させたベスト3は、BTS, Punishment disagreement, Betting on resultsであった。
　デモグラ等をいれた回帰でも確認している(インド在住の被験者は成績が有意に低い。はっはっは)。

　考察。BTSが効いたのは、あとで自分の回答がどのくらい調べられるかについて被験者を混乱させるから、そして他の回答者の回答について真剣に考えさせるからだろう。Punishmentが効いたのは、そもそもAmazon Mechanical Turkでは仕事発注者による以後の参加禁止という処置があるからではないか(←punishment accuracyがあまり効かなかった理由にはならないと思うけど...)。云々。

　というわけで、この研究では実際にベイジアン自白剤のスコアリングをやっているわけでなく、その意味ではベイジアン自白剤の研究とは言い難い。でもここでは「みんなが思うより普通な回答をする」ことを報酬に結びつけるというメカニズムについて調べているわけで、その意味ではオリジナルの提案の精神に近い。
　ええと、ここまで読んだ論文をあらためて整理すると、

ベイジアン自白剤は回答の質を向上させるか
- 「あなたの回答の正直さがわかります」教示の効果 ... Weaver&Prelec (2013)の実験1, 5; John, Lowenstein, & Prelec(2012)
- 「あなたの回答の正直さがわかります」教示の効果＋スコアのフィードバック ...Weaver&Prelec(2013)の実験2, 3, 4, 5; Barrage & Lee(2013)
- 「みんなが思うより普通な回答をしたら報酬増」教示の効果 ... Show, Horton, & Chen (2011)
ベイジアン自白剤のスコアは回答の質を表すか ... Weaver&Prelec(2013)の実験2; Howie, Wang, & Tsai (2011); Miller, Brailey, & Kirlik (in press)

　ベイジアン自白剤の"suprisingly common"ルールは、被験者にとってはどのような意味を持って捉えられるのだろうか。それは正直かつ真剣に答えようという意識につながり、それによって行動が変わるのだろうか。それとも(この論文の著者らが考えているように)なにか別のルートを通じて行動を変えるのだろうか。もし後者が正しいならば、スコアの最大化がベイジアン・ナッシュ均衡であろうがなかろうが、別に構わないことにならないだろうか。工学系の方や経済学系の方は鼻で笑うかもしれないけど、やはり被験者の心的プロセスが知りたいと思うなあ。

論文：予測市場 - 読了：Show, Horton, & Chen (2011) ベイジアン自白剤 in クラウド・ソーシング

2014年5月 8日 (木)

　先日読んだ論文で、「正直に答えないと、正直に答えてないなってわかっちゃうよ」と信じ込ませて回答させると、回答が社会的に望ましい方向に歪むバイアスが消え、正直に答えるようになる、という現象のことをbogus pipelineと呼んでいた。へええ、と思って調べてみたら、ちゃんと有斐閣の心理学辞典にも載っている用語なのであった。ご、ごめんなさい...知りませんでした... (←正直な回答) ないし、一般教養の心理学のコマを持ってた頃は覚えてたけどすっかり忘れてました... (←社会的に望ましい回答)

Roese, N.J., & Jamieson, D.W. (1993) Twenty years of bogus pipeline research: A critical review and meta-analysis. Psychological Bulletin, 114(2), 363-375.
　というわけで、今度の原稿の役に立つかもしれないのでめくってみたレビュー論文。Psychological Bulletinなんて、昔なら大層気が重かったけど、いまは昼飯のついでに楽々と目を通せる。それだけ真剣さが減ったということである。

　いくつかメモ:

オリジナル(Jones & Sigall, 1971, Psycho.Bull.)の手続きでは、印象的な外見をした生理モニタリング・マシーンを提示し、これであなたの真の態度が測れますと教示。手法の通称はここからきている(「魂へのパイプライン」なのだ)。被験者の身体に装着し、キャリブレーションと称した課題をやって信じ込ませる(その前に別の実験者が聴取しておいた答えをこっそり使って騙す。せこい)。で、リッカート尺度上で「質問に対するマシーンの出力を当ててください」という課題をやる。とはいえ、後続研究における手続きは多様で、たとえば最後の課題で単に自分について回答させるという手続きもある。
研究史を3期に分けてレビュー。
- 第1期(1970-1974)は提案から普及の時期。ボーガス・パイプライン(BPL)は自己呈示のバイアスを除去する手続きと捉えられ、人種の知覚と対人魅力の研究に用いられた。とはいえ、この頃からいろいろ批判はあった。
- 第2期(1975-1981)は、その解釈をめぐって大いに揉めた。これは印象管理理論 vs. 認知的不協和理論の対立だったのだそうだ。手続きによる回答の変化を、前者は印象管理戦略の産物と捉えたのに対し、後者は認知的不協和低減の動機付けの高まりと捉えた(つまり、正直に答えるようになったんじゃなくて、本物の態度変容が起きている)。さらに、装置を装着しちゃうとなんか社会的に望ましくない回答をしなきゃならないような気がしてくるんじゃないですか、という穿った批判もあった(面白いなあ。Arkinという人だそうだ)。なお、たいていの研究は、単に回答の変化を調べたり社会的望ましさ尺度との相関を調べたりしているだけなんだけど、いろいろ工夫して「真実を答えるようになるか」を調べた実験もあって、やはりBPLのせいで真実を答えやすくなる由。
- 第3期(1982-1991)になると、他の領域でBPLを確立済のツールとして使う例が増えてくる。また、意見の報告ではなく事実の報告をさせる例が増える。80年代後半から社会心理学での利用例は激減。いっぽう、薬物使用を自己報告させる際のツールとして盛んに用いられるようになり、手続きも簡略化された。bogusじゃなくて本物の生理的測定をやっちゃうこともある(なるほど、薬物使用ならありうるなあ)。

　論文後半はメタ分析。そこまでの関心はないので、スキップ。
　著者らいわく、確かにBPLは社会的望ましさバイアスを除去していると考えられる。最近使われてないけど、BPLは有益な道具です。でも測定対象があまり強くない態度であるときは気を付けたほうがいい。云々。
　
　本筋とあまり関係ないんだけど、締めくくりの一節が面白かった。「この重要な手法がほとんど打ち捨てられてしまっている理由を、別の角度から説明できるかもしれない。社会心理学におけるBPLの栄枯盛衰は[...]研究における流行りすたり(faddishness)の教科書的な例であるように思われる。[...]BPLの適用にはもともと、認識論的的な諸問題、妥当性に関する諸問題が備わっている。これらの問題は、確かに困難ではある。しかしそうした困難さは、一見明白にみえる知見の後ろにいつだって隠れているものだ。過去の研究者たちがそれに直面していようが、していなかろうが、そのことは変わらない。本論文で取り上げた諸問題に取り組むことで、将来の研究者たちが来たるべき研究においてBPLの相対的利点を活用できるようになることを望む」。

　いやー、それにしても、オリジナルの凄そうなマシーンってどんなのだったのか、見てみたいなあ。ネットに原論文が落ちていたのをめくったけど、写真は載ってなかった。

論文：調査方法論 - 読了: Roese & Jamieson (1993) ボーガス・パイプライン・レビュー

崔仁淑(2014) タブーであるテーマを巡る日本人の世論－新しい実験調査手法による世論の構造的解明－. 行動計量学, 41(1), 47-62.
　要するにネット調査で一種の説得実験をやったというような研究だと思うんだけど、本筋じゃなくて先行研究概観のところをメモしておく(すいません、単に私の関心の問題です)。

世論(public opinion)の研究においては、多くの人は政治問題についてあまり知識がなく明確な自分の意見を持ってない、という立場が70年代まで主流であった。ラザーズフェルドらが挙げられる。彼らを(大衆の信念をminimalに捉えているという意味で)ミニマリストという。これに対しSnidermanらは、調査の文脈を実生活に近づけ討論させればそれなりに合理性を持って判断する、と主張した。彼らをアンチ・ミニマリストという由。へぇー、そんな言い回しがあるのか。ミニマリズムはメディア強力効果説とどういう関係にあるのかしらん。
この研究では、原発への賛否(事前の態度)と、それぞれに対して提示する反論文のタイプを要因にして事後の態度を調べているんだけど(その意味では超古典的な態度変容実験だと思う)、世論調査でこういう「反論テクニック」を使うという試みが既にある由。へぇー。これもSnidermanという人。最近流行りの討論型世論調査(DP)とはどういう関係にあるのだろうか。
こういう風に「アンケート調査にインターアクションをはじめて導入したのはHyman(1954)である」とのこと。Herbert Hyman "Interviewing in social research"という本だそうな。へぇー。

というわけで、「インタラクションを利用したサーヴェイ調査」というのがそんなに新しい発想じゃないらしいという点が勉強になった。
　消費者調査の文脈で、定量調査にちょっとインタラクティブな要素を持ち込もうとすると、いきなり定性的インタビューとのアナロジーで受け取られてしまい、いやそこまで飛躍するつもりはないのよ、単に特定の性質の認知過程を引き起こそうとしているだけで、その限りにおいてはstaticな質問紙となんら変わりがないのよ... という違和感を感じていた。ぼやいていないで、ちゃんと調べてみるべきだな。きっと先達はいる。
　
　著者は無闇に控えめな方で、締めのくだりで「本論文はポスト・ドクターという制限のある地位において実施した調査データから分析、結論付けたものである。それゆえ[...]確実な証明になっていないことを十分に認識している」なあんて書いておられる。いやそんなことを書いてくださらなくても、とちょっと可笑しかった。

論文：調査方法論 - 読了: 崔(2014) 世論調査の途中で調査対象者に反論してみる

2014年5月 7日 (水)

Miller, S.R., Brailey, B.P., Kirlik, A. (in press) Exploring the utility of Bayesian truth serum for assessing design knowledge. Human–Computer Interaction.
　デザイン教育における教育評価にベイジアン自白剤(BTS)を使うという研究。著者の方にお送りいただきました。日本語のブログなんてお読みになってないでしょうけど、深く感謝いたします。とても勉強になりました。
　全く予備知識のない分野なので、メモを取りながら読んだ。

イントロダクション
　デザイン思考は大事だ。だからデザイン教育は大事だ。ところが教育評価がすごく大変だ。そこで学生の作品を学生同士で評価させることがある。でもそれはそれで大変だ。そこでBTSを使った評価方法をご提案いたします。

先行研究
　デザイン思考は大事だという研究はいっぱいある。だからデザイン思考の教育も大事だ。ということは、ビジネスでも教育でも、デザイン思考の能力評価は大事だ。評価にあたっては多様な観点がありうるが、教育者が特に注目するのは、分析・評価・創造という高次な思考能力であろう。
　従来の評価方法としては:

伝統的な評価方法。デザイン・プロセスとデザイン原理についての多肢選択テストとか。より低次な能力を測ってしまっている。
オープン・エンド型のデザイン課題や、デザイン・ポートフォリオ(←よくわかんないけど、要は作品集をつくらせるというようなことであろう)。評価は主観的にならざるをえないし、学生の人数が増えると大変。評価規定をつくることが多いが(たとえば、学習すべきスキルは「ブレインストーミング」、達成レベル1は「定義を拡張する」、2は「見出しを使って効率的にアイデアを表現する」、3は「アイデアに流動的かつ整合的な見出しをつける」だ、というような)、規定をつくるのが大変だし、つくってもやはり評価は主観的だ。
学生同士のピア評価。メタ分析によれば、全体的な評価は教員の評価と一致する。評価することを通じて高次認知能力や伝達能力が改善されるという面もある。ふつう、デザインプロセスについての知識の評価や、デザイン・ソリューションの成否の評価に使われており、デザイナーの全体的な能力評価には使われていない。

提案手法
　BTSの紹介(←BTSを構成する2要素のうち、あんまり本質的でない「予測スコア」のほうを重視しているところが面白い。集団の回答の予測は学生のメタ知識を反映しているだろうという理屈。うーん、まあこの課題ならそうかも...)。個人レベルのスコアを以下の2種類算出。これを学生の能力評価として用いる。

個人インデクス。個人が得たBTSスコアの平均。
プールド・インデクス。個人の回答が得たBTSスコアの平均。(←すごくわかりにくい説明だが、「情報スコア」のみの平均という意味)

実験
　被験者はイリノイ大のデザイン・コースの学生71名。4週の実験。

1週目: 製品デザインの写真(洗面台、USBの差し込み口、ドアノブ etc.)30枚をみせ、それぞれの写真について質問。一問目は、それが(デザイン原理)の良い例になっているか、原則に違犯している例か、原則が適用されない例か、の三択。ここで(デザイン原理)のところには、"physical affordance design principle"とか、"comfort design principle"といった個別の原理名が入る。その内容についてはこのコースで学習済みなので教示しない。(付録に全設問が載っている。正解はわかんないんだけど、USBの例はきっとアフォーダンスの原理に違犯してるんだろうなあ。あれ、差し込むときの天地がわかんないもんね)。二問目は、同じコースの人の各選択肢への回答率をパーセンテージで予測。なお、BTSについての説明はなし、単に正直に答えるように教示するのみ。
2週目: 「キャンパス内で、歩きながらの携帯電話やMP3プレイヤーのせいで事故に遭う人が多い。解決案をつくれ」という課題を与え、デザイン案を可能な限りたくさんスケッチさせる。で、自己ベストアイデアをひとつ選ばせる。
3週目: 2週目で得られたデザイン案(各人のベストアイデア)を一人あたり15個提示(自分のは提示されない)。4件法で評価させ、批評文を書かせる。さらに他の人の回答を予測させる。
4週目: 自分のベストアイデアと、3週目で得られた他の学生の批評文を提示(←おそらく15個くらいであろう)。自分のデザイン案を修正させる。さらに、コメントが役に立ったかどうかを4件法評価。

(あとでアイデアのスケッチ例が紹介されるんだけど、これがちょっと笑ってしまった。idea score最高点を得たアイデアは「機器にGPSをつけて危険を知らせる」、最低のアイデアは「頭を下に向けると快適でなくなるイヤフォン」)
　で、以下の変数について分析:

a. test average: コースの中間試験と期末試験の得点の平均
b. course grade: コースの評価
c. conventional wisdome: 写真評価で、多数派の回答カテゴリに投票した回数。
d. response accuracey: 写真評価で、教員とおなじカテゴリに投票した回数。
e. idea score: 自分のベストアイデアに対する他人の評価(全員が4のときに満点)。
f. critique score: 自分の批評文に対する他人の評価(全員が4のときに満点)。
g. 写真評価へのBTSスコア(個人インデクスとBTSプールドインデクス)。
h. 他人のベストアイデアに対する評価のBTSスコア(個人インデクスとBTSインデクス)。

結果

1. a. test averageと b. cource gradeを目標変数にして、c, d, g, h がどう効くかを調べる... といっても単相関をみるだけだけど。g.写真評価へのBTSスコア(個人インデクス)と a. test average のみが有意になった(それとて r=+0.23だけど)。
2. e. idea scoreとa,b,c,d,g,hとの相関は、c.conventional wisdomと、g.写真評価へのBTSスコア(プールド・インデクス)が有意(r=＋0.25, +0.23)。
3. f. critique scoreとa,b,c,d,g,hとの相関は、g.写真評価へのBTSスコア(両方)が有意(r=+0.34, +0.23)。

考察 (これがすごく長い...)

デザイン知識の測定には、デザイン原理に基づくアイデアの評価という課題が有用であろう (結果2で、conventional wisdomがidea scoreを予測したから)。
写真評価も批評もデザイン原理についての知識が必要だから、当然かもしれないけど、でもBTSはデザイン分析スキルの測定方法として有用かも(結果3より)。その一般化可能性と適用可能性を確かめるためにはテストしているスキルセットについて注意深く検討する必要がある。
コースの試験は重要なデザイン知識を測っていなかったのだろう(結果1)。

結論
BTSは有用であろう。採点者の主観性を排除できるし、楽だし、スケールアウトするし。

　ううううむ。。。
　この論文は、ほかのベイジアン自白剤の研究とはかなり毛色が違っている。まず、ベイジアン自白剤が持っている真実申告メカニズムという性質には関心がない(だからBTSスコアのフィードバックはおろか、説明さえしていない)。さらに、スコアを回答の真実性を表すものと捉えるのではなく、回答者の能力を表すものとして捉えている。
　つらつら考えるに... この実験で写真評価のBTSが(かすかではあるが)対象者の能力らしきものを表したのは、写真評価課題が単なる推論課題ではなく、「それに答えるために必要な知識体系がこのコースで教授されている」課題だったからではないか、と思う。当然ながら学生の中には「物理的アフォーダンスの原理って、ええとなんだっけ」というような出来の悪い奴もいただろう。そういう奴は、写真評価において当てずっぽうに答えざるをえないし(回答の事前分布を持っていないから、予測スコアも情報スコアも下がる)、批評もうまくできないはずだ。

　ということは、逆にいうと... BTSスコアは回答の真実性を表す(と主張されている)が、それだって回答者の問題についての知識と切り離せないわけだ。たとえば「集団的自衛権の行使に賛成ですか反対ですか」という設問についてBTSスコアを調べ、スコアが低かったとして、それはなにかの事情で真実を語っていない可能性が高いということを示しているのかもしれないし、そもそも集団的自衛権とはなにかがよく分かっていない可能性が高いということを示しているかもしれないわけだ。こうやって書いちゃうと当たり前だけど、正直、この発想はなかった...。

論文：予測市場 - 読了：Miller, Brailey, & Kirlik (in press) ベイジアン自白剤 in デザイン教育評価

2014年5月 3日 (土)

Kuncel, N.R., Borneman, M., & Kiger, T. (2012) Innovative item response process and Bayesian faking detection methods: More questions than answers. in Ziegler, M., Maccann, C., & Roberts, R.D. (eds.) "New prospectives on faking in personality assessment", Oxford University Press.
　時間がないので、やけになって論文集ごと買ってしまった(資料費が原稿料を上回りそうだ...)。社会心理系の調査法研究者からみたベイジアン自白剤の位置づけを知りたくて買ったのだけど、短い章であった。まあ、他の章も面白そうだし、いつか役に立つかもしれないし。
　いくつかメモ:

回答は対人相互作用だ。対人相互作用における目標には13種類あるという研究があるそうだが(Fitzsimons & Bargh, 2003, JPSP. "Thinking of you"っていう気の利いたタイトルの論文だ)、単一項目への回答における対人的目標としては次の3つが挙げられるのではないか: impresive, credible, true to the self.
従来、フェイキング(意図的虚偽回答)の代理指標として、社会的望ましさ尺度 (社会的に望ましい回答をする傾向を測る尺度) やunlikely virtue 項目 (いわゆる「ライ・スケール」のことだろう) が用いられてきた。これらは、虚偽回答するように指示された被験者を見つける実験ではうまく機能するんだけど、通常の調査を補正する役には立たない。フェイキング検出研究はいま変革の時にある。フェイキングという概念そのものも洗練され複雑化している。
Paulhus et al.(2003, JPSP)は地名・人名などの再認課題におけるaccuracyでself-enhancementを測るという方法を提案している。でもこの指標、確かにナルシシズムと関連してるんだけど(←へー)、認知能力とも正の相関があるので、たとえば採用試験でこの指標が高い奴を落とすとアホばかり残るという悲劇になりかねない。虚再認率を使うという手もあるが、虚再認がほんとにdeceptionかどうかはわからない。たとえば"cholarine"は実在しない名称だが、これを「知ってます」と答える人は、虚偽回答しているのかもしれないし、"chlorine"(塩素)のことだと思ったのかもしれない。(←そりゃそうだ。だいたい人々の生活世界は多様なんだから、一般的知識の記憶課題を調査の虚偽回答検出に使われちゃったら、マイノリティが損をするんじゃないかしらん)
ベイジアン自白剤の紹介。有望だが、本来関心のない項目(他者回答の予測)を入れなきゃならないのが欠点。今後の課題として、
- 実際の人事採用システムで使えるか。
- 専門家がコーチすれば勝てたりしないか。(←怖いなあ... リクルート発行「ベイジアン自白剤完全対策ガイド2014年版」なんてね)
- 被験者の母集団に対する準拠枠の影響は？ (←そうそう... 準拠枠に異質性があるとベイジアン自白剤の前提は崩れるはずだ)
- これって単なるbogus pipeline効果で、被験者が教示にびびっているだけではないか？ (←そうそうそう!! やっぱりそう思いますよね！)
著者らのアイデア(Kuncel & Tellegen, 2009, Personel Psych.): 人事採用の際のパーソナリティ自己評価で、"complex"とか"daring"といった項目は、高い回答を望まれているのか低い回答を望まれているのかわからない。こういうとき、フェイキングしている回答者は、どっちかに賭けるか、ないし中立的に答えるだろう。というわけで、こういう項目に対して9件法評定で1,5,9を回答した回数を数えて、それが高い人を探す。フェイキングするように教示されている人を20～37%検出し、誤検出は1%程度であった。これから基準関連妥当性を検討したい(そ、そうですか...)。
重回帰とか決定木とかで、外的基準を項目群で予測し、そのモデルによって項目に重みづけすることを keying methodsという(へー)。この路線で、フェイキングしている人を検出するための重みをつくるというアイデアもある。

論文：予測市場 - 読了：Kuncel., Borneman, & Kiger (2012) 意図的虚偽回答の検出 feat. ベイジアン自白剤

2014年5月 2日 (金)

Prelecのベイジアン自白剤に関連する論文を手当たり次第にめくっている今日この頃。いまこの瞬間に限っていえば、23区内で一番ベイジアン自白剤について考えているのは私かもしれない。こうやって集中していると、効率はいいんだけど、飽きてくるのが難点だなあ。

Howie, P.J., Wang, Y., Tsai, J. (2011) Predicting new product adoption using Bayesian truth serum. Journal of Medical Marketing, 11, 6-16.
　薬品の新製品についての医師による受容性評価にベイジアン自白剤(BTS)を使うという話。著者所属は、筆頭の人がTargetRx、あとはファイザー。TargetRxというのはヘルスケア系の調査会社で、現存しない模様(Symphonyグループに買われたらしい)。いずこも大変ですね。

　医師1763人、13個の新製品について調査。1人は1製品だけらしい。製品非認知者はあらかじめ外してある。
　この研究は、truth-tellingメカニズムというBTSの特徴には関心がないので、対象者にBTSについての教示はしていない模様。設問はオリジナルのBTSとちょっと違っている。「(新製品)が利用できるとして、疾患ほにゃららを持つあなたの患者に対して以下の治療を処方するパーセンテージは？」治療のリストのなかに新製品がはいっている。新製品に対する回答をXとする。「あなたの同僚や他の医師はほにゃらら患者をどのように扱うと思うかを伺います。ほにゃらら患者のうち(新製品)を処方される人のパーセンテージは？」回答をYとする。
　BTSではXはカテゴリカル変数, Yは各水準への離散確率分布でないといけないので、どうするのかと思ったら、Xは101水準のカテゴリカル変数だとみなし、Yをポワソン分布の平均とみなして101水準への離散確率分布を無理矢理つくった模様。なるほど。
　で、ここが医薬品業界のすごいところだが、調査対象者の医者がどんな処方をしたかのデータベースがある。そこから、新製品上市の次の四半期における実際の処方シェアを計算して、突き合せちゃうのである。

　分析。
　まずBTSのことは忘れて、予測シェアで実シェアを説明するモデルを組む。説明率4%、βは0.18。予測シェアXは、実シェアを過大評価する傾向がある由。
　で、BTSスコアを使うのだが... 原文には"we can now evaluate whether whether using the BTS to weight the individuals will improve predictive performance"とあるから、BTSスコアをウェイトにしたWLS回帰を行う、ということかしらん？
　なお、BTSスコアは情報スコアと予測スコアの和だが、原論文には予測スコアに重みづけしてよいと書いてあるので(重みをalphaと呼ぶ)、0.0001, 0.5, 1の3種類のalphaを試す。スコアが負である対象者は除外する(200人くらいが除外される)。
　結果は... BTSスコアで重みをつけると、説明率はちょっぴり上がりました。βも上がりました。回帰じゃなくて製品別の累積でみると、alpha=0.0001でMSE最小であった由。そうか、予測スコアはいらないのか... もっともこれはポアソン分布による近似のせいかもしれない、とのこと。

　上市前新製品についての医師の処方意向が、上市後のその医師の処方選択をほとんど説明しないというところ、泣かせますね。著者のみなさまには悪いが、BTSを使っても焼け石に水、という感じである。関係者のみなさま、ご一緒に泣きましょう。
　細かいことだけど、BTSスコアと予測シェアXの関連が知りたいところだ。Xがキリのよい値だとBTSスコアが低い、なんていう関連性なら、それはすごく納得する。でも、たとえばXが高いとBTSスコアが低い、なんていう関連性だったら、BTSスコアが回答の質と関連したのはポアソン分布による近似で生じたアーティファクトかもしれないと思う。BTSスコアとは要するにカテゴリ選択率と他者のカテゴリ選択率予測値の平均との比の対数だから、高いほうのカテゴリの選択率予測値を高めに近似すれば、Xの高いほうのカテゴリに対するBTSスコアは低くなる。Xが高い医者、つまり派手にoverclaimしている医者が除外されれば、そりゃあ説明率は上がるだろう。

　これまで読んできた研究をおおまかに整理すると、次の3つがあった:

A) BTSの教示が回答の質を向上させるかという話 .... Weaver&Prelec (2013)の実験1, 5; John, Lowenstein, & Prelec(2012)
B) BTSの教示とスコアのフィードバックが回答の質を向上させるかという話... Weaver&Prelec(2013)の実験2, 3, 4, 5; Barrage & Lee(2013)
C) BTSスコアが回答の質を示すかという話... Weaver&Prelec(2013)の実験2

この研究は路線 C である。
　著者いわく、BTSとはどんなものかということ、自分がそれによって評価されているということ、を回答者に理解してもらうのは大変なわけで、教示がある場合とない場合のちがいの検討が必要だね、とのこと。全くその通りだと思う。BTS関連の研究を読んでいて感じるのは、総じて回答の心的プロセスに関心が持たれていないという点で(「事前分布が共通だとして」なあんて簡単に仮定しちゃうのだ)、このへんが、調査回答の認知心理学的研究と、ゲーム理論やメカニズム・デザインに由来する研究とのスタンスの違いだという気がする。うーん、Prelecさん自身は心理学者だと思うんだけど。そこんところもちょっと不思議だ。

論文：予測市場 - 読了: Howie, Wang, & Tsai (2011) ベイジアン自白剤 for 医薬品の新製品受容性予測

　市場調査では、ある製品の値付けのために消費者の態度・知覚を調べることがある。いちばん単純なのは、これにいくら払いますか、と支払意思額(WTP)を直接に訊くことだが、さすがにそれではあまりうまくいかないので、いろいろな工夫をする。
　経済学のほうでも、調査で人々のWTPを調べるということは広く行われているようで、どうやら公園とか環境とか歴史遺産とか、市場で取引されないもの(非市場財)の評価に使うらしい。よくわかんないけど、市民の主観効用に応じて政策を決めるため、なんですかね。
　あれこれ文献を読んでいると、そうした文脈でのWTPの直接聴取はcontingent valuation (CV)と呼ばれていることが多い。いま検索してみたら、なんと「仮想評価法」という立派な訳語があった。世の中にからきし疎いもので、こういうときに困る。

　Barrage, L., Lee, M.S. (2010) A penny for your thoughts: Inducing truth-telling in stated preference elicitation. Economic Letters, 106, 140-142.
　当然ながら、CVで調べたWTPは高めに歪む。だって、架空の話なら、「この公園を維持するためならワタシ年に100万円でも払いますよ」なあんて言いたい放題ですもんね。この「仮説バイアス」をどうにかしたいので、手法をいくつか比較します、という主旨。
　そのうち目新しい手法はベイジアン自白剤である。つまり、これは Weaver & Prelec (2013) の実験5に相当する研究だ。

　被験者は上海の学生240名(セルあたり24名か...)。評価するのは、災害救援のためのテントへの寄付、ないし公害被害者の法的支援のためのホットラインのスタッフへの寄付。要因は被験者間5水準。さあ、選手入場です。

real: 寄付の賛否を問う。賛成が5割を超えたら全員から30元集めて寄付する。超えなかったらなにもしない。
hypothetical: real と同じだけど、実際にはお金を集めない。
cheap-talk: hypotheticalと同じなんだけど、事前に仮説バイアスについて説明し、本当の話だと思って投票してくれと教示。
consequential: 50%の確率でreal条件、50%の確率でhypothetical条件になると教示。(実際には結局どうしたのだろうか?)
ベイジアン自白剤。スコアをフィードバックし、スコアに応じて報酬を払っているらしい (この条件だけ調査参加報酬ありってこと? まさかね...)

　結果。賛成率は、テントでは順に48%, 79%, 77%, 50%, 77%。ホットラインでは、32%, 83%, 50%, 17%, 55%。real条件を正解と捉えると、consequentialがやたらに効いている。ベイジアン自白剤はいまいちだ。なんだかなあ。

　事後的分析なので、あんまり深読みするのもどうかと思うけど、cheap-talkと自白剤は、貧困対策団体について良く知らないと答えた人、ならびに女性によく効いたそうだ。ふうん。

論文：予測市場 - 読了: Barrage, & Lee (2010) ベイジアン自白剤 for 支払意思額聴取

John, L.K., Lowenstein, G., Prelec, D. (2012) Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23(5), 524-532.
　Prelec先生、ベイジアン自白剤を引っ提げて各領域を荒らしまわるの巻。今回の舞台は心理学だ！なんだか昔のTVシリーズ「特攻野郎Aチーム」みたいだな。懐かしいなあ。
　今回のお題はこうだ。世間では研究者による捏造が注目を集めているが、その一歩手前のグレーゾーンもなかなか深刻です。たとえば、ちょっと都合の悪いデータを数件、後付けの理由をつけて除外しちゃう、とか。以下、そういう行為をQRP (questionable research practices) と呼ぶ。心理学者にアンケートして、どのくらいQRPに手を染めているか訊いてみましよう。正直に答えそうにないって？大丈夫！そこでベイジアン自白剤ですよ！

　USの心理学者5964名に電子メールで調査参加を依頼、2155名から回収。回答は匿名で行う。項目は以下の通り。

10種類のQRPを提示、それぞれについて以下を聴取。
1. それに個人的に関与したことがあるか。(告白)
2. 他の心理学者のうち何パーセントがそれに関与していると思うか。(普及率評定)
3. それに関与した心理学者のうち何パーセントがそれを認めると思うか。(告白率評定)
4. 最初の設問にyesと答えた場合は、それが擁護可能だと思うかを聴取 (no, possibly, yes)。
「他の機関の心理学者」「自分の機関の他の心理学者」「院生」「自分たちの共同研究者」「自分たち」について、研究の真正性に対する疑いの程度を評定させる (never, once or twice, occasionally, often)。

各回答者の各QRPに対する告白有無と普及率評定から、御存知ベイジアン自白剤スコアを算出できる。この論文の説明だけではなんのことだかさっぱりわからないと思うんだけど、えーと、告白と普及率評定を回答するたびにスコアが付与される仕組みで、そのスコアは、それを最大化するためには正直かつ真剣に答えるしかないという不思議な性質を持っているのでございます。
　インセンティブを被験者間で操作する。

自白剤群。5つの寄付プログラムのなかからお好きなものをお選びください。我々があなたに代わって寄付します。その額はあなたのベイジアン自白剤スコアによって決めます。ベイジアン自白剤というのはですね、正直に答えないと損をする仕組みになっていて、サイエンスに論文が載っているですよ(と、論文へのリンクを示す。理屈は説明しない)。なお、この教示は嘘ではなく、ほんとに寄付した由。
統制群。あなたに代わって寄付します、とだけ教示。

　結果。

告白率がもっとも高かったQRPは「論文で、ある研究の従属変数のすべてを報告しなかったことがある」(統制群で63%)、一番低かったのは「データを偽造したことがある」(0.6%)だったそうである。ちょっと笑っちゃったのが、「論文で、p値が.054だったときに.05にしちゃうという風にp値を丸めたことがある」(22%)。いかにもありそうな話だ...
告白者の擁護可能性評定は総じて高く、告白率が高いQRPで特に高くなる。
自白剤群のほうが告白率が高い。特に告白率が低いシビアなQRPで差が大きい。
QRPに対する3つの設問を比較すると、告白率、普及率評定、告白率評定の順に低い。まあ、そうでしょうね。
あるQRPを告白する人は他のQRPも告白していることが多い。
研究の真正性に対する疑いは、当然ながら自分や共同研究者に対しては低い。いっぽう、自分の機関の研究者に対する「疑ったことはない」回答率は4割を下回る。他の機関の研究者に対しては約1割。
設問のワーディングの影響もあるんじゃないか、というので別の小さな調査も紹介している。省略。
告白率は認知心理、神経科学、社会心理で高く、臨床で低い。また、実験研究者で高くフィールド研究者で低い。もっとも、分野によっては縁のなさそうなQRPもあるわけで、別の調査で分野との関係を尋ねたりしている。省略。

　というわけで、QRPはとても一般的です。研究に再現性がないといわれるのももっともですね。云々。

　この論文には、アメリカの心理学における研究不正についての実態調査という記述的な意義と、ベイジアン自白剤という真実申告メカニズムの適用という方法論的な意義があると思う。でも自白剤群では対象者にベイジアン自白剤の理屈を説明しているわけではないし、スコアのフィードバックもしていないのだから、自白剤群と統制群との差は、要するに「偉い学者が考えたすごい方法であなたの正直さがわかっちゃうんですよ」という教示の効果に過ぎない。だから、後者のほうの意義は怪しいと思う。この論文の本旨ではないのかもしれないけど、失礼ながら、なにやってんすか先生、という気持ちで一杯である。
　せっかく数千人の専門家から回答を集めるんだから、メール調査じゃなくてweb調査にして、Weaver & Prelec (2013) の実験2みたいに、各QRPについて回答するたびに自白剤スコアがフィードバックされる条件をつくれば、もっと面白かったのになあ...

論文：予測市場 - 読了: John, Lowenstein, & Prelec (2012) 心理学者にベイジアン自白剤を飲ませたら

2014年5月 1日 (木)

Witkowski, J. & Parkes, D.C. (2012) A robust bayesian truth serum for small populations. Proceedings of the 26th AAAI Conference on Artificial Intelligence. 1492-1498.
　Prelec のベイジアン自白剤は、サンプルサイズが大きいときにはうまくいくが、小さいとうまくいかない。そこで、二値回答に限定し、3人以上ならうまくいく改訂版をご提案します。という論文。

　導出過程はぜんぶすっとばして結論をいえば、こういう手法である。
　対象者 $i$ の回答を $x_i$, 回答率予測の回答を $y_i$ とする。対象者 $i$ について、隣の人 $j$ を「リファレンス」、そのまた隣の人 $k$ を「ピア」と呼ぶ。リファレンスに注目し、$\delta = \min (y_j, 1 - y_j)$ を求める (たとえば $y_j = 0.8$ なら $\delta = 0.2$だ)。で、もし $x_i = 1$だったら$y_j$ に$\delta$を足し(1になる)、でなかったら引く(0.6になる)。これを $y'$とする。で、ピアに注目し、もし $x_k = 1$だったら $2y' - y'^2$ を情報スコア、$2y_i - y_i^2$ を予測スコアにする。でなかったら、$1 - y'^2$ を情報スコア、$1 - y_i^2$ を予測スコアにする。
　。。。頭おかしいんじゃないかというような話だが、こうして得た情報スコアと予測スコアの和は、それを最大化するには正直に答えるしかないスコアになるのだそうだ。知らんがな！！！
　
　途中までは数式を丁寧に追いかけたんだけど、途中で混乱して挫折した。
　混乱した理由はふたつあって、まず、BTSの定式化のしかたがPrelecの論文とはちょっとちがう(Prelecは n→∞ について定式化している)。
　さらに、えーと、この論文の著者らは、真の状態の事前分布と各状態の下でのシグナルの条件つき確率が共有されているとき、自分の観察したシグナルで状態の事後分布をベイズ更新する、と説明しているんだけど、事前分布が共有されているのはともかくとして、シグナルの条件付き確率までも共有されているというのは、具体例に当てはめるといったいどういうことなのだろう？と考え始めたら、だんだん混乱してきてしまい。。。一晩寝てゆっくり考えよう。

論文：予測市場 - 読了：Witkowski & Parkes (2012) ベイジアン自白剤 for 少人数

櫻井祐子, 沖本天太, 岡雅晃, 兵藤明彦, 篠田正人, 横尾真 (2012) クラウドソーシングにおける品質コントロールの一考察. 合同エージェントワークショップ＆シンポジウム(JAWS), 2012.10.
　Prelecのベイジアン自白剤(BTS)を紹介している日本語文献として、いまのところ唯一発見できたもの。
　クラウド・ソーシングで、ワーカに作業結果と一緒に「作業結果についての自信」を報告させる(ないし、期待利得が異なる二つの価格プランから一方を選ばせる)。このとき、どういう報酬にすれば真の解答と真の主観的自信を報告することが最適戦略になるか、という研究。
　実際に、Amazon Mechanical Turkとランサーズで実験している。価格プラン選択のほうで、提案手法はうまくいきました、とのこと。

　先行研究概観。エージェントに主観確率を真実申告させるためのメカニズムとしては、まず proper scoring rule がある。Bickel (2007, Decision Analysis)というのが挙げられている。また、条件付き事前確率が共有知識である場合のメカニズムとしてはBTSがある。
　クラウドソーシングの品質管理の研究はいっぱいある。BTSを導入した例もある由(Shaw, et al., 2011, Proceedings)。
　マルチエージェントシステムの研究にも関連したのがある由。チームリーダーとメンバーのそれぞれにメンバーの作業時間を予測させるとか。へー。

　肝心の提案手法については、ちゃんと読んでないのだが(すいません)... BTSについて、ずーっと質問紙調査の手法という観点から考えていたので、こういう視点は大変勉強になった。

論文：予測市場 - 読了：櫻井 et al. (2012) クラウドソーシングで品質の主観的自信を正直に報告させるメカニズム・デザイン

　"Bayesian Truth Serum"をwebで検索すると、もちろんいっぱいヒットするけど、日本語のページはほとんど見当たらない(このブログが上のほうに出てくる始末だ)。なぜだろう。誘因整合性やメカニズム・デザインにご関心をお持ちの方は日本にも山ほどいるだろうに。調査のメカニズム・デザインなんて、やはり周縁的な話題なのだろうか...

Weaver, R. & Prelec, D. (2013) Creating truth-telling incentives withthe Bayesian Truth Serum. Journal of Marketing Research, 50(3), 289-302.
　2004年のScience論文以来、Prelecさんはベイジアン自白剤(BTS)を引っ提げていろんな分野に乗り込んでいるようだが、これはその市場調査版。先生は心理学者だが、お勤め先はビジネススクール(MIT Sloan)だから何の不思議もない。
　
　BTSというのは要するに、対象者の個々の回答に「それを最大化するためには正直に答えるしかないスコア」を割り振る手法である。回答を求めるついでに、この質問に他の人はどう答えると思いますかと尋ね、この2つの答えからスコアをはじき出す(この論文でもその理屈を縷々説明しているのだけど、やっぱりわかりにくい...)。もともとの提案では、BTSは情報スコアと予測スコアの2要素からなるのだけれど、この論文はその肝となる情報スコアのほうだけを扱っている。

　えーと、研究の背景。BTSを支持した報告としては Barrage & Lee (2010, Economics Letters), John, Loewenstein, Prelec (2012, Psych. Sci.) がある。いっぽう疑念としては以下が挙げられる: 想定が非現実的だ；情報スコアが正直さに報酬を与えているからといって、それが正直さを引き起こすかどうかは別の問題だ(←そうですよね); データの質の向上が複雑さの増大に見合うとは限らない。本論文ではこれらの疑念にお答えいたします。

　実験は５つ。使う課題はブランド名などの再認実験で、リストのなかに妨害項目(実在しない名称)がはいっている。こういう課題、元はPhillips & Clancy (1972, Am.J.Sociology)まで遡れるが、直近のではPaulhusらの手続きを参考にした由。うーん、調査参加者の誠実さを再認課題で測るという発想であれば、もっと昔からあるような気がするけど。

　実験１。
　一般的知識についての調査を行う。歴史上の人物など6カテゴリについて、実項目を47個, 妨害項目を24個用意。各項目について、知っているかどうかと、他の人がどのくらい知っていると思うか(0%から100%までの11件法)を回答する。
　対象者133人。要因は2x2の被験者間デザイン。

truth-tellingインセンティブ。BTS条件では、MITの教授が開発してサイエンス誌にも載った手法で回答の正直さをスコアリングします、上位1/3に25ドルあげます、と教示。全項目への回答後に情報スコアの合計が表示される(ほんとは調査が終わるまで算出できないから、パイロット調査で出したスコアを使う)。統制条件では、ランダムに選んだ1/3の対象者に25ドルあげます、正直に答えてねと教示。回答後にランダムな値を表示する。
deceptionインセンティブ。overclaiming条件では「知っていると答えた項目ごとにさらに10セントあげます」と教示。統制条件では教示なし。

結果：実項目への正再認率は、コントロールで58%, overclaimのみで71%、BTSのみで57%。BTS+overclaimでも57%。妨害項目の虚再認率は、順に20%, 42%(この欲張りどもめ), 14%, 14%。というわけで、truth-tellingインセンティブは効き、overclaimngインセンティブの効果を消す。
　反応を従属変数、項目タイプ(実/妨害)と２要因を放り込んだ回帰もやっていて、3つの主効果のほかに２要因間の交互作用も有意だった由。細かいことだけど、これ、データの行をは対象者x項目タイプ、従属変数は再認反応率、であろう。そんな分析でいいのだろうか？行を対象者x項目、従属変数を二値反応にして対象者番号を投入したロジスティック回帰をやるとか、行を対象者、従属変数をROCのd-primeのような成績指標にして条件間比較するとかにしないといかんのではなかろうか。記憶の研究してる方は昔からそういうのにうるさいと思うのだが... この掲載誌はあまり気にしないほうなのだろう。
　4条件のそれぞれについて、Hit, Miss, False Alerm, Correct Rejection (論文ではこういう言い方はしてないけど) について、情報スコアの平均を算出。たとえばBTSのみ条件では、順に+0.16, +0.08, -0.99, +0.34。情報スコアはtruth-tellingと整合している、との仰せである。Missの情報スコアが正になってますけどね...。

　実験2。実験1は結局のところ教示の効果を調べただけであった。今度は情報スコアをフィードバックする。
　対象者117名。60項目、うち20項目が妨害。要因計画は実験1と同じ2x2だが、報酬がちょっと違う。

truth-tellingインセンティブ: BTS条件では(情報スコアx1.5)ドル。統制条件では項目あたり25セント(ってことは15ドルか)。
deceptionインセンティブ: overclaiming条件では、「知っている項目ごとにさらに25セントあげます」と教示。統制条件では教示なし。

項目に反応するたびにフィードバックがでる。BTS条件では、「知っている」「知らない」両方の情報スコアと、当該対象者の獲得額が表示される。この情報スコアはほんとに、この実験の当該セルでそれまでに集めたデータで算出したのだそうだ(最初のほうの対象者に出すスコアを求めるために、各セルでプレ実験を10人やった由)。凝りましたね。
　結果: 再認率は実験1を再現。おっと、今度はデータの行を対象者x項目にしたロジスティック回帰をやっているぞ。実験1ではなぜそうしなかったのかしらん。ひょっとして、ローデータを失くしちゃったとか、そういうプラクティカルな理由かしらん。
　BTS条件下の報酬は、実項目では「知っている」が正、妨害項目では「知らない」が正となり、truth-tellingと整合している。さらに、系列位置の効果をみると、BTS+overclaim条件下でのみ、虚再認率が次第に減る。つまり、フィードバックを通じて対象者はtruth-tellingが報われることを学んでいる。BTSのみ条件でそうならないのは、最初から信じちゃうからだろう、とのこと。楽観的なご意見だ。
　なお、この実験では情報スコアを被験者ごとに再計算したわけだが、その値はだいたい安定していた由。
　BTSで嘘つきを同定できるだろうか？というわけで、個人ごとにROCでいうd-primeを出し情報スコアと比較すると、相関がある由。情報スコアが特に低い人の例: 実在しない映画"The Deli"を知っていると答え、"The Big Lebowski"(コーエン兄弟のコメディですね。観てないけど)を知らないと答えている。実在しないラム酒"Oronoco"を知っていると答え、"Jim Beam"を知らないと答えている。

　実験3。対象者27人。実験2のBTS条件と同じだが、教示を変える。BTSについて一切説明せず、単に報酬額だけをフィードバックする。また、全セルで２問目の予測質問を省略する(BTSは実験2のスコアを借用する)。ああ、これは面白い実験だなあ。
　結果: データの行を対象者x項目、従属変数を回答、独立変数を{系列位置、項目、系列位置x項目タイプ}にしたロジスティック回帰で、系列位置と項目タイプの交互作用が有意。妨害項目では再認反応率が系列位置とともに減少する。つまり、情報スコアのフィードバックのせいで虚再認が減少している、とのこと(チャートをみると、実項目の正再認率も少し減少しているのだけれど)。セッションの最後の1/4だけについて、実験2(BTSのみ条件、統制条件)と実験3を比べると、正再認率は有意差なし、虚再認率は統制条件に比べて低い。

　実験4。他の truth-telling メカニズムと比べてみましょうという主旨。どんなのがあるでしょうか、とここで急に先行研究レビューになって、

Jones & Sigall (1971, Psych.Bull.) の"bogus pipeline"。あたかもポリグラフみたいにみえる装置をつけて、ウソついたらわかっちゃいますよと教示するのだそうだ。ははは。ちょっと検索してみたら、これは有名な手法らしく、93年にメタ分析の論文が出ている模様(Roese & Jamieson, 1993, Psych.Bull.)。
"audio computer-assisted self-interviewing"。ヘッドホンから質問が流れてきて、キー押しで回答する。回答者の匿名性が保証される由。よくわからないんだけど、どうやら通常のCAPIとちがい、なににどう答えているか調査員にわからない、という主旨らしい。社会的望ましさバイアスが除去できるだけで、真面目に答えてくれるかどうかは別の問題である。
"solemn oath"。神聖な誓約、とでも訳せばいいのかしらん。調査参加の前に、正直に答えますという誓約書にサインさせる。馬鹿みたいだけど、効き目があるという報告がある由。まじか。Jacquemet et al.(2009, Working Paper)というのが引用されている(論文化されている模様。2013, J. Env. Econ. & Mgmt.)

というわけで、BTS条件と誓約書条件を比べる。両方ともoverclaimingのインセンティブをつける。対象者70人。BTS条件の報酬は、情報スコアを金額にしたもの。さらに再認ごとに15セント。実験2と同様、情報スコアはリアルタイムに算出。誓約書条件は、項目あたり10セント、さらに再認ごとに15セント。
　結果: BTS条件では正再認率54%, 虚再認率21%。誓約書条件では72%, 52%。実験1のコントロール条件(58%, 20%)と比べると、誓約書はあまり効いていないのに、BTSは効いている、とのこと。うーん、こういうときこそ対象者ごとのd-primeを比較すべきだろうに。

　実験5。BTSを非市場財の価値評価に適用しますという主旨。他にどんな方法があるでしょうか、とここでまた先行研究レビューになって、

ただのcontingent valuation (支払意思額の直接聴取のことであろう)。
聴取の前に、この質問への回答はふつうインフレになるんですよね、と教示する。効くかどうかは諸説ある由。
結果をなんらかの関数でキャリブレーションする。財や文脈によって関数が異なり、うまくいかない。

というわけで、実験。対象者114名。National Endowment for the Artsという連邦機関に寄付すべきかどうかの投票を求める。以下の4条件を比較する。

real条件。賛成派が勝ったら、対象者ひとりにつき4ドル、実験者が寄付する。反対派が勝ったら、対象者全員に4ドルあげる。
hypotetical条件。real条件と同一だが架空の設問だと教示する。
BTS条件。BTSについて説明し、情報スコアのぶん支払うと教示。
訓練つきBTS条件。事前に実験1-4みたいな再認課題をやってもらい、情報スコアをフィードバック。なお、BTSで事前訓練をした例としてはBarrage & Lee(2010, Economic Letters)がある由。

　結果: 寄付賛成率は順に44%, 76%, 47%, 50%。BTS条件はreal条件に近い。(real群44%ってことは、参加者に4$配ったのだろうなあ...)

　考察。

そもそもuntruthfulnessには次の3つがあるだろう。(1)intentional deception。(2)carelessness。(3)inauthenticity (社会規範etc. によるバイアス)。本研究で、BTSは再認課題におけるoverclaimingインセンティブの効果を消した。つまりBTSは(1)に効く。また、overclaimingインセンティブがない状態でも、BTS条件は統制条件より成績が良かった。つまりBTSは(2)か(3)か、ないし両方に効く。BTS条件のほうが回答に時間がかかっていたから(おいおい、その話はここではじめて出てきたぞ)、(2)に効いたのかもしれない。それに、(3)は完全に無意識的な面もあって、そういうのはインセンティブでどうにかなるものではないだろう。なお、Paulhusは社会的望ましさバイアスを印象形成と(自尊心維持のための)自己欺瞞にわけていて、後者は社会的望ましさの必要性が変わっても影響されないと考えている。
理論的には、BTSのために必要とする2問(回答と他者回答予測)のうち、他者回答予測のほうが少数の対象者だけでかまわない。
BTSのその他のメリット: 調査回答前に製品を使ってこいという宿題を出すような場合、BTSのせいで宿題実行率が上がりそうだ; 競争の要素が調査に含まれることで調査参加が楽しくなるかも; 良い回答者を選べるかも; フィードバックすることで回答の質が上がるかも。

　やれやれ、面倒な論文であった。個別の実験はしょぼいし(特に実験1)、分析もあまりエレガントでないのだが、手を変え品を変えて実験を重ねているところがすごい。

　ベイジアン自白剤のしくみについて、まだよく理解できない箇所があり... 元のScience論文を読み直したり他のをあたったりして、延々思い悩んでいる。辛い...

論文：予測市場 - 読了：Weaver & Prelec (2013) ベイジアン自白剤 in 市場調査