elsur.jpn.org >

« 2014年4月 | メイン | 2014年6月 »

2014年5月28日 (水)

Carlson, B.D., Suter, T.A., Brown, T.J. (2008) Social versus psycholoical brand community: The role of psychological sense of brand community. Journal of Business Research. 61, 284-291.
 先日唐突に訪れたベネディクト・アンダーソン「想像の共同体」の一大ブームのあおりで、「読みたい資料」の山に追加したもの。整理のためにぱらぱらめくっていて、気になってつい最後まで読んでしまった。

 最近のブランド研究では、みなさんブランド・コミュニティに注目しておられますが(Muniz&O'Guinn(2001)が提唱した、ブランドを中心としたコミュニティとでも呼ぶべき現象のこと。企業が構築するブランド・ユーザ・コミュニティのことではない)、実際にメンバー間の相互作用があるコミュニティだけではなく、相互作用を伴わない、単なる想像されたコミュニティも大事なんですよ。という主旨の調査研究。
 以下、実際に社会的相互作用を伴うタイプのブランド・コミュニティを社会的ブランド・コミュニテイ、単にメンバーがコミュニティの感覚を持っているというだけで実際には社会的相互作用は起きていないタイプのブランド・コミュニティを心理的ブランド・コミュニティと呼ぶ。

 Muniz&O'Guinnはブランド・コミュニティの構成要素として、意識の共有、儀式の共有、道義的責任可能性の3点を挙げている。でも心理的ブランド・コミュニティにおいてはこの3つは必須でない。ここの説明、大事なのにさらっと書かれているので訳出しておくと、

たとえば、心理的ブランド・コミュニティのメンバーはそのブランドの他のユーザが存在することを知っているが、自分たちを内集団の一部として分類したり外集団と区別したりしているとは限らない。コミュニティの感覚の背後にある起動力(impetus)は、コミュナルな関係や意識の共有ではなく、ブランドである。さらに、共有された儀式と伝統はコミュニティの文化を維持し適切な振る舞いの規準を提供する助けになるだろうが、心理的コミュニティにおいては必須でない、なぜなら社会的相互作用は生じないかもしれないからである。最後に、道義的責任可能性の感覚は社会的ブランド・コミュニティにおいては見つかるだろうが、心理的ブランド・コミュニティとはあまり関連していない。それ[道義的責任可能性の感覚]が表しているのは「コミュニティ全体に対する、そして個々のメンバーに対する、義務・責務の感覚」(Muniz & O'Guinn, 2001, p.413)である。これらの責務の下にあるのは、ブランドの使用を助けることと共に、メンバーを統合し維持することであろう。[いっぽう]心理的ブランド・コミュニティは、本質的に、そのconstituents[メンバーのこと?]によって持続されるような実体ではない。

 。。。うーむ。まあとにかく、著者らは、従来のブランド・コミュニティってのは社会的ブランド・コミュニティのこと、それに対して心理的ブランド・コミュニティはもっと広い概念だと考えているわけである。

 で、著者らいわく、従来指摘されていたブランド・コミュニティのベネフィットは、心理的ブランド・コミュニティにおいても得られる。つまり、大事なのはブランド・コミュニティという心理的感覚 (PSBC)、すなわち「ある個人が他のブランド・ユーザと関係的な絆を知覚している程度」である。

 というわけで、因果モデルを作ります。
 PSBCを生みだすのは、ブランドそれ自体への自己同一化、そしてそのブランドのユーザ集団への自己同一化であろう。なお、自己同一化については認知的に捉え、自己スキーマと対象スキーマの重複の程度とみなす。というわけで、
  H1. ブランドとの自己同一化はPSBCにポジティブな影響をもたらす。
  H2. ブランドのユーザ集団との自己同一化はPSBCにポジティブな影響をもたらす。
 リレーションシップ・マーケティングでは関与(commitment)が大事だといわれている。関与をもたらすのはきっとPSBCであろう。というわけで、
  H3. PSCBはブランド関与にポジティブな影響をもたらす。
 image congruence 仮説によれば(Grubb & Grathwol(1967)というのが挙げられている)、個人の消費行動は、象徴的意味をもたらす製品の消費を通じて自己概念を拡張させる。また、自己定義的欲求が満たされる時、消費者のブランドに対する自己同一化はしばしば消費者とブランドの強い関係をもたらす。とかなんとかというわけで、
  H4. ブランドとの自己同一化はブランド関与にポジティブな影響をもたらす。
 先行研究によれば、ブランド・コミュニティのメンバーは集団の規範と整合的な行動・意図を示す。たとえば当該のブランドを選好するし、イベントに参加するし、クチコミするし、ブランドの歴史を称える。というわけで、
  H5. ブランド関与は、ブランド選好、ブランドのイベントへの参加意向、クチコミ、ブランドの歴史の称賛にポジティブな影響をもたらす。
 社会的ブランド・コミュニティが存在するときは、そうでないときに比べ、ユーザ集団との自己同一化の影響がより大きくなるだろう。というわけで、
  H6. H1の効果は社会的ブランドコミュニティが存在するときに小さくなる。
  H7. H2の効果は社会的ブランドコミュニティが存在するときに大きくなる。
 というわけで、出来上がったモデルは次のとおり。外生変数は、ブランドとの自己同一化と、集団との自己同一化。この二つがPSBCに効く(H1, H2)。効き方は社会的ブランドコミュニティによって異なる(H6, H7)。PSBCとブランドとの自己同一化がブランド関与に効く(H3, H4)。ブランド関与がブランド選好、イベント参加意向、クチコミ、ブランド史称賛に効く(H5)。多母集団の4層逐次モデルである。

 実証。面倒になってきたので早送りで...
 USのとあるテーマパークを対象とする(ディズニーランドかなあ...)。調査項目は、PSBCは7件リッカート尺度で6項目。ブランド同一化と集団同一化は各2項目、ブランド関与5項目、選好4項目、イベント参加以降1項目、クチコミ3項目、ブランド史称賛2項目、これらは先行研究から引っ張ってくる。
 研究1. ユーザが勝手に作ったオンライン・グループから対象者をリクルートしてweb調査。結果: 適合度は良好。構造モデルのパス係数は、H1は有意でなかったがH2, H3, H4, H5で有意。なお、PSBCから4つの結果変数に直接パスを引くと適合度がもっと上がる。
 研究2. このテーマパークの来場者をリクルートして郵送調査。結果: 適合度は良好。H1は有意、H2は有意でない。PSBCから結果変数に直接パスを引いても適合度は上がらない。
 2つのデータを合わせて分析して、H6, H7を支持している。面倒なのでパス。

 考察。PSBCはブランド関与を高め、ブランドとの関係を促進する。PSBCを高めるためには、社会的ブランド・コミュニティがあるときにはそのコミュニティに関連したマーケティング・アクションが有効だし、ないときにはブランドイメージの操作が有効だ。云々、云々。

 うーむ。。。私がなにか誤解しているのかもしれないけど。。。感想が2点。

 まず、コミュニティという概念について。
 コミュニティという概念に関する著者らの論点は2つある。(1)ブランド・コミュニティはメンバー間の相互作用を含むとは限らない。(2)Muniz& O'Guinnが挙げた3要件はブランド・コミュニティの必須要件ではない。
 ちょっと混乱があるのではないかという気がする。Muniz&O'Guinn(2001)がいっていたのは、「現代社会においてはブランドの周りに、コミュニティと呼び得るようなナニカが生じていますね」ということだったのではないか。彼らが挙げた3つの要件とは、そもそも私たちがある現象をコミュニティと呼び得るのはどんなときか? という一般的要件で、彼らの主張は「ほらブランドの周りにあるナニカはこの3つの要件を満たしていますよ、だから(伝統的な意味でのコミュニティらしくはないけれど)コミュニティと呼んでいいのではないですか?」というロジックに沿っていたと思う。
 このロジックに従えば、実際の社会的相互作用があろうがなかろうが、コミュニティ感覚が存在していようがいまいが、この3つの要件を満たしていないナニカはコミュニティではない。従って、著者らの考える「心理的ブランド・コミュニティ」は、Muniz&O'Guinnが考えるところのコミュニティでないことになると思う。その理由は、実際の社会的相互作用を伴っていないからではなくて、3つの要件のうちいくつかを満たしていないからである。
 つまり、著者らがいうところの「コミュニティ」はMuniz&O'Guinnのいう「コミュニティ」よりも広い概念である。結構。では著者らのいう「コミュニティ」とはなにか。著者らいわく、社会的アイデンティティ理論によれば、社会的相互作用がなくてもコミュニティ感覚は存在しうる(そりゃまあそうだろう)。で、著者らはこのコミュニティ感覚(PSBC)をもって「心理的ブランド・コミュニティ」を特徴づけている。ううむ。いまブランド・コミュニティ研究のいきさつを抜きにして、いきなり「コミュニティの感覚を持っている人たちのことをコミュニティと呼びます」と宣言したら、(アンダーソンを含めて)たいていの社会科学者は、そのあまりに広範囲な定義に呆れちゃうんじゃないだろうか。

 まあこれは「なにをコミュニティと呼ぶべきか」という論点、社会科学において長い伝統を持つコミュニティという概念を心理主義的に再定義しちゃっていいのかという話であって、それはそれでとても大事だけど、ちょっと横に置いておくこともできるだろう。よし、横に置くぞ。

 2点目。ふらっと一本論文を通読しただけで、プロの研究者の方に対して大変失礼な言い方だと思うけれど、これ、「横断調査を一発やってSEMでモデリングしました」的研究の典型だと思う。
 まず、ある心理学的なダイナミクスを想定する。そこから、心的構成概念間のスタティックな関連性についての統計的仮説を生成する。それぞれの構成概念を複数の調査項目で測定する。潜在変数モデルをつくり、潜在変数間に仮説に従ってパスを引き、パス係数やモデルの適合度で仮説を支持してみせる。
 その限りにおいては美しい。でも問題は、仮説を支持することが理論を支持する証拠になっているのか、という点だ。
 第一に、全然別のダイナミクスから、ほぼ同一の統計的仮説を演繹することができるかもしれない。たとえばこの論文とちがって、「ブランドへの選好がブランド関与の基盤となる」というダイナミクスを考えたとしても、ほぼ同じパス図が得られる。矢印は一か所逆向きになるけど、データに基づき矢印の向きを検証するのは困難だ。
 第二に、そもそも構成概念自体が理論に基づいている。たとえばこの論文では「PSCBがブランド関与に影響する」というダイナミクスを考えているわけだけど、想像するに、「ブランド関与」なる構成概念を用いたこれまでの研究を調べれば、その測定項目のなかにPSBCに相当する項目(ブランド・ユーザのコミュニティという感覚について問う項目)を含めている研究が、きっと見つかるだろう。ブランド関与とPSBCは異なる構成概念か? この理論に言わせれば異なる、でもほかの理論に言わせれば同じことかもしれない。それは測定モデルの比較を通じて決着をつけるべき問題だ、なんていうのはあまりにデータ分析寄りな見方であって、実のところ、潜在変数の弁別的妥当性なんて言うのは項目選択しだいでどうにでもなっちゃうのである。

 もちろん、SEMで理論的主張が検証できないというわけではない。たとえば、ある包括的な理論的枠組みの下で構成概念の測定モデルが構築できます、さて構成概念間の因果関係の特定の部分について対立する2つの下位理論がある、そこでそれぞれの下位理論に沿ってモデルを構築し、パス係数やモデル比較で決着をつけましょう、というような使い方もあるし、そういうのならば納得しやすい。
 しかし、この研究のように、ある理論的主張を行います、そこから仮説を引き出します、仮説をモデルで表します、うまくいきました、よかった... というタイプのモデルは、よほど精緻に積み上げないと、理論的主張を支持する証拠にはならないように思う。

 世の中には「SEMってのを使うと好き勝手なことが云える、実に恣意的だ」と毛嫌いする人がいるようだが、それはあまりに短絡的だと思う。統計モデルが恣意的だと感じられるのは、統計モデルを根拠づける理論に説得力がないからであって、モデルのタイプ自体に罪はない。
 でも、プロの研究者の方によるこういう研究をみると... いえいえ価値がないとは申しません、一連の研究の流れのなかでそれぞれに価値があったりなかったりするのだと思いますが... ちょっぴり、SEMかあ、ナンダカナア、と思ってしまう。

論文:マーケティング - 読了: Carlson, Suter, Brown (2008) 大事なのは社会的ブランド・コミュニティじゃない、心理的なブランド・コミュニティ感覚だ

Trusov, M., Rand, W., Joshi, Y.V. (2013) Improving prelaunch diffusion forecasts: Using synthetic networks as simulated priors. Journal of Marketing Research, 50(6), 675-690.
 上市前販売予測に社会ネットワークを使うという論文。当面の仕事とは関係ないけど、先日友人といろいろ議論していて、社会ネットワークの話は読んでおいた方がよいと思ったので、隙をみて目を通した。

 先行研究レビュー。社会的相互作用ネットワークがマーケティング戦略に与える影響についての研究としては以下がある:

 で、この研究の特徴は: 複数の製品の集計レベルの普及曲線(つまり、横軸が上市からの時間、縦軸が購入経験者数を表す曲線)から、その製品カテゴリの消費者相互作用ネットワークの性質を推定する。つまり、普及曲線そのものではなく、普及曲線のパラメータの確率分布を推定するわけである。これを使って予測の精度を上げる。

 えーっと... 大変面倒な話だし、詳細は本文には書いてないのだけど(Appendixを読めとのこと。勘弁してください)、かみ砕いてレシピ風にいえば、こういうことだと思う。
 まず、シミュレーションでデータベースみたいなものをつくっておく。

  1. 架空の消費者のネットワークをつくります。格子型、ランダム型、スモール・ワールド型、preferential attachment型(スケール・フリー性を持つ)、の4タイプのネットワークを考える。著者いわく、この分野ではこれだけ調べれば十分なのよ、とのこと。それぞれについて、エッジの密度を4水準で動かして、ネットワークを生成する。4x4=16個のネットワークが手に入る。なお、いずれもノード数は1000とする。
  2. 新製品の普及(拡散)をシミュレーションします。それぞれのネットワークについて、まず、製品が普及しうるノードを一定割合ランダムに選ぶ。で、ある時点におけるあるノードの製品普及をSIRモデルで表す。SIRモデルのパラメータは受容係数と社会的汚染係数のふたつ(えっ、そうだっけ? 感染率と隔離率だと習ったけど。あとでよく考えてみよう)。つまり、ノードの割合、受容係数、社会的汚染係数の3つのパラメータがあるわけだ。これをいろいろ変えて、計193,600通りのシミュレーションを行い、普及曲線を得る。
  3. ネットワークごとに普及曲線の分布を調べます。まず、一本一本の曲線にBassモデルをあてはめる(いきなり古い話になるので、ちょっとガクッとなりましたが、それで構わないんでしょうね)。Bassモデルには3つのパラメータがあるけど、そのうち p と q に注目する (もうひとつのパラメータは普及可能者割合の推定だから)。こうして、たくさんの(p, q)が手に入る。で、ほんとはあるネットワークから(p, q)を得るパラメトリックなモデルを作りたかったそうなんだけど、うまくいかないので、pを11階級、qを10階級に切って二次元のヒストグラムを描く。このヒストグラムが4x4=16枚。これを「拡散超立方体」と呼ぶことにする。途中からローテクな割には、やたらにかっこいい名前だ。

 次に、実データを使った分析を行うのだが、モデルの立てつけはこうなっている。
 ある普及曲線のパラメータ(p,q)は、上の2次元ヒストグラムのどこかのビンに落ちるわけだ。ビンは11x10=110個ある。だから、あるカテゴリで観察された複数の普及曲線のパラメータは、長さ110の頻度ベクトルで表現できる。これを Y とする。
 ある製品カテゴリの消費者ネットワークは、上の16個のネットワーク M_1, ..., M_{16} のどれか M_k であると考える。
 さあ、Yを生成するモデルを考えよう。

 さて、ある製品カテゴリについて、それが消費者ネットワーク k を持ち、普及曲線のパラメータについての事前確率 \theta_k を持ち、実際の普及曲線のパラメータが Y となる同時確率は
 f( Y, \theta_k, M_k) = \Psi (Y | \theta_k) × \varphi (\theta_k | M_k) × p(M_k)
ここから、消費者ネットワーク k の下で普及曲線のパラメータ Y を得る確率は、\theta_kについて積分して
 p(Y | M_k) = \int_{\theta_k} \Psi (Y | \theta_k) × \varphi (\theta_k | M_k) d\theta_k

オーケー、いま Y が手に入ったとしましょう。その製品カテゴリが消費者ネットワーク k を持っている事後確率は
 p(M_k | Y) = {p (Y | M_k) × p(M_k)} / (分子の総和)
\theta_k の事後分布は
 \tilda\varphi (\theta_k | M_k, Y) = \Psi (Y | \theta_k) × \varphi (\theta_k | M_k) / p(Y | M_k)
これから発売される製品から手に入るパラメータの分布 Y* の予測分布は
 p( Y* | Y ) = \sum_K p(M_k | Y) × \int_{\theta_k} \Psi(Y* | \theta_k) × \tilda\varphi (\theta_k | M_k, Y) d\theta_k
Y*から(p, q)の平均を求め、普及曲線のパラメータとする。というわけで、過去製品群の普及曲線から、新製品の普及曲線を予測できたわけです。

 この方法を通じて、ある製品カテゴリが持っている消費者ネットワークを正しく推測できるとは限らないのだけれど(たとえば低密度なランダム・ネットワークとスモール・ワールド・ネットワークは区別しにくい)、予測の精度は上がるとのこと。

 実証研究。2007年から2008年にかけて登場したFacebookアプリ900個の日次インストール数を用いる(どこがデータを持っていたのかしらん...)。それぞれのアプリの普及曲線をBassモデルに当てはめ, パラメータの分布 Yを得た。
 なお、p(M_k | Y)を推定したところ、低密度のpreferential attachment型ネットワークにおいて 1 に近い値が得られた。これは社会的ネットワークについての先行研究と合致している (と、バラバシを引用)。Facebookの先行研究では、友達ネットワークは高密度だといわれているが、いま調べているのはアプリ普及の基盤にあるネットワークであって、友達ネットワークそのものではないから、これは矛盾ではない。それに、そもそもネットワークの特性を推測したいわけじゃないので、まあどうでもよい。本題は予測である。
 第一試合。600個のアプリをホールドアウトしておき、残りの300個からランダムに選んだアプリ群をテストに用いる。3つの予測方法を比較する。

 予測の良さの指標は、(p, q)の予測分布とホールドアウトの分布とのK-Lダイバージェンス。結果: 提案モデルの勝ち。ナイーブモデルはわずかに劣る(そうか、消費者ネットワークのトポロジーや密度を頑張って推測したけど、そこには大した旨味はないわけだ)。サンプルサイズが大きくなると差が小さくなる。
 第二試合。集計レベルの普及モデルによる予測と勝負する。選手入場です。

各アプリのマーケット・サイズを過去データから推定する場合と、別の方法で調べておいてモデル推定の際には既知だとみなす場合の両方を試す(後者の手順についていろいろ説明してあったが、面倒なのでスキップ)。結果: 提案モデルの勝ち。以下、おおまかに、Bassモデル、ゴンペルツモデル、ガンマモデルの順に良い。

 考察。クチコミが影響するカテゴリで予測精度はより向上するであろう。今後の課題: マーケット・サイズを拡散超立体に組み込む; 消費者間異質性を組み込む; 学習データになんらかの外的な重みをつける; 製品特性を組み込む。

 なるほどねえ...
 具体的な場面に当てはめて考えてみよう。これからあるカテゴリのある製品を発売します。マーケット・サイズは消費者調査かなにかで見当がついています。配荷率もわかってます。発売3ヶ月後の普及率(購入経験者率)を予測したいんです。という場面について考えてみる。
 まず思いつくのは、インテージ様なりマクロミル様なりにお願いし、過去にその会社が発売した製品だか、競合を含めた全製品だかの月次トライアル購買率のデータをもらってくる。で、普及曲線をBassモデルに当てはめ、そのカテゴリでの標準的な普及曲線を求め、これを使って予測する、という方法である(第二試合のBassモデル)。もしそれで当たるってんなら、それでよろしい。
 次に思いつくのは、過去に発売された製品の普及曲線をBassモデルに当てはめ、それぞれの製品についてパラメータを求め、このパラメータの分布を求め、これを使って予測する、という方法である(第一試合のカリブレーション・モデル)。過去の製品の数が何百個もあるのなら、これでよろしい。
 ところが、過去の製品の数は数十個しかない、と。そこで提案モデルの登場である。まず著者らのレシピで「拡散超立方体」をつくる。これはコンピュータ・シミュレーションによって作り出された、製品カテゴリと無関係な、普遍的なデータベースであって、消費者がもし(クチコミやらなにやらで)こんな風に相互作用するならば、トライアル率はこんな風に増えますわね、という無数のシナリオを含んでいる。で、過去データとこのデータベースを併用し、上記の謎の数式(p( Y* | Y )の式)に当てはめると、消費者間相互作用について特段の洞察が得られるわけではないんだけど、予測の精度は上がる。というわけである。もちろん、考察で著者も触れているけれど、精度が向上するというのは製品普及にクチコミが影響するカテゴリでの話であろう。

 なるほどー。こりゃあ面白いなあ。
 実務的には、著者のいうとおり、マーケット・サイズについての確率的推測も同時にできると助かる。また、たとえば発売3ヶ月後の普及率予測に発売1ヶ月後の普及率を使えると便利だ。当該カテゴリの新製品購買におけるクチコミの重要性についてのデータ(リサーチデータやSNSでの出現率)を使えば、わざわざこのモデルを使うべきかどうかを決める手助けになるだろうし、M_kの事後確率推定にも役立つかもしれない。普及曲線を消費者のデモグラフィック属性別に切って調べるのも、精度向上の役に立ちそうだ。などなど。。。いずれも、簡単に拡張できそうだ。
 「社会ネットワークを使います」という割には地味な展開の論文なんだけど(消費者相互作用自体について知見を得ようとはしないから)、でもすごく面白かった。

論文:マーケティング - 読了: Trusov, Rand, Joshi (2013) 社会的ネットワークで新製品普及予測を改善する

2014年5月11日 (日)

Bookcover 逆さまゲーム (白水Uブックス―海外小説の誘惑) [a]
アントニオ タブッキ / 白水社 / 1998-08
これも数年間書棚にあった本。収録短編を一編読んでは、頁を閉じて考え込み... というのを繰り返していた。変な話だけど、読み終えてほっとしている。
 プチブル西洋人の虚飾を描いた「空色の楽園」、それからなんといっても、表題作が素晴らしいと思った。そうだ、冒頭の表題作にショックを受けたせいで、なかなか続きを読む気になれなかったのだ。

Bookcover 色彩を持たない多崎つくると、彼の巡礼の年 [a]
村上 春樹 / 文藝春秋 / 2013-04-12
昨年の大ベストセラー。4/15が一刷発行日、手元の本は4/26の六刷。狂ってますね。
 買ったきりなんとなく放置していたんだけど、連休を機に読了。懐かしく思い出すのだけれど、「ダンス・ダンス・ダンス」発売の日は(今調べたら1988年)、開店直後の書店で上下巻を買い込み、アルバイト先の大学の空き教室だったか、どこかのビルの非常階段だったか、とにかくそんなところで、夕方まで飯も食わずにひたすら読みふけったのであった。時間が経つといろんなことが変わる。

フィクション - 読了:「逆さまゲーム」「色彩を持たない多崎つくると、彼の巡礼の年」

Bookcover 輿論と世論―日本的民意の系譜学 (新潮選書) [a]
佐藤 卓己 / 新潮社 / 2008-09
あまりに面白すぎてうんざりし、途中で放り出してしまう本、というのがあるように思う。この本もそんな一冊で、読みかけのまま三年ほど書棚の奥にあった。このたび意を決して無理矢理読了。
 輿論(ヨロン, public opinion)と世論(セロン, popular sentiments)を区別すべきだ、という主張を軸に、戦後言論史を縦横に語る。

 いくつか覚え書き。

日本近現代史 - 読了:「輿論と世論」

Bookcover ベケットと「いじめ」 (白水uブックス) [a]
別役 実 / 白水社 / 2005-08
中野の中学校でのいじめ自殺事件(86年)を題材にして、ベケットと現代の演劇を論じる本。
 別役実の評論の代表作ともいうべきとても有名な本だと思うけど、インテリが事件を題材に何事かを語るということ自体に私は強い拒否感を感じていて、どうしても手に取る気になれなかった。連休中にふと入った小さな本屋さんで白水社の在庫僅少本フェアをやっていて、深く考えずにふと手に取ったら、原著は87年刊、意外にも、すでに四半世紀が経過している。なんとなく、もういいかなあ...という気持ちになった。
 彼と同じ事態のなかで、同じことを夢見て死に、しかしその自死が隠され、忘れ去られた子どもたちが、たくさんいたと思う。亡くなった少年は勝ったのだ。彼は命と引き替えに彼の欲した勝利を手に入れた。だから、彼を哀れむのではなく讃えるべきだ。彼がそのようにして勝利すべきであったかどうかは別にして。と、その頃私は思った。今でも少しだけそう思っている。

Bookcover お菓子でたどるフランス史 (岩波ジュニア新書) [a]
池上 俊一 / 岩波書店 / 2013-11-21

Bookcover ハンナ・アーレント - 「戦争の世紀」を生きた政治哲学者 (中公新書) [a]
矢野 久美子 / 中央公論新社 / 2014-03-24

ノンフィクション(2011-) - 読了:「ベケットといじめ」「お菓子でたどるフランス史」「ハンナ・アーレント」

Bookcover 青木昌彦の経済学入門: 制度論の地平を拡げる (ちくま新書) [a]
青木 昌彦 / 筑摩書房 / 2014-03-05
タイトルを誤解して手に取ったのだが、ほんとは「『青木昌彦の経済学』入門」と呼ぶべき内容であった。でも勉強になりました。

Bookcover 黙示録――イメージの源泉 (岩波新書) [a]
岡田 温司 / 岩波書店 / 2014-02-21
新約聖書のヨハネ黙示録を中心に、黙示録とそれを巡る文化史について述べた本。残念ながら、考え事をしながら読んでたせいで、いまいち頭に入らなかった。

Bookcover 社会学の歴史 [a]
奥井 智之 / 東京大学出版会 / 2010-09
あえて講談調で語る社会学史、という感じの本であった。

Bookcover マーケットデザイン: 最先端の実用的な経済学 (ちくま新書) [a]
坂井 豊貴 / 筑摩書房 / 2013-09-04

Bookcover パレスチナとは何か (岩波現代文庫―社会) [a]
エドワード・W.サイード / 岩波書店 / 2005-08-19

Bookcover 文楽の歴史 (岩波現代文庫) [a]
倉田 喜弘 / 岩波書店 / 2013-06-15

Bookcover ヘイト・スピーチとは何か (岩波新書) [a]
師岡 康子 / 岩波書店 / 2013-12-21

ノンフィクション(2011-) - 読了:「社会学の歴史」「パレスチナとはなにか」「文楽の歴史」「黙示録」「マーケットデザイン」「ヘイト・スピーチとは何か」「青木昌彦の経済学入門」

Bookcover たそがれたかこ(1) (KCデラックス BE LOVE) [a]
入江 喜和 / 講談社 / 2014-04-11
お椀の味噌汁のアップに「あ」という声が重なる。カメラを引くと、ちゃぶ台の前で眼鏡の中年女が箸とお椀を手に眉をひそめていて、「シラガ...はいってる」横で気のよさそうな老女が、「んん?はいてるって?/モモシキ?/さすがに脱いだワ~/あ~っつくって~/たかちゃんは?まだはいてんの?芽が出ちゃうわヨ」「補聴器やってる?」 季節は夏、下町の木造アパート、45歳独身女性と老母の朝食の会話。なんて鮮やかなファーストシーンだろうか。
 市井に生きる人々の哀歓を描いて右に出る人のいない寡作のベテラン作家・入江喜和さんの、これが最新作。私は95年の第二作「のんちゃんのり弁」以来のファンなので甘くなってしまうのかもしれないけれど、夜ふとんで静かに涙を流し、こっそり家を抜け出して隅田川のほとりで酒を呷る主人公たかこさんに、心をぎゅっと鷲掴みにされた。まだ一巻だけど、これは傑作になるに違いない。

Bookcover 受付の白雪さん(1) (アクションコミックス(月刊アクション)) [a]
吉沢 緑時 / 双葉社 / 2014-04-10

Bookcover 日の鳥 [a]
こうの 史代 / 日本文芸社 / 2014-04-25

Bookcover イムリ 15 (ビームコミックス) [a]
三宅乱丈 / KADOKAWA/エンターブレイン / 2014-04-25

Bookcover リューシカ・リューシカ(8) (ガンガンコミックスONLINE) [a]
安倍 吉俊 / スクウェア・エニックス / 2014-04-22

Bookcover 僕らはみんな河合荘 1 (ヤングキングコミックス) [a]
宮原 るり / 少年画報社 / 2011-05-30
Bookcover 僕らはみんな河合荘 2 (ヤングキングコミックス) [a]
宮原 るり / 少年画報社 / 2012-01-30
Bookcover 僕らはみんな河合荘 3 (ヤングキングコミックス) [a]
宮原 るり / 少年画報社 / 2012-08-30
Bookcover 僕らはみんな河合荘 4巻 (ヤングキングコミックス) [a]
宮原 るり / 少年画報社 / 2013-05-30
Bookcover 僕らはみんな河合荘 5 (ヤングキングコミックス) [a]
宮原 るり / 少年画報社 / 2014-03-26
高校生の主人公の下宿先には、個性豊かな同居人たちと、無口だけどかわいらしい先輩がいて... という、ティーン向けの恋愛コメディ。評判になっているので読んでみたら、なるほど、面白い。
 一中年男性として意見を言わせて頂くと、もしこのような日々が、そうだなあ、一週間でも経験できたなら、きっとその人は若き日の思い出をするめのようにくっちゃくっちゃとかみしめて、その後の生涯を送ることになるだろうなあ、と思う。

コミックス(2011-) - 読了:「たそがれたかこ」「僕らはみんな河合荘」「リューシカ・リューシカ」「イムリ」「日の鳥」「受付の白雪さん」

2014年5月10日 (土)

Show, A.D, Horton, J.J., Chen, D.L. (2011) Designing incentives for inexpert human raters. Proceedings of the 2011 ACM Conference on Computer Supported Cooperative Work (CSCW 2011).
 クラウド・ソーシングでたくさんの素人になにかを評定してもらうとき、どういうインセンティブ設計にすると良いか、という実験研究。ベイジアン自白剤(BTS)を使っているようなので手に取った。
 バリバリに工学系の研究かと思ったら、行動実験であった。いま調べてみたら、第一著者は社会学の出身。

 Amazon Mechanical Turk で実験、被験者2055人。あるwebサイトをみてもらい、5項目を聴取(例, 「サイトにはユーザを表すアバターがありましたか」)。答えを実験者が想定する正解と比較し採点する(0~5点)。要因は被験者間一要因で... えーと、14水準!

なお、操作するのは教示だけで、実際には報酬は一律だそうだ。事情はわかるが、ひどいなあ。

 結果。おおお、intention-to-treat推定量を使っている... 医療系の無作為化比較試験ではみたことあるけど、こういう行動実験では恥ずかしながらはじめて見た...
 平均処理効果をみると、成績を向上させたベスト3は、BTS, Punishment disagreement, Betting on resultsであった。
 デモグラ等をいれた回帰でも確認している(インド在住の被験者は成績が有意に低い。はっはっは)。

 考察。BTSが効いたのは、あとで自分の回答がどのくらい調べられるかについて被験者を混乱させるから、そして他の回答者の回答について真剣に考えさせるからだろう。Punishmentが効いたのは、そもそもAmazon Mechanical Turkでは仕事発注者による以後の参加禁止という処置があるからではないか(←punishment accuracyがあまり効かなかった理由にはならないと思うけど...)。云々。

 というわけで、この研究では実際にベイジアン自白剤のスコアリングをやっているわけでなく、その意味ではベイジアン自白剤の研究とは言い難い。でもここでは「みんなが思うより普通な回答をする」ことを報酬に結びつけるというメカニズムについて調べているわけで、その意味ではオリジナルの提案の精神に近い。
 ええと、ここまで読んだ論文をあらためて整理すると、

 ベイジアン自白剤の"suprisingly common"ルールは、被験者にとってはどのような意味を持って捉えられるのだろうか。それは正直かつ真剣に答えようという意識につながり、それによって行動が変わるのだろうか。それとも(この論文の著者らが考えているように)なにか別のルートを通じて行動を変えるのだろうか。もし後者が正しいならば、スコアの最大化がベイジアン・ナッシュ均衡であろうがなかろうが、別に構わないことにならないだろうか。工学系の方や経済学系の方は鼻で笑うかもしれないけど、やはり被験者の心的プロセスが知りたいと思うなあ。

論文:予測市場 - 読了:Show, Horton, & Chen (2011) ベイジアン自白剤 in クラウド・ソーシング

2014年5月 8日 (木)

 先日読んだ論文で、「正直に答えないと、正直に答えてないなってわかっちゃうよ」と信じ込ませて回答させると、回答が社会的に望ましい方向に歪むバイアスが消え、正直に答えるようになる、という現象のことをbogus pipelineと呼んでいた。へええ、と思って調べてみたら、ちゃんと有斐閣の心理学辞典にも載っている用語なのであった。ご、ごめんなさい...知りませんでした... (←正直な回答) ないし、一般教養の心理学のコマを持ってた頃は覚えてたけどすっかり忘れてました... (←社会的に望ましい回答)

Roese, N.J., & Jamieson, D.W. (1993) Twenty years of bogus pipeline research: A critical review and meta-analysis. Psychological Bulletin, 114(2), 363-375.
 というわけで、今度の原稿の役に立つかもしれないのでめくってみたレビュー論文。Psychological Bulletinなんて、昔なら大層気が重かったけど、いまは昼飯のついでに楽々と目を通せる。それだけ真剣さが減ったということである。

 いくつかメモ:

 論文後半はメタ分析。そこまでの関心はないので、スキップ。
 著者らいわく、確かにBPLは社会的望ましさバイアスを除去していると考えられる。最近使われてないけど、BPLは有益な道具です。でも測定対象があまり強くない態度であるときは気を付けたほうがいい。云々。
 
 本筋とあまり関係ないんだけど、締めくくりの一節が面白かった。「この重要な手法がほとんど打ち捨てられてしまっている理由を、別の角度から説明できるかもしれない。社会心理学におけるBPLの栄枯盛衰は[...]研究における流行りすたり(faddishness)の教科書的な例であるように思われる。[...]BPLの適用にはもともと、認識論的的な諸問題、妥当性に関する諸問題が備わっている。これらの問題は、確かに困難ではある。しかしそうした困難さは、一見明白にみえる知見の後ろにいつだって隠れているものだ。過去の研究者たちがそれに直面していようが、していなかろうが、そのことは変わらない。本論文で取り上げた諸問題に取り組むことで、将来の研究者たちが来たるべき研究においてBPLの相対的利点を活用できるようになることを望む」。

 いやー、それにしても、オリジナルの凄そうなマシーンってどんなのだったのか、見てみたいなあ。ネットに原論文が落ちていたのをめくったけど、写真は載ってなかった。

論文:調査方法論 - 読了: Roese & Jamieson (1993) ボーガス・パイプライン・レビュー

崔仁淑(2014) タブーであるテーマを巡る日本人の世論 -新しい実験調査手法による世論の構造的解明-. 行動計量学, 41(1), 47-62.
 要するにネット調査で一種の説得実験をやったというような研究だと思うんだけど、本筋じゃなくて先行研究概観のところをメモしておく(すいません、単に私の関心の問題です)。

というわけで、「インタラクションを利用したサーヴェイ調査」というのがそんなに新しい発想じゃないらしいという点が勉強になった。
 消費者調査の文脈で、定量調査にちょっとインタラクティブな要素を持ち込もうとすると、いきなり定性的インタビューとのアナロジーで受け取られてしまい、いやそこまで飛躍するつもりはないのよ、単に特定の性質の認知過程を引き起こそうとしているだけで、その限りにおいてはstaticな質問紙となんら変わりがないのよ... という違和感を感じていた。ぼやいていないで、ちゃんと調べてみるべきだな。きっと先達はいる。
 
 著者は無闇に控えめな方で、締めのくだりで「本論文はポスト・ドクターという制限のある地位において実施した調査データから分析、結論付けたものである。それゆえ[...]確実な証明になっていないことを十分に認識している」なあんて書いておられる。いやそんなことを書いてくださらなくても、とちょっと可笑しかった。

論文:調査方法論 - 読了: 崔(2014) 世論調査の途中で調査対象者に反論してみる

2014年5月 7日 (水)

Miller, S.R., Brailey, B.P., Kirlik, A. (in press) Exploring the utility of Bayesian truth serum for assessing design knowledge. Human–Computer Interaction.
 デザイン教育における教育評価にベイジアン自白剤(BTS)を使うという研究。著者の方にお送りいただきました。日本語のブログなんてお読みになってないでしょうけど、深く感謝いたします。とても勉強になりました。
 全く予備知識のない分野なので、メモを取りながら読んだ。

イントロダクション
 デザイン思考は大事だ。だからデザイン教育は大事だ。ところが教育評価がすごく大変だ。そこで学生の作品を学生同士で評価させることがある。でもそれはそれで大変だ。そこでBTSを使った評価方法をご提案いたします。

先行研究
 デザイン思考は大事だという研究はいっぱいある。だからデザイン思考の教育も大事だ。ということは、ビジネスでも教育でも、デザイン思考の能力評価は大事だ。評価にあたっては多様な観点がありうるが、教育者が特に注目するのは、分析・評価・創造という高次な思考能力であろう。
 従来の評価方法としては:

提案手法
 BTSの紹介(←BTSを構成する2要素のうち、あんまり本質的でない「予測スコア」のほうを重視しているところが面白い。集団の回答の予測は学生のメタ知識を反映しているだろうという理屈。うーん、まあこの課題ならそうかも...)。個人レベルのスコアを以下の2種類算出。これを学生の能力評価として用いる。

実験
 被験者はイリノイ大のデザイン・コースの学生71名。4週の実験。

(あとでアイデアのスケッチ例が紹介されるんだけど、これがちょっと笑ってしまった。idea score最高点を得たアイデアは「機器にGPSをつけて危険を知らせる」、最低のアイデアは「頭を下に向けると快適でなくなるイヤフォン」)
 で、以下の変数について分析:

結果

考察 (これがすごく長い...)

結論
BTSは有用であろう。採点者の主観性を排除できるし、楽だし、スケールアウトするし。

 ううううむ。。。
 この論文は、ほかのベイジアン自白剤の研究とはかなり毛色が違っている。まず、ベイジアン自白剤が持っている真実申告メカニズムという性質には関心がない(だからBTSスコアのフィードバックはおろか、説明さえしていない)。さらに、スコアを回答の真実性を表すものと捉えるのではなく、回答者の能力を表すものとして捉えている。
 つらつら考えるに... この実験で写真評価のBTSが(かすかではあるが)対象者の能力らしきものを表したのは、写真評価課題が単なる推論課題ではなく、「それに答えるために必要な知識体系がこのコースで教授されている」課題だったからではないか、と思う。当然ながら学生の中には「物理的アフォーダンスの原理って、ええとなんだっけ」というような出来の悪い奴もいただろう。そういう奴は、写真評価において当てずっぽうに答えざるをえないし(回答の事前分布を持っていないから、予測スコアも情報スコアも下がる)、批評もうまくできないはずだ。

 ということは、逆にいうと... BTSスコアは回答の真実性を表す(と主張されている)が、それだって回答者の問題についての知識と切り離せないわけだ。たとえば「集団的自衛権の行使に賛成ですか反対ですか」という設問についてBTSスコアを調べ、スコアが低かったとして、それはなにかの事情で真実を語っていない可能性が高いということを示しているのかもしれないし、そもそも集団的自衛権とはなにかがよく分かっていない可能性が高いということを示しているかもしれないわけだ。こうやって書いちゃうと当たり前だけど、正直、この発想はなかった...。

論文:予測市場 - 読了:Miller, Brailey, & Kirlik (in press) ベイジアン自白剤 in デザイン教育評価

2014年5月 3日 (土)

Kuncel, N.R., Borneman, M., & Kiger, T. (2012) Innovative item response process and Bayesian faking detection methods: More questions than answers. in Ziegler, M., Maccann, C., & Roberts, R.D. (eds.) "New prospectives on faking in personality assessment", Oxford University Press.
 時間がないので、やけになって論文集ごと買ってしまった(資料費が原稿料を上回りそうだ...)。社会心理系の調査法研究者からみたベイジアン自白剤の位置づけを知りたくて買ったのだけど、短い章であった。まあ、他の章も面白そうだし、いつか役に立つかもしれないし。
 いくつかメモ:

論文:予測市場 - 読了:Kuncel., Borneman, & Kiger (2012) 意図的虚偽回答の検出 feat. ベイジアン自白剤

2014年5月 2日 (金)

Prelecのベイジアン自白剤に関連する論文を手当たり次第にめくっている今日この頃。いまこの瞬間に限っていえば、23区内で一番ベイジアン自白剤について考えているのは私かもしれない。こうやって集中していると、効率はいいんだけど、飽きてくるのが難点だなあ。

Howie, P.J., Wang, Y., Tsai, J. (2011) Predicting new product adoption using Bayesian truth serum. Journal of Medical Marketing, 11, 6-16.
 薬品の新製品についての医師による受容性評価にベイジアン自白剤(BTS)を使うという話。著者所属は、筆頭の人がTargetRx、あとはファイザー。TargetRxというのはヘルスケア系の調査会社で、現存しない模様(Symphonyグループに買われたらしい)。いずこも大変ですね。

 医師1763人、13個の新製品について調査。1人は1製品だけらしい。製品非認知者はあらかじめ外してある。
 この研究は、truth-tellingメカニズムというBTSの特徴には関心がないので、対象者にBTSについての教示はしていない模様。設問はオリジナルのBTSとちょっと違っている。「(新製品)が利用できるとして、疾患ほにゃららを持つあなたの患者に対して以下の治療を処方するパーセンテージは?」治療のリストのなかに新製品がはいっている。新製品に対する回答をXとする。「あなたの同僚や他の医師はほにゃらら患者をどのように扱うと思うかを伺います。ほにゃらら患者のうち(新製品)を処方される人のパーセンテージは?」回答をYとする。
 BTSではXはカテゴリカル変数, Yは各水準への離散確率分布でないといけないので、どうするのかと思ったら、Xは101水準のカテゴリカル変数だとみなし、Yをポワソン分布の平均とみなして101水準への離散確率分布を無理矢理つくった模様。なるほど。
 で、ここが医薬品業界のすごいところだが、調査対象者の医者がどんな処方をしたかのデータベースがある。そこから、新製品上市の次の四半期における実際の処方シェアを計算して、突き合せちゃうのである。

 分析。
 まずBTSのことは忘れて、予測シェアで実シェアを説明するモデルを組む。説明率4%、βは0.18。予測シェアXは、実シェアを過大評価する傾向がある由。
 で、BTSスコアを使うのだが... 原文には"we can now evaluate whether whether using the BTS to weight the individuals will improve predictive performance"とあるから、BTSスコアをウェイトにしたWLS回帰を行う、ということかしらん?
 なお、BTSスコアは情報スコアと予測スコアの和だが、原論文には予測スコアに重みづけしてよいと書いてあるので(重みをalphaと呼ぶ)、0.0001, 0.5, 1の3種類のalphaを試す。スコアが負である対象者は除外する(200人くらいが除外される)。
 結果は... BTSスコアで重みをつけると、説明率はちょっぴり上がりました。βも上がりました。回帰じゃなくて製品別の累積でみると、alpha=0.0001でMSE最小であった由。そうか、予測スコアはいらないのか... もっともこれはポアソン分布による近似のせいかもしれない、とのこと。

 上市前新製品についての医師の処方意向が、上市後のその医師の処方選択をほとんど説明しないというところ、泣かせますね。著者のみなさまには悪いが、BTSを使っても焼け石に水、という感じである。関係者のみなさま、ご一緒に泣きましょう。
 細かいことだけど、BTSスコアと予測シェアXの関連が知りたいところだ。Xがキリのよい値だとBTSスコアが低い、なんていう関連性なら、それはすごく納得する。でも、たとえばXが高いとBTSスコアが低い、なんていう関連性だったら、BTSスコアが回答の質と関連したのはポアソン分布による近似で生じたアーティファクトかもしれないと思う。BTSスコアとは要するにカテゴリ選択率と他者のカテゴリ選択率予測値の平均との比の対数だから、高いほうのカテゴリの選択率予測値を高めに近似すれば、Xの高いほうのカテゴリに対するBTSスコアは低くなる。Xが高い医者、つまり派手にoverclaimしている医者が除外されれば、そりゃあ説明率は上がるだろう。

 これまで読んできた研究をおおまかに整理すると、次の3つがあった:

この研究は路線 C である。
 著者いわく、BTSとはどんなものかということ、自分がそれによって評価されているということ、を回答者に理解してもらうのは大変なわけで、教示がある場合とない場合のちがいの検討が必要だね、とのこと。全くその通りだと思う。BTS関連の研究を読んでいて感じるのは、総じて回答の心的プロセスに関心が持たれていないという点で(「事前分布が共通だとして」なあんて簡単に仮定しちゃうのだ)、このへんが、調査回答の認知心理学的研究と、ゲーム理論やメカニズム・デザインに由来する研究とのスタンスの違いだという気がする。うーん、Prelecさん自身は心理学者だと思うんだけど。そこんところもちょっと不思議だ。

論文:予測市場 - 読了: Howie, Wang, & Tsai (2011) ベイジアン自白剤 for 医薬品の新製品受容性予測

 市場調査では、ある製品の値付けのために消費者の態度・知覚を調べることがある。いちばん単純なのは、これにいくら払いますか、と支払意思額(WTP)を直接に訊くことだが、さすがにそれではあまりうまくいかないので、いろいろな工夫をする。
 経済学のほうでも、調査で人々のWTPを調べるということは広く行われているようで、どうやら公園とか環境とか歴史遺産とか、市場で取引されないもの(非市場財)の評価に使うらしい。よくわかんないけど、市民の主観効用に応じて政策を決めるため、なんですかね。
 あれこれ文献を読んでいると、そうした文脈でのWTPの直接聴取はcontingent valuation (CV)と呼ばれていることが多い。いま検索してみたら、なんと「仮想評価法」という立派な訳語があった。世の中にからきし疎いもので、こういうときに困る。

 Barrage, L., Lee, M.S. (2010) A penny for your thoughts: Inducing truth-telling in stated preference elicitation. Economic Letters, 106, 140-142.
 当然ながら、CVで調べたWTPは高めに歪む。だって、架空の話なら、「この公園を維持するためならワタシ年に100万円でも払いますよ」なあんて言いたい放題ですもんね。この「仮説バイアス」をどうにかしたいので、手法をいくつか比較します、という主旨。
 そのうち目新しい手法はベイジアン自白剤である。つまり、これは Weaver & Prelec (2013) の実験5に相当する研究だ。

 被験者は上海の学生240名(セルあたり24名か...)。評価するのは、災害救援のためのテントへの寄付、ないし公害被害者の法的支援のためのホットラインのスタッフへの寄付。要因は被験者間5水準。さあ、選手入場です。

 結果。賛成率は、テントでは順に48%, 79%, 77%, 50%, 77%。ホットラインでは、32%, 83%, 50%, 17%, 55%。real条件を正解と捉えると、consequentialがやたらに効いている。ベイジアン自白剤はいまいちだ。なんだかなあ。

 事後的分析なので、あんまり深読みするのもどうかと思うけど、cheap-talkと自白剤は、貧困対策団体について良く知らないと答えた人、ならびに女性によく効いたそうだ。ふうん。

論文:予測市場 - 読了: Barrage, & Lee (2010) ベイジアン自白剤 for 支払意思額聴取

John, L.K., Lowenstein, G., Prelec, D. (2012) Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23(5), 524-532.
 Prelec先生、ベイジアン自白剤を引っ提げて各領域を荒らしまわるの巻。今回の舞台は心理学だ! なんだか昔のTVシリーズ「特攻野郎Aチーム」みたいだな。懐かしいなあ。
 今回のお題はこうだ。世間では研究者による捏造が注目を集めているが、その一歩手前のグレーゾーンもなかなか深刻です。たとえば、ちょっと都合の悪いデータを数件、後付けの理由をつけて除外しちゃう、とか。以下、そういう行為をQRP (questionable research practices) と呼ぶ。心理学者にアンケートして、どのくらいQRPに手を染めているか訊いてみましよう。正直に答えそうにないって? 大丈夫!そこでベイジアン自白剤ですよ!

 USの心理学者5964名に電子メールで調査参加を依頼、2155名から回収。回答は匿名で行う。項目は以下の通り。

各回答者の各QRPに対する告白有無と普及率評定から、御存知ベイジアン自白剤スコアを算出できる。この論文の説明だけではなんのことだかさっぱりわからないと思うんだけど、えーと、告白と普及率評定を回答するたびにスコアが付与される仕組みで、そのスコアは、それを最大化するためには正直かつ真剣に答えるしかないという不思議な性質を持っているのでございます。
 インセンティブを被験者間で操作する。

 結果。

 というわけで、QRPはとても一般的です。研究に再現性がないといわれるのももっともですね。云々。

 この論文には、アメリカの心理学における研究不正についての実態調査という記述的な意義と、ベイジアン自白剤という真実申告メカニズムの適用という方法論的な意義があると思う。でも自白剤群では対象者にベイジアン自白剤の理屈を説明しているわけではないし、スコアのフィードバックもしていないのだから、自白剤群と統制群との差は、要するに「偉い学者が考えたすごい方法であなたの正直さがわかっちゃうんですよ」という教示の効果に過ぎない。だから、後者のほうの意義は怪しいと思う。この論文の本旨ではないのかもしれないけど、失礼ながら、なにやってんすか先生、という気持ちで一杯である。
 せっかく数千人の専門家から回答を集めるんだから、メール調査じゃなくてweb調査にして、Weaver & Prelec (2013) の実験2みたいに、各QRPについて回答するたびに自白剤スコアがフィードバックされる条件をつくれば、もっと面白かったのになあ...

論文:予測市場 - 読了: John, Lowenstein, & Prelec (2012) 心理学者にベイジアン自白剤を飲ませたら

2014年5月 1日 (木)

Witkowski, J. & Parkes, D.C. (2012) A robust bayesian truth serum for small populations. Proceedings of the 26th AAAI Conference on Artificial Intelligence. 1492-1498.
 Prelec のベイジアン自白剤は、サンプルサイズが大きいときにはうまくいくが、小さいとうまくいかない。そこで、二値回答に限定し、3人以上ならうまくいく改訂版をご提案します。という論文。

 導出過程はぜんぶすっとばして結論をいえば、こういう手法である。
 対象者 $i$ の回答を $x_i$, 回答率予測の回答を $y_i$ とする。対象者 $i$ について、隣の人 $j$ を「リファレンス」、そのまた隣の人 $k$ を「ピア」と呼ぶ。リファレンスに注目し、$\delta = \min (y_j, 1 - y_j)$ を求める (たとえば $y_j = 0.8$ なら $\delta = 0.2$だ)。で、もし $x_i = 1$だったら$y_j$ に$\delta$を足し(1になる)、でなかったら引く(0.6になる)。これを $y'$とする。で、ピアに注目し、もし $x_k = 1$だったら $2y' - y'^2$ を情報スコア、$2y_i - y_i^2$ を予測スコアにする。でなかったら、$1 - y'^2$ を情報スコア、$1 - y_i^2$ を予測スコアにする。
 。。。頭おかしいんじゃないかというような話だが、こうして得た情報スコアと予測スコアの和は、それを最大化するには正直に答えるしかないスコアになるのだそうだ。知らんがな!!!
 
 途中までは数式を丁寧に追いかけたんだけど、途中で混乱して挫折した。
 混乱した理由はふたつあって、まず、BTSの定式化のしかたがPrelecの論文とはちょっとちがう(Prelecは n→∞ について定式化している)。
 さらに、えーと、この論文の著者らは、真の状態の事前分布と各状態の下でのシグナルの条件つき確率が共有されているとき、自分の観察したシグナルで状態の事後分布をベイズ更新する、と説明しているんだけど、事前分布が共有されているのはともかくとして、シグナルの条件付き確率までも共有されているというのは、具体例に当てはめるといったいどういうことなのだろう? と考え始めたら、だんだん混乱してきてしまい。。。 一晩寝てゆっくり考えよう。

論文:予測市場 - 読了:Witkowski & Parkes (2012) ベイジアン自白剤 for 少人数

櫻井 祐子, 沖本 天太, 岡 雅晃, 兵藤 明彦, 篠田 正人, 横尾 真 (2012) クラウドソーシングにおける品質コントロールの一考察. 合同エージェントワークショップ&シンポジウム(JAWS), 2012.10.
 Prelecのベイジアン自白剤(BTS)を紹介している日本語文献として、いまのところ唯一発見できたもの。
 クラウド・ソーシングで、ワーカに作業結果と一緒に「作業結果についての自信」を報告させる(ないし、期待利得が異なる二つの価格プランから一方を選ばせる)。このとき、どういう報酬にすれば真の解答と真の主観的自信を報告することが最適戦略になるか、という研究。
 実際に、Amazon Mechanical Turkとランサーズで実験している。価格プラン選択のほうで、提案手法はうまくいきました、とのこと。

 先行研究概観。エージェントに主観確率を真実申告させるためのメカニズムとしては、まず proper scoring rule がある。Bickel (2007, Decision Analysis)というのが挙げられている。また、条件付き事前確率が共有知識である場合のメカニズムとしてはBTSがある。
 クラウドソーシングの品質管理の研究はいっぱいある。BTSを導入した例もある由(Shaw, et al., 2011, Proceedings)。
 マルチエージェントシステムの研究にも関連したのがある由。チームリーダーとメンバーのそれぞれにメンバーの作業時間を予測させるとか。へー。

 肝心の提案手法については、ちゃんと読んでないのだが(すいません)... BTSについて、ずーっと質問紙調査の手法という観点から考えていたので、こういう視点は大変勉強になった。

論文:予測市場 - 読了:櫻井 et al. (2012) クラウドソーシングで品質の主観的自信を正直に報告させるメカニズム・デザイン

 "Bayesian Truth Serum"をwebで検索すると、もちろんいっぱいヒットするけど、日本語のページはほとんど見当たらない(このブログが上のほうに出てくる始末だ)。なぜだろう。誘因整合性やメカニズム・デザインにご関心をお持ちの方は日本にも山ほどいるだろうに。調査のメカニズム・デザインなんて、やはり周縁的な話題なのだろうか...

Weaver, R. & Prelec, D. (2013) Creating truth-telling incentives withthe Bayesian Truth Serum. Journal of Marketing Research, 50(3), 289-302.
 2004年のScience論文以来、Prelecさんはベイジアン自白剤(BTS)を引っ提げていろんな分野に乗り込んでいるようだが、これはその市場調査版。先生は心理学者だが、お勤め先はビジネススクール(MIT Sloan)だから何の不思議もない。
 
 BTSというのは要するに、対象者の個々の回答に「それを最大化するためには正直に答えるしかないスコア」を割り振る手法である。回答を求めるついでに、この質問に他の人はどう答えると思いますかと尋ね、この2つの答えからスコアをはじき出す(この論文でもその理屈を縷々説明しているのだけど、やっぱりわかりにくい...)。もともとの提案では、BTSは情報スコアと予測スコアの2要素からなるのだけれど、この論文はその肝となる情報スコアのほうだけを扱っている。

 えーと、研究の背景。BTSを支持した報告としては Barrage & Lee (2010, Economics Letters), John, Loewenstein, Prelec (2012, Psych. Sci.) がある。いっぽう疑念としては以下が挙げられる: 想定が非現実的だ;情報スコアが正直さに報酬を与えているからといって、それが正直さを引き起こすかどうかは別の問題だ(←そうですよね); データの質の向上が複雑さの増大に見合うとは限らない。本論文ではこれらの疑念にお答えいたします。

 実験は5つ。使う課題はブランド名などの再認実験で、リストのなかに妨害項目(実在しない名称)がはいっている。こういう課題、元はPhillips & Clancy (1972, Am.J.Sociology)まで遡れるが、直近のではPaulhusらの手続きを参考にした由。うーん、調査参加者の誠実さを再認課題で測るという発想であれば、もっと昔からあるような気がするけど。

 実験1。
 一般的知識についての調査を行う。歴史上の人物など6カテゴリについて、実項目を47個, 妨害項目を24個用意。各項目について、知っているかどうかと、他の人がどのくらい知っていると思うか(0%から100%までの11件法)を回答する。
 対象者133人。要因は2x2の被験者間デザイン。

結果:実項目への正再認率は、コントロールで58%, overclaimのみで71%、BTSのみで57%。BTS+overclaimでも57%。妨害項目の虚再認率は、順に20%, 42%(この欲張りどもめ), 14%, 14%。というわけで、truth-tellingインセンティブは効き、overclaimngインセンティブの効果を消す。
 反応を従属変数、項目タイプ(実/妨害)と2要因を放り込んだ回帰もやっていて、3つの主効果のほかに2要因間の交互作用も有意だった由。細かいことだけど、これ、データの行をは対象者x項目タイプ、従属変数は再認反応率、であろう。そんな分析でいいのだろうか? 行を対象者x項目、従属変数を二値反応にして対象者番号を投入したロジスティック回帰をやるとか、行を対象者、従属変数をROCのd-primeのような成績指標にして条件間比較するとかにしないといかんのではなかろうか。記憶の研究してる方は昔からそういうのにうるさいと思うのだが... この掲載誌はあまり気にしないほうなのだろう。
 4条件のそれぞれについて、Hit, Miss, False Alerm, Correct Rejection (論文ではこういう言い方はしてないけど) について、情報スコアの平均を算出。たとえばBTSのみ条件では、順に+0.16, +0.08, -0.99, +0.34。情報スコアはtruth-tellingと整合している、との仰せである。Missの情報スコアが正になってますけどね...。

 実験2。実験1は結局のところ教示の効果を調べただけであった。今度は情報スコアをフィードバックする。
 対象者117名。60項目、うち20項目が妨害。要因計画は実験1と同じ2x2だが、報酬がちょっと違う。

項目に反応するたびにフィードバックがでる。BTS条件では、「知っている」「知らない」両方の情報スコアと、当該対象者の獲得額が表示される。この情報スコアはほんとに、この実験の当該セルでそれまでに集めたデータで算出したのだそうだ(最初のほうの対象者に出すスコアを求めるために、各セルでプレ実験を10人やった由)。凝りましたね。
  結果: 再認率は実験1を再現。おっと、今度はデータの行を対象者x項目にしたロジスティック回帰をやっているぞ。実験1ではなぜそうしなかったのかしらん。ひょっとして、ローデータを失くしちゃったとか、そういうプラクティカルな理由かしらん。
 BTS条件下の報酬は、実項目では「知っている」が正、妨害項目では「知らない」が正となり、truth-tellingと整合している。さらに、系列位置の効果をみると、BTS+overclaim条件下でのみ、虚再認率が次第に減る。つまり、フィードバックを通じて対象者はtruth-tellingが報われることを学んでいる。BTSのみ条件でそうならないのは、最初から信じちゃうからだろう、とのこと。楽観的なご意見だ。
 なお、この実験では情報スコアを被験者ごとに再計算したわけだが、その値はだいたい安定していた由。
 BTSで嘘つきを同定できるだろうか? というわけで、個人ごとにROCでいうd-primeを出し情報スコアと比較すると、相関がある由。情報スコアが特に低い人の例: 実在しない映画"The Deli"を知っていると答え、"The Big Lebowski"(コーエン兄弟のコメディですね。観てないけど)を知らないと答えている。実在しないラム酒"Oronoco"を知っていると答え、"Jim Beam"を知らないと答えている。

 実験3。対象者27人。実験2のBTS条件と同じだが、教示を変える。BTSについて一切説明せず、単に報酬額だけをフィードバックする。また、全セルで2問目の予測質問を省略する(BTSは実験2のスコアを借用する)。ああ、これは面白い実験だなあ。
 結果: データの行を対象者x項目、従属変数を回答、独立変数を{系列位置、項目、系列位置x項目タイプ}にしたロジスティック回帰で、系列位置と項目タイプの交互作用が有意。妨害項目では再認反応率が系列位置とともに減少する。つまり、情報スコアのフィードバックのせいで虚再認が減少している、とのこと(チャートをみると、実項目の正再認率も少し減少しているのだけれど)。セッションの最後の1/4だけについて、実験2(BTSのみ条件、統制条件)と実験3を比べると、正再認率は有意差なし、虚再認率は統制条件に比べて低い。

 実験4。他の truth-telling メカニズムと比べてみましょうという主旨。どんなのがあるでしょうか、とここで急に先行研究レビューになって、

というわけで、BTS条件と誓約書条件を比べる。両方ともoverclaimingのインセンティブをつける。対象者70人。BTS条件の報酬は、情報スコアを金額にしたもの。さらに再認ごとに15セント。実験2と同様、情報スコアはリアルタイムに算出。誓約書条件は、項目あたり10セント、さらに再認ごとに15セント。
 結果: BTS条件では正再認率54%, 虚再認率21%。誓約書条件では72%, 52%。実験1のコントロール条件(58%, 20%)と比べると、誓約書はあまり効いていないのに、BTSは効いている、とのこと。うーん、こういうときこそ対象者ごとのd-primeを比較すべきだろうに。

 実験5。BTSを非市場財の価値評価に適用しますという主旨。他にどんな方法があるでしょうか、とここでまた先行研究レビューになって、

というわけで、実験。対象者114名。National Endowment for the Artsという連邦機関に寄付すべきかどうかの投票を求める。以下の4条件を比較する。

 結果: 寄付賛成率は順に44%, 76%, 47%, 50%。BTS条件はreal条件に近い。(real群44%ってことは、参加者に4$配ったのだろうなあ...)

 考察。

 やれやれ、面倒な論文であった。個別の実験はしょぼいし(特に実験1)、分析もあまりエレガントでないのだが、手を変え品を変えて実験を重ねているところがすごい。

 ベイジアン自白剤のしくみについて、まだよく理解できない箇所があり... 元のScience論文を読み直したり他のをあたったりして、延々思い悩んでいる。辛い...

論文:予測市場 - 読了:Weaver & Prelec (2013) ベイジアン自白剤 in 市場調査

« 2014年4月 | メイン | 2014年6月 »

rebuilt: 2020年11月16日 22:42
validate this page