2015年3月30日 (月)
森脇丈子 (2001) 「消費者」から「生活者」へ--大熊信行氏の「生活者」論を素材として. 立命館経済学, 50(3), 286-303.
内容はタイトル通り、60年代にマスメディアで活躍した経済学者・大熊信行の「生活者」論についてなのだけれど、書き手はきっと若く意欲に燃えた方で(勘だけど)、紀要誌とは思えない面白さであった。いくつかメモ。
[生活者ということばは、]「豊かさ」を実感できない今日の生活から脱却するには、職業生活の部面における問題の解決努力によっては為されないとみる主張を含んでいる[...] そのように主張することで労働運動や政治運動に対して独自のスタンスを持つイデオロギー集団が形成され、また地方政治において一定の活動基盤や支持基盤を固めるような現実的影響力をもつまでに発展している。これらの動向は、市民社会への発展という意味で評価されるべきであると筆者は考えるが、同時に、資本-賃労働関係という客観的な経済関係から全く離れた、超歴史的な「生活者」としての共通利益に基盤を置けば、今日の社会システムで「豊かさ」が実現できるかのような空想性を持ち、労働運動を軽視するなどの点で、現実的な弱点をもっていると考えられる。
大熊氏の提起した「人間中心」の思想はいかなる意味を持っていたのであろうか。それは、行動経済成長と所得倍増のスローガンのなかで、生産力の増大と所得の増大が第一に追及される社会状況であった1960年代に、大熊氏が人間にとっての生産[=財の生産じゃなくて生命の再生産]第一主義を社会に問いかけた点であるといえよう。[...] ではここで、氏の「人間生命の再生産」論に関して検討するべき問題点をあきらかにしておこう。それは、大熊氏が「生産」の概念を物財の生産とともに人間生命の生産としても捉える際に、両者を平面的・同時的に捉えるという観点についてである。[...]そのことによって労働により人間が成長する側面をすべて否定される点に弱点があるといわざるをえない。[...]氏の概念の把握の特徴は、その超歴史的な把握のしかたにある。[...] 氏には、歴史的経済規定をふまえたうえでものごとの分析をおこなう方法をもちあわせていないから、資本主義の経済規定をうけた労働と労働がもつ人間にとっての普遍的な意味を区別して、正確に把握することはできないのである。
氏の論理を辿ると、資本主義の[=物財の]生産と「生活者」との関連は次のようになっている[...] 資本主義の経済は企業の営利追求のために存在するものであり、人間が営利主義にまみれてしまわないようにするためには資本主義の生産の側面から一歩離れて自覚的な生活を送れるように努力することが求められる。つまり、「生活者」は消費の領域にのみ関心を向け、かつその領域での「必要」を超えた消費に陥らないよう努力することが求められるのである。[...]大熊氏は、資本主義の営利主義を批判しようとした試みとは反対に、その営利主義にメスを入れることはなく、消費面での「生活者」の努力による対抗に限定されざるを得ない新しい経済観の提起におわってしまっているのである。
非歴史的に、「自覚的に生きること」という共通項でくくられた「生活者」には、「消費者」から脱却して「生活者」になる道筋についての条件は示されることはない。この点は、大熊氏の「生活者」論の弱点であると指摘できよう。客観的経済関係に規定された階級、もしくは階級のなかで多分に細分化された階層に属する人々の生活状態の分析こそが、生産第一主義の克服につながるのである。
... 要するに、「生活者ていわはるけどそれなんですねん、アナタ労働者ちゃいますのん」ということであろうか。そりゃそうだよなあ。
論文:マーケティング - 読了:森脇 (2001) 「生活者」論批判
奥瀬喜之 (2014) 生存時間分析のPSMデータへの適用の試み. 専修ビジネスレビュー, 9(1), 43-51.
奥瀬喜之 (2015) PSMデータを活用した新たな最適価格測定手法の提案. マーケティング・リサーチャー, 126, 39-47.
価格調査でよく使うPSM (Price Sensitivity Meter)の4項目の回答から、2本のカプラン・マイヤー生存曲線を描く、という提案。昨日からずっとこのことについて考えている...
論文:マーケティング - 読了:奥瀬 (2014, 2015) PSMデータで生存曲線
2015年3月27日 (金)
たまたまtwitterのタイムラインを眺めていたら、心理学の世界で有名な逸話についてのちょっとした記事をみかけて、あれれ、と思った。元記事を書いたRichard Griggsさんという人、80年代に推論研究でブイブイいわせていたあのGriggsである。4枚カード問題の主題内容効果についての論文Griggs&Cox(1982)は、いまでも教科書に引用される記念碑的研究だと思う。すいません、よく覚えてませんけど。
検索してみたら、Griggsさんはいまは心理学史や心理学教育に関心をお持ちのようで、キティ・ジェノヴィーズさんは最近の教科書でどう教えられているかとか(キティさんは心理学の世界で有数のかわいそうな方である)、スタンフォード監獄実験はどう教えられているか(心理学の世界で有数の怖い話である)、アッシュの同調実験はどう教えられているかとか(心理学の世界で有数の面白い話である)、そういう記事をいっぱい書いておられるらしい。時は流れたなあ。
このGriggs先生、心理学の世界で有数のかわいそうな赤ちゃんである「アルバート坊や」についても一家言お持ちのご様子である。
アルバート坊やとはですね、一般教養の心理学だとたぶんGW明けに登場する赤ちゃんである。若くしてアメリカ心理学会会長を務めた天才心理学者ワトソンは、アルバートちゃんに白いネズミをみせ、触ろうとしたときに鉄棒を叩いて大きな音を立てた。おかげでアルバートちゃんはネズミを見るだけで怖がるようになり、のみならずウサギや白いふわふわしたものを見るだけでも怖がるようになったのである。かわいそうなアルバートちゃん。
この実験の様子を示した有名な写真には、ハンマーを持ったワトソン、泣くアルバート、そして見目麗しき大学院生レイナーが写っている。無垢な乳児に深い心的外傷を負わせた罪の意識に耐えかねた、のかどうか知らないけど、天才ワトソンは弟子レイナーと不倫の恋に落ち、アカデミズムを追われて実業界に転じ、のちに広告代理店J. Walter Thompson (現WPPグループ)の副社長となるのだけれど、それはまた別の話。
さて、心理学の世界にその名を轟かすアルバート坊やとはいったい誰だったのか。こんなひどい目にあわされて後を引かなかったのか。これはちょっと面白いトピックで、たしか日本の心理学者の本でもこの話題に触れたものがあったと思う(今田寛「学習の心理学」じゃなかったっけ?)。実はワトソンの隠し子だったという与太話を見かけたことがあるけれど、さすがにそれはでたらめだろう。
私と同じくらいヒマな方ならご存知かもしれないが、実は2009年のAmerican Psychologistに、大学の付属施設に勤めていた女性の息子にして重い障害を抱えた赤ちゃんDouglasこそがアルバート坊やだ、という論文が出て、ちょっと話題になった。ところがGriggs先生はAlbert=Douglas説を否定する立場に立っておられる模様だ。いやー楽しそうだなあ。
Griggs, R. (2015) Psychology’s Lost Boy: Will the Real Little Albert Please Stand Up?, Teaching of Psychology, 42(1), 14-18.
というわけで、たまたま拾ったPDF。掲載誌はIF 0.5という風情のある雑誌である。
別に読む必要はないのだけれど、気分転換に...
まずは歴史のおさらい。アルバート坊やについてのワトソンの手による情報は、(1)論文Watson&Rayner (1920, JEP), (2)ワトソンが公開した映像, (3)そしてWatson & Watson (1921)という一般向け啓蒙記事のなかでの言及、だそうである。論文のなかでアルバート坊やは"Albert B."と呼ばれている(実名かどうかはわからない。当時は個人秘匿の倫理規定がなかった)。母は大学の付属施設に勤務する乳母であり、健常な赤ちゃんで、実験後に養子に出された、とされている。
さて、アルバート坊やの素性には2つの説がある。
ひとつはBeck, Levinson, & Irons(2009, Am.Psych.)によるDouglas Merritte説。彼らは残された書簡から赤ちゃんの生年月日の期間を絞り込み、一方で母親容疑者である乳母を3人にまで絞り込む。Ethel Carterさんはアフリカ系だったので釈放。Pearl Bargerさんはその期間に出産したという記録がない。残るArvilla Merritteさんが、ちょうどその期間に子どもを産んでいる。Beckらはその孫のIronsさんを探しあて(この方が第三著者)、赤ちゃんの名前がDouglasであったことを突き止める。
では、"Albert B."のBはどこから来たか。Beckらの推理は次の通り。ワトソンの母はとても信心深い人で、バプテスト教会の指導者 John Albert Broadusの名を取って息子にJohn Broadus Watsonと名付けた。AlbertときたらBroadus。というわけで、これはワトソンの言葉遊びだろう。
なお、Douglas Merriteは水頭症で6歳で亡くなっている。映像の分析でも、アルバート坊やには障害があるように見える由。論文には健常な乳児だと書いてあるんだから、倫理的な大問題である。
このBeck説に対して批判が現れる。Powell(2011, Hist.Psych.) いわく、(1)実験が行われた時期はBeckらの推定より遅いはず。(2)ワトソンはアルバート坊やは養子に出されたと述べているが、Douglasは養子に出されていない。
Powellらは捜査をやりなおし、Beckらの捜査線上に一旦浮かんで消えたPearl Bargerに再び疑いを向ける。新しく発見した証拠によれば、彼女は1921年にCharles Matinekと結婚。1940年の国勢調査記録によれば、夫婦の長男はWilliam A. Barger。大学側の医療記録に戻って探しなおしたら、この子のミドルネームはAlbertとなっているではないか。まさに"Albert B."。さらに、元論文に示されたアルバート坊やの体重はDouglasの記録とは合わないが、この子の記録とはほぼ一致する。なお、彼らは映像も再分析しており、アルバート坊やに障害があるようには見えないと主張している。
なお、Albert Bergerさんは2007年に87歳で亡くなっている。実験のせいかどうかはわからないが、ご本人は確かに動物があまりお好きでなかった。自分が心理学の世界で超有名だなんて思いもよらなかっただろうが、もし知らされていたら、親族の方いわく、「きっと興奮してたでしょうね」。
Powellらのこの新説にはBeckらの反論もあるようだが... Griggs先生いわく、いまんとこPowell側に軍配が上がるね(Albert Bergerさんも養子に出されてはいないから、決定的とはいえないけど)。ともあれ、ワトソンとレイナーに向けられている倫理的疑惑は晴らしてあげたほうがよさそうだね。云々。
論文:心理 - 読了:Griggs(2015) 「アルバート坊や」追跡
ten Klooster, P.M., Visser, M., de Jong, M.D.T. (2008) Comparing two image research instruments: The Q-sort method versus the Likert attitude questionnaire. Food Quality and Preference, 19, 511-518.
「重要性についての論文をしみじみ読む会」、本年度第2弾。あんまし重要性とは関係ないけど(なぜリストにこれを入れたのか思い出せない)、まあ主観的重要性測定手法のひとつでもあるし、ということで。
消費者にイメージを聴取するという場面で、Q-sort法とリッカート項目を比較する。Q-sortとはもちろんクイックソート・アルゴリズムのこと...ではなくて、心理学の分野に伝わるいにしえの聴取手法である。カードをたくさん渡し、両極7件~11件尺度上に、分布が山形になるよう決めた枚数づつ並べさせる。
対象者はオランダの学生。牛肉のイメージを聴取する。30項目。
- Q-sort法は51名, 1to1のセッションで聴取。まず30枚のカードを同意, 不同意, 中間の3つの山に分けさせ、次に各山のカードを9件法上に置かせた。所定枚数は端から順に1,2,4,5,6,5,4,2,1。回答を因子分析。項目間相関行列ではなくて個人間相関行列の因子分析である。セントロイド法、バリマクス回転。3因子を得た。
- リッカート法は5件法、項目順序を変えた2バージョンを用意。最後に牛肉における各項目の重要性を5件法評定。1000人に撒いて160票回収。5件法の同意/不同意回答と5件法の重要性回答を掛け、9段階の値を得た(なぜそういうフシギなことを...)。因子分析で3因子抽出、負荷の高い項目を10個, 7個, 4個の計21個選択。
上記の2群は別のサンプルである(あるサンプルを2群に無作為割り当てしているわけではない)。しょぼいなあ。
で、なにやら結果を比較しているんだけど、結構印象論に近い話だし、どうでもいいような気がしてきたのでパス。項目の平均はどちらも似たようなもんだが、人の分類にはQ-sort法のほうが適していて、対象物のイメージの把握にはリッカート法のほうが適している、とかなんとか...聴取方法だけじゃなくて分析方法も変えちゃってんだから、比べてもしょうがないんじゃないすか? なんだかなー、もー。
いくつかメモ。
- 医学・看護領域ではQソート法をよく使うのだそうだ。へー。
- Poiesz(1989, J.Econ.Psych.): イメージの定義(そしてその測定方法)を、high/middle/low elaborationの3段階に分類しているのだそうだ。おおお、これは面白そう。
論文:マーケティング - 読了:ten Klooster, Visser, & de Jong (2008) Qソート法 vs. リッカート法
Rao, C.V., Swarupshand, U. (2009) Multiple Comparison Procedures - a Note and a Bibliography. Journal of Statistics, 16, 66-109.
多重比較法の論文573本を集めた文献リスト。掲載誌はパキスタンの大学の紀要誌みたいなものらしい。
ついかっとなって表にしてしまいました。ついでにこんな図をつくっちゃったりして... なにをやっているんだか...
論文:データ解析(2015-) - 読了:Rao&Swarupshand (2009) 多重比較法文献リスト
梅谷俊治(2014) 組合せ最適化入門:線形計画から整数計画まで. 自然言語処理, 21(5), 1059-1090.
なぜに自然言語処理で整数計画? と思ったのだが、使い道があるんですね。知らなかった。
論文:データ解析(2015-) - 読了:梅谷(2014) 組合せ最適化入門
Smithson, M. (2010). A review of six introductory texts on Bayesian methods. Journal of Educational and Behavioral Statistics, 35(3), 371-374.
たまたま見つけた奴。ベイズ統計学の教科書6冊を比較して紹介。ええと、ここで扱っているのはBDAなどに進む前に読むべき入門者向け教科書のことで、6冊というのは、Bolstad, Gill, Lee, Lynch, Martin&Robert, Ntzoufrasである。
数学できる人ならGillかNtzoufrasがお勧め。政治・社会学の院生ならGillかLynch。心理とかならBolstadなりLeeを終えてからNtzoufrasに進むという手もあるね、とのこと。
日本語だったらさしずめ、渡部, 松原, 繁桝、というところだろうか。私はいずれも手にとっては挫折しているのだが、ある意味で一番面白かったのは、培風館のほうの松原本であった。ところどころに載っている歴史的逸話が楽しい。サヴェジって結構嫌われてたんだそうですよ。
追記: なぜかわかんないけど「6冊」を「5冊」と書き間違えていたので直しました。ぼんやりしているにも程がある...
論文:データ解析(2015-) - 読了:Smithson(2010) ベイズ統計学教科書レビュー
2015年3月26日 (木)
Rによるベイジアン動的線形モデル (統計ライブラリー)
[a]
G.ペトリス,S.ペトローネ,P.カンパニョーリ / 朝倉書店 / 2013-05-08
細かいところは全然理解できていないんだけど、一通りめくったということで、読了にしておく。
翻訳はかなり信用できる印象。実は、やたらに難解な箇所があるのは翻訳の問題じゃないかしらんと疑っていたのだが(すいません)、このたび何箇所か原文と照らし合わせて読んでみたところ、いずれも、なるほどこう訳すしかないなという感じであった。
最近読んで記録し損ねていたもの。
萩原雅之(2012) データ環境が変えるマーケティングの実践. マーケティングジャーナル, 31(3), 45-57.
前半は概観、後半はコールセンターの話。
丸山一彦(2006) 商品企画におけるマーケティングリサーチの問題点に関する研究. 成城大學經濟研究, 172, 33-55.
JMAのアンケートの話からはじめて、コトラーをディスったのち、市場定義の諸手法とかMRの諸手法とかを紹介。
論文:マーケティング - 読了:丸山(2006), 萩原(2012)
Tonidandel, S., LeBreton, J.M. (2011) Relative importance analysis: A useful supplement to regression analysis. Journal of Business and Psychology, 26, 1-9.
「重要性についての論文をがんばって読む会」(会員数1名)、本年度第1回。当該分野の大物LeBretonさんらによる啓蒙論文。Journal of Business and Psychology なんてジャーナル、はじめて聞いたけど、シュプリンガーだしIFは1.5 だし、泡沫誌ってわけじゃなさそうだ。
著者らがここでいう重要性(importance) とは、”the contribution a variable makes to the prediction of a criterion variable by itself and in combination with other predictor variables”。具体的には、予測の分散を説明変数に配分して相対的に評価するという枠組みで考えている。たとえばR^2=0.8の回帰式があるとして、0.4はX1のせい、0.3はX2のせい、0.1はX3のせい... なんて配分するわけである。
それがどう有用なのかというと... いわく:たとえば、指導者の効果性を予測する際に、ある個人差変数が他の変数よりもより問題になるか (matter)、知りたいでしょ? その個人差変数が有意味な予測子になるか、知りたいでしょ? 相対的重要性なんて非理論的だという批判もあるけど、とんでもない、理論構築ってのは探索と検証の繰り返しであり、相対的重要性は探索をお手伝いするのです。云々。
では、予測の分散をどうやって分割するか。伝統的にはYとの単相関とか、標準化偏回帰係数の二乗とか、標準化偏回帰係数と相関係数の積とか、変数投入によるR^2の変化とかを使うことが多いが、これはよろしくない(...簡単な数値例...)。Budescuのgeneral dominanceを使いなさい。ないしJohnsonのrelative weightを使いなさい(...それぞれについて簡単な説明...)。前者の長所はほかにcomplete dominanceやconditional dominanceが出せること。後者の長所は変数の数が多くても計算できること。
相対的重要性の限界。
- 測定誤差の影響を受ける。
- 正しい回帰モデルが同定できているのが前提。
- 説明変数間の相関が高すぎるとき。これは統計的な話というより理論的な話で、共線性が異なる概念間の類似性を表しているのなら相関が高くても問題ないけど、同じ概念の指標が複数含まれているせいで共線性が生じている場合は、それらの指標に予測の分散を分割しちゃうとミスリーディングな結果になる。
- 予測のウェイトでもなければ因果的な指標でもない。あくまで分散の分割という観点からの補足情報に過ぎない。
推奨事項。
- 相対的重要性を調べる目的を決めよう。いくつかのパターンの重要性について調べたいならdominance analysisがお勧め。単に分散を説明変数に配分したいだけならrelative weightでよい。
- その場で最も適切な相対的重要性を求めよう。単なる重回帰か、ロジスティック回帰か、多変量重回帰か、多項回帰か。
- まずは生のウェイトをみて解釈しよう。
- なんなら統計的有意性も調べよう。(←偏回帰係数の有意性検定とは別に、相対的重要性の有意性検定ができる由)
- なんなら信頼区間も求めよう。(←なんと、その方法がある由)
- 仮説を検証しよう。ここでいう仮説とは、たとえば「X1よりX2のほうが重要性が高い」とか、「X1の重要性は群Aより群Bで高い」とか。
最後に、ユーザのみなさんからのよくあるご質問をご紹介します。
- 必要なサンプルサイズは?→相対的重要性の検定における検定力は、単回帰の検定における検定力よりもやや弱いが、偏回帰係数の検定における検定力よりは強い。
- 有意じゃなかったら解釈できないの?→んなこたあない。(説明略)
- 相対的重要性の強さは、効果量についてのCohenの基準で解釈できる?→そもそもCohenの基準を振りかざすのはお勧めできない。相対的重要性であれ、効果量であれ、その解釈は状況による。
- 偏回帰係数は有意なのに相対的重要性は有意じゃなかったら?→そんなことはまずない。
- 理論的に重要な変数は、有意じゃなくても入れるべき?→イエス。
いやぁ... この著者らのチームには、以前問い合わせに親切にご対応いただいたこともあり、多大なる敬意を抱いておりますですが...
この分野の議論で一番肝になるはずの論点は、(a)なぜ重回帰の文脈で変数の"重要性"を定量化したいのか、(b)定量化したいとしてR^2を配分する必要があるのか、という二点だと思う。
Yに対するX1の"重要性"なるものを、もし因果的な概念として捉えるならば、それは要するにX1の総合効果であり、X2, X3, ... との因果関係次第で決まるものであって、つまりは重回帰の枠組みから離れ、DAGを描くのが先決であろう(aへの反論)。もし因果的なニュアンス抜きで、単に回帰式でYを予測する際の有用性として捉えるならば、X1を出し入れしたときのR^2の変化をみればいいのであって、R^2をきれいに配分する必要はないのではないか(bへの反論)。いやいや、これはモデル構築の手前の変数スクリーニング手法なのですと一歩引き下がるんなら、それはそれで納得するけど、著者らの主張はそうではなくて、変数選択が終わって回帰モデルが完成してから、そのモデルのなかの変数の"重要性"を評価しましょう、という話なのである。
どちらかというと、こういうソモソモ論に関心があるのだけれど、きちんとした議論がなかなか見つからない。
引用文献についてのメモ:
- この話の手前に位置する、回帰モデルの同定の話については、Hocking(1976,Biometrics), Miller(1990,書籍), Thall et al.(1997,J.Comp.GraphicalStat.)を見よ、とのこと。いずれも変数選択の話らしい。
- Fabbris(1980, Quality&Quantity): Johnsonのrelative weightの先行研究。
- Krasikova, LeBreton, & Tonidandel(2011,Chap.): 相対的重要性の使い方。
- O'Boyle,Humphrey,Pollack,&Hawver(2010,J.Org.Beh.): 潜在変数の相対的重要性。メタ分析で使ったらしい。
論文:データ解析(2015-) - 読了:Tonidandel & LeBreton (2011) 重回帰やったら変数重要性を調べましょう
態度とか価値観とかの測定手法にQソート法というのがある(たしか元はパーソナリティ研究じゃなかったかしらん?)。 ひとことで言えば、項目をカードにして渡し、両極9件法尺度上に、分布が正規分布になるように並べてもらう方法である。心理学辞典でしかお目にかかれないような古ーい手法だが、意外なことに、経営学の分野でレビューを書いている方がおられて...
岡本伊織(2011) Q分類法による価値観の測定: いかに捉えづらいものを捉えるか. 赤門マネジメント・レビュー, 10(12), 851-877.
なんで経営学でQソート法?と驚いたが、経営組織論に個人と組織の価値適合(person-organization fit)という概念があり、よって個人と組織の価値観を測んなくてはいけない、そのためにOrganizational Culture Profileという尺度をつくった人がいて、そこでQソート法を使った。おかげで価値観の測定にQソート法を使う研究者がでてきている。といういきさつがある由。へー。
Qソート法の歴史。そもそもは50年代の因子分析的研究の文脈から始まるのだそうだ。CattellのP方法論というのがありましたが、これにたいしてStephensonという人がR方法論とQ方法論を提案した。個人を行、検査を列にとった表があるとき、列間の相関行列を分析するのがR方法論、行間の相関行列を分析するのがQ方法論。で、Q方法論のための測定手法として開発されたからQ分類法。なのだそうである。へぇぇぇー! 全然知らなかった...
Qソート法では、たくさんのカード(上述の奴だと54枚)を両極9件尺度上に決まった枚数ずつ並べていくわけで、大変時間がかかる。そこで、まずもっとも当てはまる2項目を選んでもらう、次にもっとも当てはまらない2項目、つぎに残りのなかでもっとも当てはまる3項目、... というように選ばせる方法もある由。それでも時間かかりそうですけどね。
著者曰く、項目間の相対比較を求めているからリッカート法より弁別性が高いはず、とのこと。聴取手法比較研究にRavlin & Meglino (1987, J.AppliedPsych.)というのがあって、価値観測定における強制選択、順位づけ、得点配分、リッカート法を比較し、社会的望ましさバイアスはリッカート法で大きいと報告されている由。Qソート法は一種の強制選択なんだからイケてるんじゃないですかね?という理屈である。
この論文の面白い点は、云いっぱなしじゃなくて、5件法リッカートとQソート法を比較する実験をやっているところ(残念ながらn=29だけど...)。相関の中央値は+0.68、最低でも+0.45であった。さらにリッカート法は反応カテゴリの集中がみられる、Qソート法ならちゃんとばらつく、という主張だが... 分布が自由な5件法と、分布が所与な9件法を比べてもねえ? リッカート項目によくみられるいわゆるone-linerさんたちも、それなりに正直かつ真剣に反応している可能性だってあると思うんだけどな。それよか再検査信頼性を比べればよかったのに。
なお、54項目に対するQソート法回答の所要時間は平均12分であった由。ううむ、そりゃあ大変だ。
そんなこんなで勉強になりましたです。
論文:調査方法論 - 読了:岡本(2011) Qソート法レビュー
2015年3月18日 (水)
Freitas, A.L., Langsam, K.L., Clark, S., & Moeller, S.J. (2008) Seeing oneself in one's choices: Constual level and self-pertinence of electoral and consumer decisions. Journal of Experimental Social Psychology, 44, 1174-1179.
先日の講演の準備の際に大慌てで読んだ奴。Trople & Libermanの解釈レベル理論の例示として、小粒でぴりっとした実験論文でページ数が少ない奴はないか(ははは)、と探して見つけたもの。これが良い例であったかどうか、ちょっとわからないんだけど...
まず解釈レベル理論の説明があって... さて、人は自分がなりたい存在になりたいという抽象的な上位目標を持っており、現実の自己概念と理想の自己概念を整合させようとする。ここに自分の行為があるとして(例, 軍隊に入る)、それが高次レベルで解釈されたときは、その結果(国を守る)だけでなく、自己概念との関連(勇敢にふるまう)について検討される。いっぽう解釈レベルが低いと、行動や決定は手元の課題領域のなかに押し込められ、自己概念と関係しない。というような話であった。
実験は小さめのが三つ。詳細略。
論文:心理 - 読了: Freitas, Langsam, Clark, & Moeller (2008): 解釈レベルと自己概念関連処理
Ishwaran, H., Kogalur, U.B., Blackstone, E.H., Lauer, M.S. (2008) Random survival forest. The Annalys of Applied Statistics. 2(3), 841-860.
生存時間の予測手法としてランダム・サバイバル・フォレストをご提案します、という論文。RのrandomForestSRCパッケージ (旧randomSurvivalForestパッケージ)の開発チームによるもの。パッケージを本格的に使う前になにか論文を読まないと不安なので、ざっと目を通した。
ランダム・サバイバル・フォレストというと... もちろんサバイバル・データのランダム・フォレストということなんだけど... 日本語に訳すと、偶然的生存の森、だろうか。ホラー映画みたいだなあ。
提案アルゴリズムは以下の通り。
- オリジナルのデータからB個のブートストラップ標本をとってくる。抽出に際して、平均して37%のデータには手をつけない(out-of-bagデータ, またの名をOOBデータ)。
- それぞれの標本に関して生存木を成長させる。それぞれの節ノードにおいてp個の候補変数をランダムに選択、娘ノードの生存の差を最大化する変数を使って二分する。[←ちゃんと読んでないからだろうけど、生存の差をどうやって測るのかよくわからなかった。ログランク検定みたいなものだと思えばいいのだろうか?]
- ノードが持つユニークな死者の数が $d_0$ (>0) 個より大であるという制約のもとで、最大の木へと成長させる。
- それぞれの木において累積ハザード関数(CHF)を求め、木を通して平均する。これをアンサンブルCHFと呼ぶ。
- OOBデータをつかって、アンサンブルCHFの予測誤差を算出する。
記号の準備。本文よりちょっと簡略に書く。
ある飽和した木のある末端ノード$h$について、ケース$i$の観察された生存時間を$T_{ih}$, 打ち切り有無を表す変数を$\delta_{ih}$とする(死亡が観察されたときに1, 打ち切りのときに0とする)。そのノードが持っている離散的時点を過去から順に$t_{1h}, t_{2h}, ..., t_{N(h) h}$とする [←なぜノードによって時点の数を買えてるんだろう...?]。時点$t_{lh}$における死亡数を$d_{lh}$, リスク集合のサイズを$Y_{lh}$とする。CHFの推定値はネルソン-アーラン推定量でもって
$\hat{H}_h (t) = \sum_{t_{lh} \leq t} (d_{lh})/(Y_{lh})$
とする。
ケース$i$は長さ$d$の共変量ベクトル$x_i$を持つとしよう。さて、ケースのCHFはノードのCHFの推定量だということにする。つまり、ケース$i$のCHFを$H(t|x_i)$と書くとして、彼が落ちたノードが$h$だったら
$H(t | x_i) = \hat{H}_h (t)$
とするわけである。
ここまではいいっすね。
さて、アンサンブルCHFをどうやって求めるか。
ひとつのアイデアは、ブートストラップ試行のうち、そのケースがOOBに含まれていた試行だけに注目してCHFを平均するやりかた。これをOOBアンサンブルCHFという。$i$がブートストラップ標本$b$でのOOBに含まれていることを$I_{ib}=1$、いないことを$I_{ib}=0$と書く。この標本で作った木から得られる、任意の共変量$x$を持つケースのCHFを$H^*_b(t | x)$と書く。OOBアンサンブルCHFは
$H^{**}_e(t|x_i) = \sum_{b=1}^B I_{ib} H^*_b(t|x_i)/ \sum^B_{b=1} I_{ib}$
一見恐ろしげだけど、よくみると単純なことしかしていない。そうなのか、単純にハザードを平均しちゃっていいのか...意外...
もうひとつのアイデアはブートストラップ・アンサンブルCHF。委細構わずに
$H^*_e(t|x_i) = (1/B) \sum_{b=1}^B I_{ib} H^*_b (t|x_i)$
としちゃう。
同じロジックで、2種類のmortality(ある期間中の期待死亡率)を定義することもできる由。
なお、予測誤差の評価はOOBで予測したときのC指標を使うと良い(いわゆるAUCのことだと思う)。
他の手法と比較する実験もやっているけど、パス。
変数重要性(VIMP)も出せるけど、解釈には気を付けるように。たとえば2つの変数がどちらも予測に効き、かつ相関があるとしよう。かたっぽ抜いても分類エラーは増えないから、VIMPは低くなる。云々。
後半では、欠損の扱いについて新しい手法を提案しているけど(adaptive tree imputationというそうだ)、パス。最後に実データの解析例、これも読み飛ばした。
論文:データ解析(2015-) - 読了:Ishwaran, Kogalur, Blackstone, Lauer (2008) 偶然的生存の森
2015年3月 5日 (木)
Lewis-Beck, M.S. & Stegmaier, M. (2011) Citizen forecasting: Can UK voters see the future? Electoral Studies, 30, 264-268.
えーと、著者らいわく、選挙予測で有権者に "who would you vote for?" (vote intention)と訊くのでなく、"who do you think will win?" (vote expectation)と訊いて集計すると、これが案外当たる。すでにUSでの結果は論文にしましたが(Lewis-Beck & Tien, 1999 Int.J.Forecasting)、UKでの結果をご報告します。という論文。きちんと読んでないけど、そこそこ当たるよという話である模様。
個人的には、選挙結果が予測できようができまいがどうでもよくて、vote expectationが当たるにせよ外れるにせよその機序が知りたいわけだが、そういう話をする場所ではないらしい。
論文:予測市場 - 読了: Lewis-Beck & Stegmaier (2011) vote expectationはそこそこ当たるよ (UK編)
読んだものはなんでも記録しておこう、ということで...
Schlack, J.W. (2012) Invested: Engaging Hearts and Minds through Prediction Markets. Communispace.
Communispace社がオンライン・コミュニティ上でやったという「予測市場」のホワイト・ペーパー。面白いけど、残念ながら、これだけではなにをやったのかまったく理解できない。コンセプトが提示されて、確信度を入力するとその分の手持ちポイントをそのコンセプトに投資したことになるようだから、これはパリ・ミュチュエル市場? じゃあペイオフはいったいどうやって決めたんだ?
仕組みをつくったのはConcensus Pointという会社らしい。→なんてこった、Robin Hansonが関係している会社だ...
論文:予測市場 - 読了: Schlack (2012) "予測市場" by communispace社
Healy, P.J., Linardi ,S., Lowery, J.R., Ledyard, J.O. (2010) Prediction Markets: Alternative Mechanisms for Complex Environments with Few Traders. Management Science, 56(11), 1977–1996.
掲載誌が体質に合わないので後回しにしていたんだけど、M先生のレビューで意外な形で取り上げられているのに気づき、念のために本文を2pほどめくってみたら... もっと早く目を通すべきだった、と大後悔。何もかもひとりでやっているからしょうがないんだけど、それにしても要領が悪すぎる。
いわく。ダブル・オークション(DA)が予測市場のうまい仕組みだというのはわかっている。でもそれはIEMみたいな大規模市場のときの話であって、企業内市場でも最適かどうかはわからない。そこで、参加者が3人の状況で(!!!)、DA, iterated polling (デルファイ法みたいなもの。以下IP)、パリ・ミュチュエル(PM)、そしてHansonのマーケット・スコアリング・ルール(MSR)を比較しました。
最初に結果を先取りして紹介。参加者数が多い単純な状況ではDAがおすすめ。アイテム数が多いとか、予測する事象が相関しているとか、参加者数が少ないといった状況ではIPがおすすめ。IPはsubsidy paymentsが必要だという欠点があるけど(胴元が自腹を切らなきゃいけないってことね)、人数が少なけりゃ問題にならないでしょ。
行動の観察でわかったこと。(1)市場操作の試みはDAとPMで観察された。(2)IPとMSRでは支払総額がsubsidizeされているので参加者のやる気も増す。(3)参加者はほっとくと一部の証券にしか注意を向けない。IPはこの点で有利。(4)ヘンな参加者のせいで影響を受けるのはPMとMSR。IPは大丈夫。
先行研究。
- 参加者数の影響について。価値ある情報を持たない参加者(ノイジー・トレーダー)が増えると市場の効率性が下がるという話と(Delong et al., 1990 J.Finance), 情報を持っている参加者が利益を売る機会が増えるので情報の獲得・統合が進むという話がある(Kyle, 1985 Econometrica)。観察研究・実験研究ともに結果はmixed。
- 情報が複雑だとどうなるか。Arrow-Debreu証券市場で、私秘情報が比較的に単純で、私秘情報を全部累積すれば必ず真の状態がわかるのであれば、市場は効率よく収束することがわかっている(Plott & Sunder, 1988 Econometrica)。配当が複雑になったり、不確実性が増えたりすると話が変わってくる。云々。
- この論文ではすごく単純な環境を扱うけど(後で出てくるけど、状態は2^3=8しかないし参加者はたった3人)、そういう先行研究としては、
- McKelvey & Page(1990 Econometrica)のIPの実験。
- Chen et al.(2001 Conf.)の実験、コールマーケットとかよりpollが良いという結果。
- Plott et al.(2003 Econom. Theory)、PMの実験。
- Thaler & Ziembda (1988 J.Econom.Perspect), PMを支持。
- MSRは理論研究はいっぱいあるけど、実験はLedyard et al.(2009 J.Econom.Behav.Organ.)のみ。
この実験で使う環境を定義します。さあ、歯を食いしばれ!
世界の状態は2次元からなっている、ということにします。次元1は観察不能な因子で、観察可能な次元2に影響する。参加者は次元1を、そしてこれからの次元2を予測する。たとえば、次元1は中央銀行の金融政策、次元2は公定歩合、というような感じ。
具体的にはこういう課題。コインを選んで投げる。予測対象はオモテが出る確率。次元1がコインのバイアス、次元2が出目だ。
コイン$\theta$を確率分布$f(\theta)$からドローする。$\theta$の空間を$\Theta$とする。ドローしたコインを投げ、出目$\omega$を条件つき確率分布$f(\omega | \theta)$からドローする。$\omega$の空間を$\Omega$とする。
エージェント$i$は$\omega$についての$K_i$個の独立なシグナル $\hat\omega^i = (\hat\omega^i_1, \hat\omega^i_2, \ldots, \hat\omega^i_{K_i})$を私秘的に観察している。エージェントは$\omega$の真値を知ろうとし、事前分布$f(\theta), f(\omega | \theta)$を$\hat\omega^i$でベイズ更新して、まず事後分布$q(\theta | \hat\omega^i)$を得る(以下$q^i(\theta)$と略記)。で、さらに事後分布$p^i(\omega) = \sum_{\theta'} f(\omega | \theta') q^i(\theta')$を得る。OK?
メカニズム設計者の目標は、個々のエージェント($I$人)の信念を集約することだ。いちばん簡単なケースは、設計者がすべてのエージェントの私秘シグナルを観察できるケースである(完全情報のケース)。$\omega = (\hat\omega^1, ..., \hat\omega^I)$のもとでの$\theta$の事後分布$q(\theta | \hat\omega)$を$q^F(\theta)$と書くとして、出目の完全情報事後分布は
$p^F(\omega) = \sum_{\theta'} f(\omega | \theta') q^F(\theta')$
さて、設計者が実際に作った集約メカニズムによるパフォーマンスをどう評価するか。時点$t = (0,1,\ldots,T)$における事後分布$h_t$を「ランニング事後分布」、$h_T$を「出力分布」と呼ぶことにする。すべての$\omega$を通した、$h_T(\omega)$と$p^F(\omega)$のズレの二乗を合計すればよい。いいかえれば、出目$\omega$の空間$\Omega$における$h_T$と$p^F$のユークリッド距離を求めればよい。(式省略)
準備はできた。用意する環境はふたつ。かんたんなやつと複雑な奴。
かんたん環境。コイン$\theta$の空間を$\Theta = \{X, Y\}$、出目$\omega$の空間を$\Omega=\{H, T\}$とする(headとtailね)。$f(X)=1/3, f(H|X) = 0.2, f(Y)=2/3, f(H|Y)=0.4$とする。
複雑環境。コインは$X, Y, Z$の3枚、ランダムな順に並べて取り出す(これを$\theta$とする)。よって$\Theta$は6要素ある。$f(\theta)=1/6$。で、それぞれのコインを投げ、その結果(たとえばHHT)を出目とする。よって$\Omega$は8要素。$f(\omega | \theta)$は結構複雑で、えーと、$X$がオモテになる確率が0.2, $Z$がオモテになる確率が0.4, $Y$が$X$と一致する確率が2/3。だからたとえば$f(TTT | XYZ) = 0.32$となる、という... そんなもん推測できないよ、参加者のみなさんも大変だ。
どちらの場合も、エージェント$i$はコイン$\theta$も出目$\omega$も観察できず、ただ出目のサンプル$\hat\omega^i$だけを観察できる。
市場参加者のペイオフは、ほんとは$\omega$の実現値に基づいて決めるべきところだが、そうすると運の良し悪しが出てきちゃう。参加者にわかりやすいように、主催者だけが知っている正しい$f(\omega | \theta)$からわざわざ500回ドローした経験分布$\phi(\omega)$をつくり、これに照らしてペイオフを決める。要するに、たとえばかんたん環境では、「正解を発表します!500回投げたらオモテは350回、ウラは150回です!」っていう風に正解を発表する、ということなんだろうな。
お待たせしました、選手入場です!
- ダブル・オークション。かんたん環境では2枚、複雑環境では8枚の出目株を売り出す(Arrow-Debreu証券)。スタート時のキャッシュなし、空売り有り。市場が閉じると個々の出目株($\omega_s$とする)に対して$\phi(\omega_s)$が開示され、これを単価として清算。[←あれれ? Arrow-Debreu証券って、取引価格を変動させ、ペイオフを1ドルとかに固定する証券のことじゃないの? こういう量的結果をペイオフする線形証券であっても、とにかく配当が外的に決まっていればArrow-Debreu証券というのだろうか...]
- パリ・ミュチュエル。かんたん環境では2枚、複雑環境では8枚の$\omega$チケットをすべて1ドルで販売。ペイオフはオッズと真の確率の積。つまり、チケット$s$の販売枚数を$T_s$として、$(T_s/\sum_\omega T_\omega)^{-1} \times \phi(\omega_s)$。
- iterative poll。つまりはインセンティブつきデルファイ法。まず、参加者に出目の確率分布を申告させる。その算術平均をとって全員にフィードバック。また確率分布を申告させ、平均をフィードバック... これを5回繰り返す。5回目の平均を出力分布$h_T(\omega)$とする。ペイオフは全員に対して同じで、対数スコアリング・ルールで決める[←そういうことか!うわー、これ、面白い!!!]。すべての参加者に、各状態$s$について、$ln(h_T(\omega_s)) - ln(1/S)$の「チケット」を渡す。そのチケットを$\phi(\omega_s)$で精算する。[えーと、たとえばかんたん環境で、最終ラウンドでのオモテの予測確率が0.4だったら、$ln(0.4)-ln(0.5)=-0.22$枚の「オモテチケット」、$ln(0.6)-ln(0.5)=+0.18$の「ウラチケット」が渡されるわけだ。で、「正解発表!オモテ60%、ウラ40%です!」となったら、オモテチケットを-0.22x0.6=-0.13ドルで清算、ウラチケットを0.18x0.4=0.07ドルで清算して、結局みんな仲良く-0.06ドルの損、ということであろうか]
- マーケット・スコアリング・ルール(MSR)。各状態$s$について$h_0(\omega_s)=1/S$とする。ランニング事後分布$h_t$を毎度公表する。参加者が証券$s$を売買するたび、
$ln(h_{t+1}(\omega_s)) - ln(h_t(\omega_s))$
を受け取る...というか、上の式x-1が売買価格になっている。最後に$\phi(\omega_s)$を配当。
実験。
被験者はCaltechの学部生。3人ずつ組ませる(これをセッションといっているらしい)。全16セッション。実験は16ピリオド、1ピリオドは5分間。
2つの環境で4つのメカニズムを比較するから、要因は2x4。詳細は略するが、各セッションは2x4=8の各セルのうち2セルを担当し、各セルについて8ピリオドの市場に参加する。
。。。と、ここまでメモをとりながら丁寧に読んだが、時間切れ。あとはメモなしでざっと通読した。全体にIPを支持する結果であった。
論文:予測市場 - 読了:Healy, et al. (2010) 対数スコアリングルールで報酬を与えるデルファイ法はひょっとすると予測市場よか気が利いてるかも
2015年3月 4日 (水)
Piazza, T., Sniderman, P.M., Tetlock, P.E. (1989) Analysis of the dynamics of political reasoning: A genral-purpose conputer-assisted methodology. Political Analysis, 1(1), 99-119.
いやー、都合により仕方ないとは言え、いまなんでこんな昔の論文読んでんだろうかと、いささかむなしい気持ちにもなりますね... どんな物好きなのかと... 夜は寝た方がいいんじゃないか、と...
第二著者のSnidermanさんという政治学者は偏見の研究をしている人だけど、ずいぶん前から調査に対話的要素をいれるというのをやっているらしい。その方法論に関心があってあれこれ探していたのだが、研究の中に散発的に顔を出すものの、方法論に絞った文献がなかなか見つからず... ようやく探し当て、やけになってPDFを買い込んだ(別ルートで入手している時間がない)。20pで数千円。ホントに馬鹿みたいだ、と...
相互作用的調査の4つの手法を提案。なお、この時代の研究だから、想定されているのはCATI(コンピュータを使った電話インタビュー)なのだが、まあそこは本質ではない。
その一、反論テクニック。
著者らは白人の人種間平等性に対するコミットメントについて調べているんだけど、調査において平等を支持する人でもそれは表面的なものに過ぎず、平等を達成するための努力を払うつもりは露ほどもないんだよ、という説がある。結局、どうやったら自己評価に頼らずにコミットメントが測れるか、という話になるわけだ。
そこで以下の手順を用いる。(1)ある価値なり政策なりについての支持/不支持を訊く。(2)その回答に対する反論をぶつける。つまり支持者向けの反論と非支持者向けの反論を用意しておいて分岐するわけだ。(3)立場が変化したかどうかを訊く。
実験結果の例が紹介されているんだけど、これがなかなか面白くて... 「政府は黒人を助けるべきだ」に対しては最初は57%が支持、しかし反論すると支持者の52%が不支持にまわり、不支持者の40%が支持に回る。いっぽう、大学入学のアファーマティブ・アクションに対しては27%が支持、反論で立場が変わるのは17%, 23%。著者らいわく、もともと支持率が低い主張の支持者が反論に耐えるのは、マクガイアの接種理論で説明がつくんじゃないかと思うけど、でもそしたら多数派はもっと反論に脆そうなものだよね、とのこと。(マクガイア! いやーホントに久しぶりに目にする名前だ)
さて、マクガイアさんには「ルーズ・リンケージ」モデルというのがあって(恥ずかしながら初耳)、いわく、普通の人は政治的信念とルーズなリンケージしか持っていない。必要に迫られてはじめて諸信念をタイトに結びつける。この概念を用いれば、最初の回答はまだルーズ・リンケージだから、内的に不整合な信念も表れる。反論されてはじめて整合性が現れるのである。その証拠に、もともと保守的な人は、人種問題について最初にリベラルに回答していても、その意見を変化させやすい。もっとも、もともとリベラルな人が人種問題について保守的に回答した場合、反論してもあんまり意見が変わらないようで、その点は今後の課題です、云々。
その二、置き換え実験。
調査でわかるのはしょせん態度(偏見)どまり、行動(差別)ではない、と人はいう。そんなことないです。電話調査で差別を調べる方法をご紹介しましょう。と風呂敷を広げて...
「人員削減で解雇されて求職中の人がいます。(年齢)(人種)(性別)で、子供が(いて/いなくて)、信頼(できる/できない)働き手で...政府はこの人を助けるべきでしょうか?」かっこ内をランダムに変え、全96パターンを使用。コンピュータ時代ならではの調査方法です、とのこと。
さて、結果をみてびっくり。回答者(白人)は、白人よりも黒人に対して「政府は助けるべきだ」と答えやすい。さらに、政治的立場(保守/リベラル)の自己報告との関連を調べると、リベラルの人のほうが「助けるべきだ」と答えやすいんだけど、なんと保守の人は黒人に対して「助けるべきだ」と答えやすく、同じ白人に対しては非常に厳しい。なんてことだ。人種差別の時代は終わったのか?
さらに深掘りした結果、次の点が判明。白人保守派は「信頼できる働き手」(a dependable worker)である黒人に対してのみ、ものすごく寛容なのである。著者らいわく、白人保守派にとっては「信頼できる黒人の働き手」は驚くべき存在であり、例外として扱われるのだ。
その三、整合性チェック。
たとえば、
A. 特定の人種・宗教集団に対する憎悪を促すような文章を書いたり話したりすることは法に反する。
B. いかなる政治的信念を持った人であれ、他の人と同じ法的権利を持ち保護を受ける資格がある。
この2文、論理的には矛盾しているのだが、心理的にはどちらにも共感できる。つまり心理的な整合性は論理的整合性とは異なる。では心理的整合性をどうやって測るか?
そこで次の手順。(1)Aについての質問。(2)他の問題についての質問(20項目)。(3)Bについての質問。(4)A, Bの両方に同意してたら、こんな風に尋ねる。「記録が正しいか確認させて下さい。Aに賛成と仰いましたよね。Bにも賛成と仰いましたよね。お答えを変更しなくていいですか?」矛盾してますよね、などと余計なことを言わないのがポイント。
カナダでこの実験をやったら、A,Bの両方に同意した人は全体の72%、そのなかで(4)で意見を変えた人は11%であった。政治のプロ(議員とか)に同じ調査をやったら、78%が両方に同意し、そのなかで意見を変えた人は3%、一般人よりもっとすごい。つまり、これは政治的関心の欠如とか能力の欠如の問題ではない。
著者らいわく、認知的整合性の知覚は信念変化の原動力だ。しかし信念システムがルーズにリンクしているときには、厳密に論理的な観点からみた不整合性を調和させる必要がない。
その四、ソース帰属。
精緻化見込みモデルでいうところの「周辺的ルート」に注目する。
ある政策(たとえば、破壊活動に関する出版の禁止)について説明し、同意するかどうかどうか訊く。ここでその政策を主張している人についての説明を操作する: {弱い帰属(some people say...とか) / 強い帰属(連邦議会によれば...とか)}。
さて、強い帰属のほうが同意率が高くなるはずだ... と思いきや、これまでの実験では案外そうでもなくて、ほとんど差がなかったりするのだそうである。著者らいわく、人々は見境なく意見を変えるわけじゃない、測ってみないとわかんない、とのこと。
というわけで... サーヴェイ調査のおなじみのモデル(項目の標準化)から離れ、状況を変動させたより相互作用的なサーヴェイ調査へと進んでいこうではありませんか。もちろん順序効果やインタビュアー効果が増大するといった困難はありますが、既存のリサーチはいまや限界です、新しい地平を目指さなければ。云々。
いやー面白かった!! 最初は落ち込んでたんだけど、この論文は大当たり。スナイダーマン、お前はなかなか使える奴だ! おかげで元気が出ました。
今頃になって89年の論文に痺れているのってどうかと思うけど(ディープラーニングとかDMPとか、なんかそんな感じのナウな話題に関心を持つべきなんでしょうね)、特に手法1と2は、消費者調査にも大いに関係する話である...非常に示唆的であった。
論文:調査方法論 - 読了:Piazza, Sniderman, & Tetlock (1989) 相互作用的な調査手法 by 政治学者
2015年3月 2日 (月)
Schober, M. & Conrad, F.G. (1997) Does Conversational Interviewing Reduce Survey Measurement Error? Public Opinion Quarterly, 61, 576-602.
かつて人類学者L. サッチマンさんが提唱したような柔軟な会話を通じた調査(Suchman & Jordan, 1990)ってのを実際にやるとなにが起きるか、という実証研究。掲載誌からみて批判的であることが予想されますが... さあ戦いの火蓋がいま切られます! (実況中継風に)
たとえば「あなたはふだん週に何時間働いていますか?」という質問があるとして、9時-5時勤務残業なしの会社員であれば簡単に答えられるけど、たとえばフリーランスのライターさんなら、編集者とランチ食っている時間や、ジョギングしながら考えてる時間はどうなるの、と思う。通常の調査であれば、とにかく全員に同じワーディングを提示し解釈は対象者に任せる。いっぽうサッチマンさんの提案では、ここでインタビュアーは質問紙作成者の真意に基づき、会話を通じて、「働いている」という言葉についての対象者の理解を助けようとするわけだ。
著者らはこのライターさんのような状況を「マッピングの複雑化」と呼ぶ。「働いている」という言葉の調査主体側の定義と、対象者による理解とのマッピングが複雑化している、という意味。
著者らの仮説は次の通り。マッピングが複雑化していない場合は通常のやり方が正確、複雑化している場合にはサッチマンさん流のやり方が正確。
被験者は新聞広告で集めた43人、標準化群と柔軟群に割り付ける。インタビュアーは米センサス局のプロ22人、こちらも2群に割り付ける。
インタビュアーは90分かけてばっちりトレーニング。標準化群は米商務省のマニュアルに従う。質問を適宜繰り返したり、非指示的なプローブを出したりするのはいいけど、概念の定義のような追加情報を与えてはならない。柔軟群は質問に答えたり、被験者が質問の意味を誤解していると思ったら訂正したり、質問を適当に言い換えたりする。
被験者に会場に来てもらい、まずは架空のシナリオを与える。測定の正確性を手法間で比べるために、まずは「正解」がわかっている状況をつくるわけだ。どんなシナリオが与えられているかをインタビュアーは知らないし、あるインタビュアーが担当する二人の被験者にはちがうシナリオが与えられている。シナリオには、主人公の(1)住居、(2)仕事、(3)購買、についての情報(質問の「正解」)が含まれている。
質問は12問、住環境、労働環境、購買行動について各4問。いずれも実際の公的調査で用いられているもの。質問文のなかのことばの定義は調査主体によって厳密に定義されている(たとえば、自宅に寝室がいくつかあるかという質問では、「寝室」とはなにかが細かく定義されている)。ただし、この実験では自分についてではなく、シナリオ中の登場人物について訊く。質問順は群間でカウンターバランス。
さて、被験者に与えられる「正解」は質問ごとに次の2つがある。ひとつは単純マッピング。たとえば家具の購買についての質問のために、シナリオ中にテーブルの領収書が含まれている。もうひとつは複雑マッピング。フロアランプの領収書が含まれている[←はっはっは、確かに家具かどうか微妙ですね]。「正解」は質問ごとに操作し、ある被験者に対するある質問領域の4問の「正解」が、2問は単純マッピング、2問は複雑マッピングになるようにする。被験者の立場になってみれば、12問中6問はちょっと回答に困るものになっているわけだ。
準備ができたら、部屋にインタビュアーから電話がかかってくる。被験者は調査回答中に手元のシナリオをみてよい。
結果。
インタビューの逐語録(インタビュアーによる記録とほぼ一致)は、単純マッピングではどちらのインタビュアーも「正解」をほぼ再現。複雑マッピングでは、標準インタビュアーは再現率28%、柔軟インタビュアーは87%。つまり「正解」を正しく調べるという意味では柔軟なインタビューのほうが優れている。とはいえ、柔軟群のほうがインタビュアー間のばらつきが大きくなるという可能性もある(この実験デザインではインタビュアーあたりの被験者数が2しかないから、はっきりしたことがいえない)。
インタビュー時間は柔軟なほうが長くなる(中央値は標準で3.4分、柔軟は11.5分。いやーそりゃ大変だわ)。とはいえ、柔軟群のインタビュアーは慣れてなかったんじゃないですか、とのこと。
そのほか、やり取りの中身についていろいろ調べているけど、省略。
考察。(1)マッピングの複雑さは測定誤差のひとつの源だ。(2)インタビュー手法の適切さは状況によって異なる。
というわけで、コストとのトレードオフはあるものの、意外にも柔軟なインタビューを支持する結果であった。
もっとも、この実験のインタビュアーはおそらく相当レベルの高いプロ揃いで、だから柔軟なインタビューもうまくこなせたのかもね、という疑念はあるなあ...。それに、サッチマンさんのような立場の人が、この実験でいう「柔軟なインタビュー」を十分に柔軟だと捉えるかどうかもよくわからない。私のいっている相互作用性ってのはね!こんな皮相的なレベルの話じゃないのよ!!なあんて怒り出したりしてね。はっはっは。
論文:調査方法論 - 読了:Schober & Conrad (1997) 調査対象者と会話しちゃうインタビュアーは正確な調査結果を得ることができるか
都合により読んだ論文のメモが残っていたので、記録しておく。
Suchman, L., & Jordan, B. (1990) Interactional troubles in face-to-face survey interviews. Journal of American Statistical Association. 85(409), 232-243.
調査法研究について調べている文脈で読んだ論文だったし、論文上での肩書が民間企業になっているので、途中まで気がつかなかったのだが、第一著者は「プランと状況的行為」のあのルーシー・サッチマン。そうそう、この人はゼロックスの研究所勤めが長かったのだ。やられた、状況論ですよ... 正直、最初から気づいてたら手に取らなかったと思う(気が重いから)。
いわく、survey interviewは標準化と引き換えに会話が本来持っている相互作用性を抑圧している。普通の会話なら、話し手はそれまでの会話の履歴に基づき発言を再設計できるが、インタビュアーはそれができない。また対象者による発言は精緻化が足りなかったり、不必要に精緻化されたりする。設問に含まれた世界観が対象者のそれと違っていても、通常の会話と違って摺り合わせが始まったりはしないし、発話の意味を明確にするためのやり取りもないし、誤解を検出して修復することもない...と、公的調査の対面インタビュー・ビデオから集めた例で示す。きちんと読んでないけど、どれもありそうなやりとりばかり。以上が論文の大半を占める。
最後に問題提起。むしろインタビュアーは調査票作成者の意図だけ踏まえて、質問についてもっと自由に話し、日常の会話でそうするように対象者と会話したほうがいいんじゃないですかね? 云々。
ちょっと面白かったのは、当時まだ新しい手法であった質問紙認知インタビューに対して著者らが意外に好意的であるという点。質問紙を改善することはもちろん大事だ、でもどこまでいっても調査というのは本来は相互作用的行為だし、そうでなければ測定の妥当性も保てないんだよ、という立場なのだと思う。状況論の先生だからもっとポストモダンで(?)、ふつうの認知心理学者がやることはみな気に入らないかと思ったけど、下衆の勘繰りでしたね、すいません。
たとえばこういうくだり、耳が痛い。
質問と反応の意味を評価するという問題はインタビュー状況を超えた広がりを持つ。仮に質問と回答が質問紙の作成者が意図した形で解釈されたとしても、データのユーザがその理解を共有していることの保証にはならない。調査データを記述統計や推測統計に用いるリサーチャーは、そのデータを正しく使うために、質問がどのように聞かれどのように答えられたか、その意味を知らなければならない。従って、妥当性のある調査のためには、そこに関与するすべての人々(質問紙の作成者、インタビュアー、回答者、コーダー、分析者)が、質問が何を意味し回答がどのようになされたかということについての共通の理解を持つことができるようなメカニズムが必要なのだ。
... 耳が痛いけど、では著者らが提案するような「すべての関与者の間でのactive collaboration」がどのように可能か、という点についてはちょっとよくわからない。
市場調査における消費者の定性的インタビューでは、「その場にいる人すべてをなんとなく納得させる」魔術的なスキルを持ったインタビュアーが高い評価を得ることがある。しかし、新しい認識を得るプロセスには本来は混乱や葛藤がつきもののはずであって、ああいう「その場の納得感が大事」主義は長期的には知的退廃をもたらすんじゃないかしらん...と思うこともある。この論文で取り上げている対面的インタビューでも、インタビュアーのインセンティブは、質問紙作成者の意図を代理することよりも、むしろスムーズな業務進行や整った回答データと連動しているはずで、「インタビュアーの自由度を高めて参加者の協同させる」というと美しいけれど、ともすればナァナァに陥っちゃうんじゃないかなあ...
調査に会話的な相互作用性を導入しようとした先行研究としては、Briggs(1986, "Learning How to Ask"), Mishler(1986, "Research Interviewing")という本がある由。ふうん。