読書日記: 論文：調査方法論アーカイブ

メイン > 論文：調査方法論

2020年4月13日 (月)

仕事の都合で先月とったメモ、なんだけど、読み返すと、なんだかすごく昔のできごとのような気がする。この1か月間の間に、世の中どれだけ変わったことだろうか。

Jamieson, L.F., Bass, F.M. (1989) Adjusting stated intention measures to predict trial purchase of new products: A comparison of models and methods. J. Marketing Research, 26(3), 336-345.

　いわく。
　市場調査では購入意向(PI)のデータをよく使う。PIで実購買を予測する研究はいっぱいあって,

frequently purchased branded products ... Penny et al. (1972 J.MarketRes.Soc.), Gormley(1974 J.MarketRes.Soc.), Tauber (1975 JAR), Warshaw (1980 JMR)
generic established consumer durable products ... Juster(1966 JASA), McNeil(1974 JCR), Adams(1974 JCR)

結果をまとめていうと、PIは実購買と正の相関を持つが、実購買の予測力は低い。なんとかならんもんか。

　この問題、製品タイプで分けて調べたり、新製品か既存製品かで分けて調べたりする必要がありそうだ。

Kalwani & Silk (1982 Mktg.Sci.): 耐久財と非耐久財との差を示している。
Granbois & Summers (1975 JCR): 対象者のタイプより製品カテゴリで差があった。
Sewall (1978 JMR), Urban & Hauser (1980 書籍): 新製品の研究。

なお、Silk & Urban (1978) みたいな上市前売上予測は予測力が高いけど、PIだけつかっているわけではないし、トライアル購買ではなくて市場シェアを予測していたりする。

　かつてJohnson(1979, Working Paper)は、市場調査のサプライヤー、コンサル、広告代理店に調査をかけ、どんなPI指標を使っているか、その妥当性を調べたことはあるかと訊ねた。その結果、もっともよく使われているのは次の5件法であった: Definitely will not buy, Probably will not buy, Might/might not by, Probably will buy, Definitely will buy.
　というわけで、本研究ではこの5件法PI尺度をつかった3つのモデルを比較する。

　選手入場です。

　選手1. ウェイティング。
　5件法の上から順にウェイト$w_i$を振る。対象者数を$N$、各段階の人数を$n_i$として、
　$Pr(Trial) = \sum_{i=1}^5 w_i (n_i/N)$
　Johnson(1979)は実務家に、あなたがお使いのウェイト値についても訊ねていた。回答に出てきたのは次の6通り。Topboxから順に

1) 1, 0, 0, 0, 0
2) 0.28, 0, 0, 0, 0
3) 0.8, 0.2, 0, 0, 0
4) 0.96, 0.36, 0, 0, 0
5) 0.70, 0.54, 0.35, 0.24, 0.20
6) 0.75, 0.25, 0.10, 0.05, 0.02

　選手2. ベータ二項モデルを修正したモデル。
　Morrison(1979 J.Mktg)は、真の意向を$I_t$, 言明された意向を$I_x$として、(1)$I_x$はパラメータ$I_t, n$の二項分布に従う, (2)$I_t$は母集団を通じてベータ分布に従う、と仮定した。
　$E(I_t|I_x) = (\alpha/\alpha + \beta + n) + (n/\alpha + \beta + n) I_x$
ただし$I_x = x / n$で、$x$は$0$から$n$までの整数。
　さらにこのモデルを修正し、実購入確率を$P_x$、真の意向の変化を$\rho$, 系統的バイアスを$b$として、
　$P_x = A + BI_x$
　$A = [\rho \alpha(\alpha + \beta)] + [(1-\rho) \alpha / (\alpha + \beta + n)] - b$
　$B = [(1-\rho) n / (\alpha + \beta + n)]$

　[上の式は原文のままメモしたが、これではなにがいいたいのかさっぱりわからないではないか！以下、自分なりに補足してみよう。
　PIを$n+1$件法尺度で訊いたときのある人の回答を、5件法なら4, 3, 2, 1, 0とコーディングし、これを$x$とする。$I_x = x / n$とする(5件法なら上から1, 0.75, 0.5, 0.25, 0)。$x$が試行回数$n$の二項分布に従うと捉え、成功確率を$I_t$とする。$E(I_x|I_t) = I_t$である。
　さて、$I_t \sim Beta(\alpha, \beta)$と考える。つまり事前分布の平均は$E(I_t) = \frac{\alpha}{\alpha + \beta}$である。成功確率$I_t$の試行を$n$回行い成功回数が$x$だったんだから、事後分布は$Beta(\alpha+x, \beta + (n-x))$となる。その平均は
　$E(I_t|I_x) = \frac{\alpha+x}{\alpha+\beta+n} = \frac{\alpha}{\alpha+\beta+n}+I_x \frac{n}{\alpha+\beta+n}$
　さらに、実購買確率は
　$P_x = \rho E(I_t) + (1-\rho) E(I_t|I_x) -b $
だと考える。つまり、調査時点の態度$E(I_t|I_x)$から少しだけ$E(I_t)$のほうに戻ってしまい(その程度を表すパラメータが$\rho$)、さらにバイアス$b$だけずれる、と考えるわけだ。
　...ってことですよね！？きちんと書いてくださいよ、もう...]

　選手3. 線形モデル。
　5件法で訊く($I_x$)と同時に101件法でも訊いちゃう($P_x$)。で、
　$Pr(Trial|Intentions) = \sum_x Pr(I_x) Pr(P_x|I_x)$
　$Pr(Trial) = k Pr(Trial | Intentions)$
とする。
　[ちょっとよくわからんのだが、脱力しちゃって真面目に考える気にならない。これってPIの設問が増えてんじゃん... 比較にならないじゃん...]

　選手2の$\rho$と$b$、選手3の$k$を決めるために、本研究では製品知覚の項目を使う。すなわち、認知(4件法)、好意(5件法)、購入容易性(4件法), 誰かに相談するか(二値)、購入可能性(お店でみたことがあるか。2件法)。

　というわけで、実験でございます。
　M/A/R/Cに実査を頼んで電話調査をやった。対象者は世帯の買い物をしている女性。同一対象者に3ヶ月あけて3回調査。順に800, 412, 200人。以下では3回とも答えた200人について分析する。
　製品は10個、カテゴリは歯磨き、ダイエット飲料、フルーツスティック、パソコンなど10種類(うち5つは耐久財)。製品特徴は提示するけどブランド名は出さなかった。だいたいひとり5製品について聴取した(延べで921製品x人)。wave 1でむこう6ヶ月PI、wave 2でトライアル購入有無とむこう3ヶ月PI, wave3でトライアル購入有無を訊いた。

　結果。
　PIとトライアル購入の間には正の相関があった。非耐久財のほうがやや高かった。
　選手1について。重みづけ合計と実トライアル購買率を比べると、6)がいちばんましだったけど(MAEは9.87パーセントポイント)、大差なかった。
　選手2について。まず最尤法で$\alpha$と$\beta$を推定する。で、それと観察された$P_x$から$\rho$と$b$を求めることもできるんだけど、そうすると$P_x$の予測には使えないわけなので[ああそうか。著者らは$\rho$と$b$も製品ごとに推定しようと思っているのだ]、まず当該製品以外の9製品の$P_x$を使って$\rho$と$b$を推定し、それらを5つの製品知覚項目に回帰した。結局、$\hat{\rho}$の説明変数として相談有無と購入可能性、$\hat{b}$の説明変数としては好意度と購入可能性を採用した。そんなこんなで$P_x$が予測できるようになった。性能は良くなった(MAEは3.9パーセントポイント)。
　選手3について。[...めんどくさいので中略...] 性能はさらに良くなった(MAEは2.3パーセントポイント]。

　というわけで、実トライアル購買の予測に際しては単なるウェイティングじゃなくて、補助的な変数も使ったほうがいいのではないでしょうか。云々。

　...うーん...
　これ要するに、購入意向の5件法回答だけじゃなくて事後の店頭接触経験を考慮したほうがトライアル購入率を正確に予測できたよ、5件法と一緒に確率評価をさせればもっと正確になったよ、って話ですよね。えーっと、そりゃまあ、そうでしょうね...
　申し訳ないけど、よく載ったねえ、というのが正直な感想である。確かに選手2のモデルは勉強になったけど、この論文のオリジナリティというわけではないだろう。おそらく、当時はこういうデータを集めるのがすごく大変だったから、これでも論文として成立したのではないかと思う。
　まあ、ヒストリカルな意味ではすごく面白かったし(特に選手1のところ)、仕事の役に立つ内容だったので、文句はないんですけど...

　いくつか追加でメモしておくと...

考えてみると、最初に新製品かどうかでちがうとかカテゴリによってちがうとかいっておきながら、結局はひとつのモデルで済ましてんのね。まあいいけどさ。
引用されているJohnson(1979)という研究、すごく面白いので、ちょっと調べてみたんだけど、引用文献によればアリゾナはPheonixにあるArmour-Dial Co.という会社のprivately cirlulatedなワーキングペーパーである由。この会社はおそらくDialという石鹸をつくっている会社であろう。著者Jeffrey Johnsonについてはよくわからない。ワーキングペーパーの題名"A study of the accuracy and validity of purchase intention scales"で検索すると、これを引用している論文がこの論文以外にもいくつかみつかる: Holak(1988 J.ProductInnov.Mgmt.), Whitlark, Geurts, & Swenson (1993 J.Business Forecasting Methods & Systems), Repace & Gertner (2013, J. MktgPerspectives)。これら全部が原文を確認せず孫引きしているとも思えないので(楽観的過ぎますかね？)、実在したワーキングペーパーなのだろう。手に入れられそうにないのが残念だ。
イントロの最後のところに、「調査で質問することで、回答者たちのその後の実購買が変わるんじゃないか」という予想されるツッコミについての防衛線が１段落ある。確かに相関は高めになるかもだけど、とにかくここで実購買を予測できることが必要条件でしょ、という言い分である。こういう質問-行動効果って、実証研究はSharman(1980)に遡るんだけど、この論文では引用していない。やっぱりマーケティング領域では、Morwitz, Johnson & Shmittlein (1993)のJCR論文が出るまで、あまり知られていなかったんだろうな...
著者らの研究というより、先行するMorrison(1979)らのベータ二項モデルに対する疑問なんだけど、ある人の5件法の回答$x$がその人の真の態度を$p$として二項分布$B(4, p)$に従うという仮定は、さすがにちょっとどうかなと思う(自白すると、仕事でやむなくそういう強気なモデルを組んだこともあるんだけど、あれは後味が悪かった...)。$p$についてベータ分布を考えるときに話がスマートになるというのはわかるけど、回答誤差の分散が$4p(1-p)$になると決め打ちしていることになるでしょ。実質的な観点から見たリアリティに欠けるのではないか。いや、回答の認知過程についての諸仮定から演繹的に出てきたんですとか、SEMだかMMTMだかで回答誤差を評価したらどうやら分散は$4p(1-p)$に近いですとかだったら、その時は納得するけどさ...

読了: Jamieson & Bass (1989) 購入意向で売上を予測する上手い方法

2019年7月16日 (火)

Kawamoto, T., Aoki, T. (2019) Democratic classification of free-format survey responses with a network-based framework. Nature Machine Intelligence, 1, 322-327.
　
　見つけた瞬間にがっくり膝から崩れ落ちた論文。この論文の提案手法、我々が開発した手法(これのpp.54-56)とすごく、ものすごーく似ているもので、感想は山ほど、ほんとに山ほどあるんだけど、とにかく内容のメモのみ記録しておく。

　まずOA回答を求める。次に、他の回答者のOAをみせて類似性を訊く。で、回答のネットワークをつくる。ノードが回答で、エッジは類似しているという回答があったかなかった。これをクラスタリングする。ある回答がどのグループに落ちたかを目的変数にした分析ができる。
　
　論文の順序と違うけど、先に分類手法の説明から。
　回答数を$N$、グループ数を$q$とし、グループのラベルを$\sigma \in \{1, \ldots, q\}$とする。グループサイズを表す長さ$q$のベクトルを$\gamma$とする。ポジティブエッジによる$q \times q$の類似度(affinity)行列を$\omega^+$, ネガティブエッジによる$q \times q$の類似度行列を$\omega^-$とする。
　以上のパラメータを持つランダム・グラフ・モデル(これを確率的ブロックモデルと呼ぶ)が生成モデル。ここからは事例生成の話。
　それぞれのノードについて、まず$\gamma$に従ってグループにランダムに割り当てる。次に、すべてのノード間のペアについてエッジを生成する。たとえばふたつのノードがあって、所属グループが1と2だったら、その間にポジティブエッジがある確率は$\omega^{+}_{12}$, ネガティブエッジがある確率は$\omega^{-}_{12}$, つながらない確率は$1-\omega^{-}_{12}-\omega^{+}_{12}$である。エッジの生成がランダムに行われると考えている点に注意。実際のデータ生成は必ずしもそうでなくていいんだけど、そうであるほうがよい[対象者に誰のOAをみせるかはランダムに決まっているほうがよいという意味であろう]。
　こうして隣接行列$A$が生成されると考える。

　尤度関数はどうなるか。
　[原文にはないけど勝手に補記する。ノード$i$の所属グループを$\sigma_i$と書く。ノード$i, j$の間にエッジがないときに1になる変数を$\delta_{A_{ij},0}$, ポジティブエッジがあるときに1になる変数を$\delta_{A_{ij}, +}$, ネガティブエッジがあるときに1になる変数を$\delta_{A_{ij}, -}$と書く。ノード$i, j$の間のノード状態$A_{ij}$の尤度関数は
　$g(A_{ij} | \omega^{+}, \omega^{-}) = \left( 1-\omega^{+}_{\sigma_i \sigma_j}-\omega^{-}_{\sigma_i \sigma_j} \right)^{\delta_{A_{ij}, 0}} \left(\omega^{+}_{\sigma_i \sigma_j} \right)^{\delta_{A_{ij}, +}} \left(\omega^{-}_{\sigma_i \sigma_j} \right)^{\delta_{A_{ij}, -}}$
従って尤度関数は...]
　$p(A, \sigma|\gamma, \omega^{+}, \omega^{-}) = \prod_{i=1}^{N} \gamma_{\sigma_i} \prod_{i < j} g(A_{ij} | \omega^{+}, \omega^{-})$

　このモデルだと、あるグループの全てのノードは等価だと考えていることになるけど、実際には人気の高低があるだろう。そこでハブ構造を持たせる(これを次数調整確率ブロックモデルという)。
　尤度関数はこうなる。ノード$i$から伸びているポジティブエッジの本数を$d^{+}_i$, ネガティブエッジの本数を$d^{-}_i$として
　$g(A_{ij} | \omega^{+}, \omega^{-}) $
　$= \left(1-d^{+}_i \omega^{+}_{\sigma_i \sigma_j} d^{-}_j - d^{+}_i \omega^{-}_{\sigma_i \sigma_j} d^{-}_i \right)^{\delta_{A_{ij}, 0}} $
　$\times \left(d^{+}_i \omega^{+}_{\sigma_i \sigma_j} d^{-}_j \right)^{\delta_{A_{ij}, +}}$
　$\times \left(d^{+}_i \omega^{-}_{\sigma_i \sigma_j} d^{-}_i \right)^{\delta_{A_{ij}}, -}$
と直せばよい。

　この尤度関数を用いて、周辺事後分布$p(\sigma_i|A,\gamma, \omega^{+}, \omega^{-})$を求めれば$\sigma_i$が推定できる。モデルパラメータは周辺尤度$\sum_{\{\sigma_i\}} p(A, \{\sigma_i\}|\gamma, \omega^{+}, \omega^{-})$を最大化すればよろしい。我々はEMアルゴリズムで推定したが、別に他の方法でもよい。
　この方法ではなくて、たとえばなんかの目的関数を最大化するような分割アルゴリズムであっても分類できるけど、この方法には利点が３つある。(1)分類の不確実性を、それぞれの回答がグループに落ちる確率として表現できる。(2)確率的ブロックモデルの性質は理論的によく知られていて、効率的なアルゴリズムがある。(3)任意の結合パターンを学習できる。たとえば、仮にネガティブエッジがdisassortativeな構造を持たなくても大丈夫。
　なお、エッジがポジティブとネガティブのほかにあっても扱える(グループの同定が難しくなるかもしれないけど)。

　本題に戻して...
　適用例その１。2016 US大統領選の前にデータを集めた。まず "#NeverHillary or #NeverTrump?" と聴取しておいてから(これはネットワークを描くときには使わない)、その理由を聴いた。ネットワーク分類のalluvial図をみると [知らなかったけど、グループ数を増やしていった時の遷移図のこと]、支持をうまく分類している。
　適用例その２、ある大学での教育学部[第二著者のご所属から拝察するに香川大教育学部かしらん]の卒業生に、あなたのキャリアは(Q1), それを選んだ理由(Q2)、学生時代のもっとも価値ある経験(Q3)を訊き、それぞれについて分析した。
　ネガティブ・エッジはかならずしも非類似性ではなさそうだった[←そうそう、そうだろうなあ... 私のデータでも類似性判断への非反応は必ずしも非類似ではなかった]
　Q1, Q2, Q3それぞれによる分類を比べると...[中略]

　考察。
　この手法は、たくさんの反応に対して扱いやすくスケーラブルなコーディングを提供する。予備調査をやってコーディングフレームを作るよりも簡単だしコードの見落としがない。NLPでもできるだろうけど領域知識が必要だ[実際に試したので付録をみよとのこと]。
　さらに、この手法は統計的にprincipledであり、(主観でも客観でもなくて)民主的である。
　今後の課題として... まず、対象者負荷とグループ同定のトレードオフ(スパースなほうが難しくなるから)。これはネットワーク理論では検出閾値の問題といわれている[へー。Decelle, et al. (2011 Phys.Rev.E), Moor (2017) というのが挙げられている]。
　次に、他の回答者の回答を読むことによるバイアスの問題。しかし、対象者がwell-informedで他者の意見について深く考えるなら、他者の意見を読ませることはむしろ利点かも知れない。
　云々。

読了：Kawamoto & Aoki (2019) 自由記述の民主的分類

2018年10月11日 (木)

Boone, H.N., Boone, D.A. (2012) Analyzing Likert Data. Journal of Extension, 50(2).
　掲載誌はオンライン誌。生涯教育の関係者向けの雑誌ってことなのかしらん？よくわからない。
　なにかの役に立つかと思って、資料整理のついでにディスプレイ上で目を通したんだけど...

　いわく、Extensionの専門家[←どう訳せばいいのかわからん] はリッカート的な調査項目を頻繁に使っているが、誤用に満ちているので、諸君の無知蒙昧を正そう。

　そもそもリッカート型項目とリッカート尺度は異なる。前者は単一項目として使うとき、後者はもともとリッカートさんが意図していたように、複数項目への回答から合成変数をつくるときだ。
　リッカート型項目はStevensの測定尺度でいうと順序尺度なので、記述の際には最頻値とか中央値とかがお勧めだし[←まじっすか？どの項目でも同じ中央値になったりしまっせ？まあ信念ならしょうがないけどさ]、項目間関係は連関係数でみないといけない。
　いっぽうリッカート尺度は間隔尺度なので[←これも...まあひとつの信念ですよね...]、平均とかSDとかがお勧めだし、相関係数を求めてもt検定してもANOVAやっても回帰やってもよろしい[←うううう...なにをもって「よろしい」というのかによるよね...]。

　えーと、なんというか... どう反応したらいいのかわからない解説記事であった。
　まあでも、あれですね、リッカート尺度という言葉が、x件法の複数項目の合成得点を表している場合と、(厳密に言えば誤用なのかもしれないが) x件法の単一項目を指している場合があって、ちょっと混乱することがある、というのは、ほんとだと思います。

読了：Boone & Boone (2012) リッカート型項目とリッカート尺度

2018年6月 1日 (金)

Juster, F.T (1966) Consumer buying intentions and purchase probability: An experiment in survey design. Journal of the American Statistical Association, 61(315), 658-696.
　前から気になっていた奴。このたび思うところあって読んでみた。
　消費者に購入意向を訊く方法について調べていると、日本語ではまだ見たことがないけれど、英語の資料にはときどき"Juster scale"というのが出てくる。要するに、購入意向(買いたいか)じゃなくて購入確率(買いそうか)を11件法で訊く方法である。
　これはそのJuster scaleの元になった論文。なんと1966年。あああ... 風情がある... 定年退職した好事家になった気分だ...
　Wikipediaによれば、著者F. Thomas Justerは1926年生まれ、有名な経済学者だそうだ。きっとJusterスケールなんて、この人の業績の中ではささやかなものなのでしょうね。

　この論文、実に39頁の長きにわたってだらだら続くので、私のほうも非常にだらだらとした態度でめくった。たまに大昔の論文を読むと面食らうんだけど、なんというか、文章が悠長で、修辞表現がやたらに多くないですか。なぜだろう。学術を取り巻く社会環境が変わったのかなあ。

1. 意図とサマリー
　耐久財の需要を予測する際、消費者の予期(anticipation)の調査が広く用いられている。その背後にあるのは次の考え方である：消費者による家とか自動車とかの購入の変動は、所得などの財政的変数の変動とはある程度まで独立している。そのような延期可能なタイプの支出の変動を予測するには、財政的変数だけでなくて、消費者の楽観性・非完成を反映するような予期変数を使ったほうがいい。そしてそのような予期変数を直接測定するには、購入意向とか、財政的健全性と態度を示すもっと一般的な指標を使うのがよい。
　[ここからこの論文のサマリー. 略]

2. 消費者調査に基づく予測
　先行研究では、耐久財の購入の時系列的変動のうち収入などの変数では説明がつかない部分を、購入意向・態度がある程度までは説明することが示されている。横断調査においては、購入意向はその後の世帯購買と強く関連するが、態度変数の影響はあまりないといわれている。
　意図の調査では、ふつう対象者に耐久財のリストを示し、それらをたとえば「来月中に」、買う「計画」(plan, intend, expect)がありますか、と聞く。回答はオープンエンドで得て、それをインタビュアーが「絶対に買う」「たぶん買う」「わからない」「買わない」などに分類する[←そうか、当時のことだから面接調査なわけね]。
　時系列の分析の際には、全体における購入率$x$を、購入意図者の購入率$r$と非意図者の購入率$s$の加重平均として表現すると便利である。購入意図者率を$p$として
　$x \equiv pr + (1-p)s$
たいてい購入意図者は少ないし、購入意図者の購入率はあまり変動しないので、$x$の時系列的変動は主に$pr$じゃなくて$(1-p)s$のほうに起因する。
　[説明があまりに長いので勝手に要約しちゃうと、購入意向が低い奴も実際には買うってのが問題なんだ...ということでよろしいでしょうか]
　購入率の分散の説明率という面では、意図の調査の成績はあまりよくない。成績を改善できるかどうかは一概に言えない。仮に購入見込みをより正確に測ったとして、事前の期待と事後の行動とのずれが大きいなら成績は改善しないし、ずれが小さいなら成績が改善するはずである。

3. 意図調査は何を測っているのか？
　意図調査において聴取される購入のplanやintentionというのは、対象者が指定された期間にその品物を買う確率についての対象者の推定を反映している、と考えるのがもっとも合理的な解釈であろう。ということは、善良な対象者は、購入確率がゼロより大きくても、それが十分に低いと感じられるなら、自らを非購入意図者に分類するであろう。
　[この項、1p以上にわたってダラダラ書いてあるんだけど、要約すると上記のようにすごく短くなってしまい、なんだか不安に感じる...]

4. 確率調査のロジック
　すべての世帯が、ある購入意向質問$i$について確率のカットオフ$C_i$を持っていて、それを購入の主観確率が上回ったときそのときのみ購入意図者になるのだとしよう。[この節、話の建付けがよくわからないのだけれど、どうやら各世帯は主観確率を分布じゃなくてスカラーとして持っているということらしい]
　購入の主観確率を$Q$、世帯を通じた$Q$の分布の密度関数[そうは書いてないけどそういう意味だと思う]を$f(Q)$とする。$C_i$が変動しないなら
　$1-p=\int_{0}^{C_i} f(Q) dQ$
　$p=\int_{C_i}^1 f(Q) dQ$
である。実際には$C_i$は世帯間で変動するだろうけれど。
　さて、以上の仮定の下で、

母購入率の最良の予測子は購入意図者率$p$ではなくて購入確率の平均である。
対象者は購入確率と閾値を比較しているわけで、これは購入確率をそのまま訊かれるよりも難しい課題である。これに答えられるのなら購入確率だって答えられるはずである[←そ、そうかなあ？？素朴心理学というかなんというか...]。
意図調査は、カットオフより下の世帯における購入確率の分布についてなにも示してくれていない。

　[...あれこれ書いてあるけど文脈がつかみづらいので省略して...] というわけで、購買行動の予測のためには、購入確率をそのまま訊ねたほうがよいのではなかろうか。

5. 正確性の向上を測る基準
　ほんとは「意図調査よりも確率調査のほうが購入率の時系列的分散をよく説明する」ということが示せるといいんだけど、そんな長い時系列はちょっと手に入らないので、横断で調べることにする。
　[そのほか、ああでもないこうでもないといろいろ書いてあるけど全部省略。あー、なんかもうイライラしてきた]

6. 実験
6.1 貯蓄実験
　[いきなり「これはあきらかに失敗した実験で...」という衝撃の紹介から始まり、結果が載ってない。学部の実験演習のレポートか。パス]

6.2 デトロイト実験
　1963年、米センサス局がデトロイト近郊の192世帯を対象に行った(これは次に出てくるQSI実験のパイロットだった)。
　設問は"During the next (6,12,24) months, that is, between now and ____, what do you think the chances are that you or someone in the household will by a ____?"。11件法、ラベルは一番上が"10 Absolutely certain to buy", 一番下が"0 Absolutely no chance"。
　回答分布をみると、時期を問わず"5 Abount even chance (50-50)"の回答率が大きく、0, 10も大きかった。
　5が高くなるのはラベルに"50-50"と書いてあったからではないか。また、対象者が判断できない時にインタビュアーが5を選ぶように示唆したのではないか。
　その後半年の自動車購入有無と突き合わせると、10を選んだ人では8割以上、0を選んだ人は1割以下が自動車を購入していた。回答の平均は0.17, 購入率は0.22[←えええ？！そんな高いの？]。だいたい当たっている。

6.3 QSI実験
　1964年、米センサス局によるQuarterly Survey of Intentions。世帯数は16000強。確率調査と意図調査のどっちがいいかを比べるため、約800世帯をランダムに抜き出し、数日後に再調査を掛けた。
　設問は"Taking everything into account, what are the prospects that some member of your family will buy a ____ sometime during the next ____ months; between now and ____?"。
　11件法。ラベルは上から順に、
　10 Certain, practically certain (99 in 100)
　9 Almost sure (9 in 10)
　8 Very probable (8 in 10)
　7 Probable (7 in 10)
　6 Good possibility (6 in 10)
　5 Fairly good possibility (5 in 10)
　4 Fair possibility (4 in 10)
　3 Some possibility (3 in 10)
　2 Slight possibility (2 in 10)
　1 Very slight possibility (1 in 10)
　0 No chance, almost no chance (0 in 10)
　[説明を見落としたのかもしれないけど、たぶんこういうことであろう。本調査では、自動車とかについて購入意向を5件法で訊いた。ラベルは"definite", "probable", "maybe", "don't know", "no"。再調査でさらに購入確率も訊いた。で、その後の実際の購入有無を追跡した]
　[検証したい仮説についてごちゃごちゃ書いてはるけど、省略...]

　結果。
　デトロイト実験と異なり、購入確率5の山はうまいこと消えてくれた。購入確率の平均を購入率と比べると、だいたい同じだが、自動車ではちょっと低めであった。
　購入確率と購入意図でクロスすると、回答はすごくずれていて、意向が"no"や"don't know"である回答だけみても、確率は結構散らばった。
　購入意図よりも購入確率のほうが、実際の購入率と関連した。特に意図が低い人において関連が高かった。[信じられないくらいにダラダラした説明が続く...大幅に省略]
　多変量解析すると... [10pにわたって延々説明している。もうめっちゃイライラしてきた！スキップ！スキップだ！！]

7. 結論
　[ふつう論文の最後の節の頭では、この研究でわかったことをまとめたりしませんか？この先生にはそういう気がなくて、いきなり「本研究の限界」みたいな話に突入するのだ]
　購入確率回答とその後の購入行動の関係を攪乱する諸変数の役割については良くわからない...[略]
　購入確率を訊く際の最良の設問形式については今後の課題だ...[略]
　云々, 云々, 云々, ...

　。。。読み終えたぞ！　あーもう！　もっのすごくイライラした！　だれかタイムマシンで遡って、この先生に「もっと簡潔に書け」っていってやって！！

　まあいいや、中身について考えよう。ろくに読んでいないのになんですけど。
　この論文は、5件法で購入意向を訊くよりも11件法で購入確率を訊いたほうがのちの購買行動と関連しましたという内容だけど、まず気になるのは、それは意向と確率の違いそのものによるのか、それとも回答カテゴリが違うせいなのか、というあたりである。早い話、意向の尺度を改善すれば、購買行動との関連性はもっと高くなるんじゃないかと。この点については、たしかもっと精密な実験研究があったような気がする。読んでないけど。
　購買行動に対する予測的妥当性じゃなくて、他の観点からみるとどうなっているんだろう、という点も気になる。再検査信頼性とか、他の変数との関連性とか。マーケティングリサーチの場合だと、たしかに購入意向を訊いてはいるが、突き詰めていえば購買行動を予測したいというより、カテゴリやブランドに対する現在の態度・選好を知りたいのだ、という場合も少なくない(どうせ実際の購買は市場環境に左右されるわけだから)。

　いや、そんなことよりですね... とにかく、論文の書き方が現代と全然ちがうので困惑した。なんなんだろう、このエッセイ風のまとまりのない文章は。しかも、なぜこんな研究がJASAに載ってるの？統計学じゃないじゃんか。
　というわけで、非常に面食らったしイライラしたわけだが、こうしてみるとアカデミック・ライティングの作法というのは意外に時代に制約されたものなのかもしれない。ということは、50年後の人々は、2010年代に書かれた論文を読んで大変に面食らい、イライラするのかもしれない。えっ、サマリー動画がついてないの？！全部文章で読むのってめんどくさいなあ、とか。えっ、政府に感謝する文言がないの？！どうやって研究費取ったんだろうか、とか。

読了：Juster (1966) 購入意向じゃなくて購入確率を訊け

2018年5月 2日 (水)

Jennings, W., Wlezien, C. (2018) Election polling errors across time and space. Nature Human Behavior.
　ネットで話題になってたので目を通してみた。NatureとかScienceとかの記事って、構成が普通の論文と違ってて、ちょっと読みにくいんですよね...

　いわく。
　2015年UK総選挙、2016年US大統領選挙をみるにつけ、選挙調査は誤差が増大しているのではないか、危機にあるのではないか...という声が高まっている[←ネイト・シルバーのブログ記事やNYTの記事がreferされている]。ほんとうだろうか。
　1942年から2017年までの45ヶ国の国政選挙351件について分析する(地方選や国民投票は対象外。うち日本が5件)。分析対象となる調査は実に30916件。そういうすごいデータベースがあるのです(Harvard Dataverse)。
　分析に使用するのは、各調査における候補ないし政党への投票意向の数値である(DKと回答拒否を除いたシェア)。各調査における実査日を特定しておく(複数日にまたがる場合には中央とする)。各選挙について、候補・政党への投票シェアを調べておく。
　目的変数は投票-調査間の絶対誤差。必要に応じ、投票-調査間の対数オッズ比とか、首位2つの合計の間での絶対誤差とかも調べる。

調査の誤差は選挙キャンペーン中にどう変わるか。横軸に「投票日の何日前か」、縦軸に絶対誤差の平均をとった曲線をみると、投票日が近づくにつれ0に近づき、分散も小さくなる。大統領選挙より議員選挙のほうが誤差が小さい。
投票前最終週の調査の誤差は年とともにどう変わったか。いろいろやってみたけど[省略]、通説に反し、誤差は大きくなっていない。
調査の正確性に選挙の文脈はどのように影響するか。重回帰してみると、誤差は議員選挙より大統領選で大きく、比例代表制より一人区で大きく、大政党で大きい(これは標本抽出理論で説明できる)。ここでも年は効いてない。

　考察するに、回収率は下がり、調査モード・抽出・ウェイティングはますます多様になったけど、そのせいで選挙前調査のパフォーマンスは下がってはいない。おそらく、異なる調査が結合されているせいでキャンセルアウトされたのだろう(実際、誤差の調査間分散は大きくなっている模様)。
　本研究の限界：誤差に影響する要因は他にもあろう(調査結果公表に禁止期間を設けている国があるとか、制度変更とか、有権者それ自体のボラタリティとか、調査モードとか)。
　
　というわけで、調査機関はさまざまな難題に直面しているけれど、選挙調査の正確性が危機にあるとはいえない。
　選挙調査は大きくはずれることもあるだろう、注目を集めることもあるだろう。しかあし！それは方法論的反省、イノベーション、そして改善を導きうるのだっ。
　云々。

読了：Jennings & Wlezien. (2018) 世界の選挙調査は危機にあるか？→意外にそうでもない

2018年1月 8日 (月)

Jin, K.Y., Wang, W.C. (2014) Generalized IRT Models for Extreme Response Style. Educational and Psychological Measurement. 74(1), 116-138.

　原稿の都合で読んだ奴。
　回答スタイルをIRTでモデル化する研究としてはde Jong, et al.(2008)というのを読んだことがあるけど、それとどう違うのかを知りたくて読んだ。著者らは香港教育大の人。

　この論文では回答スタイルのうち極端反応スタイル(ERS; x件法尺度の両端を選んじゃう傾向)に注目する。
　ERSについての先行研究：

Greenleaf (1992 POQ)
Van Vaerenbergh & Thomas (2013 Int.J.PublicOpnionRes.) [←やばい、これノーチェックだったかも]
Hamilton(1968 Psych.Bull.): ERSは性格特性と関係がある
Johnson, et al.(2005 J.Cross-Cul.Psych.): ERSは発話において明確・正確であろうとするモチベーションと相関する
Naemi, Beal, Payne(2009 J.Personality): 調査回答が速い人、思考が単純な人はERSが高い
Kieruj & Moors (2010 Int.J.PublicOpinitonRes.): ERSは選択肢の数に影響されない
Weijter, et al.(2010 Psych.Methods): ERSは時間的に安定している
Arce-Ferrer(2006 Edu.Psych.Measurement): 個人特性・社会特性の関連性についての研究
Baumgartner & Steenkamp (2001 JMR): 同上 [←あれ？たしか俺これ読んでるんだけど、記録が残ってない]
Chen, Lee, & Stevenson (1995 Psych.Sci.): 同上
van Herk, Poortinga, & Verhallen (2004 J.Cross-Cul.Psych.): 同上

潜在特性とERSの両方を調べたいとき、その直感的な方略としては、潜在特性を測る項目への反応を別のやり方で得点化するという手がある。たとえばJohnson, et al(2005)は両端の選択肢を選んだ個数をERSの指標にしている。でもそんなやり方では項目特性と個人指標が交絡しちゃう。内容面で多種多様な項目をあっちこっちから集めてきて回答スタイルを測るという手もある。Greenleaf(1992), Weijters, et al.(2010), Weijters, et al.(2008 J.Acad.MktgSci)がそう。でも今度は潜在特性をきちんと測れなくなる。
　次の5点に注意する必要がある。(1)ERSの同定には沢山の項目が必要。Greenleaf(1992)だと16項目。(2)ERSの同定の際には選択肢の数が多い方がいい。3件法より7件法のほうが楽。(3)なにをもって極端反応とするか、明確な定義はない。(4)どう定義するかで結果が変わってくる。(5)潜在特性からERSをキレイに除去しないと比較ができなくなる。
　というわけで、本研究ではIRTによって潜在特性とERSを分離する。

　リッカート尺度を扱うIRTモデルはたくさんある。いくつかご紹介しよう。以下、対象者を$n$, 項目を$i$, 選択肢を$j$とする。
　まずはpartial credit model (PCM):
　$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{ij})$
ここで$P_{nij}$は選択確率、$\theta_n$は潜在特性、$\delta_i$は困難度、$\tau_{ij}$は閾値である。この閾値を$\tau_{j}$としたのがrating scale model(RSM)。他にSamejima(1969)のgraded response modelなどがある。
　いずれにせよ、項目パラメータを別にすれば、反応を決めるのは$\theta_n$だけである。

　さて、ここにERSを組み込むにはどうしたらよいか。これまでのアプローチを概観しよう。

潜在クラスを入れる。Moors(2008 Quality&Quantity), van Rosmalen, et al.(2010 JMR)がこの路線。潜在クラスの番号を$g$として、PCMを
　$\log(P_{ngij}/P_{ngi(j-1)}) = \theta_ng - (\delta_gi + \tau_{gij})$
と拡張する。するとたいてい、「閾値のあいだの幅が狭いクラス」というのが出てくる。これがERSが高い人々だということになる。Rost, Carstensen, & von Davier (1997 論文集), von Davier, Eid, & Zickar(2007 論文集)がそう。こういう路線では必ずしも真の潜在クラスを復元できないので注意。Alexeev, Templin, & Cohen (2011 J.Edu.Measurement)をみよ。[←どの論文も題名に"mixture Rash model"と書いている。なるほど、ラッシュモデルの文脈の研究なのか... 急に勉強する気が失せてきた。あの分野はほんとに難しい]
多次元名義反応モデル。Bolt & Johnson (2009 App.Psych.Measurement), Bolt & Newton(2011 Edu.Psych.Measurement), Johnson & Bolt(2010 J.Edu.Behav.Stat.)がこの路線。参照カテゴリを$R$として、
　$\log(P_{nij}/P_{niR}) = \alpha'_{ij} \theta_n + \beta_{ij} \gamma_n + \tau_{ij}$
　$\gamma_n$がERS特性で、$\tau_{ij}$が位置パラメータ。欠点は、選択肢の順序性を無視していること、$\theta_n$と$\gamma_n$が補償的関係にあるというのを理論的に正当化しにくいこと。
順序プロビットモデルの閾値に異質性をいれる。Johnson(2003 Psychometrika)が提案している。閾値間の幅が多変量対数正規分布に従うと仮定する。ERSの個人差を上手く捉えてはいるけど、ERSを示す傾向そのものを定量化しているとはいえない。[←話の流れ上ディスりたいんだろうけど、いまいち主旨がつかめない...]
上と似ているけど、展開型(unfolding)IRTモデルを使うという提案がある。Javaras & Ripley(2007 JASA)。このモデルでは、閾値の個人差が許容される。共通閾値についてのスカラーパラメータと翻訳パラメータから、集団レベルの閾値と個人レベルの閾値を導出する。黙従傾向とERSの両方を定量化できるが、項目反応関数が累積的な場合には固有の理想点unfoldingアプローチは利用できない。実際、多くのリッカート項目は累積的IRTで分析されているので、ERSの累積的IRTモデルを構築することが重要である。[←途中から諦めて写経のようにメモしたけど、正直なんだかさっぱりわからない。そもそも展開型IRTモデルというのがよくわからないし。マーケティングでいうPREFMAPみたいなもんだろうか]
項目反応を極端反応とそうでない反応にわけ、普通のIRTモデルをあてはめる。de Jong, et al.(2008)がこの路線。ERS研究としてはいいけど、潜在特性のほうの指標が手に入らない。
ランダム閾値モデル。我々(Wang et al.,2006 J.Edu.Measurement, Wang & Wu, 2011 J.Edu.Measurement)のアプローチである。PCMなりRSMなり閾値パラメータをランダム効果とみる。RCMなら
　$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{nj})$
　$\tau_{nj} \sim N(\tau_j, \sigma^2_j)$
PCMなら
　$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{nij})$
　$\tau_{nij} \sim N(\tau_j, \sigma^2_j)$
とはいえ、これもERSを直接に定量化しているとはいえない。

　以上から得られる結論：(1)閾値をランダム効果とすることで回答スタイルを説明できる。(2)個人のERSを直接に定量化できることが望ましい。
　
　お待たせしました、いよいよ提案手法です。
　上記のランダム閾値モデルを次のように拡張する。
　ERS-RSM: $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{j})$
　ERS-PCM: $\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{ij})$
でもって、
　$\log(\omega_n) \sim N(0, \sigma^2_\omega)$
とする。$\omega$は閾値の幅を表していて、小さいことはERSの高さを表す。
　このモデルはさらに拡張できる。右辺全体に識別力$\alpha_i$を掛けるとか。$\theta_n$を含め全体を多次元化するとか。$log(\omega_n)$を説明する回帰モデルを入れるとか。
　推定は、SASのNLMIXEDによる周辺最尤推定で可能。また、WinBUGSでベイズ推定という手もある。本研究では後者を採用する。$\theta$は$N(0,1)$とする。$\sigma^2_\omega$は自由推定し、$1/\sigma^2_\omega$の事前分布を$Gamma(1, 0.1)$とする。

　シミュレーション。ERSがある場合とない場合について、ERSを入れたモデルと入れてないモデルを比較する。すいません、読んでないっす。
　実データへの適用事例が2件。すいません、読んでないっす。

　考察。
　提案モデルは真のERSをうまく復元できるし、ほんとはERSがないときにもおかしくならない。
　今後の課題：他の回答スタイルへの拡張。すでにリッカート項目への系列的判断をIRTでモデル化した研究がある。Brockenholt(2012 Psych.Methods), Thissen-Roe & Thissen (2013 J.Edu.Behav.Stat.)がある。[←これ、面白そう!!!]

　... 先行研究レビューがすごくしっかりしていて、とても勉強になった。疲れたけど、ありがたいことであります。一流のプロによる論文を読んだなあ、という感じ。
　残念ながら、Allenby兄貴たちのモデルは引用されていないんだけど、IRTの枠組みに入らないからだろうか(でもJohnson(2003)は引用されているよなあ...)。ま、自分で勉強せえってことでしょうね。

　いっぽう、提案モデルについては、ほんっとに申し訳ないんだけど、価値がいまいち理解できなかった。
　rating scale modelでいうと、もともと
　$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{j})$
というモデルがあって、ここに
　$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \tau_{nj})$
　$\tau_{nij} \sim N(\tau_j, \sigma^2_j)$
という風に閾値に異質性を入れるというアイデア(著者らの先行研究)と、
　$\log(P_{nij}/P_{ni(j-1)}) = \theta_n - (\delta_i + \omega_n \tau_{j})$
　$\log(\omega_n) \sim N(0, \sigma^2_\omega)$
という風に入れるというアイデア(提案手法)があるわけだ。後者のほうが制約がきつい。たったそれだけのことじゃないの？どっちがよいかはデータで決まる問題であって、毎回AICとかで判断すればよくない？
　おそらく、ERSを直接に定量化したいという強い動機づけがあるんだと思う($\omega_n$がその答えになっている)。でも、そういう動機づけが生まれる文脈がいまいちわからないのである。回答スタイルにはERS以外にもいろんなパターンがあるわけだから、閾値はできるだけ柔軟にモデル化しといた方がよかないか。その結果、モデルの中にERSに直接に対応する変数がないとしても、別にかまわないんじゃなかろうか。もしどうしてもERSを指標化したいんなら、推定されたパラメータをあとで要約すればいいじゃん。各対象者において$\tau_{nj}$のSDを求めるとかさ？

　うーん。たぶん私の発想が甘いというか、文脈を理解できていないんだろうな。
　おそらく、著者らにとってERSとは、リッカート尺度に対する回答行動をある視点で見たときに(たまたま両端の選択率に注目したときに)立ち現れる個人差のことではなくて、回答行動の背後に仮定されているひとつの潜在特性なのであろう。だから、たとえば「一般知能というものがある」と信じている人が問答無用で1因子の因子分析をするように、「ERSというものがある」という信念がある以上、モデルのなかにERSを表す潜在特性を入れるべし、ということなのだろう。反応の生成メカニズムそのものに関心を持つ心理学的視点と、生成メカニズムは所与としていかに潜在特性と項目特性を分離するかに関心を持つテスト理論的視点のちがい、という感じかしらん...？

読了：Jing & Wang (2014) x件法評定の両端を選んじゃう傾向を、ランダム閾値をいれたラッシュモデルで定量化する

田崎勝也, 申知元(2018) 日本人の回答バイアス：レスポンス・スタイルの種別間・文化間比較. 心理学研究. 88(1), 32-42.
　仕事柄、調査票への回答スタイルの問題にはそれなりに関心があるんだけど(数年前に業界誌に紹介記事も書いた。すっごく大変だったけどなんの反応もなかった)、なんと！日本人の回答スタイルについての新しい実証研究が出ていた。しかも心理学研究に。正直、日本語の学術誌のほうがチェックから漏れやすい。
　というわけで、原稿準備の途中で読んだ論文。第一著者の方は青学の教授で(心理じゃなくて国際政治経済学部というところ)、文化心理学がご専門らしい。回答スタイルの論文としてはすでに田崎・二ノ宮(2013, 社心研)がある。

　注目する回答スタイルはacquiescence(ARS; いわゆるyea-sayer)、両端反応(ERS)、中間反応(MRS)の３つ。
　先行研究：

Chen, Lee, Stevenson(1995): 日本人はMRSが高い。
米村・松田(1991, 社心発表): 同様。
山岸・小杉・山岸(1996, 社心研): ARSに日米差なし。
Harzing(2016, Int.J.CrossCulturalMgmt.): 26ヶ国調査。日本人はARSが低い。
Johnson, Kulesa, Cho, Shavitt (2005 J.Cross-Cultural Psych.): Hofstedeの文化次元との関連を検討。ARSは個人主義、権力格差、不確実性回避、男らしさと負の相関、ERSは個人主義、男らしさと正の相関。
Shiomi, Loo(1999, Soc.Behav.Personality): カナダと日本でERSに差なし。
Lamm, Keller (2007 J.Cross-Cultural Psych.): 子育て中の母親の国際調査。集団主義的環境の母親のほうがERSが高い[←へええ？]

[あれ...なんでde Jong et al.(2008)を挙げないのかなあ]

　方法。
　日米韓の学生を対象者とする。注目する項目は、コミュニケーション不安尺度、議論志向性尺度、外国人・移民に対する質問群。全部5件法、いずれも反転項目が入っている。
　分析対象は計51項目。これをランダムに3群にわける(各群17項目)。で、各群における回答{4,5}の割合をARS変数、{1,5}の割合をERS変数、3の割合をMRS変数とする。で、3つのARS変数を指標に持つARS因子, 3つのERS変数を指標に持つERS因子、3つのMRS変数を指標に持つMRS因子を考える(負荷はひとつを1にしてあとは自由推定する)。これはWeijiters et al.(2008, J.Acad.MarketingSci)のやり方なのだそうだ。なお、国を群にした多母集団モデルを組んんだがDIFはなかった由。
　さて、3つの因子の得点を推定し、それを目的変数にしてANOVAをやる。要因は、国籍、バイカルチャー度(自己観が独立的かつ依存的である人をバイカルチャーと呼んでいる)、3因子のうちどれか(被験者内要因と捉える)、の３つ。[えええ... 上のCFAモデルに突っ込んで同時推定しないんだ... へぇー...]

　結果。日韓は米に比べMRSが高かった。云々。
　[省略するけど、国のなかで3つの因子得点の平均を比較するという分析をやっている。なるほど、それで3要因ANOVAなのか。著者の先生によれば、この研究では回答スタイルの種別間の比較と文化間の比較を回答スタイル研究の「両輪と捉え、比較対象に多様性を持たせるためことで日本人RS[回答スタイル]の全体像の把握を試みた」とのこと。でも因子得点の因子間比較って、要は「日本の回答者が{4,5}を選ぶ確率と{1,5}を選ぶ確率とではどっちが高いか」というようなことを調べていることになるんじゃないかしらん。それは項目内容次第なわけで、正直なところその問いが持つ意味が私にはよくわからない。仮にそれが意味を持つとして、3つの因子得点の平均差ををこういう風にANOVAで検定できるものかどうかもよくわからない(元になっているARS変数, ERS変数, MRS変数はそもそも独立でない)。なにか理解し損ねているのかもしれない]

　考察。
　回答スタイルの統計的制御は大事。この論文はWeijter et al.(2008)のモデルを使ったが、ほかにBillet & McCledon(2000, SEM)というのもある。
　云々。

　...日本人の回答スタイルについての実証研究が増えるのはとてもありがたいです。あ、そうだ、バイカルチャーな人とそうでない人を比べるというところも面白かった。ニスベットみたいに、バイカルチャーな自己観を持つ人にどっちかの文化的枠組みをプライムする刺激を見せたら、そのあとの調査票の回答スタイルが変わっちゃったりなんかすると面白いんだけどなあ。
　この論文では、ERS, ARS, MRSをわりかし素朴に得点化してから分析しているけど、回答そのものを順序尺度とみて、閾値に個人差を想定する階層モデルを組んだらどうなるか、比較してみたいところだ。

読了：田崎・申(2018) x件法尺度への回答スタイルを日米韓で比較する

Schneider, S. (2016) Extracting Response Style Bias From Measures of Positive and Negative Affect in Aging Research. The Journals of Gerontology: Series B, 73(1), 64–74,
　原稿の準備で読んだ。調査項目への回答スタイルを階層ベイズモデルで扱っている奴がないかなあと思って(もっとぶっちゃけていうと、RかMplusでどうにかしている奴はないかなあと思って)。結局は階層ベイズじゃなかったけど、Mplusでできる分析ではある。

　この論文、新幹線に揺られながら頑張って読んだのに、メモを保存し損ねてしまったのである...ガッデム...
　読み直すのも面倒なので、前半をひとことで要約すると、要するに、ポジティブ感情・ネガティブ感情への調査項目群と加齢との関係を調べるとき、回答スタイルを考慮するとどうなるかを既存データで調べましたという話である。トシを取るとネガティブ感情を感じにくくなるとかいう話もあるけど、いっぽう年寄りってのは調査項目に関わらずx件法尺度の両端に付けがちだという先行研究もあってだね...とかなんとか。

　HRS(Health and Retirement Study)というUSの大規模調査への高齢者の回答のうち、ポジティブ感情13項目、ネガティブ感情12項目に注目する。項目はたとえば「過去30日間、あなたはどのくらい恐怖を感じましたか」というような奴で、いずれもnot at allからvery muchまでの5件法。
　回答スタイルとして5件法の端を選ぶスタイルに注目し、後述する方法で、各対象者の回答スタイルの得点を求める。ポジティブ感情項目群とネガティブ感情項目群とで別々に得点を求めた[←うそー。一発でやればいいのに...]。モデルには年齢を入れず、まず回答スタイルの得点を推定してからあとで回帰した[←測定と構造の同時推定はやらないわけだ。この論文のテーマであれば私もたぶんそうするけど、ちょっと悩むところではあるし、ご批判があるかもしれない]。

　関心があるのは論文の主旨より、むしろ回答スタイルを定量化する方法のところなので、ここで本文から離れ、Supplemental materialの説明からメモを取っておく。
　えーと、どうやるかというと、項目をいったん名義尺度とみて[←順序尺度ではない]、多次元IRT(MIRT)のモデルを組むのである。以下、原文の添字の使い方がちょっとうざいので、適宜変更する。
　ある対象者が項目$i$において選択肢$x$を選ぶ確率を
　$P_{ix} = \exp(c_{ix} + a_{ix} \theta) / \sum_k \exp(c_{ik} + a_{ik} \theta)$
とモデル化する。$\theta$がポジティブ感情因子。$a_{ix}$が選択肢の傾きというか因子負荷であり、なんと、$i$を問わず
　$a_{ik} = k - 1$
としてしまう。5件法だったら負荷を(0,1,2,3,4)に固定してしまうのだ。おおっと、こりゃあ意外に単純だね。こういうのをpartial credit modelと呼ぶ由。Masters(1982 Psychometrika)をみよとのこと。
　ここに回答スタイルを表す因子を追加する。(1)因子なし、(2)因子を一つ入れて負荷は自由推定、(3)「両端に反応する」因子をいれる、(4)「右端に反応する」因子と「左端に反応する」因子を入れる、の4つのモデルを試す。最後のケースなら、負荷はそれぞれ(0,0,0,0,1), (1,0,0,0,0)。

　こういう話はMplusのコードをみたほうが早い。ポジティブ感情13項目、モデル(4)の場合のMplusコードは以下の通り(抜粋)。
　Mplusでは値が最大であるカテゴリが強制的に参照カテゴリになるので、あらかじめnot at allが5になるように反転してコーディングしといた由。こうすると、負荷(4,3,2,1,0)を持つ因子がポジティブ感情因子になり、負荷(-1, -1, -1, -1, 0)を持つ因子が低反応因子になる。なるほど。

VARIABLE:

  [...中略...]

  NOMINAL ARE p1-p13;

ANALYSIS:

  ESTIMATOR = ML; PROCESSORS = 6;

MODEL:

  PA by p1#1-p13#1@4 p1#2-p13#2@3 p1#3-p13#3@2 p1#4-p13#4@1;

  HIEXTR by p1#1-p13#1@1;

  LOEXTR by p1#1-p13#1@-1 p1#2-p13#2@-1 p1#3-p13#3@-1 p1#4-p13#4@-1;

  PA with HIEXTR @0; PA with LOEXTR @0; HIEXTR with LOWXTR;

　PAがポジティブ感情因子、HIEXTRとLOEXTRが回答スタイル因子。びっくりするぐらい簡単なコードである。多次元IRTとはいうけれど、それは回答スタイルが多次元だという話であって、実質的な潜在変数はPAひとつきりなのだ。
　PAとHIEXTR, LOEXTRの相関を0に固定しているけど、ここは推定してもあんまり高くならなかった由。

　本題に戻って...
　結果。
　AIC, BICをみると、ポジティブ・ネガティブともに、モデル(1)より(2)が良く、しかし(3)になると悪くなり、(4)にするとましになった。つまり「右端に反応する」因子と「左端に反応する」因子はわけた方がよい。以下、(4)を採用する[←表をみると、ネガティブ項目群では(4)より(2)のほうが適合が良いんですけど??? この点説明がないような気がするが、読み落としたかなあ]
　年齢に回帰すると、{ポジ,ネガ}x{右端,左端}のすべてで正の回帰係数が得られた。年齢をコントロールして認知能力で回答スタイルを説明するパスモデルを組むと、4つすべてで認知能力への負の回帰係数が得られ、年齢はそれほど効かなくなった。ほかに、既婚者、高学歴、白人で回答スタイル因子が低く、ヒスパニック、女性でポジ感情の回答スタイル因子が高かった。[...中略...]
　ポジ感情・ネガ感情の回答スタイル除去後スコアの収束的・予測的妥当性を調べるため、一緒に訊いてたCES-Dとか、追跡調査における入院有無とかを目的変数にした階層回帰モデルを組んだ。[面倒くさいので省略するけど、除去してよかったねという話。でも劇的な改善ってわけじゃなさそうだ]

　考察。[...大幅に中略...]
　本研究の限界: (1)うつと心的疾患をCES-Dとかで押さえたんだけど、これも自己報告だし、調査様式の効果が入っちゃっている。(2)認知能力と感情を同時に横断で調べている。ほんとは縦断でやりたい。(3)MIRTによる回答スタイルの評価についてはもっと別の領域でも試すべき。
　云々。

　... 正直なところ、感情と加齢というこの論文の本筋には全然関心がなくて、どうやって回答スタイルを推定したのかというところだけ知りたくて読んだ。
　うーん... これって要するに、5件法尺度における各段階の等間隔性は所与にしているわけだ。その意味では、5件法リッカート尺度への反応を量的変数と見なして分析するのと変わらない。むしろ、5件法尺度を順序尺度とみなして、4つの閾値を集団レベルで自由推定するモデルを組み、モデル(1)と比べてほしかった。ま、自分でやれってことでしょうけど。
　[2018/01/09追記: Thissen & Steinberg (1986)を読んでからこのメモを読み返し、上のくだりは私の思い違いであることに気が付いた。$c_{ix}$を推定していることを見落としていたぜ]

　回答スタイルの研究を読んでいるときいつも思うことだけど、たぶん回答スタイルというのは状況に対して非常に敏感なものだろうから、「この質問紙でこういう回答スタイルが推定されました」「回答スタイルは××と相関していました」といわれても、どこまで一般化できるか怪しいところだよなあ。

　MIRTによる回答スタイル研究として挙げられていた論文をメモ: Bolt & Johnson(2009 App.Psych.Measurement), Falk & Cai (in press, Psych.Meth.), Morren, Gelissen, & Vermunt (2001, Sociological Meth.), Huggins-Manley & Algina (2014, SEM)。

読了：Schneider(2017) 高齢者の感情評定における回答スタイル・バイアスを多次元項目反応モデルでどうにかする

2017年9月21日 (木)

柘植隆弘(2014) 「表明選好法と熟議型貨幣評価」. 坂井(編)「メカニズムデザインと意思決定のフロンティア」, 慶應義塾大学出版会.
　日本語の本の1章で、そんなに長いものでもないんだけど、慣れない分野なのでメモをとりながら読んだ。

　環境経済学ではさまざまな環境評価手法(環境の価値の経済的評価)が開発されている。次の2つに分けられる。

　その1、顕示選好法。人々の行動によって評価する。代替法、トラベルコスト法、ヘドニック価格法など。非利用価値(「生態系を守る」的な、自分が利用しなくても得られる価値)は測れない。

　その2, 表明選好法。代表的な手法は、

仮想評価法(CVM)。環境改善への支払意思額(WTP), 環境悪化に対する受入補償額(WTA), 環境改善中止に対するWTA, 環境悪化中止に対するWTA、のいずれかを評価させる。設問形式は二肢選択にすることが多い。なお訊き方についてはNOAAガイドラインというのがある。ランダム効用モデルで分析することが多い。
コンジョイント分析。環境評価手法として用いられるようになったのは90年代以降[えええ？結構最近だな...]

　表明選好法は対象者が消費者選好に基づき決定することを前提にしているが、選好を持っているかどうか怪しいし、社会的問題についての意思決定ってのはむしろ非利己的な市民としての選好に基づくのかもしれない。
　実験例：

Bateman et al. (2008 J.Env.Econ.Mgmt.): 人は経験を通じてはじめて経済理論と整合的な選好を持つ。[メモは省略するけど、面白いなあ、この実験]
Spash (2006): 環境への意識が高い人は環境へのWTPが高い。[素人目にはそりゃそうでしょうという話だが、この分野ではまずい話なのだろう]

　最近では熟議型貨幣評価というのが提案されている。これは討論型世論調査なんかの環境評価版。ワークショップみたいのをやったあとで環境を評価させる。手法はいろいろあって、体系的に確立していない。
　実証研究は2つにわかれる。(1)選好形成に主眼を置いた研究。WTPは個人で決める。グループでの議論はその支援である。(2)市民選好に主眼を置いた研究。WTP自体も集団で決めちゃう。
　著者らの研究例:

笹尾・柘植(2005): ワークショップで選好がどう変わるか。
Ito et al.(2009): 最後を多数決にする場合と合意形成にする場合を比較。合意形成のほうが納得感が高い。

　今後の課題。DMVについて以下の点の改善が求められる：(1)人数が多いと無理、(2)コストが高い、(3)評価額の理論的基礎づけが足りん。[←なるほど]

　... いやー、DMVって面白いなあ！仕事ともものすごく関係が深い。なんとなく衝動買いして、軽い気持ちで読み始めたんだけど、こいつは良いものを読んだ。時間ができたら勉強してみよう。

　ちょっと気になった点をメモ。

二肢選択形式のWTPデータを分析する手法として、ランダム効果モデルのほかに「支払意思額関数モデル」「生存分析」が挙げられていた。生存分析か...きっと提示金額を時間、回答を生死に見立てるのだろう。以前、マーケティングの研究者の方が、マーケティング・リサーチで使われるPSMのデータを生存モデルで分析するという論文を書いておられたが、そういう分析ってアリなんだなあ。栗山浩一という方の本か、Mitchell & Carsonという訳書を読むと良さそうだ。
CVMの回答プロセスの心理学的研究: Schkade & Payne (1994 J.Env.Econ.Mgmt.), Payne, Bettman, Schkade(1999 J.Risk&Uncertainty), Clark et al.(2000 Ecological Econ.)。えっ、Bettmanって、消費者行動論のBettman??

読了：柘植(2014) 表明選好法と熟議型貨幣評価

2017年9月14日 (木)

Rabiee, F. (2004) Focus-group interview and data analysis. Proceedings of the Nutrition Society, 63, 655-660.
　題名の通り、グループ・インタビューの逐語録をどうやって分析するかという短い啓蒙的論文。きちんと読んでいないけど、整理の都合上読了にしておく。
　紹介されているコーディング法の元ネタはKrueger & Casey (2004) "Focus Groups: A Practical Guide for Applied Research", 3rd. ed. だそうだ。ふーん。

読了：Rabiee, F. (2004) グループ・インタビューの逐語録をどうやって分析するか

2017年9月11日 (月)

Morris, D.S. (2017) A modeling approach for administrative record enumeration in the Decennial Census. Public Opinion Quarterly, 81, 357-384.

　先日、世論調査研究のトップ誌であるPublic Opinion Quarterlyが「サーベイ調査のこれから」という特集号を出した。目次を眺めていて、あれれ、これってひょっとして仕事に関係があるんじゃなかろうか、大変な鉱脈を見つけちゃったかも... と思って手に取った論文。半分くらい目を通したところで、鉱脈どころか私の仕事とはまるきり関係ないとわかったんだけど、気分転換にはなった。著者は米国勢調査局の中の人。

　いわく。
　米国勢調査(Decennial Census)では、回答がなかった世帯に対して追加調査するんだけど(nonresponse follow-up; NRFU)、2010年国勢調査の場合にはNRFUだけで16億ドルかかった。2020年調査ではそのコストをなんとか減らしたい。
　いっぽう世論調査のほかにも、納税記録とか民間企業の訪問調査みたいな世帯データがある(こういうのをadministrative record, ARと呼ぶ)。ARと国勢調査を併用できないか。こういう発想は実は珍しくなくて、デンマーク、オランダ、スイス、ドイツ、ポーランドなどで採用されている。
　米国勢調査でも80年代から発想はあった。問題は、上記の国々とは異なり、米にはARを国レベルで統一的に管理する仕組みがなかったという点だ。現在、国勢調査局にAR研究活用センター(CARRA)というのがあって、各所からARを取りまとめている。細かいことを言うといろいろと大変なんだけど[詳細略]、まあとにかく、集めたARには統一的な個人識別IDと住所IDを振っている。
　もし、ARデータ側に含まれている世帯についてはNRFUの実査対象から除外することができれば、コストが節約できるではないか。そこで、ARデータと2010年国勢調査と比較し、どの世帯についてはARを使いどの世帯についてはNRFUをやるかを決める方法を開発したい。

　使用するARデータは、IRS 1040 [よくわからんが確定申告みたいなものだろうか？]、IRS informatonal returns [所得申告みたいなもの？]、メディケア、IHS (Indian Health Service)。個人と住所の組み合わせをキーとする。ほかに商用データのTargus Federal Consumer Fileというのがあって、これはAR側名簿としては使わないが、後述するモデル構築の際に予測子として用いた由。
　ある個人$i$と住所$h$の組み合わせが、ARにも2010年国勢調査にも存在していたら$y_{ih}=1$、そうでなければ0とする。で、$p_{ih}=P(y_{ih}=1)$を予測するモデルを作る。[きちんと読んでないので自信がないんだけど、この確率が1に近い住所はNRFUのリストから抜いてよかろう、という話だと思う。つまり、2010年国勢調査は完璧、AR側の紐づけも完璧、という前提での研究なのであろう]
　説明変数として、ARデータのうち「IRS 1040に存在」フラグとか、「IRS 1040に個人のみ存在」フラグとか、そういう変数をいろいろ作る。
　最終的に推定しないといけないのは住所についての確率なので、
　$\hat{p}_h = min(\hat{p}_{1h}, \ldots, \hat{p}_{n_h h})$
として、この推定値が閾値$c$を超えたらNRFUの実査対象からは外してAR側の記録を使うことにする。$c$はfalse positiveとfalse negativeの二乗和が最小になる値とする。

　... さあ予測モデルをつくりましょう、というわけで、ロジスティック回帰、分類木、ランダム・フォレストのモデルを作って比べたり、コストと正確性のトレードオフ曲線を推定したりしたらしいのだが、この辺で力尽きて読むのをやめた。
　ま、どういう問題なのかがわかったから、これでいいや。考えたこともないような話題で面白かった。

読了：Morris (2017) 行政記録にデータがある世帯については国勢調査に無回答でもまあいいやということにできないか

2017年8月25日 (金)

論文メモの記録。まだ5月分だ...

Loffler, M. (2014) Measuing willingness to pay: Do direct methods work for premium durables? Marketing Letters, 26, 535-548.
　支払意思額(WTP)の聴取方法を比較した研究。PSM(price sensitivity meter)とCBC(選択型コンジョイント)を比べる。著者の所属はポルシェだそうである。

　いわく。
　WTP測定には、PSMのような直接法と、コンジョイント分析のような間接法があって、往々にして結果が違う。Steiner & Hendus (2012, WorkingPaper)の調査によれば、ビジネスでは直接法のほうが良く使われている(全体の2/3)。
　WTP聴取方法を比較した先行研究をみると[...5本の論文を表にして紹介...]、消費財・サービスが多く、被験者は学生が多く、文化差研究がみあたらない。

　仮説。自動車で実験します。

H1.PSMの受容価格帯の左端は、特売価格についてのストレートな設問への回答と合致する。
H2.PSMの受容価格帯の右端は、「期待市場価格」についてのストレートな設問への回答と合致する。
H3.PSMの最適価格点は、CBC[選択型コンジョイントね] に基づく最適価格とは著しく異なる。
H4a.PSMの受容価格帯の個人レベルでの幅は、成熟市場のドイツで広く発展市場の中国で広い。
H4b. CBCに基づく価格帯は国間の差が小さい。

[結果次第であとからなんとでもいえる話ばかりで、いささか萎える。わざわざこういう仮説検証研究的なしぐさをしなくてもいいじゃんと思うのだが、まあ、この領域のお約束なのであろう...]

　実験。
　US, ドイツ, 中国でやった高級車の「カークリニック」で実験した。[←前職で初めて知ったのだが、調査会場で新車(ないしそのモック)を提示する消費者調査のことを「クリニック」と呼ぶ。車検のことではない。たぶん自動車業界に特有な用語だろう(白物家電の「クリニック」って聞いたことがない)。面白い業界用語だなあと思う。誰が医者で誰が患者なんでしょうね]
　対象者は過去4年以内新車購入者で高年収で次回購入車を決めてない人, 各国約500人強で計1640人。新車と競合車(BMWとかMBとか)、計7台を提示。
　いろいろ訊いた後にPSM(4問のうち「安い」設問を特売価格のストレート設問とみなす)、市場価格ストレート設問(「割引がないとしていくらだと思います？」)、CBC課題。[順序が書いてないぞ。カウンターバランスしてないとか？]
　CBCは、属性は(1)メークとモデル、(2)エンジンタイプ, (3)馬力、(4)国産/輸入, (5)装備、(6)価格。それぞれ3～4水準。12試行、1試行あたり7台+「どれも選ばない」から選択。ホールドアウトは調べてないが、NCBS調査と照合して妥当性を検証しました、云々。[NCBS調査とは欧州車を中心とした新車購買者調査のこと]

　結果。
　H1, H2を支持。わざわざPSMで受容価格帯を調べなくても、ストレート設問の集計と変わらない。
　CBCの各選択肢のコストを別のデータから調べておいて、利益を最大化する価格を求めた。これをPSMの最適価格点と比べると、後者のほうが低い。[モンテカルロ法で幅を出して... 云々と説明があるが、省略]。H3を支持。
　国によるちがいは...[めんどくさくなってきたのでスキップ]

　考察。高級耐久財でWTPの実験をやりました。手法は選ばなあきませんね。ちゃんと国別に調べんとあきませんね。云々。

　わざわざ読まなきゃいけないほどの話じゃなかったけど(すいません)、PSMについてきちんと実験している研究はあまり多くないので、えーと、その意味ではですねー、参考になりましたですー。
　それにしても... ちょっとこらえきれないので書いちゃうけど、PSMの最適価格点と、CBCの最適価格点を比べるのは、いくらなんでも無理筋でしょう。PSMは(妥当かどうかは別にして)消費者の価格知覚からみた最適価格を調べようとしているのに対して、CBCの最適価格点とはメーカーからみた利益最大化価格である。もしメーカーがPSMの最適価格で値付けしちゃったら、売上がどうなるかは知らないが、利益が最大化されないのは当っっったり前であろう。いったいなにを考えておられるのか。まあいいけどさ。

　話はちがうが：
　PSMの設問文については前に論文や書籍を調べたことがあるんだけど、4問の設問で毎回「品質」という言葉を使い、思い切り知覚品質にフォーカスした設問文を採用している人と(Monroe(2003), 杉田・上田・守口(2005)など)、「品質」という言葉をあまり使わず、単に安すぎ/安い/高い/高すぎな価格を訊く方向の人(Travis(1982), 朝野・山中(2010)など)がいると思う。この論文の設問文は後者の路線。この違いって、歴史的には何に由来してるんですかね。

読了：Loffler (2014) 高級車の消費者支払意思額をPSMとコンジョイント分析で比較する

2017年8月18日 (金)

Zallar, J., & Feldman, S. (1992) A simple theory of the survey response: Answering questions versus revealing preferences. American J. Political Science, 36(3), 579-616.

　原稿の準備で読んだ論文。経緯は忘れたが「必ず読むこと」論文の山に積んであった。政治学の論文だけど、それにしてもずいぶん魅力的な題名である。Google Scholar的には引用回数1500超、結構なメジャー論文だ。

　いわく。
　市民は政治問題についてなんらかの態度を形成している。質問紙調査はそれらの態度の受動的な測定である。という標準的な見方を乗り越え、新しい見方を提供しましょう。すなわち、市民は態度なんて持ってない。頭のなかにあるのはいろんなideaやconsiderationであり、それらは部分的に整合していたり、不整合だったりする。調査参加者は回答に際してそれらをサンプリングし(ここに最近の出来事や調査票の影響が加わる)、どう答えるかをその場で決める。つまり、回答は真の態度なんて反映していない。

　先行研究概観。

回答の不安定性(response instability)。質問紙調査の回答には高い不安定性があることが知られている[ここでいうinstabilityとは再検査信頼性のことみたいだ]。有名なのはConverse(1964)のデータで、彼はこの不安定性をもって「真の態度なんて存在しない」と考えた。これに対して「真の態度」概念を維持し、不安定性は測定誤差のせいだと考えたのが、Achen, Dean & Moran, Erikson [Robert. 政治学者], Feldmanら。
　どちらの立場にも欠点がある。まずConverse側の＜不安定性は「真の態度」が存在しないことの証拠だ＞というのはさすがに極端な主張だ。Converse & Markus(1979)は「態度というのは大なり小なり『結晶化』しているものだ」と論じたが、結晶化の程度を測る方法がない以上、検証可能性がない(と、Krosnick & Schuman(1988 JPSP)が論じている)。いっぽう測定誤差の理論は、測定誤差がどうやって生まれているのかを説明していない。
回答効果(response effects)。山ほど研究があるが、
- Bishop et al. (1984 POQ): あいまいな事柄について聴取された直後には、政治に関心がありますと答えにくくなる
- Tourangeau & Rasinski(1988 Psych.Bull.), Tourangeau et al.(1989 POQ): 中絶への態度が直前の項目(たとえば宗教、女性の権利)によって変わる
- Schuman & Scott (1987 Science): 強制選択と自由記述で答えが違う [←ちょっと待って... これ未チェックじゃないかしらん... ひぇー...]
- Krosnick & Schuman(1988 JPSP), Bishop (1990 POQ): 調査票のささいな違いが回答に影響する。無態度な対象者に限った話ではない。
というわけで、対象者は調査票を使って「態度」を形成している面がある。心理学者はもっと直接的にこういう議論をしているぞ。 Tourangeau & Rasinski(1988), Wilson & Hodges(1991, in Martin&Tesser), Wyer & Srull (1989 書籍)をみよ。

　しかるに世論調査研究者ときたら、これらの研究を無視し、伝統的見解をつぎはぎして乗り切ろうとしておる。時系列調査では調査の設問順を変えないようにしましょうとか、項目順をランダマイズしましょうとか。測定誤差を統計的に取り除きましょうとか。[←ははは]

　調査対象者は本当はどうやって回答しているのか？ 2系統の研究がある。

Hockschildのデプス・インタビュー(1981, "What's Fair")[←なにこれ、面白そう。残念ながら邦訳はない模様]。人はある事柄について複数の、往々にして対立する意見というかconsiderationを持っている。これは記憶研究者の主張とも合致している。Raaijmakers & Shiffren (1981 Psych.Rev.), Wyer & Hartwick (1984 JPSP)をみよ。
社会的認知研究におけるスキーマ概念。Tesser(1978)をみよ。[←やたらに懐かしい名前が...]

　では、さまざまなconsiderationsはどのように回答へと変換されるか。

Taylor & Fisk (1978) にいわせれば、もっとも顕著なconsiderationが回答に変換される。Tversky & Kahneman のいうフレーミングもこの路線。
さまざまなconsiderationsの平均が回答に変換されるという見方もある。政治学ならCampbell et al (1960), Kelly(1983), 心理なら Anderson (1974)。

　まとめよう。(以下でわざわざconsiderationという言葉を使っているのは、政治についての日常言語に近いから、そしてスキーマと違って心的構造・処理への含意がないから)

公理1. アンビバレンス公理. 多くの人々は多くの事柄について対立するconsiderationsを持っている。
公理2. 反応公理。人は調査の設問に答える際、その瞬間に顕著性が高かったconsiderationを平均して答える。顕著性はアクセス容易性で決まる。
公理3. アクセス容易性公理。アクセス容易性は確率的なサンプリング過程に依存する。

　ここからは実証研究。
　National Election Studies(NES)というのがあって、1987年にそのパイロット・スタディーとして電話調査をやった。2ウエーブ、計約800人。[これは延べ人数で、どうやら2回答えた人もいるらしい]
　NESの設問(3問、強制選択)と自由記述の組み合わせ。対象者を2条件にランダムに割り当てる。形式A(回顧プローブ)では、NESの設問に回答してもらったのち(強制選択)、いま答えた時に思い浮かんだことを教えてください、とオープンエンドで聴取。形式B(stop-and-thinkプローブ)では、NESの設問を読み上げ、いま思い浮かんだことを訊き、設問文を再度読み上げて回答してもらう。自由記述はコーディングする。
　結果。

多くの自由回答が、対立するコメントを含んでいた。アンビバレンス公理を支持。
政治に関心がある人のほうが、コメントの数が多かった。
その問題に関心がありそうな人のほうが、コメントの数が多かった。
項目そのものへの賛否とコメントにおける賛否との間には相関があった。
2回答えた人の回答の不安定性はコメントのちがいによって説明できた [...というような話かな？ちゃんと読んでいない]
[... とかなんとか、実に17個の理論的予測を検証する。めんどくさいのでパス]

　考察。
　今後の研究課題：

態度報告のミクロ的基盤。たとえば、ある人のconsiderationが整合的になっていくプロセス。
コミュニケーション・説得研究への適用。我々の枠組みでは、態度変容とは真の態度のシフトというより、considerationの混合体における調整のプロセスである。
世論と政策決定過程の関係に対する適用。

　最後に、このモデルの規範的な含意について。かつてConverseは「あのな、大衆に態度なんかあらしまへんで」と述べ、Achenは「そんなことゆうたら民主主義理論はなりたちませんがな」と反論した[←意訳]。我々の理論はこの中間に位置し、調査結果の解釈を拡張する。調査結果とは人々のconsiderationのバランスを示すものなのだ。云々、云々。

　... 正直言って、実証研究のところからつまんなくなってほとんど読み飛ばしちゃったんだけど、序盤の理論提示のところがとても面白かった。この種の話のもっと新しい議論にキャッチアップしたいのだが、うーん、どうすればいいのかしらん。

　この論文を机の横に積んでいた経緯はいまいち思い出せないんだけど、たぶんSnidermanを引用している論文を片っ端から探しているときにみつけたのだと思う。えーと、最後の考察の「研究者たちは多くの場合、態度という言葉を、多かれ少なかれ結晶化したもの、多かれ少なかれイデオロギー的なもの、ないし人や問題を通じた異質性のあるものを指して用いてきた」というところで、Sniderman, Brody, & Tetlock (1991, 書籍)が引用されている。どういう文脈での引用なのかいまいちわからん。

読了：Zallar & Feldman (1992) 調査は「真の態度」の測定ではない、むしろアイデアのサンプリングだ

2016年9月15日 (木)

朝野熙彦(2004) コンジョイント分析の定義と適用をめぐる論争点. 経営と制度, 1, 1-24.

　都立大時代の朝野先生による紀要論文。意外に入手が難しく、国会図書館関西館に複写依頼した。丁寧にコピーしてくださって、ほんと、ありがたいです。

　コンジョイント分析黎明期の原理的議論が大変興味深い。勉強になりました。10年以上前の論文なので、パラメータ推定の話はいまとはかなりちがうんだけど(現在の主流はたとえ効用の消費者間異質性に関心がなくてもHBモデルを組むやりかただろう)、その辺は他でも勉強できるわけだし。

　いくつかメモ:

Wilkie & Pessemier(1973 JMR): Fishbeinモデルみたいな多属性態度モデルのメタ分析。測定手法が一貫していないことを指摘。[忘れてたけどこの論文、Myers & Alpert (1977)にも出てきてた。こんなことじゃ、いくら読んでもざるで水をすくっているようなものだ]
Day (1972 JMR): 主観的重要性への批判。これ、読まなきゃ...
Srinivasan (1988 DecisionSci): 部分効用の主観申告を支持する意見
Gibson (2001 MktgRes): 同上。[←探してみたら、これ、実務家がコンジョイント分析をディスるコラム記事。面白そう！]
マーケティング分野での初のコンジョイント分析論文はGreen & Rao (1971)。書籍はGreen & Wind (1973)。
Haaijer, Kamakura, Wedel (2000 JMR): コンジョイント回答の反応潜時のモデル。2000年からあるのか...
コンジョイント分析というと、どうしても「タスクをどう組むか」「どうやって効用を推定するか」という尺度構成の方向に頭が向いちゃうけど、初期には(部分効用の結合法則がわかんないとして)なにがどうだったら尺度がどうなるかという公理論的問題に関心が集まった。東大出版会「心理学研究法」シリーズ(1973. 懐かしい)の17巻にこの問題を扱った章がある由。えっ、著者の佐伯って... サエキバン先生!?まじ!?
Arora & Allenby (1999 JMR): 夫婦の意思決定問題にコンジョイント分析を適応した例。そ、そんなへんなモデルがあるのか... それは読んでみないと...

　付録にはなんと、いくつかの古典的コンジョイント分析モデルの推定方法について、詳細な解説がついている。60年代のクラスカルの単調回帰とか。

読了：朝野(2004) コンジョイント分析の歴史を辿る

2016年6月27日 (月)

Smith, T.W. (2003) Developing comparable questions in cross-national surveys. in Harkness, J.A., van de Vijver, F.J.R., Mohler, P.P. (eds.) "Cross-Cultural Survey Methods", Wiley.
　先に読んだHarkness, et.al (2010)で引用されていた文献。多国間調査の調査票をどうやって国間で比較可能にするかという話。ざーっと目を通しただけだけど、いやー、ほんとに眠かった...

　前半は設問のワーディングとかの話で、せめて3設問の多重指標にしておいたほうがいいよとか、尺度項目の尺度をどうするかとか。後半は回答に影響する諸要因の話で、社会的望ましさ、yea-saying、極端反応、"no opinion"とDK、中間反応、選択肢の順序の効果、設問の順序の効果、調査モードの効果。最後に調査票作成の手順の話がまとめられていた。正直、眠すぎて目が活字をつつつーっと滑っていくような感じ。
　
　まあいいや。前半の尺度項目の話のみメモ。どうやって国際比較するか。
　まず、ノンバーバル・スケール(段階に言葉が付与されていないスケール)のほうが国際比較しやすいという説があるけど、(1)数値的尺度は回答が難しいことが多い。(2)数値的尺度であれ回答にお国柄は出る。(3)たいていの社会にはラッキーナンバーやアンラッキーナンバーがある。(4)どのみちスケールの意味は言葉で説明しないといけない(like-dislikeですよ、とか)。数字の振り方で回答が変わってくる。以上、視覚的スケールでも同じこと。
　いっそ2件法で訊いちゃえ説について。もちろん、回答の比較は難しい(たとえばguilty-not guiltyだって国によって定義が全然ちがう)。それに精度が失われる。
　回答をキャリブレーションしましょう説について。3つの路線がある：(1)項目をランキングさせる。精度が失われる。(2)各項目を10~21件法で直接評定。こんだけ多くしときゃ間隔尺度になるだろうという発想である。(3)マグニチュード測定する。訊くのも答えるのも難しい。というわけで(2)が一般的。[どうもよくわからない。(2)は結局、国ごとに回答データをなんらか標準化して分布を揃えるという話なの？それとも生の回答をそのまま比較するの？それに、10~21件法尺度なら間隔尺度扱いできるけどそれ以下だとだめ、っていうのはほんとなの？大昔のJacobyの実験を信じれば、7件法だろうが21件法だろうが個人レベルでの使用段階数は大差ないんじゃない？]

　。。。だめだ、今日は何を読んでも頭に入らない日みたいだ。あきらめよう。

読了：Smith (2003) 多国間調査で国間比較可能な調査設問を作る方法

Harkness, J.A., Edwards, B., Hansen, S.E., Miller, D.R., Villar, A. (2010) Designing questionnaires for multipopulation research. in Harkess, J.A., et al. (eds.) "Survey Methods in Multinational, Multiregional, and Multicultural Contexts." Wiley.
　マルチ・カントリー調査のような多母集団調査の調査票設計についての概説。仕事の足しになるかと思って読んだ。眠かった。

1. イントロダクション
　多母集団について使用するよう注意深く設計したinstrumentのことをcomparative instrumentsと呼ぶ[以下、もう面倒なのでinstrumentを調査票と訳す]。多くの多母集団比較研究で使われている調査票はcomparativeな調査票ではなく、どこかの国の調査票を単に訳したものだけど。
　[...以下、ちゃんと比較可能な調査票を作っておかないとあとで困るよね的な話が続く。省略]
　[先行研究概観。省略]

2. 比較研究者にとっての難題
　結果を多母集団間で比較したいリサーチャーが直面する諸問題を6つに整理しよう。
　その1、基本的な設問デザインの原理。一般に、設問は(1)行動・事実、(2)心的状態・態度、(3)知識・能力、(4)回顧、に分けられる。それぞれにおいて社会的望ましさとか回答スタイルといったさまざまな問題への対処が必要になる。比較研究では設問の比較可能性が大きな問題となる。好まれる形式は研究領域によって異なる... [本節、まとまりがなくてなにがいいたいのかさっぱり]
　その2、サプリメントをつけたりデザインの手続きを変えたりすべき時をどうやって知るか。スケールの段階数を国によって変えるべきか、とか。
　その3、ガイダンスをどうやって手に入れるか。文化的知識を持ちそれをうまく生かせる人が必要になる。
　その4、フレームワークとチームをどうやってつくるか。(次節)
　その5、品質保証と監視のフレームワークをどうやってつくるか。
　その6、比較可能性をどうやって確立するか。設問をできるかぎり標準化すべしという立場と、それよか各国へのアダプテーションが大事だという立場がある。

3. 調査票設計の専門家とチーム
　[この節、いま関心ないので省略。どのみち1pくらいのざっくりした内容である]

4. 調査票設計の基礎
　調査票設計の基礎的な考慮事項における比較可能性の問題について整理しよう。
　その1、概念を設問に落とし込む際の問題。比較可能性とアダプテーションについて考える際には、理論的概念、潜在的構成概念、顕在的指標、設問、の4つを分けて考えるべし[←おお、なるほど。これはいい話を聞いた]。
　その2、設問は回答可能か。たとえば、中国では対象者の子供についての設問はすぐに一人っ子政策と結びつけて捉えられてしまい、脅威的な設問になってしまう。
　その3、知覚された意味は意図した意味か。
　その4、モードの問題。国によって調査モードやミックス・モードの設計を変えなきゃいけないとか。

5. 調査票設計の鍵となる決定
　その1、共通性の捉え方。潜在構成概念は共通、指標も共通、設問も共通、と考えるか。それとも、潜在構成概念は共通だけど指標や設問は共通とは限らないと考えるか。[後述される、ASQとADQのことであろう]
　その2、設問のオリジン。既存の設問の再利用、改変、(レアだけど)新しい設問の作成、のいずれの戦略をとるか。
　その3、文化的インプットの程度とタイミング。QoL関連の文献では、sequential(文化について考えるのは翻訳する段になってから)、parallel(初期段階で地域専門家に入ってもらう)、simultaneous(最初から最後まで文化について考慮し続ける)、の3つのアプローチがあるといわれている。なお優劣ははっきりしない。
　
6. 主要な比較設計モデル
　比較可能な調査票の設計には、ASQ, ADQ, 併用、の３つのアプローチがあるといわれている。
　その1、ask-the-same-question (ASQ)。共通の設問を目指す。もっとも常識的なアプローチだが、設問の具体性が下がりやすい。翻訳手続きの困難さも高い。ついついどこかの国の調査票をソースにし、それをただ翻訳してしまうことが多い(本来は「親」調査票を多文化的につくるべき)。
　その2、ASQとデセンタリングの併用。まず言語Aで調査票をつくる。これをBに翻訳。これをもとにB用の調査票をつくる。それをAに翻訳、もとの調査票と並べて、共通するように手直しする。文化的具体性が欠けてしまう、３地域以上あるとすごく大変、といった欠点がある。
　その3、ask-different-question (ADQ)。構成概念だけ共通にし、指標・設問は国別に作る。翻訳はいらないし、国ごとに適切な調査票をつくれるし、いいことづくめだが、結果を比較したいリサーチャーはさすがにびびる。
　その4、ASQとASQの併用。これはeticとemicと呼ばれることが多い(用語の正確な意味は人や分野によって違うけど)。[ごちゃごちゃ書いているけど省略]

7. 設計におけるいくつかの特別な側面
　その1、回答オプションをどうするか。選択肢の数とか、強制選択にするかとか、オープンエンドとクローズドエンドのどっちがいいかとか、レーティングとランキングとか、ラベル全部つけるべきかとか... 概観はSmith (2003, in "Cross-Cultural Survey Method")を見よ。[いくつか事例が挙げられている。つまらんので省略]。研究が足りない分野である。
　その2、技術的な具現化。レイアウトとか、調査員の手引きとか。[いま関心ないのでパス]
　その3、事実に関する設問や、ソシオ・デモグラフィックな設問。タバコについての調査で使うブランド・リストを国別に用意するとか。
　その4、ビニエット。すなわち、仮説的な状況や個人のこと。自己評価反応のアンカリングやプリテストに使われている。ビニエットをASQでつくるかADQでつくるかという問題が生じる。仮説的人物の名前のつけ方にも気を配らないといけない。
　
8. 設計の適切性のプリテスト
[3pにわたりあれこれ書いてあったけど略。要するに、みんなちゃんとプリテストしようよ、という話]

9. 設計のこれから
[略]
　
　。。。概説すぎてあんまり面白くないし、内容にダブりがあってちょっと読みにくい章だったのだが(すいません)、4節冒頭の、concept - construct - indicator - question という区別は勉強になった。たしかに、調査の国間比較の議論ではこの4レベルが頻繁にごっちゃになる。項目のindicatorとしての適切さについて疑問を呈したら、questionの翻訳品質に難癖をつけていると勘違いされてリサーチャーに逆切れされたり。indicatorに部分測定変動を許容した多母集団CFAモデルを組んだら、国によって異なるconstructをモデル化していると捉えられてしまったり(5節冒頭の話題だ)。議論が始まる前に、4段階の図を壁に貼っておくといいかもしれない。

読了：Harkness, Edwards, Hansen, Miller, Villar (2010) 多母集団調査の調査票設計

2016年6月 5日 (日)

大隅昇(2002) インターネット調査の適用可能性と限界. 行動計量学, 29(1), 20-44.
大隅昇(2006) インターネット調査の抱える課題と今後の展開. ESTRELA, 143, 2-11.

仕事の都合で再読。

読了：大隅(2002, 2006) ネット調査の課題

2016年5月30日 (月)

原稿準備のためにとったメモ:

Houtokoop-Steenstra, H. (2000) Interaction and the Standardized Survey Interview: The Living Questionnaire. Cambridge University Press. Chapter 9. Implications for survey methodology.

1. イントロダクション[略]

2. 診断の道具としての会話分析
　調査回答場面の録音をつかった行動コーディング研究は、たくさんのインタビューを分析できる反面、現象の原因についてはわからない。いっぽうCA(会話分析)は少数事例の分析であっても、気づかれていない問題を明らかにする。
　たとえば質問の曖昧性。先行研究を参照するのも大事だが[Belsonという人の本が挙げられている]、対象者のclarification requestが曖昧性を教えてくれる。Schober & Conrad (1997 POQ)をみよ。
　また質問直後の沈黙時間とか、インタビュアーのclarification待ち行動とか、語尾を上げた聞き返しとか、インタビュアーの質問反復とかも役に立つ。選択肢にない反応とかも。インタビュアーの逸脱や回答候補呈示とかも。集計表ばっかりみてないで、逸脱事例に注目しましょう。

3. 構造的問題の検出
　closed questionで、インタビュアーが選択肢を全部読み上げる前に対象者が回答しちゃう事例は危険のサインである。ターンテイキングの構造を変えないといけない。

4. 質問定式化についての新しい問いの生成
　CAで問題をみつけ、実験や認知インタビューで詳しく調べる、ということもできる。
　
5. 柔軟な標準化インタビューの探求
　標準化の探求は、すくなくともその目的が調査データの信頼性だけでなく妥当性にもあるとするならば、もはや維持できない。

5.1 調査方法論と導管メタファ
　伝統的な刺激-反応モデルは、(1)意図された意味と質問の目的が言語的意味とcoincideすると想定し、(2)対象者が調査者の意味したとおりに設問を解釈すると想定する。これらの想定はM. Reddyいうところの導管メタファに由来している[この本のなかでReddyはここが初出。conduit metaphorってそんなに有名なの？] 導管メタファの最大の問題点は、意図された意味と解釈との関係である。対象者は調査者の意図とは異なるやりかたで質問の意味や目的を解釈する。
　対象者に同じ質問文を提示することではなく、同じ「意図された意味」を提示することを目指すべきだ。それが抽出できない対象者に対しては、インタビュアーは調査者のスポークスマンとしてふるまうようにトレーニングすべきだ。

5.2 インタビュアーが質問と回答について議論するのを許容せよ
　インタビュアーはスポークスマンなんだから、質問の意味と対象者の回答について議論してもよいことにしよう。[ここでSchober & Conrad の実験の紹介]

5.3 インタビュアーにフォーマット化されていない回答を受容させよ
　[節タイトルのとおりの内容]

5.4 インタビュアーが推論を引きだし検証するのを許容せよ
　インタビュアーが推論を許されていないということが対象者にはなかなかわからない。推論を許し、検証させよう。たとえば「私の夫が...」というセリフが出てきた後では、対象者は既婚だと推測してよいことにし、未既婚の質問では既婚であることを確認することにしよう。

5.5 対象者にルールを説明せよ
　最初にインタビュー特有のルールを対象者に教示するという手もある。ただし、(1)いやになっちゃって回収率が落ちるかも。(2)従ってくれないかも。

5.6 標準化されたインタビュー・ルールはインタビュアーに問題を突きつける
　インタビューの標準化されたルールに本当に従っていると、インタビュアーは無礼なアホにならざるを得ない。インタビュアーがルールを守らないのはもっともだ。

6. 柔軟なインタビューのコスト
　柔軟なインタビューの欠点: (1)インタビュアーの行動の評価が困難になる。データの妥当性向上がそれに見合うのならばそれで良し。見合わない場合は、インタビュアーの評価なんてどうでもいいんじゃないかということになるかもしれない。(2)インタビュアーのトレーニングが大変になる。(3)柔軟なインタビューには時間がかかる。これらも、データの妥当性向上がそれに見合うかどうか次第である。

読了：Houtkoop-Steenstra(2000) 生きている調査票 9章調査方法論に対する含意

原稿の都合で読んだ論文を記録しておく。

Kiousis, S. (2002) Interactivity: a concept explication. New Media and Society, 4(3), 355-383.
　相互作用性という概念についてのレビュー論文。掲載誌についてはよくわからないが(Webcatでは所蔵館数5)、google様的には引用元537件、この分野にしちゃ多いと思う。
　長い論文で、特に後半はちゃんと読めてないけど、時間が無い。コミュニケーション研究における相互作用概念の先行研究レビューのみメモ。相互作用性についての定義を片っ端から集め、強調するのは(1)技術か、(2)コミュニケーションセッティングか、(3).知覚者か、に注目する。

サイバネティクス。相互作用性とはチャネルの属性であった。(2)ですね。
80年代、PCなどニューメディアの登場とともに出てきた、三次依存性という議論。たとえば「5分前に今夜映画に行きたいって言ってたのに、なんで気が変わったの？」「変わってないよ、2分前にあなた明日映画に行きたいって言ったじゃない」というような会話では三次依存性が生じている。相互作用性とはこういう風に互いの談話を制御し役割を交換する程度のことだ、という主張。これも(2)だけど、チャネルじゃなくて関係性に寄っている。この系統の研究者たちは、メディアの内容と心理・行動変数との関係を検討した。技術や個人属性はあんまり重視しない。Rafaeliという人が有名。
その後コンピュータ科学との関連で、相互作用性を技術の構造とユーザの特性との関係のなかで捉える立場が出てきた。相互作用性とはメディア環境の形式や内容をユーザがリアルタイムに変えられる程度を表す。そのスピードやレンジやらが増えるとより相互作用的になるって考えるわけだ(とはいえ、たとえばIDEOによれば最新鋭のテレビでもユーザは少数の機能しかつかっていないのだそうで、過ぎたるは及ばざるがごとし、というような面も考慮する必要がある)。こういう立場の人は、相互作用性をさらに細かく操作的に定義したりしているのだが、三次依存性といった系統の相互作用性概念には目もくれない。Steuer, Jensenなど。(1)。
Durlakという人は技術的観点ではあるがちょっと違った観点からインタラクティブ・メディアを分類している。相互作用性と関連する変数を、相互作用システムの物理的な構成要素として捉える。[←よくわからん] これも(1)。
視点かわって、知覚に注目する系統。NewhagenらはNBCニュース視聴者のメールの内容分析の中で、相互作用の知覚という心理学的変数を考えている。この知覚がwebサイトへの態度に影響するという研究もある[←腐るほどありそう...]。(3)。
ここからは(1)(2)(3)のうち複数を視野にいれている研究。Heeterという人は相互作用性を6次元で定義している: (a)利用可能な選択の複雑さ、(b)ユーザに求められる努力、(c)ユーザに帰せられる責任、(d)情報利用のモニタリング、(e)情報追加の容易性、(f)対人コミュニケーションの促進。(a)(d)(e)(f)が技術、(c)がセッティング、(b)が知覚に近いですね。こういう枠組みはほかにも提案されている[略]。コンピュータに媒介されたコミュニケーションに主な関心を向けている場合が多い。
情報が流れるスピードじゃなくて、ユーザから見たタイミングの柔軟性が相互作用性のカギだ、という主張もある由。Downes & MacMillan (2000, New Media & Soc.)。

読了：Kiousis (2002) 相互作用性とは何か

2016年5月29日 (日)

雑誌記事の準備のために目を通したんだけど、この章はちょっと事情があってメモをとった(通読するにはあまりに眠かった、というのもひとつの事情)。こういう場合については普段記録してないんだけど、せっかくメモもとったので。

Tourangeau, R., Conrad, F.G., Couper, M.P. (2013) The Science of Web Surveys. Oxford Universicy Press. Chapter 6. Interactive Features and Measument Error.
　Webでは多様で豊かなサーベイ・モードが可能になる。本章では相互作用的ケイパビリティの可能性について検討する。
　Web調査に相互作用的特徴を導入する理由：

技術的にできちゃうから
いつのまにか相互作用的になっちゃうから。VASをスライダーにした場合とか。
オンライン調査でしかできないことがあるから[←先生、それは理由になってないような気が...]。インタビュアーのアニメーションを最初に選ばせるとか。
他のモードでみられる現象を確認するため。インタビュアーの性別による影響の検討とか。

相互作用的特徴の導入によって、測定誤差の減少などのなんらかの結果が期待されることもある。でもうまくいかないこともある。

1. 相互作用性の諸次元
　ここで「相互作用性」とは、dynamicであること、responsiveであることを含む。また、human-likeな相互作用とmachine-likeな相互作用を区別する必要がある。調査三回経験を変えるのは前者である[←云いたいことはわかるけど、ここはちゃんとフォーマルに定義してくれないと困るなあ...]
　というわけでdynamic-responsiveとmachine-like - human-likeの2次元を考えよう。ある相互作用的特徴の導入がもたらす結果はこの空間上の位置で決まる。たとえば回答者のパフォーマンスの向上に効果的なのはresponseveでhuman-likeな特徴だ。

2. responsiveでmachine-likeな相互作用的特徴
[以下、個別の要素についての実証研究のレビュー。メモは省略]

progress indicator [研究が山ほどある...]
running tallies [チップ・ゲームみたいに数値を入力させたとき、現在の合計が常に表示される奴]
visual analog scales
interactive grid [グリッド型の設問で、回答済みの行に色つけるような奴]
on-demand definition

3. human-likeな相互作用的特徴

回答測度を落とすための相互作用的介入。Conrad et al.(2009 AAPOR, 2011 AAPOR): 速く答えすぎた人に「ほんとに読んでんの？」というメッセージを出したら、そのあとは遅くなった[←いやな調査だねえ...]。でも一部のhard-core speedersは遅くならなかった。回答の正確性への影響はあったりなかったり。
付加的オープンエンド質問のプロービング。Holland & Christian(2009 Soc.Sci.Comp.Rev.): OA回答後に「なにかほかには」と訊くと回答が長くなる。ほかにOudejans & Christian (2010 Chap.)。なんどもやっていると効果は消える模様。
主観的回答の督励。DeRoubray & Couper (2012 Soc.Sci.Comp.Rev): DKを選んだ人に「あなたの答えを聞きたいのよ、答えられるんならbackしてちょうだい」とメッセージを出して戻らせる。
明確化の提供。Conrad, Schober, & Coiner (2007 App.Cog.Sci.): 回答にある程度時間がかかったら、設問中の言葉の意味をさらに説明する。
animated faces in the user interface. 実写なりアニメなりでインタビュアーが出てきて動画で質問する。dynamicだがresponsiveにするのは大変。
　期待される効果は: (1)関与の向上、(2)自分で読むよりも質問の理解が促進される、(3)最初に好きなインタビュアーを選ばせたら、モチベーションがあがったり自己開示が促進されたりするんじゃないか。
　いっぽう、インタビューアー動画を見せることで生じうる問題として: (1)注意が割かれるのでは。(2)社会的存在を感じさせ自己開示が抑制されるのでは。
- Conrad et al.(2008 AAPOR): 顔の動きがリアルっぽいと、対象者は質問を聞いているときにうなずいたり合いの手をうったりする。これは注意を表していると考えられる。微笑みも増える。聞き返しが増え、回答の正確性も増す。なお、音声による自然言語理解の機能を組み込むのは難しいので、この実験は「オズの魔法使い」アプローチを採用した。裏に人間の実験者が隠れていて、聞き返しに対して適切な動画を流した。[←ちょっと笑ってしまった...]
- Conrad, Schober, & Nielsen (2011 AAPOR): 最初にアニメのインタビュアーを選ばせた。対象者は同一人種を選ぶ傾向が強かった。
- Fuchs (2009 Soc.Psych.): 実写のインタビュアー動画を提示。性的に敏感な設問への回答にインタビュアーの性別が効いた。
- Krysan & Couper (2003 Soc.Psych.Quarterly.): 政治的設問への回答に、インタビュアーの人種が効いた。
- Lind, et al. (2013 POQ): 動画をみせると社会的に望ましい回答が増えた。[←あ、これ面白いわ]
- Fuchs & Funke (2007 Chap.): text-onlyのほうが社会的存在を感じる。[←どうやって測ったんだろう]

4. まとめ
　どうやらWeb調査の対象者は努力を最小化しようとする傾向が強いらしい。電話調査ならわからん言葉を聞き返してくるのに、Webでマウスオーバーで言葉の定義がポップアップするようにしてもあんまし使ってくれない。相互作用的特徴を使ってもらうというのがひとつの課題。
　相互作用的特徴は回答品質を向上させたりそうでもなかったりする。ショートカット的行動を防止する奴はうまくいくらしいが、繰り返しても大丈夫かどうかは今後の課題。
　調査モードの効果を最小限にする調査票を作りたい場合と、とにかくそのモードでベスト・プラクティスを目指す場合とでも話が違う。

　。。。なんだかつまらんなあ...と思いながら読み進め(すいません)、途中で気づいたけど、著者らが調査における相互作用性を整理する枠組みとして考えているresponsivenessとhumannessとは、コミュニケーション研究者Kiousisいうところの「相互作用的技術」と「相互作用的知覚」だ。簡単にいっちゃうと、相互作用そのものの様態には注目せず、入力と出力に注目しているわけである。これは私にとってはちょっとした発見であった。なんというか、あのTourangeauさんにして、古き良き認知心理学というか、情報処理アプローチの子供なのだなあ、と... 孤立した個人の入力-情報処理-出力に注目し、相互作用から生じるダイナミクスはなるべく話に持ち込まない、というあたりが...
　調査の心理学にはもう一つの流れ、社会学・言語学の会話研究からのアプローチとか、認知心理学だとルーシー・サッチマンの標準化設問批判とか、そういうオルタナティブがあると思う。Kiousisのいう「相互作用的セッティング」に相当する流れだ。2つの流れはそんなに簡単に融合できるもんじゃない、ってことなのだろう。

読了：Tourangeau, Conrad, & Couper (2013) Web調査の科学 6章: 相互作用的特徴

2016年5月 7日 (土)

Bowling, N.A., Huang, J.L., Bragg, C.B., Khazon, S., Liu, M., & Blackmore, C.E. (2016) Who cares and who is careless? Insufficient Effort Respoinding as a reflection of respondent personality. Journal of Personality and Social Psychology.
　調査にいいかげんに回答する傾向(IER)とパーソナリティとの関係についての研究。
　すぐには役に立ちそうにない話だし(調査対象者をパーソナリティでスクリーニングするわけにもいかない)、ちょっとお気楽すぎるテーマだし(心理学専攻の卒論とかでいかにもありそう)、普段なら食指が動かないのだが、掲載誌がJPSPってところにひっかかった。ま、仕事に役立つかも知れない、ってことで...

　個々の調査参加者のIERの測り方については、この論文にはあまり説明がなくて、先行研究をみないといけない模様。項目間で回答の矛盾があるとか、「ありえねー」回答とか、そういうのを使っているみたいだ。
　以下、内容メモ：

　調査にいいかげんに回答する傾向(insufficient effort responding, IER)の先行研究:

Huang, Boling, Liu, & Li (2015 J.Business & Psych.): IERを方法論レベルの剰余変数とみている研究; IERの一貫性を検討
Maniaci & Rogge (2014 J.Res.Personality) : IERへの参加モチベーションの影響を強調; IERとパーソナリティの関連性; IERの一貫性を検討; IERの測定・予防手法
Huang, Curran, Keeney, Poposki, & DeShon (2012 J. Business & Psych.): 近年の主要研究; IERへの参加モチベーションの影響を強調; IERの測定・予防手法
Meade & Craig (2012 Psych.Methods): 近年の主要研究; IERへの参加モチベーションの影響を強調; IERの測定・予防手法
Johnson (2005 J.Res.Personality): 近年の主要研究; IERを方法論レベルの剰余変数とみている研究; ; IERの測定・予防手法
Kurtz & Parrish (2001 J.Personality Assessment): IERを方法論レベルの剰余変数とみている研究
Goldberg & Kilkowski (1985 JPSP): IERとパーソナリティの関連性
Johnson (1981 JPSP) : IERとパーソナリティの関連性

本研究では、

IERを方法論レベルのノイズではなく、実質的な現象として分析する。
IERへのモチベーションの影響と、パーソナリティ(Five Factor Modelの因子)の影響を調べる。
時間・状況を通じたIERの一貫性について調べる。

実験は5つ。

研究1。IERとFFMの関連性、IERの時間的一貫性を調べる。
　大学の人事部門と組んで職員を調査。13ヶ月おいて2回実施(T1, T2)。T1とT2の調査項目は同一で、パーソナリティとかいろいろ訊いている。ほぼ全員がオンラインで回答。匿名回答だが2回の回答をマッチングできる。両方回答してくれた166名(11%)について分析。
　IERの指標については、Curran (in press JESP), Desimone, Harms, & Desimone(2015 J.Org.Behav.), Huang et al. (2012) Maniaci & Rogge (2014), Meade & Craig (2012)をみよ。まあとにかく、Overall IER indexというのとその4つの下位指標を出したんだそうな。
　結果: 指標のT1の値とT2の値は高く相関。ただし同一調査での指標間相関も高い。

研究2。IERの状況間一貫性を調べる。
　被験者は学生。スクリーニング調査でデモグラなどを聴取。24日後、本調査でパーソナリティとか生活満足とかを聴取。調査者も違うしウェブサイトのURLもデザインも違うし報酬も違うから、つまり状況が異なりますよね[←く、苦しい理屈だ...]。両方答えた759名を分析。
　スクリーニング調査では5項目でIERを測った[よくわかんないけど項目間での回答の矛盾を調べているみたい。Huang et al. (2015)をみよとのこと]。
　本調査では... [めんどくさいので読み飛ばした。まあとにかく、調査回答やら反応時間やらをつかって、Overall IER indexとその下位指標を出したらしい]。
　結果：IER指標は調査間で相関。

研究3。別の目的でとったデータを使ってIERの状況間一貫性を調べる。初回調査ののち、6週にわたってオンラインで週次の記録を付けさせる実験であった。被験者は学生229人。
　初回調査にはinstructed-response項目が混ぜてあったので(「この項目ではstrongly agreeをチェックしてください」というような項目)、そういうのを使って、Overall IER indexとその下位指標を出した。週次記録は、提出有無と、別の評定者による「努力して回答しているか」評定をIERの指標とする。
　結果：IER指標は状況間で相関。

研究4。IERとパーソナリティ(ビッグ・ファイブ)の関連性を調べる。さすがにパーソナリティも同じ質問紙で測るってわけにはいかないので(そこでIERが起きるかもしれない)、知人の報告を使う。仮説は次の通り:

統制性(conscientousness)が高い人はIERが低い。
協調性(agreeableness)が高い人はIERが低い。利他的だから。
開放性(openness)が高い人はIERが低い。科学への貢献に関心を持ったり、自らの学習の手段としての調査参加に関心を持つだろうから。[←それはナイわ...]

被験者は研究3と同じプールの学生。パーソナリティとかいろいろ訊いておいて、そこからOverall IER indexとその下位指標を出した。さらに、メールで知人をひとり紹介してもらい、その知人に質問紙を送って5因子を評定。International Personality Item Poolというサイトから拾った項目、因子あたり10問。データが揃った217人を分析。
　結果: 統制性と協調性はIERと負の相関を示したが、開放性は無相関。開放性の測定が難しいせいかもしれないし、他者評定だったからかも知れない[←往生際が悪い...]。なお、感情的安定性も外向性もIERと負の相関を示した。これは今後の課題。

研究5。IERとGPA・講義欠席率との関連性を調べる。これらはパーソナリティの外的基準として広く用いられているから[←いやいやいや... 学生のIERと講義欠席率の相関が高かったとして、その共通の原因がパーソナリティだっていう説明にはかなーり無理があるんじゃないですかね？普通に考えれば、その2つの背後にあるのは学業への熱意なのではないかしらん]。GPAとは負の相関、講義欠席率とは正の相関が想定される。
　被験者は学生、349人を分析。パーソナリティとかいろいろ訊いて、そこからOverall IER indexとその下位指標を出す。GPAと講義欠席率は自己報告。
　結果: 仮説を支持。

　この研究の含意:

IERは個人差の結果だよ。もちろん状況要因もあるでしょうけど。
自己報告質問紙を使う皆さん、IERに気をつけようね。IERを測って高い人のデータを捨てるとか、どうにかしてIERを予防するといった方法が提案されているけど、前者はパーソナリティの分布を歪めることになるかも。

　今後の課題:

IERを効率よく測る方法。いまのところinfrequency scaleを使うのが良さそうだけど[←いわゆる"ありえねー"項目のことであろう]。
IERはどのくらいprevalentか。
IERの絶対的な大きさは変化するか。たとえば疲労効果とか。
IERはモチベーションとキャパシティの両方の関数なのか。従来の研究はモチベーションを強調してきたけど、認知資源の制約もあるだろう。この問題は自己報告式調査を自己開示とみるか自己提示とみるかという違いと関連している。自己開示という観点からは、回答の正確性はすなわち真実性であり、IERはモチベーションの低さによって生じるということになる。自己提示という観点からは、回答の正確性は妥当な印象を形成したという問題であり、IERは能力の低さによって生じるということになる。[←いまいちよくわからんが、面白い話だ]
IERに対するパーソナリティの効果と状況要因の効果は交互作用するか？ [←そうそう、これがわかったら絶対面白いと思う。クロンバックの適性処遇交互作用が教育に対して与えたのと同じインパクトを調査方法論に対して与えることになる]
IERは重要な基準変数を予測するか？健康維持行動とか。

　本分析の限界: [略]

　。。。要するに絵に描いたような相関研究である。当然ながら、考察もあんまし突っ込んだ話にはならない。こういうのでもJPSPに載るのか。

　結局のところ、多様な状況を通じて観察される行動傾向の背後にあるもののことをパーソナリティと呼ぶんだから、どんな行動領域であれ、個人差とパーソナリティとの相関を調べれば、そりゃあなにかは見つかるでしょう？と思う次第である。その相関が、当該の行動を生起させるメカニズムに新しい光を投げかけてくれるんだとか、あるいはパーソナリティそのものに新しい光を投げかけてくれるんだってんなら、それは素晴らしいですけど、ただ単に、やった！相関がありました！っていわれてもなあ...
　個人的には、こういう話にはあんまし関心無くて、むしろIERが起きるメカニズムの一端でもわかるとありがたいんですけどね。それを手がかりに調査手法を改善できるかもしれないから。

　あれじゃないかしらん。こうやってビッグファイブとの関連なんか調べてないで(ごめんなさい)、なんかプライミング手続きで認知を方向づけて、その結果IERが変わることを示したほうが、全然面白いんじゃないかしらん。たとえば、恐怖管理理論に基づき予測した通り、死のイメージを想起させると誠実さという伝統的価値観が顕在化し、社会調査に対するいいかげんな回答は減りましたとか。しかしそれはマジメそうな社会調査の場合であって、マーケティング・リサーチとかなんのためにやってんだかわかんない心理学の調査とかに対しては、逆にいいかげんな回答が増えちゃいましたとか。はっはっは。

読了：Bowling et al. (2016) 調査にいいかげんに回答する人のパーソナリティ

2016年4月 6日 (水)

江利川滋, 山田一成 (2015) Web調査の回答形式の違いが結果に及ぼす影響：複数回答形式と個別強制選択形式の比較. 社会心理学研究, 31(2), 112-119.
　サーベイ調査の設問形式によって回答がどう変わるかという実験。Rasinski, Mingay, & Bradburn(1994 POQ), Smyth, Dillman, Christian, & Stern (2006 POQ)の追試に相当。第一著者はTBSの方だそうだ。

　一都三県の20-60代にweb調査(性年代割付), 1559名聴取。実査会社の社名は謝辞にも出てこないのでわからない。「インターネット利用行動」19項目と「ノートPC購入重視点」19項目の2設問について回答を求めた。1設問で1画面。回答形式が要因になっていて、(1)個別強制選択(FC; 項目別に該当と非該当のボタンが横に並ぶ)、(2)複数回答(MA; 項目先頭にチェックボックス)、(3)複数回答で項目順が逆順。
　結果。MAでは、選択数が少なく、回答時間が短く、後半の項目で選択率が上がる。回答時間が短い人のほうが項目数が少ないのはMAだけじゃないかと思って調べたが、結果ははっきりしなかった。
　考察。MAではKrosnick(1991 App.Cog.Psy; 1999 Ann.Rev.Psy)いうところの「弱いsatisficing」、つまり認知的努力が不十分な回答行動が生じやすいのだろう。逆にFCで黙従傾向が強くなるんじゃないかという反論も可能だが[...状況証拠でディフェンス]。
　云々。

読了：江利川, 山田(2015) 2択SAとMAのちがい

2016年3月25日 (金)

佐藤舞, ポール・ベーコン (2015) 世論という神話: 日本はなぜ、死刑を存置するのか. The Death Penalty Project.
　死刑について内閣府調査の追っかけ調査をやった研究者がいるという話を新聞で読んで、検索してみつけたもの。いま考えている件に関係するかと思って読んでみた(関係なかったけど)。第一著者は英国在住の社会学者の方。
　死刑廃止運動の団体が出したパンフレットのようなものなので、話の方向性は目に見えているのだけれど、方法論が面白そうなので目を通した。著者らの立場としては、死刑の存廃を世論で決めるべしと主張したいわけじゃないんだけど、現に日本政府は世論による死刑支持に死刑存置の論拠をおいているわけだから、その論拠をアタックします、という内容である。

　分析するデータは：

内閣府の世論調査。2014年まで5回、死刑存置の支持を同じ設問で訊いている。さらに、(設問は違うらしいが)1967年に死刑についていろいろ訊いており、いきさつはよくわからないそうなのだが、なんと個票が公開されている由。
「ミラー調査」。2014年の内閣府世論調査の3ヶ月後にそっくり同じ調査をやった。さすがに本家と同じ個別面接というわけにはいかなかったが、郵送留置でやった由。実査は新情報センター。
審議型意識調査。パネルから都内在住者135名を集めて2日間拘束[←まじか。お金あるなあ...] 。専門家をいれたセッションをやったり、グループディスカッションやったり。実査は日本リサーチセンターさん。なお、カメラをいれてドキュメンタリー映画をつくった由。

　面白かったところのみメモ。

2014年のミラー調査で、「死刑もやむを得ない」は83%(本家は80%)。さらに死刑はあったほうがいいかどうか5件法で訊いたら、TB(死刑は絶対にあったほうがよい)は27%。著者ら曰く、これは死刑存置派が実は少数派であることを示している由。[うううむ... 仰りたいことはわかるけど... ある主張への支持を問う5件法設問のTBが3割であることを根拠に、その主張への支持者を「少数派」と呼ぶならば、たいていの社会的主張の支持者は少数派だということにならないか？]
存置派のうち、仮に死刑が廃止されたら「政府の決めたことなら不満だが仕方がない」が71%。著者ら曰く、このように、政府が政府廃止に向かえば実現は難しくない。[うううむ... これもなかなか厳しい論点だ。日本で調査したら、それがどんな政策であれ、「政府の決めたことなら不満だが仕方がない」は7割くらい行っちゃうんじゃないかしらん]
67年個票を使って、死刑に対する態度を予測する重回帰をやったそうだ。効いた変数は、死刑に犯罪抑止の効果があるという考え(→存置)と、反省が大事だという考え(→廃止)。更生可能性を信じるかどうかは変数として効かない。[←面白い！]
死刑についての知識と態度の関係は単純じゃなくて、たとえば袴田事件について知っている人は廃止派のほうが多い。死刑の犯罪抑止効果について、廃止派はないと考え存置派はあると考えている(著者曰く、どっちも誤り。正解は「わからない」)。要するにこれは確証バイアスじゃないかとのこと。
審議型意識調査による事前-事後の態度変容は少なく、どっちの方向が多いともいえない。どっちの立場の人も相手の意見にかなり理解を示している。[←これも面白いっすね。想像するに、ある人の死刑への態度は合理的思考を通じて形成されているというより、もっとドロドロした基層に根ざしているのではないだろうか]

うーむ...調査データの集計値の絶対的な大きさでなにかを主張することの難しさを痛感した次第だが、そもそも「国民の8割以上が死刑を支持している」から死刑は廃止できないという日本政府の主張を掘り崩すことが目的なので、これで筋は通っているのだろう。むしろ、死刑のような問題に対する態度がどのように形成されているかに関心があるのだが、そっちは論文を探して読まないといけない模様。
　というわけで、著者の方々のご趣旨とは違うところに目を引かれているような気もするけど、興味深い文章であった。

読了：佐藤 & ベーコン (2015) 世論という神話

2016年3月 1日 (火)

野村竜也 (2016) Human-Agent Interaction (HAI) における人の主観的評価. 人工知能, 31(2), 224-229.
最新号の人工知能誌に載っていた。お茶のお伴に読んだ(むやみに優雅に聞こえる言い回しだ...それどころではないんだけど...)。いま切羽詰まった関心はないんだけど、電子機器への態度という意味では仕事と関係する話である。

　いくつかメモ:

おおかたTAMみたいな枠組みでの尺度構成の話が続くんだろうと思ったら、最近ではああいう情報技術全般への態度モデルだけじゃなくて、ロボットに特化した尺度が出てきているんだそうだ。例として"Godspeed Questionnaire"というのが紹介されている(へんな名前をつけるなあ)。擬人化、生命性、好ましさ、知性の知覚、安全性の知覚の5因子からなる由。おー、そりゃ面白そうだ。数年前に真剣に考えたんだけど、携帯デバイスへの消費者評価は、いい加減にユーザビリティの枠組みを離れて、こういう方向で考えないといけないと思う。Bartmeck et al. (2009, Int.J.Soc.Robotics)というのを読むといいらしい。
IATを使って、ロボットに対する態度を日米比較した研究がある由。へー。日米比較に関心はないけど、手法は面白いなあ。MacDorman et al.(2009, AI & Socienty)。

読了：野村 (2016) ヒューマン－エージェント・インタラクションの主観的評価

2015年6月17日 (水)

斎藤恭之 (2013) 米国の「携帯世論調査」の現状と課題：米国世論調査協会の大会に参加して. ジャーナリズム, 2013.1, 46-51.
ひょんなことから拝読。勉強になりました。

読了：斎藤 (2013) 携帯世論調査の現状と課題

2015年6月11日 (木)

Hu, S.S., Balluz, L., Battaglia, M.P., Frankel, M.R. (2011) Improving Public Health Surveillance Using a Dual-Frame Survey of Landline and Cell Phone Numbers. American Journal of Epidemiology, 173(6), 703-711.
　ちょっときっかけがあって、仕事の合間に目を通した。ほんとはこんなことしてる場合じゃないんだけど...
　アメリカでBehavioral Risk Factor Surveillance System (BRFSS)という調査をやっている。健康状態とかリスク行動とかについて月次でトラッキングする全米規模のRDD調査だ。ところが、最近じゃ「携帯しか持ってない」という世帯が増えているので、固定電話対象のRDDでよいものかという疑問がある。そこで、2008年に固定と携帯のdual-frame調査の実験をやってみた。そのご報告。

　固定RDDのほうは通常のBRFSS調査と同様の手順(従って携帯ユーザも含まれている)。携帯RDDのほうはまずスクリーナで「携帯しか持ってない」人を特定した。他にも、居住州が怪しいのでスクリーナで改めて州を訊かなきゃとか(いちおう番号で州がわかるんだけど、その番号のまま引っ越してることもある)、いろいろめんどくさいことがある由。票単価が全然違っちゃうので(固定の5倍近いそうだ)、最適割当の式を睨み、州ごとに全標本の1割を携帯に割り付けた。

　さて、以下の手順でウェイティングします。
　まずはデザイン・ウェイト。固定のほうは次の3つのファクターを掛ける。(1)当該州での電話番号の抽出確率の逆数。(2)世帯の成人数。(3)世帯の固定回線数の逆数。携帯のほうは、当該州での電話番号の抽出確率の逆数。
　次に、固定と携帯を統合するためのウェイト。州別に、SESで事後層別して合わせるウェイトをつくり、さらに州ごとの電話使用者の推定サイズにあわせるウェイトもつくる。後者のウェイトのつくりかた、超めんどくさいけど、きちんとメモしておくと... まず別の大規模な調査(2007 NHIS)のデータで、成人を次の4群に分類する：(1)固定電話のみ、(2)固定と携帯の両方、(3)携帯のみ、(4)どちらもなし。この電話使用群を従属変数、ソシオグラフィク・デモグラフィック変数を予測子にした国レベルの多項ロジスティック回帰モデルを組む。そのモデルを、また別の調査(2005-2007のAmerican Community Survey)に当てはめ、各州における電話使用群のメンバーシップ確率を予測し、各州の電話使用群のサイズを推定する。なんと面倒な話だろう。死人が出るレベルだ。
　最後に最終ウェイトの作成。各州について、年齢x性別(州によってはこれに地域や人種がはいる)を表側、{固定のみ・両方・携帯のみ}を表頭にとった表について周辺分布をあわせる。Proceedings of the SAS Global Forum 2009 Conference に載っているSASマクロを使ってレイキングした。

　回答率と結果についていろいろ述べているけど、パス。
　考察。携帯電話への調査は金がかかる。回答率は州による。携帯電話のみの人には酒飲み、喫煙者、肉体労働従事者、HIVテスト経験者が多く、金がなくて十分な医療を受けていない人が多く、健康保険に入ってない人が多く、肥満は少なくインフルエンザワクチンとかマンモグラムとか受けてない人が多い(散々だなあ...)。年齢・性別・人種・学齢・収入などを調整してもこの傾向は消えない。要するに、固定電話のみのRDDで事足れり、ってやりかただと結構やばい。というわけで、BRFSSは2009年からdual-frameのRDDをやってます、とのこと。

　ふへぇー。世の中にはいろんな問題があるものね。。。

読了：Hu, et al. (2001) 固定電話対象のRDD調査と携帯電話対象のRDD調査を両方やってひとつにまとめました

2015年5月 7日 (木)

Abalo, J., Varela, J., Manzano, V. (2007) Importance values for importance-performance analysis: A formula for spreading out values derived from preference rankings. Journal of Business Research, 60, 115-121.
　「重要性についての論文をしみじみ読む会」、本年度第4弾。著者らはスペインの人だそうだ。要するに、主観的重要性測定を順位づけ課題でやる、という話であった。

　いわく。マーケティングはじめいろんな分野で、キー属性についての情報を集め、重要性とパフォーマンスを軸にとった散布図を描くことがよくある (importance-performance analysis, IPA)。4象限にわけて、これらの属性のパフォーマンスが足りない、これらはちょっとやりすぎだ、なんてやるわけだ。元祖はMartilla & James (1977 J.Mktg)。
　さて、ここで属性の重要性をどうやって測るか。大きく二通りある。(1)リッカート尺度で重要性を評定してもらったりして、直接的に測る。(2)製品・サービスの全体評価についての回帰分析とかコンジョイント測定とかで間接的に測る。
　Bacon(2003 IJMR)は直接測定を支持している。しかし属性の重要性評定は押しなべて高くなりがちである。Martilla & Jamesの手続きだとそもそも定性調査とかで大事な項目を選ぶところから始めるわけだから、なおさらである。また、回答者の関与が足りなかったり、熟達が足りなかったりして差がつかないこともある。
　間接測定としては標準化偏回帰係数が使われることが多い。これは相対的重要性、すなわち人間の推論と選択についてのより現実的な見方なのだ[と、EdwardsやTversky&Kahneman(1981 Sci.)を挙げている。うぬぬぬ]。重要性などという難しいことを聞かずに済むのも利点。いっぽう問題点としては、(1)多重共線性が怖い。(2)全体評価と属性評価の関係は線形じゃないかも[と、Mittal et al.(1998, J.Mktg), Sethna(1982 Bus.Econ.)というのを引用]。なお、コンジョイント測定という手もあるけど、属性数が多いときは非現実的。
　要するに、IPAにおいて一番頼りにできる重要性指標がなんなのか、事前に知るのは難しい。

　そこで... 重要性の絶対評定じゃなくて、順位づけをしてもらうのはどうでしょうか。相対的指標になるし、答えやすいじゃないですか。
　というわけで、提案手法は以下の通り。
　対象者数を$n$, 属性数を$s$とする。重要な属性を1位から$k$位まで選んでもらう(タイなし)。対象者$j$が属性$i$に与えた順位を$g_{ij}$とする。これをスコア$h_{ij}$に変換する。もし順位が付与されなかったら $h_{ij} =0$、付与されたら$h_{ij} = ( k- g_{ij} + 1) / k$とする。
　これを$j$を通じて平均したのを$m_i$とする。これだと属性間で差が出にくいので[←という、およそ本質的でないことが書いてある]、$m_i^{k/s}$と変換する。これを$P_i$とする。これを使いましょう。

　後半は実例。流し読みした。

　いやはや... 要するに、属性の重要性を順位づけさせ、それを平均し、差が出るように適当に変換して属性の重要性とみなしましょうというお話であった。云っちゃなんだが... いやいや！なにも云うまい！

読了：Abalo, Varela, Manzano (2007) 属性の重要性ランキングで重要性を測りましょー

2015年3月26日 (木)

　態度とか価値観とかの測定手法にQソート法というのがある（たしか元はパーソナリティ研究じゃなかったかしらん？)。ひとことで言えば、項目をカードにして渡し、両極9件法尺度上に、分布が正規分布になるように並べてもらう方法である。心理学辞典でしかお目にかかれないような古ーい手法だが、意外なことに、経営学の分野でレビューを書いている方がおられて...

岡本伊織(2011) Q分類法による価値観の測定: いかに捉えづらいものを捉えるか. 赤門マネジメント・レビュー, 10(12), 851-877.

　なんで経営学でQソート法？と驚いたが、経営組織論に個人と組織の価値適合(person-organization fit)という概念があり、よって個人と組織の価値観を測んなくてはいけない、そのためにOrganizational Culture Profileという尺度をつくった人がいて、そこでQソート法を使った。おかげで価値観の測定にQソート法を使う研究者がでてきている。といういきさつがある由。へー。

　Qソート法の歴史。そもそもは50年代の因子分析的研究の文脈から始まるのだそうだ。CattellのP方法論というのがありましたが、これにたいしてStephensonという人がR方法論とQ方法論を提案した。個人を行、検査を列にとった表があるとき、列間の相関行列を分析するのがR方法論、行間の相関行列を分析するのがQ方法論。で、Q方法論のための測定手法として開発されたからQ分類法。なのだそうである。へぇぇぇー！全然知らなかった...

　Qソート法では、たくさんのカード(上述の奴だと54枚)を両極9件尺度上に決まった枚数ずつ並べていくわけで、大変時間がかかる。そこで、まずもっとも当てはまる2項目を選んでもらう、次にもっとも当てはまらない2項目、つぎに残りのなかでもっとも当てはまる3項目、... というように選ばせる方法もある由。それでも時間かかりそうですけどね。
　著者曰く、項目間の相対比較を求めているからリッカート法より弁別性が高いはず、とのこと。聴取手法比較研究にRavlin & Meglino (1987, J.AppliedPsych.)というのがあって、価値観測定における強制選択、順位づけ、得点配分、リッカート法を比較し、社会的望ましさバイアスはリッカート法で大きいと報告されている由。Qソート法は一種の強制選択なんだからイケてるんじゃないですかね？という理屈である。

　この論文の面白い点は、云いっぱなしじゃなくて、5件法リッカートとQソート法を比較する実験をやっているところ(残念ながらn=29だけど...)。相関の中央値は+0.68、最低でも+0.45であった。さらにリッカート法は反応カテゴリの集中がみられる、Qソート法ならちゃんとばらつく、という主張だが... 分布が自由な5件法と、分布が所与な9件法を比べてもねえ？リッカート項目によくみられるいわゆるone-linerさんたちも、それなりに正直かつ真剣に反応している可能性だってあると思うんだけどな。それよか再検査信頼性を比べればよかったのに。
　なお、54項目に対するQソート法回答の所要時間は平均12分であった由。ううむ、そりゃあ大変だ。
　そんなこんなで勉強になりましたです。

読了：岡本(2011) Qソート法レビュー

2015年3月 4日 (水)

Piazza, T., Sniderman, P.M., Tetlock, P.E. (1989) Analysis of the dynamics of political reasoning: A genral-purpose conputer-assisted methodology. Political Analysis, 1(1), 99-119.
　いやー、都合により仕方ないとは言え、いまなんでこんな昔の論文読んでんだろうかと、いささかむなしい気持ちにもなりますね... どんな物好きなのかと... 夜は寝た方がいいんじゃないか、と...
　第二著者のSnidermanさんという政治学者は偏見の研究をしている人だけど、ずいぶん前から調査に対話的要素をいれるというのをやっているらしい。その方法論に関心があってあれこれ探していたのだが、研究の中に散発的に顔を出すものの、方法論に絞った文献がなかなか見つからず... ようやく探し当て、やけになってPDFを買い込んだ(別ルートで入手している時間がない)。20pで数千円。ホントに馬鹿みたいだ、と...

　相互作用的調査の４つの手法を提案。なお、この時代の研究だから、想定されているのはCATI(コンピュータを使った電話インタビュー)なのだが、まあそこは本質ではない。

　その一、反論テクニック。
　著者らは白人の人種間平等性に対するコミットメントについて調べているんだけど、調査において平等を支持する人でもそれは表面的なものに過ぎず、平等を達成するための努力を払うつもりは露ほどもないんだよ、という説がある。結局、どうやったら自己評価に頼らずにコミットメントが測れるか、という話になるわけだ。
　そこで以下の手順を用いる。(1)ある価値なり政策なりについての支持/不支持を訊く。(2)その回答に対する反論をぶつける。つまり支持者向けの反論と非支持者向けの反論を用意しておいて分岐するわけだ。(3)立場が変化したかどうかを訊く。
　実験結果の例が紹介されているんだけど、これがなかなか面白くて... 「政府は黒人を助けるべきだ」に対しては最初は57%が支持、しかし反論すると支持者の52%が不支持にまわり、不支持者の40%が支持に回る。いっぽう、大学入学のアファーマティブ・アクションに対しては27%が支持、反論で立場が変わるのは17%, 23%。著者らいわく、もともと支持率が低い主張の支持者が反論に耐えるのは、マクガイアの接種理論で説明がつくんじゃないかと思うけど、でもそしたら多数派はもっと反論に脆そうなものだよね、とのこと。(マクガイア！いやーホントに久しぶりに目にする名前だ)
　さて、マクガイアさんには「ルーズ・リンケージ」モデルというのがあって(恥ずかしながら初耳)、いわく、普通の人は政治的信念とルーズなリンケージしか持っていない。必要に迫られてはじめて諸信念をタイトに結びつける。この概念を用いれば、最初の回答はまだルーズ・リンケージだから、内的に不整合な信念も表れる。反論されてはじめて整合性が現れるのである。その証拠に、もともと保守的な人は、人種問題について最初にリベラルに回答していても、その意見を変化させやすい。もっとも、もともとリベラルな人が人種問題について保守的に回答した場合、反論してもあんまり意見が変わらないようで、その点は今後の課題です、云々。

　その二、置き換え実験。
　調査でわかるのはしょせん態度(偏見)どまり、行動(差別)ではない、と人はいう。そんなことないです。電話調査で差別を調べる方法をご紹介しましょう。と風呂敷を広げて...
　「人員削減で解雇されて求職中の人がいます。(年齢)(人種)(性別)で、子供が(いて/いなくて)、信頼(できる/できない)働き手で...政府はこの人を助けるべきでしょうか？」かっこ内をランダムに変え、全96パターンを使用。コンピュータ時代ならではの調査方法です、とのこと。
　さて、結果をみてびっくり。回答者(白人)は、白人よりも黒人に対して「政府は助けるべきだ」と答えやすい。さらに、政治的立場(保守/リベラル)の自己報告との関連を調べると、リベラルの人のほうが「助けるべきだ」と答えやすいんだけど、なんと保守の人は黒人に対して「助けるべきだ」と答えやすく、同じ白人に対しては非常に厳しい。なんてことだ。人種差別の時代は終わったのか？
　さらに深掘りした結果、次の点が判明。白人保守派は「信頼できる働き手」(a dependable worker)である黒人に対してのみ、ものすごく寛容なのである。著者らいわく、白人保守派にとっては「信頼できる黒人の働き手」は驚くべき存在であり、例外として扱われるのだ。

　その三、整合性チェック。
　たとえば、
　A. 特定の人種・宗教集団に対する憎悪を促すような文章を書いたり話したりすることは法に反する。
　B. いかなる政治的信念を持った人であれ、他の人と同じ法的権利を持ち保護を受ける資格がある。
　この２文、論理的には矛盾しているのだが、心理的にはどちらにも共感できる。つまり心理的な整合性は論理的整合性とは異なる。では心理的整合性をどうやって測るか？
　そこで次の手順。(1)Aについての質問。(2)他の問題についての質問(20項目)。(3)Bについての質問。(4)A, Bの両方に同意してたら、こんな風に尋ねる。「記録が正しいか確認させて下さい。Aに賛成と仰いましたよね。Bにも賛成と仰いましたよね。お答えを変更しなくていいですか？」矛盾してますよね、などと余計なことを言わないのがポイント。
　カナダでこの実験をやったら、A,Bの両方に同意した人は全体の72%、そのなかで(4)で意見を変えた人は11%であった。政治のプロ(議員とか)に同じ調査をやったら、78%が両方に同意し、そのなかで意見を変えた人は3%、一般人よりもっとすごい。つまり、これは政治的関心の欠如とか能力の欠如の問題ではない。
　著者らいわく、認知的整合性の知覚は信念変化の原動力だ。しかし信念システムがルーズにリンクしているときには、厳密に論理的な観点からみた不整合性を調和させる必要がない。

　その四、ソース帰属。
　精緻化見込みモデルでいうところの「周辺的ルート」に注目する。
　ある政策(たとえば、破壊活動に関する出版の禁止)について説明し、同意するかどうかどうか訊く。ここでその政策を主張している人についての説明を操作する: {弱い帰属(some people say...とか) / 強い帰属(連邦議会によれば...とか)}。
　さて、強い帰属のほうが同意率が高くなるはずだ... と思いきや、これまでの実験では案外そうでもなくて、ほとんど差がなかったりするのだそうである。著者らいわく、人々は見境なく意見を変えるわけじゃない、測ってみないとわかんない、とのこと。

　というわけで... サーヴェイ調査のおなじみのモデル(項目の標準化)から離れ、状況を変動させたより相互作用的なサーヴェイ調査へと進んでいこうではありませんか。もちろん順序効果やインタビュアー効果が増大するといった困難はありますが、既存のリサーチはいまや限界です、新しい地平を目指さなければ。云々。

　いやー面白かった!! 最初は落ち込んでたんだけど、この論文は大当たり。スナイダーマン、お前はなかなか使える奴だ！おかげで元気が出ました。
　今頃になって89年の論文に痺れているのってどうかと思うけど(ディープラーニングとかDMPとか、なんかそんな感じのナウな話題に関心を持つべきなんでしょうね)、特に手法1と2は、消費者調査にも大いに関係する話である...非常に示唆的であった。

読了：Piazza, Sniderman, & Tetlock (1989) 相互作用的な調査手法 by 政治学者

2015年3月 2日 (月)

Schober, M. & Conrad, F.G. (1997)　Does Conversational Interviewing Reduce Survey Measurement Error? Public Opinion Quarterly, 61, 576-602.
　かつて人類学者L. サッチマンさんが提唱したような柔軟な会話を通じた調査(Suchman & Jordan, 1990)ってのを実際にやるとなにが起きるか、という実証研究。掲載誌からみて批判的であることが予想されますが... さあ戦いの火蓋がいま切られます！ (実況中継風に)

　たとえば「あなたはふだん週に何時間働いていますか？」という質問があるとして、9時-5時勤務残業なしの会社員であれば簡単に答えられるけど、たとえばフリーランスのライターさんなら、編集者とランチ食っている時間や、ジョギングしながら考えてる時間はどうなるの、と思う。通常の調査であれば、とにかく全員に同じワーディングを提示し解釈は対象者に任せる。いっぽうサッチマンさんの提案では、ここでインタビュアーは質問紙作成者の真意に基づき、会話を通じて、「働いている」という言葉についての対象者の理解を助けようとするわけだ。
　著者らはこのライターさんのような状況を「マッピングの複雑化」と呼ぶ。「働いている」という言葉の調査主体側の定義と、対象者による理解とのマッピングが複雑化している、という意味。
　著者らの仮説は次の通り。マッピングが複雑化していない場合は通常のやり方が正確、複雑化している場合にはサッチマンさん流のやり方が正確。

　被験者は新聞広告で集めた43人、標準化群と柔軟群に割り付ける。インタビュアーは米センサス局のプロ22人、こちらも2群に割り付ける。
　インタビュアーは90分かけてばっちりトレーニング。標準化群は米商務省のマニュアルに従う。質問を適宜繰り返したり、非指示的なプローブを出したりするのはいいけど、概念の定義のような追加情報を与えてはならない。柔軟群は質問に答えたり、被験者が質問の意味を誤解していると思ったら訂正したり、質問を適当に言い換えたりする。

　被験者に会場に来てもらい、まずは架空のシナリオを与える。測定の正確性を手法間で比べるために、まずは「正解」がわかっている状況をつくるわけだ。どんなシナリオが与えられているかをインタビュアーは知らないし、あるインタビュアーが担当する二人の被験者にはちがうシナリオが与えられている。シナリオには、主人公の(1)住居、(2)仕事、(3)購買、についての情報(質問の「正解」)が含まれている。
　質問は12問、住環境、労働環境、購買行動について各4問。いずれも実際の公的調査で用いられているもの。質問文のなかのことばの定義は調査主体によって厳密に定義されている(たとえば、自宅に寝室がいくつかあるかという質問では、「寝室」とはなにかが細かく定義されている)。ただし、この実験では自分についてではなく、シナリオ中の登場人物について訊く。質問順は群間でカウンターバランス。
　さて、被験者に与えられる「正解」は質問ごとに次の2つがある。ひとつは単純マッピング。たとえば家具の購買についての質問のために、シナリオ中にテーブルの領収書が含まれている。もうひとつは複雑マッピング。フロアランプの領収書が含まれている[←はっはっは、確かに家具かどうか微妙ですね]。「正解」は質問ごとに操作し、ある被験者に対するある質問領域の4問の「正解」が、2問は単純マッピング、2問は複雑マッピングになるようにする。被験者の立場になってみれば、12問中6問はちょっと回答に困るものになっているわけだ。
　準備ができたら、部屋にインタビュアーから電話がかかってくる。被験者は調査回答中に手元のシナリオをみてよい。

　結果。
　インタビューの逐語録(インタビュアーによる記録とほぼ一致)は、単純マッピングではどちらのインタビュアーも「正解」をほぼ再現。複雑マッピングでは、標準インタビュアーは再現率28%、柔軟インタビュアーは87%。つまり「正解」を正しく調べるという意味では柔軟なインタビューのほうが優れている。とはいえ、柔軟群のほうがインタビュアー間のばらつきが大きくなるという可能性もある(この実験デザインではインタビュアーあたりの被験者数が2しかないから、はっきりしたことがいえない)。
　インタビュー時間は柔軟なほうが長くなる(中央値は標準で3.4分、柔軟は11.5分。いやーそりゃ大変だわ)。とはいえ、柔軟群のインタビュアーは慣れてなかったんじゃないですか、とのこと。
　そのほか、やり取りの中身についていろいろ調べているけど、省略。

　考察。(1)マッピングの複雑さは測定誤差のひとつの源だ。(2)インタビュー手法の適切さは状況によって異なる。

　というわけで、コストとのトレードオフはあるものの、意外にも柔軟なインタビューを支持する結果であった。
　もっとも、この実験のインタビュアーはおそらく相当レベルの高いプロ揃いで、だから柔軟なインタビューもうまくこなせたのかもね、という疑念はあるなあ...。それに、サッチマンさんのような立場の人が、この実験でいう「柔軟なインタビュー」を十分に柔軟だと捉えるかどうかもよくわからない。私のいっている相互作用性ってのはね！こんな皮相的なレベルの話じゃないのよ！！なあんて怒り出したりしてね。はっはっは。

読了：Schober & Conrad (1997) 調査対象者と会話しちゃうインタビュアーは正確な調査結果を得ることができるか

都合により読んだ論文のメモが残っていたので、記録しておく。

Suchman, L., & Jordan, B. (1990) Interactional troubles in face-to-face survey interviews. Journal of American Statistical Association. 85(409), 232-243.
　調査法研究について調べている文脈で読んだ論文だったし、論文上での肩書が民間企業になっているので、途中まで気がつかなかったのだが、第一著者は「プランと状況的行為」のあのルーシー・サッチマン。そうそう、この人はゼロックスの研究所勤めが長かったのだ。やられた、状況論ですよ... 正直、最初から気づいてたら手に取らなかったと思う(気が重いから)。

　いわく、survey interviewは標準化と引き換えに会話が本来持っている相互作用性を抑圧している。普通の会話なら、話し手はそれまでの会話の履歴に基づき発言を再設計できるが、インタビュアーはそれができない。また対象者による発言は精緻化が足りなかったり、不必要に精緻化されたりする。設問に含まれた世界観が対象者のそれと違っていても、通常の会話と違って摺り合わせが始まったりはしないし、発話の意味を明確にするためのやり取りもないし、誤解を検出して修復することもない...と、公的調査の対面インタビュー・ビデオから集めた例で示す。きちんと読んでないけど、どれもありそうなやりとりばかり。以上が論文の大半を占める。
　最後に問題提起。むしろインタビュアーは調査票作成者の意図だけ踏まえて、質問についてもっと自由に話し、日常の会話でそうするように対象者と会話したほうがいいんじゃないですかね？云々。

　ちょっと面白かったのは、当時まだ新しい手法であった質問紙認知インタビューに対して著者らが意外に好意的であるという点。質問紙を改善することはもちろん大事だ、でもどこまでいっても調査というのは本来は相互作用的行為だし、そうでなければ測定の妥当性も保てないんだよ、という立場なのだと思う。状況論の先生だからもっとポストモダンで(?)、ふつうの認知心理学者がやることはみな気に入らないかと思ったけど、下衆の勘繰りでしたね、すいません。

　たとえばこういうくだり、耳が痛い。

質問と反応の意味を評価するという問題はインタビュー状況を超えた広がりを持つ。仮に質問と回答が質問紙の作成者が意図した形で解釈されたとしても、データのユーザがその理解を共有していることの保証にはならない。調査データを記述統計や推測統計に用いるリサーチャーは、そのデータを正しく使うために、質問がどのように聞かれどのように答えられたか、その意味を知らなければならない。従って、妥当性のある調査のためには、そこに関与するすべての人々(質問紙の作成者、インタビュアー、回答者、コーダー、分析者)が、質問が何を意味し回答がどのようになされたかということについての共通の理解を持つことができるようなメカニズムが必要なのだ。

... 耳が痛いけど、では著者らが提案するような「すべての関与者の間でのactive collaboration」がどのように可能か、という点についてはちょっとよくわからない。
　市場調査における消費者の定性的インタビューでは、「その場にいる人すべてをなんとなく納得させる」魔術的なスキルを持ったインタビュアーが高い評価を得ることがある。しかし、新しい認識を得るプロセスには本来は混乱や葛藤がつきもののはずであって、ああいう「その場の納得感が大事」主義は長期的には知的退廃をもたらすんじゃないかしらん...と思うこともある。この論文で取り上げている対面的インタビューでも、インタビュアーのインセンティブは、質問紙作成者の意図を代理することよりも、むしろスムーズな業務進行や整った回答データと連動しているはずで、「インタビュアーの自由度を高めて参加者の協同させる」というと美しいけれど、ともすればナァナァに陥っちゃうんじゃないかなあ...

　調査に会話的な相互作用性を導入しようとした先行研究としては、Briggs(1986, "Learning How to Ask"), Mishler(1986, "Research Interviewing")という本がある由。ふうん。

読了：Suchman & Jordan (1990) インタビューそれは相互作用だ

2014年12月 1日 (月)

Presser, S., Couper, M.P., Lessler, J., Martin, E., Martin, J., Rothgeb, J.M., Singer, E. (2004) Methods for testing and evaluating survey questions. Public Opinion Quarterly, 68(1), 109-130.
　仕事の都合で、ちょっと地味な文献を...
　社会調査やらマーケティングやらメディアやら、世の中はアンケート調査で溢れており、質問紙づくりの職人を自負する方も大勢いるが、そういう方が知っていそうで不思議と知らない、調査票プリテスト手法についてのレビューである。
　Presser, Couper, Singerは有名な社会調査法研究者、他はUSセンサス局、英統計局、RTIの人。POQに載っているが投稿論文ではなく、論文集"Methods for Testing and Evaluating Survey Questionnaires" 第1章の転載。どうやらイントロの章らしく、以降の各章について律儀に言及している。
　
　著者らいわく...
　本調査の前に調査票の適切性をチェックするという発想自体は一般的である。たいていのリサーチャーはドレス・リハーサル方式、つまり、作成した調査票でちょっと回答を集めてみて、調査票に欠陥がないか調べる、というやり方を信じている。Sudmanの教科書(1983)にも「まずは20-50票くらい集めてみなさい」とある。
　このやり方の背後には、仮に適切でない質問項目があったとしたら、それは回答そのもののなんらかの特徴(無回答が増えるとか)、ないし回答の様子におけるなんらかの特徴(回答をためらうとか)を引き起こすであろう、勘の良いリサーチャーならそれをみて、調査票にまずい点があると気づくであろう... という信念があるわけだ。残念ながら、この信念になんらかの根拠があるとは言い難い。
　というわけで、本論文では調査票プリテストの手法について概観する。取り上げるのは、認知インタビュー、行動コーディング、反応潜時、ビニエット分析、デブリーフィング、実験、統計的モデリング。なお、より定性的な手法(FGI, エスノグラフィ)、ないし回答者からデータを集めない手法(専門家の評価、人工知能、コーダーの評価)は含めない。[←人工知能!? Graesser et al (2000, ASAのSRMセクションのProc.)というのが挙げられている。Art Graesserって物語理解過程で有名な人じゃん...]

認知インタビュー。つまり、質問紙に回答しながらのthink-aloudを求める, もしくは直後にプローブして聞き取りをする。
　歴史を辿ると60年代からあるらしい。米センサス局では80年代にthink-aloud法を使った実験室研究をやっていて、これは認知心理学というよりむしろマーケティング・リサーチの影響を受けていた[Hunt, Sparkman, Wilcox, 1982 JMRというのが挙がっている。へぇー、知らなかった！]。しかし、なんといっても80年代のCASMのインパクトが大きい。Ericsson&Simonのthink-aloud法を承け、Elizabeth Loftusの有名な研究が出た(84年のCASM論文集に載っている奴)。えーと、その後NSFの助成でLessler, Tourangeau, & Salter(1989) という報告書が出たり[PDFを入手できた]、NCHSにCognitive Labというのができて認知インタビューを頻繁に使われるようになったりした(Royston & Bercini, 1987, ASAのSRMセクションのProc.)。90年代には米政府機関で広く用いられるようになり、標準化への取り組みがなされた[Willis,1994というガイドラインがあるらしい。他にもいろいろ挙げられているけど、Willisの2005年の本を見ればわかりそうだからパス]。
　同時がいいのか直後がいいのかとか、think-aloudがいいのかプローブがいいのかとか、いろいろ論点があるけど、意見の一致を見ていない。この論文集に実証研究の章がいくつかある。[くそう、やられた...]
伝統的なプリテストを補足する手法。
- 行動コーディング。インタビューの録音や逐語録をみて、質問文の読み上げのスキップや回答者の聞き返しを調べる。欧州では70年代末から例がみられるが、米にはいってきたのは80年代末[当時のレビューとしてOksenberg, Cannell, &Kalton, 1991, J.Official Stat.というのが挙げられている]。この論文集に実証研究の章あり。行動コーディングでわかるのはwhat could go wrongではなくwhat actually did go wrongだそうだ[なるほど]。
- 反応潜時。論文集所収の実証研究では回答の不確実性の指標ということになっているが、反論もある。でも将来は有望、なんたってコンピュータでの調査ならタダで収集できる。
- デブリーフィング。回答後に調査目的を伝える[そして調査票への意見を求める、ということであろうか]。
- ビニエット分析。架空のシナリオを示して回答者に評価してもらう。この2つも論文集に登場する由。
実験による調査票比較。以下の2種類の状況がある。(1)たとえば認知インタビューで回答困難な項目が見つかったとして、それを改善した調査票でまだ認知インタビューをやる。(2)標本を分割して、異なる調査票を比較する。
　設問のワーディングを比較するとき、評価方法には次の3つがある。(1)反応分布のちがいをみる。(2)なんらかの基準に対するヴァリデーション。(3)(行動コーディングとかで)なんらかのユーザビリティをみる。云々。
統計的モデリング。検査-再検査をLCAで比較するとか、IRTとか、MMTMとか。[眠いので詳細略]

[ここからは、その他の話題についての各章の紹介]

データ収集のモード。CAPIとかCASIとかいろいろ出てきているので、プリテストもややこしくなってきてるね、云々。
特別な母集団。従業員調査、子ども調査、多言語調査。
プリテストの効果についての実証研究。

将来のアジェンダ。プリテスト手法によってその結果がちがうわけだが、これは手法の中に信用できない奴があるせいかもしれないし、検出できる調査票の欠陥のタイプが手法によってちがうのかもしれないし、なにが欠陥かという点についてコンセンサスがないからかもしれない。それに、検出された欠陥をどうやって改善するかはまた別の問題だ。
　今後の課題:

問題の同定と測定誤差の間の結びつきをあきらかにすること。プリテストとは要するに測定誤差を減らすための手段だ[←うーん... 標準誤差の減少というより、真値からのズレの減少という意味でこういっているのだろう]。でも多くのプリテストは、無回答やseam bias[パネル調査で2時点間にありえないズレが起きていることであろう]に注目しているだけで、回答の正確さの指標を持っているわけではない。可能な限り外的基準をつかった妥当性チェックを試みること。
プリテストのコストへの影響を評価すること。
調査票の欠陥を修正する際のガイドになるような基礎調査や理論が必要だ。[KrosnickとかSudmanとかTourangeauとかの本が挙げられている]
知見のデータベースというか、レポジトリみたいな奴の構築。

要するに論文集の各章の紹介なので(後半から特に)、だんだん関心を失ってナナメ読みになってしまった...

　日本語で認知インタビューといえばほぼ間違いなく目撃証言の話だが、英語でcognitive interviewと検索すると調査票プリテストの話も負けずに数多く見つかる。米の調査法研究のこうした充実ぶりは(著者らにいわせればこれでも全然足りないわけだが)、あちらの研究者の厚みを示しているという面もあるだろうけど、ひょっとしたらかの国の公的調査を取り巻く特殊な社会的事情のせいなのでは、と思うこともある。その意味で、日本の調査関係者もこういう実証的態度をお手本にすべきだと手放しに賞賛すべきかどうか、よくわからないのだけれど... 少なくとも、消費者マーケティングの国際化、マルチカントリー調査の増加という文脈では、調査票プリテストはこれから重要性を増す話だと思う。

読了: Presser, Couper, Lessler, Martin, Martin, Rothgeb, & Singer (2004) 調査票プリテストの諸手法

2014年11月26日 (水)

川口俊明(2011) 教育学における混合研究法の可能性. 教育学研究, 78(4), 386-397.
　ちょっと関心を惹かれて目を通したもの。

　量的調査と質的調査を統合するアプローチは、昔はマルチメソッドなどといわれたが、最近は混合研究法(mixed research)という用語が定着している。2003年に最初のハンドブックが出ている(Tashakkori&TeddlieのSAGE Handbook。2010年に第二版が出ている)。日本の教育学では中村高康という方が有名(東大比教社)。その他、実践例として吉川徹「学歴社会のローカル・トラック」や本田由紀「家庭教育の隘路」なども挙げられている。そうか、いわれてみれば。。。
　なにを混合研究法と呼ぶのか、意見は一致していない。Morse & Neihaus (2009)という本では、中心的手法と補助的手法が組み合わされていればよくて、たとえば参与観察のあとでインタビューをやってもやっぱり混合研究なのだそうだ。
　そもそも定量と定性ではものの見方が違う、というのは誰でも思いつく見方だが(こういうことを方法論サイドから規範的に主張する人が多くてちょっとうんざりしている。あれは一種の既得権益擁護だと思いますよ)、実際Creswell & Clark (訳書出てるやつ)は、研究が依拠するパラダイムを{ポスト実証主義,構築主義,参加型,プラグマティズム}に整理し、混合研究法はプラグマティズムと親和的だと述べている。いっぽう、思想に関わらず定性と定量の区別そのものが馬鹿馬鹿しいという人もいる(Gorardという人、SAGE Handbook所収。読んでみたいなあ)。

　で、ここからが面白かったんだけど... 混合研究法の分野では自分の研究デザインを記号で表記するんだそうだ。たとえば「学歴社会のローカル・トラック」は、最初に高校生の質問紙をやって次にインタビューやっているので「QUAN→qual」と書く(メインが定量、次に補助的に定性をやっているから)。「家庭教育の隘路」はどっちが本命ともどっちが先とも云い難いので「QUAL+QUAN」。ははは。馬鹿馬鹿しいようにみえるけど、こういう明示化はきっと大事なんでしょうね。
　著者曰く、本田の研究は量的研究と質的研究が結論の段階まで統合されていない、すなわち混合研究法としてはそれほどよい調査デザインではない、とのこと。ご本人が混合研究法「を」やりたかったのかどうかは、また別の話だと思うけれど。
　後半は著者の研究の紹介。

読了：川口 (2011) mixed research in 日本の教育学

2014年9月11日 (木)

Arnulf, J.K., Larsen, K.R., Martinsen, O.L., Bong, C.H. (2014) Predicting survey responses: How and why sementics shape survey statistics on organizational behavior. PLoS ONE, 9(9).
　質問紙調査で得られる結果のうち、項目間の関連性について、その項目のワーディングの分析によって、実際に調査する前に予測してご覧にいれましょう、という論文。随分キャッチーな言い方だが、提起している問題は意外に深い...

　著者らいわく。EFAにせよCFAにせよ、計量心理的分析は、調査項目間の関連性は項目の意味の重複による自明な関連性ではないということを前提にしている。でも、たとえば「今日は月曜日だ」を真と評価した人は「明日は火曜日だ」も真と答えるに決まっている。こういう意味の重複が、もしすべての項目を通じて存在していたら、尺度間の関連性もそれに汚染されていることになるではないか。
　こういうことを考えた人としてはCoombs & Kao (1960, Psychometrika) がいる。彼らは因子分析がそれ自体の特性として、「社会的効用機能」という外的因子を常に生みだしてしまうと考え、「一次元展開」という計量心理理論を構築した。(←unidimensional unfolding. 昔のMDSの文脈で出てくる話だと思う。この辺の話、苦手なんだよなあ...)
　そんなわけで、項目間の意味的関連性を最新の手法を使って事前に調べ、それで調査結果における項目間関連性がどのくらい説明できてしまうかを検討する。

　意味的関連性を分析する手法はふたつ。まず、LSA。ビジネス系記事(WSJとか)、新聞記事(NYTとか)、PR系文章を集めてそれぞれの意味空間をつくっておく。著者らのひとりが工学系で、自前で空間を作ったらしい。ふたつめは、著者らはMIと呼んでいるのだけれど、要するにWordNet(語彙データベース)を使う。詳細は読み飛ばしたけど、とにかくこの2つのシステムに調査項目を2問放り込めば、ワーディングの意味的類似性を算出できるわけである。

　質問紙調査のほうは組織行動研究をターゲットにしている。リーダーシップとかモチベーションとか、そういう潜在変数が跳梁抜鉤する魑魅魍魎の世界である(すいません冗談です)。
　実験は4つ。
　実験1. Multifactor Leadership Questionnaire (MLQ) という尺度を使う。リーダーシップの因子とかモチベーションの因子とか計11個あり(「知的な刺激」因子とか)、さらにall outcomesという因子がある(なんだかよくわからない)。実際の調査データから求めた各因子のアルファとMIで推測したアルファはほぼ近い。因子間の相関もだいたい推測できる。云々。
　実験2, 3も、MLQやそれに関連したリーダーシッブ尺度を使っている。CFAとかをやっているけど、主旨は実験1と同じである。省略。
　実験4. 今度はNEO-FFIというビッグ・ファイブ尺度の簡略版を使う。こっちの結果は毛色がちがって、調査データにおける各因子のアルファはすごく高いんだけど、MIで予測した値は低い。項目間の実際の相関を、MIではうまく予測できない。つまり、パーソナリティ研究のような、最初に項目を幅広く集めてくる手続きがしっかりしている分野は、この研究の攻撃対象にはならないわけである。
　(あれれ、結局LSAはどこで使ったのだろうか？きっと見落としているのだと思う)

　考察。ここ、いろいろ考えさせられる箇所なので、長めに引用しておく。

　構成概念妥当性に関する計量心理学的諸原理は(少なくとも現在の形式、つまり組織心理学において頻繁に適用されている形式でのそれらは)、我々の知見に照らしての改訂が必要である。アルファ係数からCFAに至るまでのデータ分析の多くの部分を通じ、調査回答に対して意味論的諸特性が猛威を振るっている(pervade)ように思われる。このことは、科学研究における計量心理学の諸原理についての理解に、ある根本的な問題をつきつけている。我々の研究は、独立変数と従属変数の間の関連性が調査実施よりも前に意味論的に決定されているという可能性を示している。つまり項目のワーディングによって決まってしまっているのである。[...]さらに深刻なのは、変数間のこの交絡が、リーダーシップに限らずモチベーションや業務満足や労働の結果といった他の組織行動の諸指標においてもみられるという点である。それはまた、異なるリーダーシップ理論に基づく調査の間の関連性にも影響しており、あの理論よりこの理論のほうが大事だといった主張に疑いを投げかけている。それらは単に同じ命題を違った形で述べているものだからである。(←?? このくだり、いまいちよくわからない)
　現時点では、我々がここで見出した問題がどこまで広がっているかを評価するのは難しい。本研究では、組織行動の分野で一般に用いられている指標が意味論から実質的な影響を受けていることが示された。いっぽう、パーソナリティ・テストではほとんど影響が示されなかった。社会科学の諸概念のあいだには抽象度の差があり、抽象度が高いと単純な意味論的関係に対して脆弱になるのかもしれない(←ううむ... ビッグ・ファイブよりリーダーシップのほうが抽象的だといえるかしらん？)。近年では、組織行動研究では他の分野に比べて共通手法分散による統計量のインフレーションが起こりやすいことが知られている。我々がここで見出した問題も、他の分野ではあまり問題にならないのかもしれない。
　問題の核心は、調査回答におけるシグナルをノイズから分離する統計的手法があれば構成概念の客観的存在を確認できる、という無批判的な想定である。こうしたやり方は理論的見地から批判され続けてきた。認知ではなく行動の観察に基づき抽象度の低い回答を収集している場合には、調査回答はここで示されたような意味論的計算の影響を受けにくいのかもしれない。
　突き詰めていえば、意味論的影響が調査データにおける共変動の主要な源となることを排除する唯一の方法は、その影響を事前に同定することだ。調査変数間の関連性は、ふつう帰無仮説統計量によって検証される。ここで帰無仮説は調査項目間の関連がランダムなものだという期待を含意している。いっぽう我々の知見が示唆しているのは、すべての項目が、意味論的共通性を通じて関連している可能性が高いということである。おそらく、帰無仮説を意味論的仮説に置き換えることが、調査における単なる意味論的関連性と実証的情報を分離するためのひとつの確実な方法となるだろう。

　PLoS ONEの論文になんでこんなにアツクなっているのかわからんが、いろいろと考えさせられる内容であった。

　仕事の話に置き換えて考えると、たとえばある消費経験の領域に対する態度をたくさんの項目で聴取し(「自動車に対するあなたのお気持ちを伺います」とかね)、それを因子分析かなにかで整理しようとするとき、この項目とこの項目の相関が高いのはきっと裏にこんな潜在変数があるからだよね、と思う場合もあれば、この2項目は同じことを違う言い回しで訊いているだけでしょう、相関が高くて当たり前よ、と思うこともある。
　もちろん、因子分析を単にデータ縮約の手段として捉え、項目間の相関構造を生んでいる実質的機序は気にしない、という立場もありうる。でもひとたび項目群の関連性について実質的に理解しようとする限り、単に同じ意味だから相関が高い場合とそうではない場合、このふたつをごっちゃにしちゃっていいものかという疑問は、なるほど、たしかに感じますね。
　そうした疑問に対して、コーパスに基づくLSAなりWordNetなりによってその調査領域や調査対象者に依存しない一般的な意味的類似性を求め、それをベースラインにして、これはどうやら言葉の意味による相関だね、これはそうでもないかもね... と腑分けしていくことができたら、それはもしかすると便利かもしれない。また、たとえば意味論的にみて高いアルファが予測されるような因子については、そんな因子をホントに想定する必要があるのか、項目セットにたまたま同じような項目がはいっちゃっただけじゃないのか、というふうに反省することができるかもしれない。

　しかし... たとえば、ある広い領域についての態度や価値を調べているとしよう(結婚についてとか教育についてとか)。いろいろな項目を聴取して、10個の因子にまとめました、と。で、事前知識による因果的解釈と併せてSEMのモデルを組みました、F1とF2からF3にパスが伸びていて... 云々、と。さてここで批判者が現れ、いやそれはしょせん言葉の問題なんだよ、そのSEMのパス係数は、私たちがコーパスから作ったLSAで説明できちゃうよ、と言われたとしよう。果たしてそれは批判になっているのか。
　そのSEMのモデルは、まあ野望としてはだけれど、私たちの結婚なり教育なりについての態度と行動を規定している因果モデルなのである。そこで表現されている因果関係が、コーパスなり語彙データベースなりに反映されているのは当然である。だからそういう指摘に対しては、ああそうですか、私は調査データで、あなたは言語データで、結局同じものをみているんですね、と答えるしかないように思う。

　というわけで、「その相関はempiricalではない、semanticだ」という著者らの指摘が、果たしてどういう場面でのどういう主張に対して攻撃力を持つのか... さっきからあれこれ考えているのだけれど、難しくてよくわからない。

読了：Arnulf, Larsen, Martinsen, Bong (2014) 調査票をみせてよ、結果を当ててやるからさ

2014年6月10日 (火)

Rowe, G. & Wright, G. (2001) Expert opinions in forecasting: The role of the Delphi technique. In Armstrong, J.S. (ed.) “Principles of Forecasting; A Handbook for Researcher and Practitioners.” Kluwer.
　デルファイ法について知識を整理する必要に迫られ、困ったなあと思いながら本棚をみたら、Armstrongの分厚いハンドブックにデルファイ法の章があった。いやあ、なにがいつ役に立つかわかったもんじゃない。

　内容のメモは別にとったので省略。
　著者らいわく、デルファイ法の実証研究は「他の手法とどっちが良いか」タイプの実験ばかりである由(当然ながら結果は"It depends"になりがちである)。プロセスの研究はあまりないのだが、その少ない例として、デルファイ法での反復聴取を通じた意見変化のプロセスは「本物の専門家は意見を変えない、そうでない人が意見を合わせる」だという説と、「自信がある人は意見を変えない、自信のない人が意見を合わせる」だという説があるのだそうだ。おおお、そりゃ面白いなあ。前者としてParente &Anderson-Parente (1987, in Wright&Ayton(eds.)　"Judgmental Forecasting"), Rowe & Write(1996, Int.J.Forecasting), 後者としてSchiebe, Skutsch & Schofer(1975, in Linstone&Turoff(eds.)"The Delphi Method")というのが挙げられている。

読了：Rowe & Wright (2001) デルファイ法概説

2014年5月 8日 (木)

　先日読んだ論文で、「正直に答えないと、正直に答えてないなってわかっちゃうよ」と信じ込ませて回答させると、回答が社会的に望ましい方向に歪むバイアスが消え、正直に答えるようになる、という現象のことをbogus pipelineと呼んでいた。へええ、と思って調べてみたら、ちゃんと有斐閣の心理学辞典にも載っている用語なのであった。ご、ごめんなさい...知りませんでした... (←正直な回答) ないし、一般教養の心理学のコマを持ってた頃は覚えてたけどすっかり忘れてました... (←社会的に望ましい回答)

Roese, N.J., & Jamieson, D.W. (1993) Twenty years of bogus pipeline research: A critical review and meta-analysis. Psychological Bulletin, 114(2), 363-375.
　というわけで、今度の原稿の役に立つかもしれないのでめくってみたレビュー論文。Psychological Bulletinなんて、昔なら大層気が重かったけど、いまは昼飯のついでに楽々と目を通せる。それだけ真剣さが減ったということである。

　いくつかメモ:

オリジナル(Jones & Sigall, 1971, Psycho.Bull.)の手続きでは、印象的な外見をした生理モニタリング・マシーンを提示し、これであなたの真の態度が測れますと教示。手法の通称はここからきている(「魂へのパイプライン」なのだ)。被験者の身体に装着し、キャリブレーションと称した課題をやって信じ込ませる(その前に別の実験者が聴取しておいた答えをこっそり使って騙す。せこい)。で、リッカート尺度上で「質問に対するマシーンの出力を当ててください」という課題をやる。とはいえ、後続研究における手続きは多様で、たとえば最後の課題で単に自分について回答させるという手続きもある。
研究史を3期に分けてレビュー。
- 第1期(1970-1974)は提案から普及の時期。ボーガス・パイプライン(BPL)は自己呈示のバイアスを除去する手続きと捉えられ、人種の知覚と対人魅力の研究に用いられた。とはいえ、この頃からいろいろ批判はあった。
- 第2期(1975-1981)は、その解釈をめぐって大いに揉めた。これは印象管理理論 vs. 認知的不協和理論の対立だったのだそうだ。手続きによる回答の変化を、前者は印象管理戦略の産物と捉えたのに対し、後者は認知的不協和低減の動機付けの高まりと捉えた(つまり、正直に答えるようになったんじゃなくて、本物の態度変容が起きている)。さらに、装置を装着しちゃうとなんか社会的に望ましくない回答をしなきゃならないような気がしてくるんじゃないですか、という穿った批判もあった(面白いなあ。Arkinという人だそうだ)。なお、たいていの研究は、単に回答の変化を調べたり社会的望ましさ尺度との相関を調べたりしているだけなんだけど、いろいろ工夫して「真実を答えるようになるか」を調べた実験もあって、やはりBPLのせいで真実を答えやすくなる由。
- 第3期(1982-1991)になると、他の領域でBPLを確立済のツールとして使う例が増えてくる。また、意見の報告ではなく事実の報告をさせる例が増える。80年代後半から社会心理学での利用例は激減。いっぽう、薬物使用を自己報告させる際のツールとして盛んに用いられるようになり、手続きも簡略化された。bogusじゃなくて本物の生理的測定をやっちゃうこともある(なるほど、薬物使用ならありうるなあ)。

　論文後半はメタ分析。そこまでの関心はないので、スキップ。
　著者らいわく、確かにBPLは社会的望ましさバイアスを除去していると考えられる。最近使われてないけど、BPLは有益な道具です。でも測定対象があまり強くない態度であるときは気を付けたほうがいい。云々。
　
　本筋とあまり関係ないんだけど、締めくくりの一節が面白かった。「この重要な手法がほとんど打ち捨てられてしまっている理由を、別の角度から説明できるかもしれない。社会心理学におけるBPLの栄枯盛衰は[...]研究における流行りすたり(faddishness)の教科書的な例であるように思われる。[...]BPLの適用にはもともと、認識論的的な諸問題、妥当性に関する諸問題が備わっている。これらの問題は、確かに困難ではある。しかしそうした困難さは、一見明白にみえる知見の後ろにいつだって隠れているものだ。過去の研究者たちがそれに直面していようが、していなかろうが、そのことは変わらない。本論文で取り上げた諸問題に取り組むことで、将来の研究者たちが来たるべき研究においてBPLの相対的利点を活用できるようになることを望む」。

　いやー、それにしても、オリジナルの凄そうなマシーンってどんなのだったのか、見てみたいなあ。ネットに原論文が落ちていたのをめくったけど、写真は載ってなかった。

読了: Roese & Jamieson (1993) ボーガス・パイプライン・レビュー

崔仁淑(2014) タブーであるテーマを巡る日本人の世論－新しい実験調査手法による世論の構造的解明－. 行動計量学, 41(1), 47-62.
　要するにネット調査で一種の説得実験をやったというような研究だと思うんだけど、本筋じゃなくて先行研究概観のところをメモしておく(すいません、単に私の関心の問題です)。

世論(public opinion)の研究においては、多くの人は政治問題についてあまり知識がなく明確な自分の意見を持ってない、という立場が70年代まで主流であった。ラザーズフェルドらが挙げられる。彼らを(大衆の信念をminimalに捉えているという意味で)ミニマリストという。これに対しSnidermanらは、調査の文脈を実生活に近づけ討論させればそれなりに合理性を持って判断する、と主張した。彼らをアンチ・ミニマリストという由。へぇー、そんな言い回しがあるのか。ミニマリズムはメディア強力効果説とどういう関係にあるのかしらん。
この研究では、原発への賛否(事前の態度)と、それぞれに対して提示する反論文のタイプを要因にして事後の態度を調べているんだけど(その意味では超古典的な態度変容実験だと思う)、世論調査でこういう「反論テクニック」を使うという試みが既にある由。へぇー。これもSnidermanという人。最近流行りの討論型世論調査(DP)とはどういう関係にあるのだろうか。
こういう風に「アンケート調査にインターアクションをはじめて導入したのはHyman(1954)である」とのこと。Herbert Hyman "Interviewing in social research"という本だそうな。へぇー。

というわけで、「インタラクションを利用したサーヴェイ調査」というのがそんなに新しい発想じゃないらしいという点が勉強になった。
　消費者調査の文脈で、定量調査にちょっとインタラクティブな要素を持ち込もうとすると、いきなり定性的インタビューとのアナロジーで受け取られてしまい、いやそこまで飛躍するつもりはないのよ、単に特定の性質の認知過程を引き起こそうとしているだけで、その限りにおいてはstaticな質問紙となんら変わりがないのよ... という違和感を感じていた。ぼやいていないで、ちゃんと調べてみるべきだな。きっと先達はいる。
　
　著者は無闇に控えめな方で、締めのくだりで「本論文はポスト・ドクターという制限のある地位において実施した調査データから分析、結論付けたものである。それゆえ[...]確実な証明になっていないことを十分に認識している」なあんて書いておられる。いやそんなことを書いてくださらなくても、とちょっと可笑しかった。

読了: 崔(2014) 世論調査の途中で調査対象者に反論してみる

2014年3月 4日 (火)

Schwarz, N. (2007) Cognitive Aspects of Survey Methodology. Applied Cognitive Psychology, 21, 277-287.
　80年代初頭に米の調査法研究者らのあいだで提唱されたCASM(Cognitive Aspects of Survey Methods)アプローチについての概観。App. Cog. Psy. のこの号はCASM特集号で、これはよく巻頭に載っているような、以降の論文の露払いなんだけど、CASMも提唱されてから随分と月日が経っているから、その蓄積が紹介されていてなかなか面白い。それに短いし。というわけで、既読(のはず)だが、仕事の都合で再読。
　いくつかメモ:

調査への回答に伴って生じる心理プロセスの研究は、CASMのような対象者に注目する流れと、インタビュアーとの相互作用に注目する流れがある。後者は後者で長い歴史を持っていて(Lindzey & Aronson (Eds) "The handbook of social psychology"の章がreferされている。なんと1968年)、エスノグラフィーと談話分析に継承された由。あー、そういう見方ができるか。2つの流れの融合については、この特集号のOngena & Dijkstra (2007) をみよとのことだが、題名から見て会話公準の認知モデルらしい。
対面調査で、対象者がことばの意味がわかんなかったら調査員がさらに詳しく説明する、なんて手続きをとることがあって、そういうclarificationをオンライン調査で提供するという試みもあるそうなのだが、いっぽう対象者なり調査員なりがいつ「ああ{私には/この人には}clarificationが必要だ」と思うか、という問題については研究がない由。なるほどねー。調査参加経験についてのメタ認知の問題だ。面白いなあ。
最後の総括で、CASMのおかげで認知心理学と調査方法論のあいだに橋はかかったけど、その橋を渡るのは心理学者ばかりで、調査方法論研究者が認知心理学に貢献することは少ない... という話の中にいきなり、まあ認知心理学では認知過程の普遍性が仮定されているから代表サンプルは贅沢だと思われるんだよね、というコメントが出てくる。その観察が当たっているかどうかは別にして、なぜここで標本の代表性の話が顔を出すのかがわからない。市場調査を見よ、調査方法論のヘビーユーザではあるが、みんな代表性のことはろくに気にしていないぞ。おそらく、ここで調査方法論と云われているのは一義的には公的調査のことなのだろう。そりゃ、ま、そうか。

読了: Schwarz (2007) CASMの四半世紀

2013年8月27日 (火)

山口洋(2007) 反応性の問題と予測妥当性の自己発生：意図の測定の行動への影響. 佛教大学社会学部論集, 45, 83-91.

　質問-行動リンクのせいで、意図測定の予測妥当性が誤って高くなってしまう(自己発生)、という問題についての議論。科研費の報告書の一部である由。
　まず、Sherman(1980)の実験1と3を再分析してファイ係数を算出しなおし、これって偽りの予測妥当性が生じてるってことだよね、と論じる。でもって、Shermanみたいなケースはきっとレアで、(1)社会的に望ましいが比較的実行されない行動で、(2)意図調査と行動の間隔が短くて、(3)1to1の調査をやったときに生じるんじゃないかしら、と推量。後半では、Shermanのは予測の系統的誤差が自己消去されるという話だけど、ランダム誤差が小さくなることもあるんじゃないかしら、でもそんなん起きてても気づきようがないよね、と推量。

読了: 山口(2007) 意図の予測妥当性の自己発生

Sprott, D.E., Spangenberg, E.R., Block, L.G., Fitzsimons, G.J., Morwitz, V.G., Williams, P. (2006) The question-behavior effect: What we know and where we go from here. Social influence, 1(2), 128-137.

　著者のうちSprott (Washington State U.), Spangenberg(同), それからGreenwald(同)らは、調査対象者に社会的に望ましい行動のリストを提示し、自分がどれを実行しそうかを聴取すると、のちにそれらの行動が生じやすくなるという現象を研究していた(「自己成就予言」)。いっぽうMorwitz(NYU), Block (CUNY), Fitzsimons(Duke), Williams (Penn U.)らは、調査対象者に自分の将来の行動についての予測や見込みを聴取すると、のちにその行動が増えるという現象を研究していた(「単純測定効果」)。でもこの2つは共通点が多いから、これからは両チームとも「質問-行動効果」と呼ぶことにしたいと思います。という宣言＆ミニ・レビュー論文であった。

　今後の課題としては...

基盤となる心的メカニズム。現在、「当該行動に対する態度のアクセス容易性が高まる」説と、「社会的規範との認知的不協和が高まる」説が有力である由。両方正しいんじゃないか、とのこと。ほかにGollwitzer & Schall(1998, Personality & Soc. Psych. Rev.)の実行意図説も無視できない。
質問形式の影響。
行動じゃなくて他の側面への影響。回答間の関係に対する影響とか(Feldman & Lynch, 1988, J. Applied Psych.)、意図と行動の関係への影響とか(Chandon, Morwitz, & Reinartz, 2005, J. Marketing)。
持続時間。Dholakia & Morwitz(2002, JCR)は長持ちすると報告している一方、Chandon, Morwitz, & Reinartz (2004, JCR)は短いと報告している由。
効果をどうやったら消せるか。Williams, Fitzsimons, & Block (2004)は教示で消せると報告している。
質問がマスメディアで流れたときも効果は生じるか。云々。

助かりました。レビューというのは人助けになりますね。
　

読了: Sprott et al. (2006) 集え、「質問-行動効果」の旗の下に

Morwitz, V.G., Johnson, E., Schmittlein, D. (1993) Does measuring intent change behavior? Journal of Consumer Research, 20(1), 46-61.
　質問-行動リンクの初期研究としてよく引用される論文。

　えーっと、著者らは類似の先行研究として以下を挙げている:

態度質問でその態度へのアクセス容易性が上がる。 (Fazio, Powell & Williams, 1989, JCR)
態度質問を繰り返すとアクセス容易性が上がる。(Karde, Allen, Pontes, 1993, in "Advences in Consumer Research")
自分の行動について予測すると、その予測はたいてい過大予測であり、かつ予測したせいでその行動が生じやすくなる。(Sherman, 1980, JPSP; Sherman et al., 1983, JPSP; Greenald et al, 1987, J. Applied Psych.)

で、この研究の仮説は次の3つ。

ある製品の購入意図の測定が、その後の実際の購入に影響するだろう(単純測定効果)。その影響の方向は、意図の質問が引き起こす思考がポジティブかどうかと、事前の態度がポジティブかどうかで決まるだろう。
購入意図の質問を繰り返すと、影響はより極端になるだろう。
製品使用の経験が多いと、事前の態度がはっきりしているので、単純測定効果も繰り返しの効果も小さいだろう。これ、Tesserとは逆の仮説であるとのこと(すっかり忘れていたけど、自分の講義資料を引っ張り出して思い出した。ごめんなさい)。Tesserの実験の場合とちがい、製品使用経験は知識を豊かにするだけでなく態度も決めちゃうから。

　大規模な郵送パネル調査データを分析する。この調査では7時点にわたり、PCと自動車について今後買う予定を聴取している。途中でパネルに入ってきた世帯がいっぱいあるので、聴取された回数で世帯をわけることができる。従属変数はそのあとで実際に買ったかどうか。聴取回数は実験的に統制できていないので、かわりにデモグラ変数でウェイティング。細かい話がいっぱいあったけど、すいません、読み飛ばしました。
　結果: 一回聴取しただけで購入発生率は向上する(仮説1を支持)。一回聴取した群と複数回聴取した群を比較すると、初回の購入意向が高い場合は複数回聴取によって購入発生率が上がり、低い場合は下がる(仮説2を支持。ただし、統計的には有意だったりそうじゃなかったり)。PCの場合、すでに使用経験があると、聴取の効果は小さくなる、などなど(仮説3を支持)。云々。申し訳ないけど超めんどくさいので、スキップ、スキップ。デモグラ変数を共変量にいれたモデルで再検証しているけど、スキップ、スキップ。ほんっとにゴチャゴチャめんどくさい！

　... 気を取り直して結論。まずは単純測定効果の大きさに驚くべし。市場調査会社は危機感を持つべし。今後は質問と行動のあいだの心理的メカニズムの研究が期待される。云々。

　あー、もう、途中でイライラして悶え死ぬかと思った。もう少しスマートに書けないものですかね？
　ともかく、実際の市場調査データを用いて、質問が行動にもたらす効果(単純測定効果)が実質的なサイズを持っているということを示した点が、この研究の先駆的な貢献なのだろう。
　ところで、購入意図と購入とのあいだに購入の心的シミュレーションを想定するLevav&Fitzsimons(2006)流の考え方は、すでにKalwani & Silk (1982, Marketing Sci.)で提案されている由。ふうん。

読了: Morwitz, Johnson, & Schmittlein (1993) 購入意向を訊くと購入が生じやすくなる

Fitzsimons, G.J., Shiv, B. (2001) Nonconscious and contaminative effects of hypothethical questions on subsequent decision making. Journal of Consumer Research, 28(2), 224-238.

　調査が及ぼす効果についての実験研究。架空の前提に基づく質問に回答すると、調査対象者はその前提が架空であることを知っているにも関わらず、その後の意思決定でバイアスを被る、という現象に注目する。「ときに、仮にこの候補が犯罪者だったらあなたは投票しますか？」というような状況ですね。

　説明枠組みとして、Wilson&Brekke(1994, Psych.Bull.) のmental contaminationというのを採用する。これ、よく知らないんだけど、ステレオタイプの研究から来ているのだろうか。紹介を読んだ限りでは、表象のアクセス容易性に依拠するタイプの説明だと思う。
　で、架空の前提の提示による心的汚染のモデレータとして認知的精緻化に注目するのだが、精緻化水準が高い方がアクセス容易性が高くなって汚染もひどくなるという仮説と、逆に低くなるという仮説がありうる。後者のほうは、まず命題の自動的な処理があって、そのあとで意識的な訂正処理がなされる、という二段階を想定した場合の仮説。Gilbert (1991, Am.Psych.)というのが引用されている。要するに、ひとことで精緻化っていっても、それがシステムIIによる修正を伴っているのかどうかで話が変わってくる、ということであろう。

　実験1a. ペンシルバニア大の学生に実験。話題はカンザス州の下院選(そんなの誰も知らない由)。コンピュータ画面上で二人の候補者についての5つの新聞記事を読ませたのち、

架空質問条件: 「仮に、Bob Clark候補が1988年に選挙違反で有罪となっていたとしたら、あなたの彼に対する意見は変わりますか？」
事実条件: Bob Clark候補が1988年に選挙違反で有罪となっていた、という新聞記事を読ませる。
無情報条件: なにもしない。

でもって、最後に投票を求める。
　気になってちょっと調べてみたんだけど、事実条件の新聞記事の日付となっている1998年にはたしかに下院選が行われているが、カンザス州第二選挙区の候補はJim RyunとJim Clarkという人だ。新聞記事の発行元となっているManhattan Mercuryのバックナンバーを調べてみたんだけど、類似の記事はみあたらない。どうやらこれ自体フィクションみたいだ。
　結果: Bobの得票率は、無情報条件で79%, 事実条件で35%, 架空質問条件で25%。架空質問は意思決定に影響する。

　実験1b. ほぼ同じ実験だが、最初の教示で認知的精緻化の水準を操作する:

抑制条件: 実験のあいだ中ずっと、画面の隅で変化する数字がすべて奇数だった回数を数え続ける。
通常条件: なにもしない。
促進条件: 良く考えて答えてくれ、あとで理由を尋ねるからな、と教示。

実験1aの事実条件を削って、3x2の2要因実験。
　結果: 無情報条件でのBobの得票率は、精緻化の抑制, 通常, 促進の下で、83, 82, 92%。ところが架空質問条件では、55, 39, 10%。つまり、精緻化を促進すると、架空質問の効果は大きくなるわけだ。

　実験2. 著者いわく、やりたいことは盛りだくさんで、

実験1の結果の対抗説明として以下が可能である。(1)架空質問じゃなくて、Bobについて質問したこと自体がBobの得票率を下げたんじゃないか(尋問効果説)。(2)対象者は架空質問が実は架空の話じゃないと意識的に解釈したのではないか(会話公準説)。これらの対抗説明を潰したい。
架空の投票じゃなくて実際の選択にしたい。
架空質問をすごく「ありそうにない」話にしたい。政治家がグレーだなんてありふれてるじゃないですか。
架空質問の効果が、信念の構造の変化に伴って生じるのかどうかをみてみたい。

とかなんとか。
　というわけで、精緻化の水準(通常/精緻化促進)に加え、架空質問で提示された情報が意思決定に対して持つ関連性(関連性高/低)を操作する。2x2の被験者間計画、統制条件を追加して5セル。
　手続きは以下の通り。学生に調査票のブックレットを渡す。まずケーキなどの消費頻度を聴取。次に架空質問を提示(ここで要因を操作する)。で、「全然別の実験です。環境が回答に及ぼす変化を調べたい」と称し、別の部屋に移動させる。その際、廊下でスナックのチケットをもらうように教示する。行ってみると、チョコケーキとフルーツサラダが並んでいて、好きな方をもらってよい(どちらも地元食料品店の「$1」という値札が貼ってある。芸が細かい)。次の部屋に入ってきたら、なんでそっちを選んだの、と問い詰め、それからケーキとフルーツサラダの健康に対する良し悪しを聴取。最後に、架空設問が自分の選択に影響したかどうかを聴取。
　架空質問は:

高関連性: 「仮に、科学研究の結果、ケーキ類がこれまで考えられていたほどには健康に悪影響をもたらさず、むしろ健康に大きな利益をもたらすということがわかったとしたら、あなたの消費はもっと増えますか？」
低関連性: 「健康に大きな利益をもたらす」を「健康にわずかな利益をもたらす」に変更。

さらに精緻化促進群では、架空設問のあとに「良く考えて答えてくれ、あとで理由を尋ねるからな」と付け加える。なお、統制条件ではまるごと提示なし。別のサンプルで操作チェックする。
　結果: 廊下でケーキを選んだ割合は、統制条件で26%。低関連性の場合、通常で26%, 精緻化促進で36%。高関連性の場合、通常で48%, 精緻化促進で66%。ロジスティック回帰で、関連性の主効果と、精緻化と関連性との交互作用が有意。つまり、精緻化による効果は関連性が高いときに大きい。

　その他、Baron&Kennyの方法でもって、ケーキについての信念がケーキ選択のメディエータになっていると示唆。二番目の部屋での「なんでそっち選んだのよ」質問に対して誰も架空質問の話をしなかったということを根拠に尋問効果説を叩き、「架空設問に影響されたか」質問への回答が全員Noだったということを根拠に会話公準説を叩いている。
　さらに、一部の対象者の事後インタビューに基づいてふたつの対抗説明を攻撃。なにもそこまでやんなくても... と思ったけど、これ、面白いから小理屈こねて無理に載せたんじゃないですかね。被験者はことごとく「最初の部屋の質問には全然影響されてない。だってあれ架空の話じゃん、ケーキが身体に良いわきゃないよ」と答えた由である。ははは。

　えーと、本研究の理論的貢献は、まず心的汚染理論を(記憶課題じゃなくて)選択課題で再現した点。さらに、精緻化がバイアスの訂正を引き起こさず、むしろ汚染を促進してしまうことを示した点。実務的貢献は、第一に、架空質問によるpush-pollingのテクニックがほんとに効くことを示した点。熟慮してもバイアスを取り除けない。第二に、リサーチ手法としての問題点。フォーカス・グループ・インタビューではよく架空質問を使うし、意思決定の促進のために類推やストーリーなんかを使うことも多いが、ああいうのも皆まずいかもしれない。云々。

　消費者行動研究の皮をかぶったバリッバリの心理学の研究で、いささか疲れました。こういうの、できればあまり読みたくないんだけどな。
　架空質問を対象者の行動変容のテクニックとして使う例が増えている、というところで、Bowers(1996), NY Times(2000), Sabato & Simpson(1996)、というのを挙げている。順に、Marketing Newsの記事、96年のテキサス州知事選でブッシュの側近カール・ローブがそういうテクニックを使っていたという記事、政治学者が書いた一般向けノンフィクション、らしい。

読了: Fitzsimons & Shiv (2001) 「仮に××だとしたら？」的質問による心的汚染

2013年8月25日 (日)

Zwane, A.P., et al. (2011) Being surveyed can change later behavior and related parameter estimates. PNAS, 108(5), 1821-1826.
　質問-行動リンクのフィールド実験研究。14名の共著で、所属先は経済学系と公衆衛生系の名前が多い。第一著者の所属はゲイツ財団で、面食らったが、本文を読んでなるほどと納得。

　えーっと、冒頭の整理によれば、survey/interview がその後の行動に影響するという現象のうち、「質問-行動効果」(単純測定効果, 自己充足的予言)は、未来の行動の意図ないし見込みについて質問することがその後の行動を変えることを指す。「ホーソン効果」は、実験場面での処置・観察に対する反応の結果として行動が変わること。良く似た概念として、設問文の操作で対象者の行動に影響を与えようという企み(push polling)がある。なるほど。

　でもって、実験は5つ。すべて開発途上地域のフィールド実験で、サンプリングや実査やら、どれもこれもすごく大変そう(すべて訪問調査らしい)。実験2-4の従属変数は自己報告ではなく、企業側の契約データである。

　実験1. ケニアには家庭の飲み水を塩素消毒するWaterGuardというサービスがあるそうだ。料金は月0.3ドルで、農業の日給の1/4くらい。さて、ケニアの330世帯を抽出。ランダムに2群にわけ、一方は隔週・全18回の調査対象とし、他方は半年ごと・全3回の調査対象とする。対象者には測定器を渡して、飲み水に塩素が入っているか測ってもらう。対象者はその結果から我が家のWaterGuardの使用有無がわかるのだということを知っている。だからこの状況は、単なるsurvey effectを引き起こす状況であるだけでなく、特にホーソン効果を引き起こす状況であるわけだ。
　結果: 隔週群のほうが、報告された子どもの下痢の発生率(発生回数かな? よくわからない) が少なく、塩素が含まれている率(量かな?)が高い。これはまあホーソン効果だと解釈できるけど、興味深いのはここから。子どもの下痢を従属変数にし、独立変数に調査頻度と水質管理(別の事情で操作している)をいれると、調査頻度と水質の交互作用が有意になる。つまり、調査頻度によって水質の効果の推定値が変わってしまうわけだ。おー、なるほど、これは深刻な話かも。

　実験2. フィリピンの地域銀行の入院・自動車保険加入者を対象者にする。ランダムに2群にわけ、一方の群に調査を行う。すごく長い調査票のなかに、6問だけ保険関連の項目がある。保険購入の意向は聴いていない。銀行については触れないし(そんなことが可能なのか。銀行のリストをつかっているのに)、あとで営業があることに触れない。なお、もともとこれは保険加入者の価格感受性についての調査だったので、掛け金があらかじめ実験的にランダム割り当てされている(??? なんだそれは？)。従属変数はその後の保険金請求。
　結果: 掛け金の効果のみ有意。調査の有無は効かない。

　実験3. 同じくフィリピンで、実験2と同じ銀行と組んで、同じような実験。ただし、今度は保険商品が異なり、また掛け金の操作がない。
　結果: 今度は調査の有無が効く(調査された群は保険金を請求しやすい)。実験2とプールしても有意。

　実験4: モロッコの地方部で、ある大手マイクロファイナンス組織が提供するローン商品のtake-upに注目する(恥ずかしながらよく理解できない。融資を申し込むことだろうか)。対象者をランダムに2群に分け、一方の群に調査を行う。すごく長い調査票で、うち15%くらいがクレジットの話。なかにちょっと意向を聞いている項目もある。
　結果: 調査の有無の効果なし。

　実験5: インドの地方部で、あるマイクロファイナンスの契約更新に注目。対象者をランダムに2群に分け、一方の群に調査を行う。すごく長い調査票のうち一部がクレジットの話。意向や見込みは聞かない。
　結果: 調査の有無の効果なし。

　というわけで、調査はその後の行動を変容させる可能性があるから、リサーチャーはベースライン調査をやることのバイアスとメリットを秤にかける必要がある、という実務的指摘のが最大のポイント。
　とはいえ、ちゃんと心的基盤にも言及があって... 単純測定効果や自己充足的予言の研究では、注目している行動への事前の態度や経験が調査の効果のモデレータになると指摘されている(と、ここでMorwitz, Johnson, Shmittlein, 1993, JCR; Levav & Fitzsimons, 2006, Psy.Sci.を引用)。いっぽう本研究では、実験1ではそういうのはみつからなかったけど、これの実験では、調査の反復実施がWaterGuide使用のリマインダになったのだろう。いっぽう残りの実験はもっと「システム I 」な感じで、うち実験2-3は概して無関心・無経験、実験5は関心・経験ともありだったから、そのせいで有意差が出たり出なかったりしたんじゃないか。云々。

　おそらくは他の目的のために走ったフィールド実験の副産物をつなぎ合わせた研究であるから、きれいな結果ではないのだが(実験2では有意差ないのに、実験3とプールして語るという強引さ)、とても面白かった。頭が下がります。
　先行研究概観や考察のところも、ちょっと気がつかない視点があって、勉強になった。恥ずかしながら、質問-行動リンクとホーソン効果を結びつけて考えたことはなかった。
　最後にいろいろ疑問を投げかけっぱなしで終わっている論文なのだが、調査の効果の関連領域(プライミングとか説得とか)として、Chartrand et al.(2008, JCR), Sela & Shiv (2009, JCR), Bertrand, et al.(2010, Q.J.Econ.)が挙げられている。順に、目標、プライミング、広告の話らしい。また、目標形成に関してBargh et al.(2001, JPSP), Webb & Sheeran (2006, Psy.Bull.), バイアスの統計的除去についてMcFadden et al.(2005, Mark. Lett.), Chandon et al.(2005, J.Mark.)をみよとのこと。最初の2件はたぶん実行意図の話、最後のは単純測定効果の話だが、3番目のはなんだかわからない。やれやれ、意外に大きな話だなあ。

読了: Zwane et al.(2011) 公衆衛生に対する水質管理の効果が、調査のせいでわからなくなった

2013年8月24日 (土)

Levav, J., & Fitzsimons, G.J. (2006) When questions change behavior: The role of ease of representation. Psycholocigal Science. 17(3), 207-213.
　いわゆる質問-行動リンクについての実験研究。仕事の都合で読んだ。
　ある行動の意図を聴取したせいで、その後でその行動が生じやすくなることがある。たとえば自動車の購入意向を聴取すると、被験者はそのせいで自動車を購入しやすくなっちゃう、とか。これを単純測定効果(mere-measurement effect)という。指摘自体は前からあるが(Sherman, 1980, JPSPというのが早い)、この名前を付けたのはMorwitz, et al.(1993, J. Consumer Res.)である由。
　単純測定効果はプライミングで説明されることがあるのだけど、それにしては効き目が長すぎる。Shermanは、意図聴取のせいで被験者が「行動前認知作業」を行ってしまうせいだと説明したが、その作業がなにかは特定していない。
　で、著者らの説明は以下の通り。それは(Kahneman&Tverskyいうところの)シミュレーション・ヒューリスティクスの使用である。つまり、行動の意向を聴取すると、被験者はその行動を心的に表象する。そのせいで被験者はその行動を実際に行いやすくなる。さらに、被験者はその行動の表象しやすさを、被験者はその行動の起こりやすさ(likelihood)として解釈する。つまり、行動を表象しやすいとき、行動は起こりやすいと感じられ、かつ単純測定効果は高くなるであろう。

　というわけで、実験1。ターゲットとする行動は歯のフロッシング。学生を3条件に割り当てる。

自己意図条件。むこう2週間のあいだに歯のフロッシングをする見込みを聴取。
他者意図条件。むこう2週間のあいだにクラスメートの誰かがフロッシングをする見込みを聴取。
統制条件。むこう２週間のあいだに趣味として読書する見込みを聴取。

2週間後、歯のフロッシングを何回やったかどうかを聴取。被験者間1要因3水準のデザインだ。
　結果: フロッシングをした回数は自己意図条件で多かった。単純測定効果は、(心的に表象しにくい)他者の行動の見込みの聴取では生じない。

　実験2。ターゲットとする行動は高カロリー食品の摂食。学生を4条件に割り当てる。

意図条件。むこう1週間のあいだに高カロリー食品を「食べる」見込みを聴取。
否定条件。むこう1週間のあいだに高カロリー食品を「食べない」見込みを聴取。
回避条件。むこう1週間のあいだに高カロリー食品を「避ける」見込みを聴取。
統制条件。むこう1週間のあいだにオレンジジュースを飲む見込みを聴取。

回答直後に実験室に連れて行き、「味覚テスト」を行う。低カロリーな餅菓子とチョコチップ・クッキーがあって、どちらを食べても良い。はっはっは。被験者が試料を自由に選べる味覚テストなんてありえないわけで、学生さんはこれが陰謀だと気が付くべきですね。
　結果：チョコチップクッキー選択率は、順に65%, 68%, 38%, 92%。つまり、「避ける」見込みの聴取は行動を抑制するが、「食べない」見込みの聴取は行動を促進する。「食べる」であろうが「食べない」であろうが心的にはいったん「食べる」を表象するからだ、とのこと(ここでJohnson-Lairdを引用。ああ古き良き認知心理学)。別の実験で反応時間を取ってサポートしてるけど、省略。

　実験1と2では、条件間で行動の表象しやすさがちがうだけでなく、表象の中身も変わってしまっている。表象しやすさだけを操作してみよう、というわけで実験3。
　著者らいわく、定期的な行動について、それが定期的な頻度で生じる見込みを評価するのは、それが非定期的な頻度で生じる見込みの評価よりも楽だろう。たとえば、「ふつう一日一回行う行動」が「週に7回生じるかどうか」を評価するのはたやすいが、「週に8回生じるかどうか」を評価するためには、それを一日二回以上行う日があるかしらん、と考える必要がある。いっぽう非定期的な行動についてはこのような差は生じないだろう。というわけで、今度は二要因。

聴取する行動: {定期的行動(歯のフロッシング) / 非定期的行動(読書)}。
設問における頻度のフレーム: {定期的フレーム(「むこう1週間のあいだに7回行いますか、それとも21回行いますか」) / 非定期的フレーム(「2回行いますか、それとも8回行いますか」)}。

どちらも被験者間で操作する。一週間後に歯のフロッシングと読書の両方について実際の回数を聴取。従属変数が2つあって、たとえばフロッシング回数の分析では読書についての聴取が統制条件になるわけだ。
　結果: 読書のほうは、聴取する行動の主効果が有意。単純測定効果は聴取フレームと関係なく出現する。しかしフロッシング回数では交互作用が有意。単純測定効果は、フロッシング回数を定期的フレームで聴取したときのみ出現する。これは単なる態度のアクセス容易性だけでは説明できない。

　というわけで、行動の見込みについて聴取したとき、心的シミュレーションがしやすいと行動が生じやすくなる、という論文なのだが、その途中のメカニズムについてはわからない。著者らが挙げている説明案は、Gollwitzerいうところの実行意図 (implementation intentsions) が形成されやすくなるから説と、アクセス容易性が高くなるから説。

　本題とは関係ないが、ちょっと気になっていることがあって...
　行動の意図 (intent) と行動の見込み (likelihood) は、少なくとも聴取法の文脈では区別したほうが良いものだと思う。実際、消費者調査による購買予測の文脈では、今後の購買の主観的見込み(買いそうな程度)を11件法で聴取する方法(Juster scale)の妥当性が高いといわれているが、これをいわゆる購入意向評定(買いたい程度)にするとうまくいかない、という話をどこかで耳にしたような気がする。
　しかしこの論文では、本文中では「行動のintentを聴取する」といっているのに、実験手続き上ではlikelihoodを聴取している。これ、ごっちゃにしていいものなのだろうか。確かに他のところでも、行動のintentをsubjective likelihoodとして定義しているのを見かけたことがあるので(Fishbein&Ajzenだったかしらん)、あまり気にしなくていいのかもしれないけど。。。

読了: Levav & Fitzsimons, G.J. (2006) 食べる見込みを尋ねても食べない見込みを尋ねても調査参加者はチョコチップクッキーを食べるようになる

2013年7月 1日 (月)

Arce-Ferrer, A. (2006) An investigation into the factors influencing extreme-response style. Educatonial and Psychological Measurement, 66, 374-392.

　質問紙調査における回答スタイルについての実験研究。問題意識は文化差にあるようだが、研究自体は国際比較ではない。先日用事があって回答スタイルの論文を読みまくった際、途中までめくって放置していた。気持ち悪いので読み直した。
　X件法尺度項目において項目内容と無関係に両端につけてしまう傾向(extreme response style, ERS)の文化差に注目。先行研究はいっぱいあるけど、著者いわく、それらには3つの問題点がある。

ERSの測定が、研究者が勝手に聴取した調査項目への回答の二次分析によってなされている事が多い。「ERSを測るための尺度」を使え。
そもそも項目が翻訳されている段階で等価でない。
なぜある文化においてERSが高いのか、という説明が足りない。

というわけで、次のような調査票をつくる。

Greenleaf(1992, POQ)のERS尺度(16項目)。2バージョンつくる。
- one-stage version。オリジナル(6件法)とは異なり、両端に"totally agree", "totally disagree"と書いてある目盛のない直線上に、自分の態度の位置をマークさせる。
- two-stage version。項目ごとに次の2つを聴く。(1)agreeかdisagreeか。(2)それはどのくらいの強さか。両端に"totally agree", "totally disagree"と書いてある目盛のない直線を、中心でちょっと折り曲げてV字型にしたような図形をみせて、その上にマークさせる。なんでこんな変なことを思いついたんだろうか。
"totally agree"- "totally disagree"の直線上に5個の点を打っておき、そこのラベルを自由記述。評定カテゴリの主観的な位置を調べることができるという趣旨である。ほんまかいな。Smith, et al., 2003(Edu.Psy.Measurement)の手法である由。

調査対象者はメキシコの都市部と農村部の高校生。農村の高校生は調査に慣れていない由。要因は地域(都市/農村)とバージョン、ともに被験者間要因である。
　直線の両端あたりにマークした回答をextreme responseと定義し、その割合をERS傾向とする。自由記述は、学生さんが必死に作業し、"moderately agree", "slightly agree", "neither agree nor disagree", "slightly disagree", "moderately disagree"の5カテゴリに分類する。対象者が書いたラベルが上記5カテゴリにぴったり一致したら5点、全然ずれてたら0点になる。

　で、結果は:

農村部のほうがERS傾向が高い。バージョン間の差や、地域とバージョンの交互作用はない。(この知見の意義がわからず困惑したのだが、Albaum & Murphy (1988, Psych. Report)への反証になっているのだそうだ)
16項目に対する回答行列をMDSにかけて項目を3分類する。各クラスタの項目は、acceptanceとsuccess(「大学教育は現代社会での成功においてとても大事だ」とか)、face threatening sounds(「広告は私の知性を侮辱している」)、face building sounds(「わたしはたいていいつでもよく働いている」)をあらわしている由。で、ERSはひとつめのクラスタで特に高く、かつどのクラスタでも農村部で高かった由。(話の先が読めない... 著者は読み手をどこに連れて行こうとしているのか...)
自由記述の採点が高いと(つまり、直線に対する回答者の主観的カテゴリが分析者が想定しているカテゴリに近いと)、ERSは低くなる。

考察: スペイン語圏でERSが高いといわれているが、それは集団主義的な文化のせいでコミュニケーションの文脈依存性が高いからではないか、だからface threatening sounds, face building soundsクラスタの項目では対象者はノンバーバルな手掛かりをふくめた文脈再現を行う必要があったのではないか。(そのせいでERSが低めだった、という理屈だろうか？よくわからない)

　一字一句きちんと読んだわけではないので、あまり大声で言うことじゃないと思うけど、ぜ・ん・ぜ・ん納得できない論文であった。この実験からわかることは、要するに、調査慣れしてない人は両端につけやすいみたいね、ということに尽きるのではないか。なんでスペイン語圏のERSの高さの話や、集団主義的/個人主義的文化とか文脈依存性とかの話につなげることができるのか、さっぱり理解できない。
　既存の回答スタイル尺度を事後的に分析し、項目内容と回答スタイルの関係について考察するロジックもよくわからない。そもそもERSはその定義からいって「項目内容と無関係に極端な反応をするスタイル」のことではないのか。
　調べてみると、著者は現 Pearson Education におつとめの測定の専門家らしいから、何か私の側に問題があるのかもしれないけど... まあどうでもいいや、次にいこう、次に！

読了： Arce-Ferrer (2006) メキシコの調査回答スタイルの地域差

2013年6月15日 (土)

Popper, R., Rosenstock, W., Schraidt, M., Kroll, B.J. (2004) The effect of attribute questions on overall liking ratings. Food Quality and Preference, 15, 853-858.
　別にいま読む必要はないんだけど、ちょっとした空き時間に、未読の山のなかから適当に抜き出して読んだ論文。著者はシカゴのPeryam&Krollという調査会社の人とクラフト・フーズの人。調査会社の名前をwebで調べたら、前の勤務先でguruと呼ばれていた偉い人たちがそっくりここに転職していた。なんだかなあ、もう。

　食品の消費者テストでは、テスト製品についての全体的な好き嫌いを聴取するほかに、あれこれと属性評価を尋ねることが多いが (「歯ごたえはどうですか」とかなんとか)、当然ながらそのせいで、全体好意度の回答はバイアスを受ける可能性がある。全体好意度を先に聴いたとしても、複数製品について聴取したら、２製品目からはやはりバイアスを受けるかもしれない。どんだけバイアスを受けるかを属性評価の項目形式別に調べました。という実験研究。いやあ、久々にこういうシンプルな論文を読むと、楽しいなあ。胸に一陣の風が吹き抜けるようだ。

　調査項目として以下を用意する。

全体好意度。好き-嫌いの9件法。
属性好意度。外見、香り、consistency(なんて訳せばいいんだろう)の3項目について、好き-嫌いの9件法。
属性強弱度。甘さとか香りとかの9項目について、強い-弱いの9件法。
属性のJAR(just-about-right)評価。強弱度と同じ9項目について、強すぎる-ちょうどよい-弱すぎるの5件法。

　実験はお菓子4製品の会場調査。対象者に4製品を提示し(順序はカウンターバランス)、調査票に答えてもらう。対象者832名を5群に分ける。各群の調査票は、

全体好意度しか聴かない。
全体好意度→属性好意度の順に聴取。
全体好意度→属性強弱度の順に聴取。
全体好意度→属性JARの順に聴取。
全体好意度→属性好意度→属性JARの順に聴取。

　分析するのは全体好意度。製品(被験者内4水準) x 調査票(被験者間5水準)の2要因計画である。多重比較をいまどきDuncan法でやっている... よく査読を通ったものだ。

　結果は... 製品と調査票に交互作用がある、でも最初に提示した製品に絞ると交互作用が消える。つまり、2回目以降に提示した製品では、調査票によって全体好意度の製品間差が変わる。綺麗な結果が出てよかったですね。
　製品別にみると、全体好意度しか聞かない条件(1)では全体好意度が首位であった製品が、属性の強弱度も聴く条件(3)でも首位のままなのに、属性をJARで聴取する条件(4,5)では3位に転落してしまう。属性について尋ねたことそれ自体より、その尋ね方が、その後の全体好意度評価に影響するわけだ。著者いわく、JAR設問は対象者に「なぜ自分はこの製品が好き/嫌いなのか」と考えさせてしまうのではないか、とのこと(と、ここで著者はWilson&SchoolerのJPSPの論文を引き合いに出す。そうきたか、プロだなあ)。

　フガフガと楽しく読み終えた。もっとも、所詮はワンショットの実験研究だし、項目内容と製品によって話がちがってくるだろうから、あんまり知見を一般化しちゃうのもどうかと思う。未読だけど、JAR項目の聴取はそのあとの全体好意度聴取に影響しないという報告もあるようだし (Gacula, et al., 2008, J. Sensory Stud.)。
　これ、きっとあれですね、製品開発のためにありふれた消費者テストを実施する際に、今回は予算が取れて、サンプルサイズも大きいし、なんか面白いことできませんかね... とメーカーの調査部と調査会社が語らって、ちょっとした仕掛けを仕込んでおいた、という研究であろう。こういうことができる現場は風通しがよさそうだ。

読了: Popper, et al. (2004) あれこれ尋ねると好き嫌いは変わるか

2013年2月 8日 (金)

Chen, C., Lee, S., Stevenson, H.W. (1995) Response style and cross-cultural comparisons of rating scales among East Asian and North American student. Psychological Science, 6(3), 170-175.
　たまたま市場調査の関連の仕事をさせていただいていると、まあ経済のグローバル化にあわせて消費者調査もそれなりにグローバル化してるわけで、国際比較の話になることも少なくない。調査結果を比較する際の難題のひとつは、いわゆる回答スタイルの問題である。たとえば、リッカート風のX件法尺度項目に対して「中国の人ってなんでも両端につけちゃうのよ」というのはよく聞く話で、私も何回かそういう調査をみたことがあるから、あながちウソじゃないような気がする。
　そういう文化差って、アカデミックな研究はないんですか、と聞かれたことも数回あって、そのたびに紹介していたのがこの論文であった。前に読んでたけど、このたび都合により再読。
　仙台、台北、エドモントン、カルガリ、ミネアポリス、フェアファクス(バージニア州)の高校生に、39項目の7件法尺度項目について回答してもらう。で、各回答者が中央につけた項目数、両端につけた項目数をカウントする。日本と台湾の回答者は、項目の内容にかかわらず、中央につける傾向がありました。云々。

　前に読んだ時もちょっと面食らったのだが、この論文、終盤でちょっと不思議な展開を辿るのである。いわく... 回答スタイルの文化差のせいで、リッカート尺度項目の文化間比較はできなくなってしまうのか？そこで、7件法の1,2,3段階目と5,6,7段階目をまとめて3件法につぶし、さらに4段階目を抜いて2件法につぶしてみたところ、7件法のときと比べて、国の間で有意差がある項目の数はほとんど減らなかった(US-カナダ間では減るが、北米-東アジア間では減らない)。つまり、回答スタイルに文化間の差はあるが、北米と東アジアの間の調査結果のちがいは、回答スタイルのせいだけで生じているのではない。云々。
　要するに、回答スタイルの文化差ってあるね、という論文が、終盤に至って、でも東アジアと北米の間の文化差は回答スタイルのせいじゃないよ、という話になるのだ。なんだか奇妙な展開だ。回答スタイルの文化差を定量化するという話は、少なくとも原理的には、調査項目の内容とは無関係な議論だ(この調査で使ったのと全然ちがう項目を使って調べていてもよかったはずの話題だ)。いっぽう、回答スタイルを除去したあとでなお文化差が残るかという話は、調査項目の内容に依存する実質的な議論だ(この調査で使った項目が聴取している、まさにその領域についての議論だ)。なぜ急に話がそれるのか？
　おそらく、これは私がこの研究がおかれた文脈をよく理解できていないからだと思う。よく知らないけど、現時点では、東洋と西洋のあいだでの認識の違いを実証的に主張しようとしたら、Holyoak流の実験研究がもはや必須であり、横断調査に頼っているようでは相手にしてもらえないのではないかと思う。しかし、想像するにこの論文の時点では、「認識の文化差が質問紙調査でわかるか」という問題設定がまだ生きていたのではなかろうか。その土俵のうえで「文化差はありますよ、調査でわかりますよ」と主張する立場の人にとっては、回答スタイルの文化差が調査結果にもたらす影響を認めつつも、なお実質的な文化差の存在を示すことが、きっと必要だったのだろう... などと、勝手に納得したりして...

読了：Chen, et al. (1995) 回答スタイルの文化差(北米 vs 東アジア)

2012年10月26日 (金)

Matell, M.S. & Jacoby, J. (1972) Is there an optimal number of alternatives for Likert-scale item? Journal of Applied Psychology, 56(6), 506-509.
　しばらく前、Likert尺度の段階数の話が自分の中でちょっとブームになったときに、入手したい資料リストにいれて、そのまま忘れていた奴だと思う。これも別にいま読まなくていいんだけど、たった4pなので、整理の都合により読了。
　同一のLikert尺度項目群(40項目)について、尺度の段階数を2から19まで被験者間で動かし、回答がどう変わるか調べました、という実験。ほんとにそれだけ(信頼性や妥当性の検討は別の論文にしている模様)。のんびりしていて楽しい。
　回答者が全段階を使った割合は、2件法と3件法ではさすがに高いが、4件法より増えるともう変わらない。中央に回答する割合は、段階数が増えると減る。回答時間は、13,16,18,19件法で長く、あとはたいして変わらない。ふーん。
　関係ないけど、Green & Rao(1970, J. Mktg)という研究は、(MDS的な意味での)情報復元という観点からは6件法か7件法がいいと言っているのだそうだ。ふーん。

読了：Matell & Jacoby (1972) k件法尺度項目の最適な k は？

2012年10月25日 (木)

Goldstein, W.M. & Beattie, J. (1991) Judgments of relative importance in decision making: The importance of interpretation and the interpretation of importance. In Brown & Smith (eds.) Frontiers in mathematical psychology. pp.110-137.
　どうしても手に入れられなかったので、著者のGoldstein先生にお願いしてご恵送いただきました。心から感謝。

　前半は、属性の重要性という概念についての整理。いわく...重要性研究には2つの意義がある。

トレードオフ状況下でのある人の決定を、その人の重要性判断によって予測することができたら、コミュニケーション上便利だから。
重要性判断というメタ認知はそれ自体に理論的な関心が持たれるから。

どちらにしても、人々が重要性判断において重要性というものをどう解釈しているかを知る必要がある。そもそも統計学においてさえ、重要性という概念は曖昧ではないか。
　判断や決定における「重要性」とは、ある複雑な全体(例, 選択肢)に対してその部分(例, 属性)が持っている関係性を指している。「重要性」には3つの解釈が入り混じっている:

relative sensitivity. すなわち、属性の水準の変化に対する判断・選択の反応性という解釈。
relative impact. すなわち、判断・選択の要約としての解釈。
psychological representations and processes. すなわち、刺激と反応の間に介在する心的プロセスの特徴としての解釈。

まずはrelative sensitivityについて。線形モデルの係数、限界代替率、辞書編纂型決定ルールにおける属性の順序、その他なんらかのparamorphicなモデルにおける係数がこれに入る。問題は、ふつう属性間では測定単位が違うのでsensitivityを比較できないという点だ。各属性に対する主観的重要性判断だって、いっけん直接比較できるようにみえるけれども、実は異なる属性の増加の間のなんらかの直観的な精神物理学的マッチングに基づいているかもしれない(「価格より機能が重要」という判断でさえ、機能のこのくらいの変化が価格のこのくらいの変化に対応するという暗黙的マッチングに基づいているかもしれない... ということだと思う)。
　relative impactについて。たとえば，ある属性による分散の説明率はrelative impactだ(その属性のsensitivityだけでなく、その属性の変動についての要約にもなっている)。ところが、ここで著者らはちょっと不思議なことをいいだす。

すでに述べたように，分散の分解はrelative impactという相対的重要性概念の典型例である。その理由はおそらく，その属性の水準が違っていたら決定がどう変わっていたか(relative sensitivity)という関心が，その属性の水準が分散していたせいでどれだけの変化が起きていたか，という問いへとつながるからであろう。しかし，impactの指標を提供するために分解できるのは，判断の変動性だけではない。異なる属性が直接的に比較可能な場合，もうひとつの方法として筋が通っているのは，相対的重要性を，その選択肢の全体的望ましさに対するそれぞれの属性の相対的貢献という観点から捉えることだ。[...]
　relative impactを表す諸指標は、ある統一的な特徴を持っている。そのことは次の点に注意すればあきらかである。決定が、特定の刺激セットにおけるある属性の水準によって影響されていた程度を表す指標は、それがなんであれ本質的には、決定パターンを要約する記述統計量である。relative sensitivityという概念は、もし環境が変化したら決定がこうかわるだろう、という予測的思考に依拠している。いっぽう要約統計量は、すでに生じてしまった決定に焦点を当てている。[...]

訳出してみてようやく得心した。著者らは、重要性指標が属性の値の分布情報に影響されているかどうかだけに注目しており(影響されていたらそれはrelative impact)、影響を与えている分布情報が代表値か散布度かはどうでもよいのだ。その結果relative impactは、Achenのいうlevel importanceとdispersion importanceの両方を含む概念になっている。これは要するに、視点の違いだなあ。統計学者Achenとちがい、心理学者である著者らにはこの二つをわざわざ区別する動機が乏しいのだろう。
　psychological representations and processes(長い...)について。属性の知覚的顕著性とか、その属性が強い感情的反応を誘発するかどうかとか、その属性が高レベルな目標なり複数の目標なりについての含意を持っているかどうかとか、そういうのがここにはいる。たとえば、TverskyのEBAモデルでは、aspectの選択確率はそのaspectがもともと持っている"weight"で決まる。あるいは、Trabasso & Sperry (1985,JML)の物語理解の研究では(うわあ...)、文章中の文の重要性判断はその文そのものというより物語全体の因果構造で決まる。こういう意味での重要性がprocess型の重要性である。決定の心的プロセスと関係しているにせよ、決定の結果とは全然関係ないかもしれない。

　後半は著者らの実験の紹介。実験1はGoldstein&Mitzel(1992,OBHDP), 実験2はBeattieさんの博論。
　実験1は、架空の研究室秘書さんがアパートを選ぶ場面で(属性は家賃とキャンパスからの距離)、彼女のデモグラ情報、重要性判断、選択肢集合(サンプル・セット)に対する選択結果を教示し、別の選択肢集合(タスク・セット)に対する彼女の選択を予測させるという課題。各選択肢集合は6つの選択肢からなる。どうやら、Goldstein(1990)でのwideセットをサンプル・セットに、narrowセットをタスク・セットに使っている模様。
　重要性判断は2属性へのポイント配分。選択は選択肢の順位づけ。要因は、重要性判断の教示(なし/「家賃70対距離30」/「30対70」)と選択結果の教示(なし/a/b)で、被験者内２要因(3x3)デザイン。理屈は書いてないが、選択結果教示 a は重要性配分「70対30」と、bは「30対70」とそれぞれ整合する由。
　順位づけ回答を6選択肢の総当たり戦(15ペア)と捉え、安いのが勝った回数を指標とする。結果は... 重要性判断教示も選択結果教示も回答に影響する(そりゃまあそうだろう)。両方教示すれば両方とも影響する。要するに、他者の選択についての推論において、他者の重要性判断の結果が利用されていますね、という話。
　実験2は、80個の短いシナリオを読ませる。それぞれのシナリオはトレードオフの関係にある2つの選択肢からの選択を求めている(例、明日がレポート提出日なのに結膜炎にかかっちゃいました。痛い思いをして提出しますか、進級をあきらめますか)。で、各属性(目の痛みと進級)の重要性を11件法で評価した後、決定がどのくらい難しいと思うか、決定にどのくらい時間がかかりそうか、正しい決定ができそうか、というメタ認知的判断を求める(決定は求めない)。変な課題を考えたものだ。
　その結果、属性間の重要性評定値の差が小さいときに、決定は難しく時間がかかり不確実だと感じられた。要するに、自分の決定についてのメタ認知において重要性判断が用いられていますね、という話。
　というわけで実験からの示唆は、重要性というものは、relative sensitivityやrelative impactのような刺激-反応関係の特徴としても解釈されているし、決定の心理的過程の特徴としても解釈されていますね、ということなのであった。

　実験はまあ横に置いておいて、前半の理論的整理のところがとても勉強になった。私はいま市場調査に関わっているから、ずっと選択・選好に対する重要性指標の基準関連的妥当性のことばかり考えていて、主観的重要性が決定の心的過程についての回答者のメタ認知を表しているという側面はノイズだと思っていたのだけれど、たしかにそうした側面も興味深いし、決定プロセスについての初期のメタ認知がその後の決定プロセスそのものに影響してしまう面もあるだろう。あんまりpsychologicalな話になると、だんだん嫌になってくるんだけど。

　気になったところをメモ:

主観的重要性と統計的重要性が一致しないという話のレビューとして、Slovic & Lichtenstein(1971, OBHP)が挙げられている。また一致するという方向の研究としてReilly & Doharty (1989, OBHDP), Suber(1985, OBHDP)というのが挙げられている。ふうん。
relative sensitivityの説明のくだりで著者らは、線形モデルの係数はここに含まれる、normalizeされていようがいまいが、と述べている。うーむ。標準化回帰係数は属性の水準の分布に影響されるから(分散が大きいときに小さくなる)、relative sensitivityではないような気がするんだけど...
著者らいわく、relative sensitivityとrelative impactが常に区別できるとは限らない。選択肢の空間がxとyの二次元上に張られていて、各選択肢のxとyが計測されていて、選択肢の望ましさをD(x,y) = exp(x)+exp(y)で決まるとする。xのrelative impactを exp(x)/(exp(x)+exp(y)) としよう。xのrelative sensitivityは\partial D(x,y)/\partial x とすると、合計が1になるように規準化すれば結局これも exp(x)/(exp(x)+exp(y))になる。そりゃまあ、そうですね。

読了：Goldstein & Beattie (1991) 重要性の解釈の重要性

2012年10月24日 (水)

Mullins, G.W., Spetich, B.L.S. (1987) Importance-perfformance analysis. Visitor Behavior. 2(3), 3-12.
　いわゆる重要性-パフォーマンス分析(製品なりサービスなりの諸属性について、評価と重要性を2軸に取った散布図のこと) の紹介記事。たった2p。たまたま見つけたので目を通した。
　結構いい加減な解説で、パフォーマンス軸のことをhow well the programs (=属性のこと) performs と説明したり、satisfied-unsatisfiedと説明したりしている。それとこれとは違うでしょうに。

読了：Mullins & Spetich (1987) 重要性-パフォーマンス分析のご紹介

Myers, J.H., Alpert, M.I. (1977) Semantic Confusion in Attitude Research: Salience Vs. Importance Vs. Determinance, Advances in Consumer Research, 4, 106-110.
　Van Ittersumらの重要性指標研究レビューで、ある属性が重要であるという概念がsalience,relevance,determinanceに分類されていたが、その典拠として引用されていた論文(ただし、relevanceはここではimportanceと呼ばれている)。これ、カンファレンスのproceedingsらしく、webに全文がHTMLで掲載されていた。ざっと目を通したのだが、画面上ではやっぱり読みづらい。

気になったところをメモ。3つの概念の定義の歴史について。

salienceの最初期の定義は、 Krech & Crutchfield (1948)の社会心理学の教科書。Fishbein(1971)にも登場する。操作的には、自由想起の順序のこと。
importanceは、もともとあいまいな概念。通常は直接評定で調べる(って書いてある...)。Fishbein/Rosenberg流の多属性態度モデルを修正し、この重要度指標を適用しよう、という試みが多い(Wilkie & Pessemier, 1973, JMR というのが引用してある)。
determinanceは著者らがMyers&Alpert(1968)で定義した概念。

Alpert(1971, JMR)はdeterminanceをこう定義しているのだそうだ。ある属性について、
(determinance) = (stated importance) x (perceived differences among products)
概念の定義に"stated"という操作的な特徴づけが含まれているところが気持ち悪いけど、言いたいことはよくわかる。上のdifferencesというのは、ある閾値を超えた差異が存在するかどうかとして解する見方(thresholdモデル)と、分散そのものだと解する見方(parametric model)がある由だが、後者はまさにAchenのいうdispersion importanceだ。

　論文後半は手法間比較研究のレビュー。昔の話なのであまり関心が持てず、流し読み。どうでもいい感想だけど、この頃にUSで態度調査の手法開発をしていた人は(Johnsonさんとか)、きっと楽しかっただろうなあ。フロンティアという感じで。

読了：Myers & Alpert (1977) 重要性という概念の曖昧さ

2012年10月23日 (火)

Van Ittersum, K., Pennings, J.M.E., Wansink, B., vanTrijp, H.C.M. (2007) The validity of attribute-importance measurement: A review. Journal of Business Research, 60, 1177-1190.
　製品なりサービスなりの属性についての重要性測定の妥当性研究のレビュー。数年前から仕事の合間に読み漁っている話題そのもの、4年前には自分でわざわざデータ取って学会発表までした話題そのもの、なのだが... いっちゃなんだけど、レビュー論文なのにgoogle scholar上の引用元件数がたった30件。どういうことなのか。さらに不思議なのは、重要性概念の多義性は統計学の分野でも話題になっているし(Kruskalとか)、心理学者の実証研究もあるのに(Goldsteinとか)、この論文は全然触れていない。好意的にみると、重要性とはそれだけ幅広い話題だ、ということなんだろうけど...

　まず妥当性研究のレビュー。13本の実証研究を、収束的妥当性と法則定立的(nomological)妥当性に分けて整理。著者らは重要性測定が直接的評定か統計的推定かという観点からは分けていないので、コンジョイント課題から得た部分効用に対する主観的重要性の予測的妥当性の研究(Jaccard et al.(1986, JCR)とか)は、ここでは収束的妥当性に分類されている。どうやら、単純な選択や選好評定に対する予測的妥当性研究がnomologicalと分類されている模様。

　で，著者らいわく... これまで指摘されてきた重要性測定の妥当性の低さは、そもそも重要性概念が多次元的だったから生じていたのだ。Myers&Alpert(1968,JMR)に従えば、属性の重要性の次元には以下の3つがある。

salience。対象について考える際、当該属性が心に浮かびやすいか。
relevance。その人の価値・信念に照らしての、当該属性の重要性。
determinance。そのときどきの判断・選択における、当該属性の重要性。

ここで，属性についての情報はrelevanceとdeterminanceに影響する。属性の水準についての情報はdeterminanceにのみ影響する。また，relevance→salience, relevance→determinance, determinance→salienceという影響がある。
　さて、重要性測定の方法には10種類ある。そのうち，属性自由想起はsalience、｛重要性直接評定、ランキング、ポイント配分、AHP、情報呈示ボード｝はrelevance、｛多属性態度法、トレードオフ法、スウィング・ウェイト法、コンジョイント法｝はdeterminanceを測定しているのである。
　その証拠に，さっきレビューした妥当性研究を含め，同一属性の重要性を複数種類の方法で測定している論文を34本集め，それらによって可能である計91個の手法間相関を，上記3群の群間比較と群内比較に分けてみると，見よ，群間での相関は低く(弁別的妥当性がある)，群内では相関が高く(収束的妥当性がある)，従属変数との関係は群内では同程度ではないか！という主旨。
　実は上記に反する研究も結構多いんだけど(むしろそっちのリストのほうが長い)，個別に難癖をつけていく。いわく，

きっと情報処理のちがいのせいだ。ポイント配分は同時評価，直接評定は分離評価だ。具体的属性の重要性は同時評価で高くなりがち。そのせいで同一群内の手法間相関が下がる。
きっとフレーミングのせいだ。たとえば，属性の水準情報を含んだ課題のあとだと，たとえポイント配分であってもdeterminanceを表すであろう。こうして群間の手法間相関があがってしまう。

　示唆としては... 実務的には3つの重要性がすべて大事。将来の研究としては，MTMMアプローチでの検証や，検査再検査法での信頼性研究が必要だ。云々。

　うーん...
　先行研究レビューとしては大変な労作だなあ，と思う。さすがにプロの研究者たちだ。重要性概念が多義的であるせいで妥当性が低く見積もられている，という主張についても全く同感だ。重要性の3分類も納得できる。著者らのいうrelevanceとdeterminanceとは，Goldsteinがいうsensitivityとimpact, Achenがいうtheoretical importanceとlevel/dispersion importanceのことであろう。重要性測定手法の分類も大変勉強になった。
　その上で思うのだけれど... 属性情報や水準情報が明示されているかどうかどうかで手法を分類するというアイデアは，美しいけれども，現実の回答の心的過程に目をつぶっていることになるのではないか，と思う。実際，まさにいま手元にあるデータがそれを表しているのだけれど，水準情報を明示しない属性の重要性ランキング課題においてさえ，たとえば「ホントはおいしさが一番だけど，いまどきどの製品もおいしさは同程度だから，価格が一番重要です」というふうに回答する人が少なくないのである。水準情報を明示していない聴取方法であっても，回答者は市場における属性の分布(「おいしさの分散は小さい」)について勝手に考慮してしまうのだ。
　調査手法を分類しその性質を特徴づけようとするとき，その鍵になるのは，調査者側がどんな情報を明示しているかどうかではなく，回答者側が実際にどう考えて答えているか，でなければならないのではないかしらん。

　10種類の手法のうちいくつかについてメモしておくと:

情報呈示ボードは水準情報を呈示しているのでdeterminanceに入りそうなものだが，どのボードをめくるかは水準では決まらないので，relavanceに分類されている。Ford, et al. (1989, ODHBP)というのが引用されている。
多属性態度法というのはFishbeinのことではなくて，全体的態度と属性の評価を聴取し回帰で重要性を導出すること(ありがちですね)。
トレードオフ法とは，異なる製品の魅力が等しくなるように水準を調整させる課題。Keeney&Raiffa(1976, 書籍)というのが引用されている。市場調査でいえばBPTOみたいなものかしらん。
スウィング・ウェイト法とは，どの属性を改善したいかを順に聴取していく方法(Von Winterfeldt & Edwards, 1986, 書籍)。

最後のやつ，恥ずかしながら初めて聞いたが，本棚を調べたら，先日買ったJane Beattie追悼論文集で紹介されていた。本は買ってみるものだ。

読了：Van Ittersum (2007) 重要性測定の妥当性が低いのはなぜか

2012年9月25日 (火)

Goldstein, W.M., Barlas, S., Beattie, J. (2001) Talk about tradeoffs: Judgments of relative importance and contingent decision behavior. in Weber, E.U., et al.(eds.) "Conflict and tradeoffs in decision making." Campridge University Press.
　属性の相対的重要性判断についての自分たちの実験研究(2つ)を紹介。
　先に読んだGoldstein(1990)で，選好順序づけ課題や属性重要度評定課題と一緒に「他者の選択からその人の属性重要度を推定する」という奇妙な課題がスルッと登場していて，ちょっと違和感があった。そういう課題が必要だという論理的辻褄はあわせてあるんだけど，なんでそんな課題を思いついたのかが分からない，という感じ。いっぽうこの論文では，そもそも我々は「誰かに自分の代わりに選択してもらう」というような意思決定にまつわるコミュニケーションに関心があります，その手段としての重要性評定に注目しております，その基盤となる「相対的重要性」概念の素朴解釈について調べます，そのための手段として他者信念推測という課題を用います... というストーリーになっている。なるほど。

　著者らいわく，相対的重要性には次の２つのプロトタイプがある。ひとつはrelative sensitivityで，属性の水準の変化が望ましさに及ぼす影響のこと。たとえば限界代替率(MRS)がそうである。もうひとつはrelative impactで，刺激の望ましさにその属性が寄与している程度のこと。
　著者らは，相対的重要性評定がこのどちらに偏るかが選好の反応モードによって変わる，という仮説を持っている。具体的には，選好を順位づけで表すと選択肢間の比較が促進され，相対的重要性はsensitivity寄りになる。選好を価格で表すと選択肢の単一評価が促進され，相対的重要性はimpact寄りになる。。。んじゃないかしらん，という仮説である。

　実験材料は，ゲーム・ショーの賞品セット。フロリダのビーチ・リゾートへのご招待，現地で使えるクーポンつき。長さとクーポン金額が異なる。

セットA. {3,7,10,14}日間，{100, 200, 300, 400}ドルのクーポン計16通り
セットB. {3,7,10,14}日間，{600, 700, 800, 900}ドルのクーポン計16通り
セットC. {3,7,10,14}日間，{1100, 1200, 1300, 1400}ドルのクーポン計16通り

著者らの説明は次の通り。ここ，ちょっと微妙な論点を含んでいると思うので，訳出しておく。

たいていの人にとって，小さな金額を100ドル増額することによる望ましさの増大は，大きな金額から100ドル増額することによる望ましさの増大よりも大きい。従って，セットCの賞品の間での選好は，他のセットと比べて金額(の変化)に対するsensitivityが低くなるはずである。もし人々が相対的重要性をrelative sensitivityの観点から解釈しているのであれば，クーポン金額の相対的重要性はセットCで小さく，セットAで大きいと判断されるはずである。いっぽう，望ましさの変化ではなく，望ましさの全体的な大きさについて考えると，セットCの賞品は金額が大きいので，他のセットよりもより望ましい。つまり，セットCの金額は商品の望ましさの程度により貢献している(絶対的にみても，日数と比べても)。従って，もし人々が相対的重要性をrelative impactの観点からとらえていたら，金額の相対的重要性はセットCで大きく，セットAで小さいと判断されるはずである。

おおっと。これは先に読んだGoldstein(1990)の，相対的重要性のglobal解釈とlocal解釈の区別とは違う話だ。global/localというのは，相対的重要性が刺激セットに依存するかどうかという話であった。いっぽうここでいうsensitivity/impactというのは，刺激セットからの独立性を問わず，属性の単位当たり変化が選択肢にもたらす変化がsensitivityであり, 各選択肢の全体効用そのもの(変動ではない!!)に占める属性の部分効用がimpactなのだ。Achen(1982)による重要性概念の分類と比べると，sensitivityはtheoretical importance, impactはlevel importanceに相当するといえよう。

　しかしこの分類でいくと，Goldstein(1990)が採っていたもう一つの解釈も可能なのではないか。つまり，relative importanceは刺激セット内での選択肢の効用の分散に対する属性の寄与を表す，という解釈である(Achenのいうdispersion importance)。この場合でも，金額の相対的重要性はセットAで大きくなるはずだ。。。

　それはともかく，実験1の課題は以下の通り。

練習課題で刺激に慣れる。
課題a. 各セットについて，選好を回答し(後述)，2属性への相対的重要性を評定する(100ポイントのアロケーション)。
課題b. 架空の人物("Sue"さん)の選好を教示され(後述)，Sueの相対的重要性評定を推測する。

実験条件は，選好回答(教示)のモード。選択肢の順位づけ，ないし，最低売出価格の設定。被験者内で操作する。従って，課題a.は6試行，課題b. は2試行になる。なお，Sueさんは結構合理的な人で，選好順序と売り出し価格はほぼ加算的に決まっており，反応モードによる選好逆転なんぞはない。金額のrelative sensitivityはセットAで大きく，relative impactはセットCで大きくなるように組んである。
　主な結果は...

課題b.
- Sueの相対的重要性の評定は，セットの主効果，反応モードの主効果，交互作用，すべて有意。金額の重要性はセットAで大きい。選好順位教示でより小さく，また交互作用がある(選好順位教示のほうがセット間の差が大きい)。
- → 被験者はsensitivityを相対的重要性とみなしていること，反応モードの影響があること，が示された。しかし，反応モードについての仮説は部分的にしか支持されなかった。著者らとしては，最低売出価格教示では金額の重要性がむしろセットCで大きくなっていてほしかったわけだ。
- なお，課題順序の主効果も有意になってしまっており，三次の交互作用なんかも出ちゃっている。ごちゃごちゃ書いているけど(ちゃんと読んでないけど)，要するに，前の教示を引きずっちゃっている様子である。
課題a.
- 選好がどれだけ金額重視かを表す指標(以下「客観指標」)として，選択肢の属性と選好(順位づけないし最低売出価格設定)との試行内での順位相関を用いる。
- 金額の重要性の客観指標と評定との相関は概して高い(いろいろ細かい考察があったけど省略)。
- 客観指標の平均を調べると，順位づけ課題においては金額.47，日数.57。最低売出価格設定課題においては金額.40，日数.72。つまり，順位づけをさせるよりも値付けをさせるほうが，選好は「長いけど貧乏」な選択肢に偏る。
- いっぽう金額の相対的重要性評定のほうは，反応モードの主効果のみ有意で，最低売出価格設定課題のほうが金額の重要性が上がってしまう。つまり，順位づけをさせるよりも値付けをさせるほうが，日数より金が大事だと答えやすくなるわけだ。
- なお，課題b.と同じく，金額の相対的重要性評定をセットx反応モード間で調べるという分析もやっているんだけど，そもそも対象者の選好に異質性があるわけで，話が無闇にややこしいわりにはぱっとしないので，省略。

実験2では，材料は同じで，反応モードを被験者間で操作する。ついでに，Sueが答える最低売出価格を，上下にいろいろずらしている(被験者間4水準)。結果は...

課題b. 実験1を再現。最低売出価格教示における価格の高さは影響しなかった。
課題a. なんだかうまくいっていないみたいなので，省略。

考察：仮説は支持できなかったけど，ともかくも，選好を人に伝える際のモード(順位か値付けか)によって，そこから推論される相対的重要性が変わってくる，ということが示された。云々。

　個人的には，「他者の選好からその人にとっての相対的重要性を推論する」という話はどうでもよくて，むしろ，人は自分の選好を支えている構造について答えられるか？できるとしたらいつどうやって？という点に興味がある。著者らはこの点については中立的で，いろいろ議論してくださっているけど，要するに，さあ知らないね，とのことである。さいでございますか。
　この実験で一番面白い知見は，選択肢への選好を順位づけでなく価格設定で表明させると，選好そのものは選択肢の金額属性に対してinsensitiveになるのに，相対的重要性評定は金額属性重視側にずれる，という点だと思う。刺激反応適合性の観点からいえば，金額属性と価格設定課題は尺度的な適合性があるから，価格設定課題においては選好であれ重要性評定であれ金額属性sensitiveにならないとおかしい。この点についても，いろいろ考えたけどどうもよくわからんなあ，とのことであった。うむむむむ。
　というわけで，どうももやもやした内容であったのだが，ま，勉強になったので良しとしよう。

読了：Goldstein, Barlas, & Beattie (2001) 「彼女にとって愛とお金のどっちが大事か」を我々はどのように推測するか

2012年9月24日 (月)

Goldstein, W.M. (1990) Judgments of relative importance in decision making: Global and local interpretations of subjective weight. Organizational Behavior and Human Decision Process, 47, 313-336.
　相対的重要性の主観評定を求めた際、回答者は重要性という概念をどのように解釈しているか、という研究。数年前からこの種の研究を延々探しているんだけど、重要性の測定手法研究は多々あるものの、こういうのは案外みあたらないのである。この論文は、すっかり読んだ気になっていたが、チェックしたら実はまだ読んでなかったことが判明、慌てて目を通した。

　学生に架空の賃貸アパート物件のセットを呈示する。属性はたったのふたつ: 月額賃料とキャンパスからの距離。物件のセットは2つあって、wideセットでは「$500で5分」「$450で10分」...「$250で30分」の6つ、narrowセットでは「$400で5分」「$380で10分」...「$300で30分」の6つ。wideセットのほうが金額の幅がwideである。セット内では属性間に完全な負の相関がある(5分あたり、wideでは$50、narrowでは$20下がる)。
　各被験者は各セットについて3つの課題を行う(計6課題)。

課題A. 物件を好きな順に並べなさい。また、賃料と距離の相対的重要性を評定しなさい(-10から+10の21件法。賃料が大事だとプラス側)。
課題B. とある院生(架空)について、デモグラと相対的重要性の回答を教示する。この人が物件を好きな順に並べたらどうなるでしょうか。被験者間要因は、デモグラ情報(教示なし / 24歳男)、賃料の相対的重要性(教示なし / -7 / + 7)。教示全く無しのセルはなし、計5セルになる。
課題C. とある研究室秘書さん(架空)について、選好順序の回答を教示。この人の相対的重要度は？被験者間要因は選好順序(5水準)。

　主な結果は:

課題A: 相対的重要性評定はwideで平均+3.9, narrowで+1.6。つまり、知覚された相対的重要性は刺激セットによって変化し(著者のいう重要性のローカル解釈を支持)、刺激セットにおける変動が大きい属性が重要だと知覚される。選好順序を6選択肢の総当たり戦(15ペア)として数えると、安いのが勝った回数はwideセットで平均11.0回, narrowセットで8.3回。相対的重要性評定の個人内条件間差は、安いのが勝った回数の個人内条件間差と相関する(+.40だけど)。つまり、重要性知覚は実際の選好とも関連している。
課題B: デモグラ情報のみの場合は課題Aと似た傾向。残りの4セルについて、相対的重要性教示、デモグラ教示有無、刺激セットの3要因ANOVAをやると、相対的重要性教示の主効果のみ有意。つまり、当該刺激セットにおける他者の相対的重要性評定を教示しちゃうと、刺激セットの影響はなくなる。
課題C: 選好順序教示、刺激セットの2要因ANOVAで選好順序のみ有意。つまり、当該刺激セットにおける他者の選好順序を教示しちゃうと、刺激セットの影響はなくなる。

　で、考察。主観的重要性についての４つの立場を紹介し、この実験結果との整合性について論じる。

判断における属性の相対的重要性はその人の態度を表しているんだから、刺激セットによっては変わらないはず、という伝統的主張がある。Mellers&Binbaum(1982 JEP:HPP, 1983 JESP), Fischer, et al.(1987 Mgmt Sci.)など。これは課題Aの結果と整合しない。
心のなかに選好の重回帰モデルのようなものがあって(著者のいうparamorphicなモデル)、相対的重要性はそのパラメータを反映している、という見方もありうる。しかし、それなら課題セットの影響は受けないはずで、課題Aの結果と整合しない。
3つめの立場は、相対的重要性は限界代替率(MRS)だ、というもの。つまり、賃料を横、距離を縦を軸にとった2次元空間で、効用の等高線図(無差別曲線)を描いたとき、その曲面の傾きが急になっている軸の相対的重要性が高くなる、という説明。いっけん正しそうなんだけど、課題Cの結果と一致しない。なぜなら、各セットの6選択肢はこの空間上の線分で表現されており、narrowセットの線分のほうがより水平に近い。相対的重要性が同じなら、選好順序はwideセットのほうでより賃料重視になるはず。逆に言うと、選好順序が同じなら、narrowセットのほうがより賃料の相対的重要性が高くならないといけない。
著者が支持するのは、被験者はparamorphicなモデルに基づき、従属変数の変動に占める各属性の説明率を算出し、それを相対的重要性としている、という立場。課題Bでは、同じ相対的重要性を与えられたら、(刺激セットの違いは無視して)同じ選好パターンを算出してしまう。課題Cでは、同じ選好パターンを与えられたら、(刺激セットの違いは無視して)同じ相対的重要性を算出してしまう... という風に説明できる。

　簡単な実験を組みわせてロジックをアクロバティックに組み立てていく、絵に描いたような実験研究であった。素直に考えれば、自分の選択(課題A)と他者の意図の推定(B, C)とではそもそもメカニズムがちがうんじゃなかろうかと思うのだが、こうロジカルに詰め寄られると、反論は難しくなる。俺はこういうの嫌いじゃないけど、人によっては、ケッ、と思うだろうな。

　要するに、属性の主観的重要性評定は選択肢セットから独立ではなく、選択肢集合におけるその属性の分散をも反映する、ということであろう。結論だけだとアタリマエに聞こえるが、実験で示したところが偉い。

読了：Goldstein(1990) 「お金と愛情とどちらが大事ですか？」「選択肢によりますね」

2012年9月20日 (木)

Shu, L.L., Mazer, N., Gino, F., Ariely, D., Bazerman, M. (2012) Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end. Proceedings of the National Academy of Sciences, 109(38).
　ある方のtwitterの呟きで知った論文(感謝...)。記名式の1p調査票で、記名欄が下にあるよりも上にあるほうが正直な回答が得られる、という実験研究。楽しいなあ。
　自分の名前を書くという行為が正直さ概念を活性化させるからだ、という説明。ご丁寧に潜在課題(語彙完成)で証拠を添えている。
　回答が正直かどうかをどうやって押さえたんだろう、と興味を引かれて目を通した。パズルをやらせ、その正解数に応じた報酬を与えるのだが、実は税金の関係で金額がちょっと目減りしちゃうんです、別室で還付してますんでよろしくと伝える。で、別室で再度、じゃあこの紙にあなたの先ほどの正解数をご記入ください、という手続き。その紙の記名欄の位置を操作する。なるほど。
　倫理性を活性化させる手続きは、自分の名前を書かせる他になにかないかしらん？今度調べてみよう。

　よくみたら、著者にアリエリーが入っている。この人は実在するのだろうか。面白い研究を発表する際には連名にアリエリーという架空の名前をいれるという決まりかなにかがあるのではないか。

読了：Shu, et al. (2012) お名前記入欄は最初に

2012年7月 2日 (月)

丸岡吉人 (1998) ラダリング法の現在：調査方法、分析手法、結果の活用と今後の課題. マーケティング・サイエンス, 7(1-2), 40-61.
　消費者調査手法のひとつであるラダリング法についての包括的レビュー。著者は電通の超偉い人。
　web調査の話が数行しか出てこないあたりに時代を感じるけど、内容は古くなっていないと思う。仕事と関係しているので詳細は書かないが、大変勉強になりました。

読了：丸岡(1998) ラダリング法の現在

2012年5月17日 (木)

Gawronski, B. & De Houwer, J. (in press) Implicit measures in social and personality psychology. In H. T. Reis, & C. M. Judd (Eds.), Handbook of research methods in social and personality psychology (2nd edition). New York, NY: Cambridge University Press.
　社会心理学方面における潜在認知課題のレビュー。別の著者による全く同じ題名の本があるが、関係ないと思う。
　ある方がtwitterで呟いておられたのをみかけて、ちょうどいま仕事で考えている話の役に立ちそうだと思い目を通したのだが、しかし、なんでいまになって心理学の話なんか読んでるんだろうか、どうも妙なものだ。

　前半は手法の概観。紹介されているのは、

ご存じ IAT (Implicit Association Test)。
Evaluative Priming Task ... 測定対象をプライムにして、posi/nega語のposi/nega判断をプライミング。
Semantic Priming Task ... 測定対象をプライムにして、形容語の語彙判断や意味判断をプライミング。
Affect Misattribution Task ... 測定対象をプライムにして、漢字の意味判断をプライミング。
Go/No-go Association Task ... IATみたいな干渉課題だけど、課題がgo/no-goになっている奴。
Extrinsic Affective Simon Task (EAST) ... これも干渉課題で、刺激は語。白字の語(posi/nega語)はposi/nega判断、色つきの語(測定対象)は色判断しなさいと教示する。本指標は測定対象語への反応時間。へえー。ID-EASTという変種もあって、そちらはすべての語を大文字/小文字で提示し、posi/nega語はposi/nega判断、そうでない語(測定対象)は大文字/小文字判断しなさいと教示し干渉させる由。理屈はわかるけど、そんなのうまく教示できるのかしらん。
Approach-Avoidance Task ... 刺激の意味と筋運動を干渉させるパラダイム。レバー操作のような課題では、posi刺激への接近運動とnega刺激からの回避運動は促進される、というような話があって(すでに60年代からあるのだそうだ)、これを利用する。もっとも、筋運動そのものというより運動の意味付けが重要だといわれているのだそうで、たとえば"pull"運動とposi刺激、"push"運動とnega刺激は一致するが、同じ筋運動でもそれらを"move downward"と"move upward"と呼ぶと逆転するとのこと。変種として、Evaluative Movement Assessment (左右を使う)、Implicit Association Procedure(自己関連性を調べる)、などがある由。ふうん。Kinectと組み合わせると面白そうですね。
Sorting Paired Features Task ... これも干渉課題だが、刺激1(測定対象)-刺激2(posi/nega語)を系列呈示したのちにキー押しさせる。４つのキーを2行2列に並べておいて、たとえば、上を白人、下を黒人、posiを右、negaを左、と決めておく。おおお、おもしれー。Bar-Anan et al. (2009, Experimental Psychology)というのが挙げられている。
Implicit Relational Assessment Procedure ... 2つの刺激を同時提示し関係性を判断させる。正解はあらかじめ学習させておく。たとえば、デブと"good"が出てきたら"similar"キー、痩せている人と"bad"が出てきても"similar"キー、逆の組み合わせだったら"opposite"キー、なんて決めておくわけだ。信念と合わない正解は遅くなるという理屈。associationを調べているというより、命題的信念を調べている手法である由。提案したのはBarnes-Holmesたち。ネオ-スキナリアンっていうのだろうか。
Action Interference Paradigm ... 幼児向けに開発されたパラダイム。「サンタさんがおうちにやってきました。ふたり子どもがいて、男の子はお人形が、女の子はミニカーがほしいそうです。さあ配んなさい」とかいってキー押しさせる。ステレオタイプに合わないと遅くなる由。これ、implicit task といえるのかしらん。よくよく調べてみたら、幼児は「おいおいおばさん、それって言い間違いじゃない？いいの配っちゃって？」などと気を使って、キー押しをためらってたりなんかして...

　後半は潜在指標の性質についての議論。面白かったところをメモ:

Perugini et al.(2010, Handbook of Implicit Soc. Cog.) はこう述べているのだそうだ。潜在指標が行動を予測する、そのパターンには5つある。(1)潜在指標のみが行動を予測する。(2)顕在指標と潜在指標が行動を加法的に予測する。(3)顕在指標がdeliberateな行動を、潜在指標がspontaneousな行動を予測する(二重分離)。(4)顕在指標と潜在指標が行動を加法的に予測するが、共通のモデレータが存在する。(5)顕在指標と潜在指標が行動を乗法的に予測する。どの結果も、いわゆる二重過程理論と整合してしまう。だから特定の行動を潜在指標でアプリオリに予測するのは難しい。なるほど。
潜在課題は社会的望ましさバイアスと無縁だと思われているが、以下の点に注意する必要がある。(1)うまく二重分離が示せたからといって、その分離が顕在課題での社会的望ましさバイアスのせいで生じているとは限らない。そりゃそうだな。(2)潜在課題だって回答方略の影響を受けうる。つまり、回答の偽装も可能である。(3)潜在課題をウソ発見器として使うのは無理。たとえば、child-sex 間連想を潜在課題で測ってペドフィリアを判別できたという報告があるが(ひょえー)、child-sex間連想はたとえば性的虐待の被害者においても生じるかもしれない。
潜在指標は自己報告とちがって文脈に影響されないと思われがちだが、全然そんなことない。この点の説明は大きく3つある。(1)どんな指標も、回答者の安定的な表象というより、その時点でアクセス可能な情報を反映しているから。(2)文脈によって反応が変わるのではなく、対象そのものが変わるから。つまり、バスケットコートにいるマイケル・ジョーダンと、落書きだらけの壁の前にいるマイケル・ジョーダンでは、そもそもカテゴリが違う。それぞれのカテゴリは安定的だが、ジョーダンのカテゴリ化は文脈に依存するわけだ。(3)この中間で、同じ対象であっても文脈によって異なる情報を活性化させる、という説明。(どれも似たように聞こえるけど...)
潜在指標で測ろうとしている心的属性は課題の結果に自動的に影響する、と一般に考えられている。だからといって、実験操作の影響が自動的であることを潜在指標でチェックします、という理屈はおかしい。なぜなら、(A)実験操作が心的属性に与える影響が自動的かどうかと、(B)心的属性が結果に与える影響が自動的かどうかとは、別の問題だからだ。たとえば、実験操作として外向的過去経験ないし内向的過去経験を想起させたのちに、IATで自己と内向-外向性との連想を測ったら、条件間で差が出た、としよう。自己表象が結果に与える影響は自動的かもしれないが(B)、過去経験の想起が自己表象にあたる影響が自動的だったかどうか(A)はわからない。
適切な刺激を呈示するやいなや、注目している心的連想関係がぼわーんと自動的に活性化し、課題はそれにぐりぐりと直接アクセスしているのだ... という見方は楽観的に過ぎる。課題遂行の過程はもっと複雑なのであって、複数のコンポーネントにわけた細かい数理モデルも提案されている由。たとえばConrey et al.(2005, JPSP)はquad-modelというのを提案していて、たとえば黒人/白人のIATで、(a)人種ステレオタイプに基づく連想が活性化する尤度, (b)正しい回答が得られる尤度, (c)(両方生じたときに) 連想が正解を上回る尤度, (d) (両方生じなかったときの)一般的反応バイアスの尤度、をデータから推定しているのだそうだ。こういうモデル化の例として、ほかにKlauer, et al.(2007, JPSP)、Payne(2008, Soc. Personality Psycho. Compass)というのが挙げられている。新しい手法の開発はもうええかげんにして、こういうメカニズム研究をやりましょうよ、というのが著者らの意見である。面白いなあ。たぶん読まないけど。

　知らない話ばかりで、かなり憂鬱になったが、考えてみたらこの分野の論文を読むのは7～8年ぶりなので、新しい話は知らなくて当然、古い話は忘れてて当然である。勉強になった、と前向きに捉えよう。

読了：Gawronski & De Houwer (in press) 潜在認知指標レビュー

2012年5月10日 (木)

Rothman, L., & Parker, M.J. (eds.) (2009) Just-about-right (JAR) Scales: Design, Usage, Benefits and Risks. ASTM Manuals, MLN63. ASTM International.
　食品や飲料の消費者テストで、このジュースのすっぱさは「弱すぎる-ちょうどよい-強すぎる」のどれですか、なあんて聴取することがある。英語ではJust-about-right scale ないしJust-right scaleというが、日本語ではなんていうのだろうか。
　こういうJAR尺度の利用法についてのガイドブック。ASTMは工業規格の標準化機関だと思うが、ASTM Manualというのがどういう位置づけなのかよくわからない。特許庁の標準技術集と雰囲気がちょっと似ている。
　以前の勤務先で、社内のどこぞの誰ぞが作った資料でお勉強するのがいい加減いやになってしまい(ごめんなさい)、たまたまこの資料を見つけ、あとで会社に経費申請するつもりで、55ドル出して買い込んだ。その後、うっかりしているうちに時が経ち、うっかりしているうちに転職してしまった。買ったきり読んでないのはもちろん、経費申請さえしそびれていた、ということにさきほど気が付いた。悔しい。55ドルあったらビールが何杯飲めることか。自腹を切ったモトを取らねばならぬ、というわけで、とりあえずざーっと拾い読み。

　最初に編者による総論が13p。編者はクラフトフーズの人と、食品専門のコンサル会社の人。いくつかメモ:

JAR項目の利点: formulation guidanceを提供する;理解しやすい; 消費者異質性を見つけやすい; likingと一緒に使って優先順位づけできる; いろんな分析方法がある。
JAR項目を含めどんな調査項目にも共通する危険性: 光背効果; どうでもいい項目に対して特定の回答が生じる; 知覚ではなく期待に基づいた回答; 対比効果; 疲労などの文脈効果; テスト内の刺激水準による文脈効果; 属性の解釈のずれ; 知覚の誤帰属。
JAR項目に特有な危険性: 知覚と認知の混同; 世の中にはどうしたってjust rightとは思っていただけない属性がある(例, チョコバーのナッツ); 回答者が余計な気を使う(好きな製品じゃないとjust-rightって答えちゃいけないんじゃなかろうかとか); 個々の属性についてjust-rightを目指しても最適製品がつくれるとは限らない; 回答者が自分の理想を知っているかどうか定かでない; too muchと答えた人が多いからと言ってすごく強すぎるわけではない; 試食時間の長さによって評価が変わることがある; どこかの属性についてjust-rightを目指すとこれまでjust-rightと思っていた人が逃げるかもしれない; JAR項目とhedinic項目の両方を聴取したあとでoverall likingを聴取すると回答が歪む。
Gacula et.al. (2008, J. Sensory Stud.) は、JAR尺度での聴取がoverall liking聴取の前にあっても、overall liking回答は影響を受けない、といっているのだそうだ。本当だろうか。

　総論のあとにAppendixとして、いろんな分析手法が事例つきで紹介されている。実に26章, 100pを超える。面白そうなところだけ拾い読みした。各章の内容は:

A. JAR項目への回答分布を視覚化する。
B. strong% と weak% の差を求め(これを net effect と呼ぶ)、視覚化する。
C. あらかじめjust-right反応率のノームを決めといて、それを下回っている属性があったらweak% と strong%の差を求める。ないし、just-right反応率とそれ以外の反応率を比べ、後者のほうが多かったらweak%とstrong%の差を求める。
D. JAR項目への回答を単純に量的尺度とみなして平均する。
E. 回答をjust-rightを0とした量的尺度とみなして平均する。ついでに絶対値を平均する。
F. 回答をjust-rightを0とした量的尺度とみなし、帰無仮説 μ=0 として検定する (ワイルドな発想だ...)

ここからは、同じJAR項目の回答分布の製品間比較。

G. カイ二乗, CMH, Stuart-Maxwell, McNemar。
H. 比例オッズモデル・比例ハザードモデルを適用する。おおお、これはやったことがあるぞ。悪くない発想だとわかってうれしい。書いているのはXiong & Meullenet。
I. JAR項目への回答を単純に量的尺度とみなして平均し、2製品間で t 検定。
J. JAR項目への回答を単純に量的尺度とみなして平均し、3製品間で ANOVA。
K. サーストン流の尺度構成法。その発想はなかった...

ここからは、JAR項目のほかに全体好意度も聴取している場合。

L. いわゆるpenalty analysis。図の書き方が面白い。strongとweakの両方について、％を横軸、ペナルティ(全体好意度の低下)を縦軸にとった散布図を描いている。いいなあ、これ。
M. 上記のペナルティの求め方の紹介。strongないしweak反応者の全体好意度平均から、全対象者の平均を引いた値をペナルティとする方法と、just-right回答者の平均を引いた値をペナルティとする方法があるが、そのどちらでもなく、回答者の比率を加味した weighted penaltyなるものを求めることを推奨している。面倒なのでパス。
N. ペナルティの有意性を検定する方法。SEの求め方がいくつか紹介されている(回帰; ジャックナイフ; ブートストラップ)。超めんどくさい...
O. bootstrapping penalty analysis。面白いことを考えるなあ。書いているのはまたもXiongさんとMeullenetさんだ。
P. opportunity analsys。JAR項目と全体好意度のほかに当該属性に対する好意度も聴取しているとき、製品好意者に占める属性好意者の割合をrisk, 製品非好意者に占める属性非好意者の比率をopportunityとする。これをペナルティと併用するわけだ。なるほど。書いているのはケロッグ社の人。
Q. PRIMO analysis. PERT Survey Researchという会社の商品らしく、いま調べたら、弊社のツールはなんとASTMマニュアルにも紹介されています、なんていうリリースが出ている。そのわりに細かいことは書いてないのだが、考え方が面白そうだ。背景の理論についてはWeirichの"Decision Space"という本を読みやがれ、とのこと。
R. 突然話変わって、just-rightかそうでないかと全体好意かそうでないかとの関係をカイ二乗検定する話。
S. 複数製品に対する複数JAR項目の回答集計値をマップで視覚化。平均のPCAとか、strong/weak/just-right%のコレポンとか。
T. JAR項目と属性好意度項目の相関を求める。
U. 全体好意度をJAR項目(量的尺度とみなす)で説明する回帰。製品別とか、全製品縦積みでとか。ステップワイズで変数選択している。なんだかなあ。
V. 同じようなモデルだが、今度はMARS(multivariate adaptive regression splines)モデルを使っている。ちくしょー、気が利いているなー。またもXiongさんとMeullenetさんだ。
W. これもXiong-Meullenet組。JAR項目への回答を、strongとweakの二つのダミー変数にしちゃって、OLS回帰したり、PLS回帰したり。これは前に著者に論文をご恵送いただいたことがある。感謝感謝。

ここからはJAR項目と関係なくて...

X. 属性のJARじゃなくてintensity("not-at-all"-"extremely")を聴取しといて、全体好意度を回帰で説明したり、2属性で張った空間上に好意度曲面を描いたり。
Y. 製品の成分を実験計画で動かし、好意度に応答曲面モデルを当てはめる話。
Z. 実際の製品セットのほかに「理想の製品」についてもあれこれ聴取しといて比較する話。

読了：Rothman & Parker (eds.) (2009) オール・アバウト・ちょうどよい尺度

2009年4月22日 (水)

Crompton, J.L., Duray, N.A.(1986) An Investigation of the relative efficacy of four alternative approaches to importance-performance analysis. Journal of the Academy of Marketing Science. 13(4), 69-80.
　先月読んだ論文。飛行機の中で目を通し，内容のなさにうんざりし，コピーを宿のくずかごに捨ててしまった。そのせいで，ここに書くのを忘れていた。
　あるサービスだか製品だかに複数の属性があるとき，横軸に各属性のパフォーマンス，縦軸に各属性の重要性をとった散布図を描くことがある。重要なのに弱い属性，つまり左上に位置する属性にリソースを注ぎましょう，という話になる。別に決まった名前があるわけではないと思うが，マーケティング系の論文ではImportance-Performance Chartと呼ばれることが多いようだ。この縦座標をどうやって求めればよいでしょうか，という論文。要するに相対的重要度の研究である。
　テキサスについて28個のイメージを挙げ(「食べ物が安い」とか)，それぞれについてあてはまりと重要度を聴取した実調査データを使い，縦軸座標を次の4通りのやりかたで求めてI-P Chartを描く。(1)重要度評定の平均。(2)重要度評定の中央値。(3)「ある属性の重要度の中央値とその属性のパフォーマンスとのあいだの相関係数の絶対値の順位」と「重要度の中央値の順位」を足した値。(4)上の方法で，相関係数のかわりに順位相関係数をつかったもの。で，チャートを比べて，ちがったのちがわないの。。。というのが結論。
　そもそも(3)(4)の求め方が何度読んでもよく理解できないので，偉そうなことはいえないのだが，この論文はナイよなあ。。。たった一件の実データを使ってチャートを見比べ，良く似ているナア，だけどここがちがうナア，などというのはせいぜい感想のたぐいであって，実証的議論とはいいがたい。これっていったいどういう雑誌なんだろう？ Impact Factorが1.49(2005)というから，紀要のようなものではないと思うのだが。
　著者らは(1)(2)と(3)(4)をそれぞれself-statedとstatisticalと呼んでいるが，いずれにせよ主観的重要度評定に基づいた指標だ。ふつう統計的重要性といえば，調査で重要度を聴取するのではなく，各属性のパフォーマンスと全体的パフォーマンスとの関係の強さを統計的に導出することを指すと思う。で，意味を持つ問いかけは，主観的重要度と統計的重要度のどっちがいいかではなく，どういうときにどっちがいいか，であろう。

読了：Crompton & Duray (1986) 重要度-パフォーマンスマップをいろんな描き方で描いてみた

2008年5月20日 (火)

Jaccard, J., Brinberg, D., Ackerman, L.J. (1986) Assessing Attribute Importance: A Comparison of Six Methods. Jounral of Consumer Research, 12, 463-468.
データ解析というよりサーヴェイ方法論の論文。車と避妊具のそれぞれについて，それを買うときにどの属性を重要視するかを手を変え品を変えて尋ね，指標間の相関を調べた実験。個々の被験者に全ての課題をやらせているのがミソである。いやあ，学生さんもいい迷惑だよなあ。個々の課題は大変ではないにせよ，さすがに飽きるだろう。
重要度を尋ねる方法は，(1)大事な属性をOAで挙げさせる，(2)Jacobyの情報探索指標(各属性の情報に蓋をしておいて，蓋をめくる回数を数えるらしい)，(3)直接評定，(4)コンジョイント実験，(3)その属性の値が低いときと高いときについて買う確率を評定させる，(6)属性間の一対比較。それぞれの方法によって求めた属性の重要度は，ゼンゼン一致しませんでした，というのが結論。ははは。
ある事柄について尋ねるときにいろんな尋ね方があり，それらがあんまり収束しない，ということ自体は別に悲しい話ではないわけで，どの指標が購買行動をより良く予測するかとか，指標と状況なり個人特性なりにこういう相互作用があるのだとか(関与が高い人の直接評定はあてになるとか)，そういう話が大事なのだと思う。探しているのだが，なかなか見当たらない。探し方が悪いのかなあ。

読了：Jaccard, Brinberg, & Ackerman (1986) 購入時重視点の訊き方を比べてみよう

読書日記

読んだ本を淡々と記録します

2020年4月13日 (月)

2019年7月16日 (火)

2018年10月11日 (木)

2018年6月 1日 (金)

2018年5月 2日 (水)

2018年1月 8日 (月)

2017年9月21日 (木)

2017年9月14日 (木)

2017年9月11日 (月)

2017年8月25日 (金)

2017年8月18日 (金)

2016年9月15日 (木)

2016年6月27日 (月)

2016年6月 5日 (日)

2016年5月30日 (月)

2016年5月29日 (日)

2016年5月 7日 (土)

2016年4月 6日 (水)

2016年3月25日 (金)

2016年3月 1日 (火)

2015年6月17日 (水)

2015年6月11日 (木)

2015年5月 7日 (木)

2015年3月26日 (木)

2015年3月 4日 (水)

2015年3月 2日 (月)

2014年12月 1日 (月)

2014年11月26日 (水)

2014年9月11日 (木)

2014年6月10日 (火)

2014年5月 8日 (木)

2014年3月 4日 (火)

2013年8月27日 (火)

2013年8月25日 (日)

2013年8月24日 (土)

2013年7月 1日 (月)

2013年6月15日 (土)

2013年2月 8日 (金)

2012年10月26日 (金)

2012年10月25日 (木)

2012年10月24日 (水)

2012年10月23日 (火)

2012年9月25日 (火)

2012年9月24日 (月)

2012年9月20日 (木)

2012年7月 2日 (月)

2012年5月17日 (木)

2012年5月10日 (木)

2009年4月22日 (水)

2008年5月20日 (火)