« 読了:Berg & Rietz (2003) 条件つき予測市場による意思決定支援 | メイン | 読了:Wolfers & Zitzewitz (2004) 予測市場レビュー in 2004 »
2014年12月 1日 (月)
Presser, S., Couper, M.P., Lessler, J., Martin, E., Martin, J., Rothgeb, J.M., Singer, E. (2004) Methods for testing and evaluating survey questions. Public Opinion Quarterly, 68(1), 109-130.
仕事の都合で、ちょっと地味な文献を...
社会調査やらマーケティングやらメディアやら、世の中はアンケート調査で溢れており、質問紙づくりの職人を自負する方も大勢いるが、そういう方が知っていそうで不思議と知らない、調査票プリテスト手法についてのレビューである。
Presser, Couper, Singerは有名な社会調査法研究者、他はUSセンサス局、英統計局、RTIの人。POQに載っているが投稿論文ではなく、論文集"Methods for Testing and Evaluating Survey Questionnaires" 第1章の転載。どうやらイントロの章らしく、以降の各章について律儀に言及している。
著者らいわく...
本調査の前に調査票の適切性をチェックするという発想自体は一般的である。たいていのリサーチャーはドレス・リハーサル方式、つまり、作成した調査票でちょっと回答を集めてみて、調査票に欠陥がないか調べる、というやり方を信じている。Sudmanの教科書(1983)にも「まずは20-50票くらい集めてみなさい」とある。
このやり方の背後には、仮に適切でない質問項目があったとしたら、それは回答そのもののなんらかの特徴(無回答が増えるとか)、ないし回答の様子におけるなんらかの特徴(回答をためらうとか)を引き起こすであろう、勘の良いリサーチャーならそれをみて、調査票にまずい点があると気づくであろう... という信念があるわけだ。残念ながら、この信念になんらかの根拠があるとは言い難い。
というわけで、本論文では調査票プリテストの手法について概観する。取り上げるのは、認知インタビュー、行動コーディング、反応潜時、ビニエット分析、デブリーフィング、実験、統計的モデリング。なお、より定性的な手法(FGI, エスノグラフィ)、ないし回答者からデータを集めない手法(専門家の評価、人工知能、コーダーの評価)は含めない。[←人工知能!? Graesser et al (2000, ASAのSRMセクションのProc.)というのが挙げられている。Art Graesserって物語理解過程で有名な人じゃん...]
- 認知インタビュー。つまり、質問紙に回答しながらのthink-aloudを求める, もしくは直後にプローブして聞き取りをする。
歴史を辿ると60年代からあるらしい。米センサス局では80年代にthink-aloud法を使った実験室研究をやっていて、これは認知心理学というよりむしろマーケティング・リサーチの影響を受けていた[Hunt, Sparkman, Wilcox, 1982 JMRというのが挙がっている。へぇー、知らなかった!]。しかし、なんといっても80年代のCASMのインパクトが大きい。Ericsson&Simonのthink-aloud法を承け、Elizabeth Loftusの有名な研究が出た(84年のCASM論文集に載っている奴)。えーと、その後NSFの助成でLessler, Tourangeau, & Salter(1989) という報告書が出たり[PDFを入手できた]、NCHSにCognitive Labというのができて認知インタビューを頻繁に使われるようになったりした(Royston & Bercini, 1987, ASAのSRMセクションのProc.)。90年代には米政府機関で広く用いられるようになり、標準化への取り組みがなされた[Willis,1994というガイドラインがあるらしい。他にもいろいろ挙げられているけど、Willisの2005年の本を見ればわかりそうだからパス]。
同時がいいのか直後がいいのかとか、think-aloudがいいのかプローブがいいのかとか、いろいろ論点があるけど、意見の一致を見ていない。この論文集に実証研究の章がいくつかある。[くそう、やられた...] - 伝統的なプリテストを補足する手法。
- 行動コーディング。インタビューの録音や逐語録をみて、質問文の読み上げのスキップや回答者の聞き返しを調べる。欧州では70年代末から例がみられるが、米にはいってきたのは80年代末[当時のレビューとしてOksenberg, Cannell, &Kalton, 1991, J.Official Stat.というのが挙げられている]。この論文集に実証研究の章あり。行動コーディングでわかるのはwhat could go wrongではなくwhat actually did go wrongだそうだ[なるほど]。
- 反応潜時。論文集所収の実証研究では回答の不確実性の指標ということになっているが、反論もある。でも将来は有望、なんたってコンピュータでの調査ならタダで収集できる。
- デブリーフィング。回答後に調査目的を伝える[そして調査票への意見を求める、ということであろうか]。
- ビニエット分析。架空のシナリオを示して回答者に評価してもらう。この2つも論文集に登場する由。
- 実験による調査票比較。以下の2種類の状況がある。(1)たとえば認知インタビューで回答困難な項目が見つかったとして、それを改善した調査票でまだ認知インタビューをやる。(2)標本を分割して、異なる調査票を比較する。
設問のワーディングを比較するとき、評価方法には次の3つがある。(1)反応分布のちがいをみる。(2)なんらかの基準に対するヴァリデーション。(3)(行動コーディングとかで)なんらかのユーザビリティをみる。云々。 - 統計的モデリング。検査-再検査をLCAで比較するとか、IRTとか、MMTMとか。[眠いので詳細略]
[ここからは、その他の話題についての各章の紹介]
- データ収集のモード。CAPIとかCASIとかいろいろ出てきているので、プリテストもややこしくなってきてるね、云々。
- 特別な母集団。従業員調査、子ども調査、多言語調査。
- プリテストの効果についての実証研究。
将来のアジェンダ。プリテスト手法によってその結果がちがうわけだが、これは手法の中に信用できない奴があるせいかもしれないし、検出できる調査票の欠陥のタイプが手法によってちがうのかもしれないし、なにが欠陥かという点についてコンセンサスがないからかもしれない。それに、検出された欠陥をどうやって改善するかはまた別の問題だ。
今後の課題:
- 問題の同定と測定誤差の間の結びつきをあきらかにすること。プリテストとは要するに測定誤差を減らすための手段だ[←うーん... 標準誤差の減少というより、真値からのズレの減少という意味でこういっているのだろう]。でも多くのプリテストは、無回答やseam bias[パネル調査で2時点間にありえないズレが起きていることであろう]に注目しているだけで、回答の正確さの指標を持っているわけではない。可能な限り外的基準をつかった妥当性チェックを試みること。
- プリテストのコストへの影響を評価すること。
- 調査票の欠陥を修正する際のガイドになるような基礎調査や理論が必要だ。[KrosnickとかSudmanとかTourangeauとかの本が挙げられている]
- 知見のデータベースというか、レポジトリみたいな奴の構築。
要するに論文集の各章の紹介なので(後半から特に)、だんだん関心を失ってナナメ読みになってしまった...
日本語で認知インタビューといえばほぼ間違いなく目撃証言の話だが、英語でcognitive interviewと検索すると調査票プリテストの話も負けずに数多く見つかる。米の調査法研究のこうした充実ぶりは(著者らにいわせればこれでも全然足りないわけだが)、あちらの研究者の厚みを示しているという面もあるだろうけど、ひょっとしたらかの国の公的調査を取り巻く特殊な社会的事情のせいなのでは、と思うこともある。その意味で、日本の調査関係者もこういう実証的態度をお手本にすべきだと手放しに賞賛すべきかどうか、よくわからないのだけれど... 少なくとも、消費者マーケティングの国際化、マルチカントリー調査の増加という文脈では、調査票プリテストはこれから重要性を増す話だと思う。
論文:調査方法論 - 読了: Presser, Couper, Lessler, Martin, Martin, Rothgeb, & Singer (2004) 調査票プリテストの諸手法