読了：Wikman & Warneryd (1990) 再検査信頼性はどんな調査項目で低くなるか

Wikman, A., Warneryd, B. (1990) Measurement errors in survey questions: Explaining response variability. Social Indicators Research, 22, 199-212.

　仕事の都合でばーっと目を通した奴。
　要するに「どんな項目で検査再検査信頼性が低いか」を、実際の公的調査で調べてみました、という話であった。

　いわく。
　調査の測定誤差を調べる方法のひとつは再調査だ。スウェーデンのSurvey of Living Conditoins (ULF)という調査のデータで調べてみた。
　ULFは16-84歳のスウェーデン国民が対象の年次調査で、対象者は6000-7000人。調査票には500指標くらいはいっていて、少しずつ変わる。

　信頼性を検査-再検査で調べようというアイデアはSletto(1940, Am.Soc.Rev.)に遡るが[←へー]、いろいろな問題を抱えている。検査-再検査における変動には少なくとも次の3つのタイプが混じっている: (1)訓練効果, (2)記憶効果, (3)測定対象の安定性。(1)(2)のせいで信頼性は過大評価され、(3)のせいで信頼性は過小評価される。
　検査-再検査間の期間を短くすれば(1)(2)が大きくなるし長くすれば(3)が大きくなる。本研究では3週間くらいが適切だと考えた。
　というわけで、ULFの本調査の3週間語、500人に電話調査をかけた。

　分析方法。
　2値項目の場合、ある項目について、本調査を表側、再調査を表頭にとった2×2クロス表を書き、非対角要素の割合をGross difference rate \(g\)と呼ぶ[以下では不一致率と表記する]。また不一致率を周辺度数から求めた(独立性を仮定したときの)期待値で割った値を不整合性指標\(M\)と呼ぶ。多値項目の場合はすべての2値化について指標を求めて重み付け平均をとる。
　さて、たくさん項目があるので分類しておく。以下の特徴に注目する。

対象(なにについての項目か): {対象者本人, 配偶者ないし世帯, 他の人, その他}
設問の長さ
長い単語があるか
最初のインタビューでの反応カード読み上げ有無
文脈(前の設問と同じ話題についての設問か)
情報ハンドリングの必要性 (なんらかの計算が必要か)
コード化: {選択肢から選ばせる、インタビュアーが選ぶ、あとで選ぶ}
反応カテゴリの数: {2, 3, 4-5, 6以上, 量}
尺度に中点はあるか
DK(わからない)はあるか
答えにくさ(事実についての設問か, 主観的判断を含むか)
回顧的設問か{いいえ, 1年以内, 1年以上, はっきりしない}
仮説的な状況についての設問か
回答する数に上限はあるか

　結果。
　検査-再検査間の変動に一番効いたのは「答えにくさ」だった。「反応カテゴリの数」は多い方が変動が増したが、量では小さかった。回顧的設問で期間を特定していないのも変動が大きかった。[…などなど、いろいろとだらだら書いてあるけど略]
　[そのほか、設問の特性についての合成指標を手でつくって重回帰したりしている。わりかし恣意的な感じがするし、面倒くさいので略]
　云々。

　… 結果はまあそりゃそうだなあという感じであった。なお反応カテゴリの数については「多い方が信頼性が低い」という結果になっている。この問題は研究によって結果がばらばらで、なにがなんだかよくわからない。たぶん問題の設定の仕方がよくないのだろう。

読書日記

読んだ本を淡々と記録します

読了：Wikman & Warneryd (1990) 再検査信頼性はどんな調査項目で低くなるか