« 読了:「写楽」 | メイン | 読了:Chandrasekaran & Tellis (2007) 新製品普及モデルレビュー »
2011年6月15日 (水)
Strauss, M.E., Smith, G.T. (2009) Construct validity: Advances in theory and methodology. Annual Review of Clinical Psychology, 5, 1-25.
測定の妥当性についての最近の展開を知りたくて読んだレビュー。なにか資料を探していて、clinical psychology関係の雑誌の論文をみつけると、やったあ、って思いますね。概して数学が苦手な臨床心理学関係者向けに、親切な書き方になっていることが多いように思うもので。。。すみません、失礼をお許しください。
妥当性研究の歴史のあたりについてメモ:
- 初期の妥当性研究として知られているのが、米陸軍のWoodworth Personal Data Sheet(1919)。これは情緒的安定性の測定で、まず神経症患者のケース記録から項目を集め、次に健常者の回答に基いて項目を削った。この手順からみて、測定の妥当性についての考慮があったわけだ。しかしなにぶんにも精神病理学的知識が不十分な時代の話であり、神経症という概念も精緻化されておらず、出来上がった116項目はあまりに多様であった。また、きちんとした外的基準もなかった。
- 20世紀中盤まで、測定の妥当性はもっぱら予測的妥当性として理解されていた。Anastasi(1950)というひとはこう書いているそうだ:「テストの妥当性を客観的に調べることができるのは、それが明確に定義された基準についての測定である限りにおいてである。テストがその外的基準以外のなにかを測っているという主張は、なんであれただの思索にすぎない」。ううむ、強気だなあ。このアプローチは心理検査に多大な影響を与えた。たとえば、広く用いられている性格検査のひとつであるMMPIの項目は外的基準の予測という観点で選ばれている。いっぽう、こういう基準関連主義にはふたつの限界がある:(1)外的基準には妥当性があることが前提となっている。(2)理論の発展に寄与しない。
- 50年代から上記(2)のタイプの批判が高まり、Meehl&ChallmanによるAPA心理検査部会勧告に結実する(1954)。構成概念妥当性という概念の登場である。
- 臨床心理の分野では、50年代の4つの研究が理論展開の原動力となった。
- MacCorqudale & Meehl(1948)による仮説的構成概念の基礎づけ。
- Cronback & Meehl (1955)による構成概念妥当化の方法論の定式化。妥当化が演繹的プロセスであることが強調された。
- Loevinger(1957)による理論構築のなかでの妥当化の役割の定式化。構成概念妥当性は予測的妥当性・併存的妥当性と内容的妥当性を包含する概念であるということになった。
- Campbell & Fiske(1959) による、MTMM行列による妥当化の提唱。収束的妥当性と弁別的妥当性の区別がここで登場した(Campbellらはこの段階ではどちらも同程度に重視している。のちに収束的妥当性のほうをより重視するようになった)。
- Cronback & Meehl(1955)にいわせれば、妥当化(validation)とは結果ではなくプロセスであるわけで、だからある測定の妥当性が「示されました」という言い方はおかしい。
どうやら、構成概念妥当性を「ザ・妥当性」として包括的に捉える考え方は、すでに50年代からあったらしい。では、よく本に載っている「妥当性には基準関連妥当性と内容的妥当性と構成概念妥当性があります」という話はどこからやってきたのだろうか。あれこそAPAの基準が典拠だと思うのだが。よくわからんなあ。
ほかに面白かった話:
- Whitely(1983, Psych.Bull)は、妥当性をnomothetic spanとconstruct representationの二面に分けて考えようと主張している由。前者は他の概念との相関、後者は測定の基盤にある心的メカニズムを指すらしい。これは話の整理に役立つなあ。今の仕事の関連でも、このふたつがごっちゃになって混乱することがあると思う。
- ずっと前にBorsboomという若い人の、「法則定立ネットワークだのなんだのって奴らはみなアホだ」と関係者に喧嘩を吹っ掛けるような論文をみた覚えがあるが、著者らは一部賛成、しかし「理論たるものは明確に定式化されてないといけない」という点には反対、である由。
- 論文の後半はMTMM行列の分析の最近の進展について。いずれも知らない話ばかりだったが、いずれ必要になったら読み直そう、と流し読み。
最近折にふれて、前の勤務先(市場調査の会社)で働きはじめた5年前のことを思い出す。市場調査のことなんてもちろん全然知らなかったから、いろいろ戸惑うことが多かったものだ。そのころ面食らったことのひとつに、たとえば集計値の信頼区間の話をしているときに、まあ「買いたい」と答えた人が必ず買うとも限らないんだから、購入意向の信頼区間なんて考えたってねえ... などという話を始める人がいる、ということだった。いやいや、犬は犬で猫は猫、信頼性は信頼性で妥当性は妥当性でしょう、ちがう話をごっちゃにする人に明日はないですよ、と思わず憤ったわけだが、長年この仕事をしていた人でさえそうだということは、この混乱にもなにかしら俺の知らない背景と意義があるはずだし、第一、ちがう話をきちんと分けたからといって、俺に輝かしい明日が開けるわけでもない。
まあそれはともかく、そのとき思ったのは、どうやらこの業界では測定の信頼性と妥当性をあまり区別していない人が多いようだ、ということだったのだが、それがなぜなのかが不思議であった。というのは、そのまた前のご奉公先(教育産業)で会った人々のことを思い出すと、データ解析についてのトレーニングなど受けていなくても、この手の話には理解が速く的確であったように思うからだ。いまにして思えば、主に集団レベルの特性に関心を持つ消費者調査の関係者と、たとえ集計値をみていても本質的には個々人に関心を持つ教育関係者の違いかもしれない。
論文:データ解析(-2014) - 読了:Strauss & Smith (2009) 構成概念妥当性レビュー