読了:Cliff (1992) 公理的測定理論、そして起こらなかった革命

 ここんところ朝から晩までコンジョイント分析について考えていたのだが(さすがにちょっと飽きてきた)、いろいろ調べているとどうしても突き当たってしまうのが、マーケティング分野においてコンジョイント分析が普及する前、数理心理学の基礎研究において登場したコンジョイント測定の理論である。
 嗚呼、公理的測定理論、1960年代心理学の精華、わが青春のアルカディア。Luce, Suppes, Tverskyらによる名著”Foundations of Measurement”は、心理学科の院生であった我々の必携のバイブルであり、隅から隅まで穴が開くほどに熟読したものだ。
 嘘です。なんかこう「心理測定かくあるべし」的なのを数式で定義する超難しい理論が大昔にあったらしいとなんとなく聞き及んでいるが、たまーにそういう話を見かけてもチンプンカンプンだったし、勉強したいなんて露ほども思わなかった。”Foundations of Measurement”とかいう古い三巻本が書庫にあったような気がするけれど、そんなの手も触れませんでしたね。

Cliff, N. (1992) Abstract Measurement Theory and the Revolution That Never Happened. Psychological Science, 3(3), 186-190.

 というわけで、昔の話は全然わからんのだが、せっかくコンジョイント分析について調べてるんだから、ついでに歴史もちょっぴりかじって知ったかぶりしたい… という安易な気持ちで手に取った。
 ”Foundations of Measurement”の完結(1990年)に寄せた5pのコメンタリー。著者については全然知らないが、調べてみたところ、順序尺度上の効果量の指標に Cliffのdというのがあるのだそうな。 

—–
 最近「測定の基礎」全三巻が完結した。このエッセイは、読者のみなさんに、抽象的な測定理論というものがあるのだということ、それが実はすごい力を持っているのだということを思い出してもらうために書いている。

背景:ふたつの驚くべき発展
 60年代中盤は定量的な心理学研究にとって輝ける時代だった。研究者は実験者が定義した従属変数を実験者が操作したことの効果に注目するだけではなく、扱っている問題に対する見方にもっと密着した形で心理学を定義できるようになった。それを可能にしたのが、抽象的な測定理論、そしてコンピュータに基づく非計量的なモデル適合の技法である。

 思い出してほしい。Luce & Tukeyの同時コンジョイント測定の論文(1964)が出るまで、測定理論を支配していたのはStevensであった。尺度を実数直線に似ている程度によっていくつかの種類にわけるというものである。そこには、尺度の本質とは研究者によって定義されるようなもののことだ、という含意があった。それに対し、尺度の本質を実証的な変数の間にみられる関連性として定義するという見方もあったが、あまり支持されていなかった。
 そこにLuce & Tukeyが登場し、間隔尺度を定義するための必要十分条件が3つ以上の変数の間のある種の序数的な整合性であることを示したのである。これは驚くべき結論だった。それは多数の変数が持つ真に心理学的な性質を定義する可能性を開き、変数間のトレードオフや代替性の発見へと導いた。心理学に革命が起きる可能性があった。

 モデル適合技法の登場も重要であった。モデルと尺度を支持するためにデータが示すべき抽象的な代数的特性を定義しようとするのをやめて、ある特定の数学的モデルを仮定し、なんらかの適合度関数を最適化することによってデータをモデルにあてはめるのである。そういうアプローチは昔もあったが、新しい手法ではコンジョイント理論と同様、観察変数の単調変換が強調される[←へええ… 当時のコンジョイント測定ってそういう感じなのか…]

 公理とモデル適合というふたつのブレイクスルーは、心理学を新しい段階へと導くかに思われた。データにおける関連性こそが、鍵となる変数の同定、そして心的経験を理解するために幅広い有用性を持つ原理の解明へとつながるかもしれない。そう思われたのである。

影響力の欠如
 そうした進歩は、しかし、ほとんど起こらなかった。心理学は違う方向へと発展した。
 公理的測定理論に焦点をあてよう。私の考えでは、この運動の約束は果たされなかった。現代の心理学の論文を見てほしい。変数とその尺度の特性はどのように定義されているだろうか? たいていはデータの整合的な関連性によって定義されるのではなく、研究者の好き勝手によって定義されている。
 公理的測定理論とモデル適合という二つの流れはばらばらのままだった。Ducamp & Falmagne (1969) はすべての個人差測定の基盤となる論文だがほとんど引用されていない。

 現在の応用心理学におけるホットトピックである3パラメータ・ロジスティック・モデルは、項目困難度・項目識別性・(guessingという)個人特性を間隔尺度上で定義しているが、私の解釈では、この目標はほぼ不可能である。公理的理論は3つの変数によって定義された対象の間の順序関係にある種の規則性があることを要求する。ここに項目、被験者、正答確率の3つがある。困難度と能力が順序尺度に到達するには、確率の順序関係が強い整合性を持たなければならない。つまり、正答確率によって表現される個人の能力の順序が、すべての項目に関して同じでなければならない。同様に、項目困難度もすべての能力レベルで同じでなければならない。いっぽう3PLモデルはそれ自体が順序整合性の原理と矛盾している。項目識別性パラメータが存在するということは、能力によって項目困難度が変わるということだ。つまり正答確率の順序は人によって異なる。従って能力を間隔尺度として定義できない。ここにはRaschモデルは生じない困難があるのだ。[えーっと、よくわかんないけど、複数の項目特性曲線を同一のチャートに重ね描きしたとき、3PLでは項目の困難度によって形が違うから、横軸のどこかに縦線を引いて項目の正答確率を項目間で比べたとき、その順番が項目によって異なってしまう、しかしラッシュモデルなら同じ、ってことかな。よくわからんが公理的測定理論ではきっとそこんところが大事なんだろうな]
 3PLモデルの目標は被験者の能力測定だった。最近では、能力は順序的にしか推定できないという認識が専門家の間で広がっているが[←そ、そうなんですか?]、そこに至るためには10年以上の見当違いな努力が必要だった。測定理論の基礎が学ばれていたならばこんな無駄は生じなかっただろうに。

なぜ影響力を持てなかったのか
 革命はなぜ起きなかったか。この問いに答えようとするのはおよそ非科学的な試みではあるのだが、私はその誘惑に抗しきれない。あの運動の外側から共感を持って眺めていた者として、いくつかの要因を挙げてみたい。

  • 抽象的な数学。抽象的測定理論は数学のかたちで提出された。それはたいていの心理学者にとって全くの異物であった。数学と心理学者を架橋する入門書や教科書は書かれなかった。最近Michell(1990)が出たけど、出るのが遅すぎたし扱っている範囲も狭い。今後も期待できそうにない。
  • 実証的な力が示されなかった。行動科学者が抽象的な測定理論を学ぶ努力を払いたくなるとしたら、それはその理論が有用だという驚くべき実証例が提示されたときであろう。モデル適合が普及したのはShepard(1962)があったからだ[←なんだろうこれ。nonmetric MDSかなあ?]。抽象的測定理論はなんの役に立つのかわからなかった。尺度を再定義する実証研究は、測定理論を参照することなく生じた。たとえば記憶研究におけるAnderson & Schooler (1991)がそうだ。
  • エラーの問題。測定理論は、ある条件の下である種の尺度が定義される、と述べる。ではその条件が維持されていない場合は? コンジョイント測定にいてcancellation公理が成立していないとき、一対比較において遷移性が成立していないとき、どうすればよいのか? こうした問いに答える研究が少なかった。「コンジョイント測定」を謳うコンピュータ・プログラムはふつう公理のことなど気にせず、加法的でないデータセットに加法関数をあてはめるために量的な損失関数を最小化している。
  • 研究のスタイル。実験心理学の伝統では、実験計画とはANOVAのことであり、変数が2水準とか3水準ではなくもっと多くの水準で測られていなければならないという測定理論の要請になじまなかった。個人差心理学の研究者にとっては、注意深く観察され精緻化された変数を要請する測定理論は自分の仕事と関係なさそうに思えた。
  • 別の発展に邪魔された。実験心理学ではSternbergが現れ、変数間関係を精緻に検討することなく、反応時間の一般的な加法性を示した。個人差心理学ではJoreskogが現れた。共分散構造分析の世界では、潜在変数を観察するために観察変数の精緻化が重要だという点は背景に退いている。研究者はもはや、データに直接に関わることなく、なにかを操作しているような感覚を持つことができる。コンピュータと戯れるのが好きな人にとってはさぞや楽しかろう[←うわあ、イヤミだなあ…]。

結論
[略]
—–
 残念ながら知識不足で細かいところはよくわからんのだが (そして英語力不足により、流麗な嫌味を十分に満喫できていないと思うのだが)、面白かったっす。
 たしか、”Foundations of Measurement”は第1巻出版から完結までにものすごい時間がかかっている。Stanford大が公開しているSuppesの著作目録をみたら、第1巻はなんと1971年出版のようだ。いまでも引用される重要書籍ではあるのだが(読まれているかどうかは別にして)、このエッセイを眺めていると、1992年の時点でさえ、この本にはもはや過去の遺物的な雰囲気があったようで、なんだかしみじみしてしまう。

 全然話は違うけど、以前よんどころない事情によってテストについて勉強した際(教育系の事業会社でお世話になっていたため。もうね、足を向けて寝られないです)、現在多くの人が学ぶ2PLロジスティックモデルの項目反応理論とは異なり、なぜかラッシュモデルの研究は用語も考え方もちょっと変わっていて、これってどういう経緯なの?と不思議に思ったことがあった。ひょっとしたら、かつての公理的な数理心理学の流れを汲んでいるからなのかなあ? ご専門の方に伺ってみたいものだ。