elsur.jpn.org >

« 読了:Brynjolfsson, Geva, & Reichman (2013) クラウドソーシングによって将来予測を改善する超画期的な方法 | メイン | 読了:「ロジスティック回帰分析」 »

2014年9月11日 (木)

Arnulf, J.K., Larsen, K.R., Martinsen, O.L., Bong, C.H. (2014) Predicting survey responses: How and why sementics shape survey statistics on organizational behavior. PLoS ONE, 9(9).
 質問紙調査で得られる結果のうち、項目間の関連性について、その項目のワーディングの分析によって、実際に調査する前に予測してご覧にいれましょう、という論文。随分キャッチーな言い方だが、提起している問題は意外に深い...

 著者らいわく。EFAにせよCFAにせよ、計量心理的分析は、調査項目間の関連性は項目の意味の重複による自明な関連性ではないということを前提にしている。でも、たとえば「今日は月曜日だ」を真と評価した人は「明日は火曜日だ」も真と答えるに決まっている。こういう意味の重複が、もしすべての項目を通じて存在していたら、尺度間の関連性もそれに汚染されていることになるではないか。
 こういうことを考えた人としてはCoombs & Kao (1960, Psychometrika) がいる。彼らは因子分析がそれ自体の特性として、「社会的効用機能」という外的因子を常に生みだしてしまうと考え、「一次元展開」という計量心理理論を構築した。(←unidimensional unfolding. 昔のMDSの文脈で出てくる話だと思う。この辺の話、苦手なんだよなあ...)
 そんなわけで、項目間の意味的関連性を最新の手法を使って事前に調べ、それで調査結果における項目間関連性がどのくらい説明できてしまうかを検討する。

 意味的関連性を分析する手法はふたつ。まず、LSA。ビジネス系記事(WSJとか)、新聞記事(NYTとか)、PR系文章を集めてそれぞれの意味空間をつくっておく。著者らのひとりが工学系で、自前で空間を作ったらしい。ふたつめは、著者らはMIと呼んでいるのだけれど、要するにWordNet(語彙データベース)を使う。詳細は読み飛ばしたけど、とにかくこの2つのシステムに調査項目を2問放り込めば、ワーディングの意味的類似性を算出できるわけである。

 質問紙調査のほうは組織行動研究をターゲットにしている。リーダーシップとかモチベーションとか、そういう潜在変数が跳梁抜鉤する魑魅魍魎の世界である(すいません冗談です)。
 実験は4つ。
 実験1. Multifactor Leadership Questionnaire (MLQ) という尺度を使う。リーダーシップの因子とかモチベーションの因子とか計11個あり(「知的な刺激」因子とか)、さらにall outcomesという因子がある(なんだかよくわからない)。実際の調査データから求めた各因子のアルファとMIで推測したアルファはほぼ近い。因子間の相関もだいたい推測できる。云々。
 実験2, 3も、MLQやそれに関連したリーダーシッブ尺度を使っている。CFAとかをやっているけど、主旨は実験1と同じである。省略。
 実験4. 今度はNEO-FFIというビッグ・ファイブ尺度の簡略版を使う。こっちの結果は毛色がちがって、調査データにおける各因子のアルファはすごく高いんだけど、MIで予測した値は低い。項目間の実際の相関を、MIではうまく予測できない。つまり、パーソナリティ研究のような、最初に項目を幅広く集めてくる手続きがしっかりしている分野は、この研究の攻撃対象にはならないわけである。
 (あれれ、結局LSAはどこで使ったのだろうか? きっと見落としているのだと思う)

 考察。ここ、いろいろ考えさせられる箇所なので、長めに引用しておく。

 構成概念妥当性に関する計量心理学的諸原理は(少なくとも現在の形式、つまり組織心理学において頻繁に適用されている形式でのそれらは)、我々の知見に照らしての改訂が必要である。アルファ係数からCFAに至るまでのデータ分析の多くの部分を通じ、調査回答に対して意味論的諸特性が猛威を振るっている(pervade)ように思われる。このことは、科学研究における計量心理学の諸原理についての理解に、ある根本的な問題をつきつけている。我々の研究は、独立変数と従属変数の間の関連性が調査実施よりも前に意味論的に決定されているという可能性を示している。つまり項目のワーディングによって決まってしまっているのである。[...]さらに深刻なのは、変数間のこの交絡が、リーダーシップに限らずモチベーションや業務満足や労働の結果といった他の組織行動の諸指標においてもみられるという点である。それはまた、異なるリーダーシップ理論に基づく調査の間の関連性にも影響しており、あの理論よりこの理論のほうが大事だといった主張に疑いを投げかけている。それらは単に同じ命題を違った形で述べているものだからである。(←?? このくだり、いまいちよくわからない)
 現時点では、我々がここで見出した問題がどこまで広がっているかを評価するのは難しい。本研究では、組織行動の分野で一般に用いられている指標が意味論から実質的な影響を受けていることが示された。いっぽう、パーソナリティ・テストではほとんど影響が示されなかった。社会科学の諸概念のあいだには抽象度の差があり、抽象度が高いと単純な意味論的関係に対して脆弱になるのかもしれない(←ううむ... ビッグ・ファイブよりリーダーシップのほうが抽象的だといえるかしらん?)。近年では、組織行動研究では他の分野に比べて共通手法分散による統計量のインフレーションが起こりやすいことが知られている。我々がここで見出した問題も、他の分野ではあまり問題にならないのかもしれない。
 問題の核心は、調査回答におけるシグナルをノイズから分離する統計的手法があれば構成概念の客観的存在を確認できる、という無批判的な想定である。こうしたやり方は理論的見地から批判され続けてきた。認知ではなく行動の観察に基づき抽象度の低い回答を収集している場合には、調査回答はここで示されたような意味論的計算の影響を受けにくいのかもしれない。
 突き詰めていえば、意味論的影響が調査データにおける共変動の主要な源となることを排除する唯一の方法は、その影響を事前に同定することだ。調査変数間の関連性は、ふつう帰無仮説統計量によって検証される。ここで帰無仮説は調査項目間の関連がランダムなものだという期待を含意している。いっぽう我々の知見が示唆しているのは、すべての項目が、意味論的共通性を通じて関連している可能性が高いということである。おそらく、帰無仮説を意味論的仮説に置き換えることが、調査における単なる意味論的関連性と実証的情報を分離するためのひとつの確実な方法となるだろう。

 PLoS ONEの論文になんでこんなにアツクなっているのかわからんが、いろいろと考えさせられる内容であった。

 仕事の話に置き換えて考えると、たとえばある消費経験の領域に対する態度をたくさんの項目で聴取し(「自動車に対するあなたのお気持ちを伺います」とかね)、それを因子分析かなにかで整理しようとするとき、この項目とこの項目の相関が高いのはきっと裏にこんな潜在変数があるからだよね、と思う場合もあれば、この2項目は同じことを違う言い回しで訊いているだけでしょう、相関が高くて当たり前よ、と思うこともある。
 もちろん、因子分析を単にデータ縮約の手段として捉え、項目間の相関構造を生んでいる実質的機序は気にしない、という立場もありうる。でもひとたび項目群の関連性について実質的に理解しようとする限り、単に同じ意味だから相関が高い場合とそうではない場合、このふたつをごっちゃにしちゃっていいものかという疑問は、なるほど、たしかに感じますね。
 そうした疑問に対して、コーパスに基づくLSAなりWordNetなりによってその調査領域や調査対象者に依存しない一般的な意味的類似性を求め、それをベースラインにして、これはどうやら言葉の意味による相関だね、これはそうでもないかもね... と腑分けしていくことができたら、それはもしかすると便利かもしれない。また、たとえば意味論的にみて高いアルファが予測されるような因子については、そんな因子をホントに想定する必要があるのか、項目セットにたまたま同じような項目がはいっちゃっただけじゃないのか、というふうに反省することができるかもしれない。

 しかし... たとえば、ある広い領域についての態度や価値を調べているとしよう(結婚についてとか教育についてとか)。いろいろな項目を聴取して、10個の因子にまとめました、と。で、事前知識による因果的解釈と併せてSEMのモデルを組みました、F1とF2からF3にパスが伸びていて... 云々、と。さてここで批判者が現れ、いやそれはしょせん言葉の問題なんだよ、そのSEMのパス係数は、私たちがコーパスから作ったLSAで説明できちゃうよ、と言われたとしよう。果たしてそれは批判になっているのか。
 そのSEMのモデルは、まあ野望としてはだけれど、私たちの結婚なり教育なりについての態度と行動を規定している因果モデルなのである。そこで表現されている因果関係が、コーパスなり語彙データベースなりに反映されているのは当然である。だからそういう指摘に対しては、ああそうですか、私は調査データで、あなたは言語データで、結局同じものをみているんですね、と答えるしかないように思う。

 というわけで、「その相関はempiricalではない、semanticだ」という著者らの指摘が、果たしてどういう場面でのどういう主張に対して攻撃力を持つのか... さっきからあれこれ考えているのだけれど、難しくてよくわからない。

論文:調査方法論 - 読了:Arnulf, Larsen, Martinsen, Bong (2014) 調査票をみせてよ、結果を当ててやるからさ

rebuilt: 2020年11月16日 22:57
validate this page