« 読了:Divine, et al. (2018) Mann-Whitney検定は中央値の検定ではない | メイン | 覚え書き:調査におけるX件法尺度のXをどうするか研究レビュー by Krosnick(1997) »
2018年10月 3日 (水)
萩生田伸子, 繁桝算男(1996) 順序付きカテゴリカルデータへの因子分析の適用に関するいくつかの注意点. 心理学研究, 67(1), 1-8.
リッカート尺度の段階数はどうすればよいかとか、リッカート尺度のデータを因子分析してもいいんでしょうかとか、そんな話の中で実にひんぱんに引用される有名論文。ちょっと用事があってメモをとった。実のところ、たぶん読むのは3回目くらいである。
いわく。
順序カテゴリカルデータの因子分析には2つの方法がある。
- 等間隔の値を振って連続値とみて因子分析。以下では簡便法と呼ぶ。
- 多分相関係数行列を推定してから因子分析。[Olsson(1979, Psychometrika)というのが挙げられている]
推定値の挙動について実験してみましょう。
データのつくりかた。まず量的データをつくる。
$\Xi = F \Lambda^{'} + E$
とし、$F$と$E$に$N(0,1)$の正規乱数をいれる。$\Lambda$は単純構造とし、負荷があるところに$\sqrt{0.3}$をいれる。こうすると、ある因子に負荷を持つ項目間の真の相関は0.3になる。
ここで動かす条件は3つ。
- 項目数。{15,30}。
- 真の因子数。{3,5}。[はっきり書いてないような気がするんだけど、各因子に負荷を持つ項目の数は均等にしているんだと思う。最小で15/5=3個、最大で30/3=10個、なんでしょうね]
- データのサイズ。{50,100,200,300}。
このデータをやおらカテゴリ化する。全項目に共通の閾値を与えて順序尺度に落とすわけである。ここで動かす条件は2つ。
- カテゴリ数。{2,3,5,7,カテゴリ化しない}。
- 閾値の位置。{均一度数型、負の歪み型、中央に谷型、中央に山形}。ただし、カテゴリ数2のときは均一度数型と負の歪み型のみである。[閾値の具体的な位置については明記されてない]
簡便法と多分相関の2種類で因子分析をやる。データセットは各セルについて100個。SASのPROC FACTOR, ML、SMC。[これ、多分相関のほうは、まず別のプログラムで多分相関行列を推定し、PROC FACTORに食わせたのであろう。あああ、それって時間もかかるし不適解もでまくる...]
実験1。負荷行列はどうなるか。因子数として真の因子数を指定する。得られた行列を、真の負荷行列をターゲットにしてプロクラステス回転する。
結果。真の負荷行列と推定された負荷行列の乖離(RMSE)に注目すると、
- 乖離はカテゴリ数が2,3のときに大きい。カテゴリ化しないときの乖離は3と5の間くらい。[←面白いっすね。直感的にはカテゴリ化で損するはずなんだけど]
- 閾値の位置はあまり効かないが、中央に谷よりは中央に山のほうがまし、負の歪みよりは均一の方がまし。[←それはMLだからなんじゃなかろうか。GLSとかだとまた違いませんかね?]
- 簡便法と多分相関を比べると、乖離にはあんまし差がない。
- 項目数は大きい方が、因子数は少ない方が、乖離が小さい。
共通性が1を超えちゃって計算不能になる回数は、乖離が大きいときに大きくなる。いっぽう、多分相関行列が収束しないという回数(結構多い)は、データサイズが小さいときに増える。
なお、カテゴリ無し条件でも結構な不適解が出た。標本変動のせいでしょうね。
実験2。因子数を当てられるか。AICとBICで因子数を推定し、真の因子数と比較する。計算不能だったら「当てられなかった」とカウント。[←条件によっては笑っちゃうほど当てられない...]
カテゴリ数が多い方が、項目数は多い方が、因子数は少ない方が、的中率は上がる。閾値の位置はあんまり効かない。簡便法 vs 多分相関の勝負が気になるところだけど、AIC vs BIC と交互作用があってよくわからない(BICだと多分相関、AICだと簡便法が良かった)。
考察。
2件法・3件法は計算不能も多いし因子数も当てられないし乖離も大きい。因子分析はお勧めできない。逆に5件法と7件法は大差ない。
なお、上の実験ではカテゴリなしだとかえって乖離するという変な話になったが、追加実験したところ、データサイズが大きければやはりカテゴリ化しないほうがよかった。[←うーん、それでも謎は残りますね。小さなデータでカテゴリ化したほうが乖離が小さくなったのはなぜか。外れ値のせいじゃないかなあ]
項目数が少ないと乖離が大きくなる。因子数が多いとうまくいかなくなりやすい。「項目数は因子あたり3個」ルールはあてにならん。これはまあ、カテゴリカルデータに限ったことではない。
データサイズについて。「データサイズは項目数の3倍」ルールもあてにならん[←そんなのあったの? 私は5倍って習ったけど]。いろんな要因の影響をうけるので、なかなか安心できない。
データの分布は、正規性から極端にはずれていると悪影響を及ぼす可能性がある。
簡便法よりも多分相関係数を分析した方が良いとは必ずしもいえない模様。時間もかかるし、計算不能になりやすいし、再現性も(この実験では)別に高くなかった。
というわけで、調査データの因子分析ユーザへのアドバイス。(1)5件法か7件法がお勧め。(2)データサイズはなるたけ多く。(3)項目数は多い方が良いこともある。(4)多分相関行列の因子分析? 別にやんなくていいよ。
... ところで、これ、第一著者の先生の修論だったんですね。へー。
この論文の価値とはまったく関係ないんだけど、この論文の主旨のひとつである「因子分析するときは3件法より5件法」という話が変な風に伝わっちゃって、調査票作成の際に「因子分析するから5件法にしなきゃ」と強く主張する人が結構多く、何度か頭を抱えたことがある。あのですね、それはいったん連続量を生成してからカテゴリ化したシミュレーション研究の話であって、調査票上で何件法になっていようが、全員が両端にしか反応してくれなかったらそれは2件法と同じでしょ、という話である。調査設計時にはなによりも、個別具体的な調査項目に対する反応分布を考えなきゃいけない。そういうわけで、こういう研究のせいでちょっと苦労しているんだけど、それは別の話。わかりやすくて勉強になる論文であります。
細かいことをいくつかメモしておく。
- 考察のところで、「項目数は因子あたり3個」ルールはあてにならない...というくだりがあったのだが、このルールに触れた文献としてJackson & Messik (1967, 書籍)というのが挙げられていた(原文は1964となっているが誤植であろう)。へー。
- イントロの、カテゴリカル因子分析の方法には簡便法と多分相関行列があるというくだりで脚注がついて、「相関係数に基づかない因子分析法も存在する」という言及があり、以下が挙げられている: Christofferson(1975 Psychometrika), Muthen(1978 Psychometrika), Bock, Gibbons, & Muraki(1988 App.Psych.Measurement), Muraki & Carlson (1994 App.Psych.Meaturement)。とはいえ、「十分に実用的な段階にあるとは思われない」とのことである。ここんところは現在と状況が違うと思う。
論文:データ解析(2018-) - 読了:萩生田・繁桝(1996) 順序カテゴリカルデータを因子分析したときの推定値の挙動