elsur.jpn.org >

« 読了:Alvarez, et al. (2014) 共分散行列の事前分布は逆ウィシャート分布でいいのか | メイン | 読了:松井(2001) マーケティング関係者はなぜマズローが好きなのか »

2017年8月26日 (土)

Reise, S.P. (2012) The Rediscovery of Bifactor Measurement Models. Multivariate Behavioral Research, 47(5), 667-696.

 SEMでいうbifactor model(「双因子モデル」?)についての解説。bifactorモデルには独特の話題があるので、前から気になっていたんだけど、勉強する機会がなかった。このたびちょっときっかけがあって大急ぎでめくった。

 いわく。
 bifactorモデルとは、ひとつの一般因子があって全項目がそれを反映し、それとは直交するいくつかのグループ因子(特殊因子)があってそれぞれが項目のクラスタに対応する、というモデル。前者は概念的に広いターゲット構成概念を表し、後者はより狭い下位領域の構成概念を反映する。[←ことばで表現するとわかりにくいっすね]
 bifactorモデルの歴史は1930年代に遡るが、サーストン流の因子間相関モデルの栄光の陰に忘れ去られ、さびれた港町で無為な日々を送っていた[←意訳]。それが最近急に注目されているのは、(1)パーソナリティ測定の分野で良く使われるようになり、(2)啓蒙論文が出版され、(3)方法論研究が増え、そして(4)ソフトが出てきたから。

探索的bifactorモデル
 30年代にHolzingerらが提案したのがこれ。50年代にSchmid-Leiman直交化(SL)という上手い推定方法が出てきた。でもあんまり使われてない。理由: (1)SLが一般的なソフトに載ってない。(2)研究者が不勉強。

 結局のところ、因子間相関モデル、二次因子モデル、SLは等価である。ということを、実データ(15項目, 5因子を想定)でお示ししましょう。

 まず因子間相関モデルから。モデルで再現する相関行列を$\hat{R}$として、
 $\hat{R} = \Lambda \phi \Lambda^T + \Theta$
と書ける。ただし$\Lambda$は$15 \times 5$の負荷行列、$\phi$は$5 \times 5$の因子間相関行列、$\Theta$は$15 \times 15$の直交行列で独自性を表す。心理測定の研究者が大好きなモデルである。個人差は因子得点のプロファイルとして表現される。因子は比較的に狭い構成概念を表している。全項目を通じた共通分散があるとして、それは$\phi$行列のなかに隠れている。

 同じデータに二次因子モデルを当てはめることもできる。$\phi$行列を単一の二次因子への負荷行列に変換するわけである。個人差は一般的傾向性(たとえば「一般的不安」とかね)と、より狭い下位傾向性によって表現される。ここでのポイントは、二次因子と項目の間に直接的な関連はない、という点だ。二次因子モデルは共通因子モデルの再表現に過ぎない。つまり、上のモデルの$\phi$について
 $\phi = \Gamma \Phi \Gamma^T + \Psi$
とモデル化しただけである。

 さて。次の変換行列$T$を考えます。
 $T=[\Gamma | \Psi^{1/2}]$
サイズは$5 \times 6$。1列目は、二次因子モデルにおける二次因子への負荷を表す。2列目以降は対角行列で、各一次因子の独自分散の平方根を持つ[えーっと、各行は2つの要素を持ち二乗和が1になるわけね]。これをつかって負荷行列を変換し
 $\hat{R} = (\Lambda T)(\Lambda T)^T + \Theta$
これがSL直交化である。[←なるほどねえ。こりゃ計算が楽だわね]
 SLでは、共通因子は一般的な次元を表し、グループ因子はそれと直交する下位領域を表す。切り離して解釈できるというのが美点。
 
 以上を整理しよう。因子間相関モデルの負荷行列が完全な独立クラスタ構造を持っているとき(=ある項目がある一次因子にのみ負荷を持つとき)、

 SLの怖いところ。

というわけで、SLに代わる現代的な推定方法が開発されている。Reise et al.(2011)のtarget bifactor回転と、Jennrich & Bentler (2011)のanalytic bifactor 回転がある。後者はRのpsychパッケージにも入っている。[実データの分析例が載っているけど、パス。なおMplusだとBI-GEOMIN回転とBI-CF-QUARTIMAX回転が使えて、どちらも斜交か直交かを選べる]

確認的bifactorモデル
 各項目は一般因子とどれかひとつのグループ因子だけに負荷を持つ、というモデル。比例性の問題はなくなるが、交差負荷を無視したせいで起きるバイアスが怖いので、ちゃんと探索的分析をやってから組むのが大事。
 
 推定方法。SEMアプローチとIRTアプローチを紹介しよう。2値データについて考える。[以下、誤植らしき箇所を勝手に直したり書き換えたりしている]

 SEMアプローチの場合。$i$番目の変数の背後に正規潜在反応変数$x_i^*$と閾値$\tau_i$を仮定する。グループ因子が$p$個だとして
 $x_i^* = \sum_{j=0}^p \lambda_{i,j} \theta_{j} + \eta_i$
 で、WLS推定とかを使ってテトラコリック相関行列を分析する。これを限定情報因子分析と呼ぶ(平均と共分散しか使わないから)。

 IRTアプローチの場合。モデルはこんな感じになる。
 $\displaystyle E(x_i|\theta) = \frac{\exp(z_i)}{1+\exp(z_i)}$
 $z_i = \sum_{j=0}^p \alpha_{i,j} \theta_j + \gamma_i$
$\alpha$が識別性、$\gamma$が困難度を表す。で、周辺最尤推定(marginal ML)を使って項目反応行列全体を分析する。これを完全情報因子分析と呼ぶ。
 
 よく知られているように、2パラメータ正規IRTと間隔尺度因子分析は等価である。$\alpha, \gamma$と$\lambda, \tau$のあいだには次のような関係があって...[略]
 ただし、以下の点に注意すべきである。

 [ここでモデル比較のデモ。bifactorモデル, 因子間相関モデル, 二次因子モデル, 一次元モデルを比べる。略]
 [一般因子のパラメータ不変性、つまり、使う項目を多少削ってもパラメータが大きく変わらないかどうかを調べるデモ。略]

bifactorモデルの使い道
では、bifactorモデルの重要な使い道を4つ、実例とともに紹介しましょう。

要約と限界

云々。

 ちょっと思ったことをメモ。
 調査データ分析の文脈では反応スタイルなどに起因する共通手法分散(CMV)が深刻な問題になる。この論文が主に対象としているのは、一般的心理特性と下位領域の心理特性を反映しているような心理尺度で、だからこそ、因子を直交させるのが推奨されているし、交差負荷もなしにするのが基本なのだと思う。でも私はどっちかというと、複雑なデータ生成構造を持つ調査データがあって、これからその構造について調べたいんだけど、まずはうまくCMVだけ取り除きたい、という場面を思い浮かべながら読んでいた。だから、一般因子とグループ因子の直交性仮定はいいけれど、グループ因子間の直交性仮定は強すぎて困るな、と思う。
 確認してないんだけど、CMVの第一人者(?)であるPodsakoffさんは以前「CMV因子を入れたCFA」案を紹介していたらしい。でもAntonakisらのレビューでは否定的に扱われていたと思う(モデルが誤指定だったらひどい目に合うから、というような理由だった)。リッカート尺度の項目群の場合、Allenby兄貴のようにHBモデルを組むというのがひとつの方向だと思うのだが、いかんせんめんどくさい。
 で、この論文を読んでいて思うに、カテゴリカルEFAでbifactor回転してモデルの誤指定をチェックした上で$\omega_H$を推定し、CMV因子をいれた好き勝手なSEM, ただしCMVへの負荷はさっきの$\omega_H$を再現できる値に全項目等値で固定する... というのはだめかしらん? いつか暇ができたら調べてみたい。(まあ無理だけどな)

論文:データ解析(2015-) - 読了:Reise (2012) 忘却の淵から甦れ、bifactorモデルよ

rebuilt: 2020年4月20日 18:54
validate this page