読書日記: 読了：狩野(1998) 探索的因子分析の不適解はなぜ起きるか、どう対処するか

« 読了：McEntegart (2003) 共変量の分布をバランスさせつつ実験条件に対象者をうまく割り当てる方法レビュー | メイン | 読了：Fabrigar, et al. (1999) おまえらの探索的因子分析はまるでなってない、もっと精進しろ »

2016年9月 7日 (水)

狩野裕(1998) 不適解の原因と処理：探索的因子分析. 大阪大学人間科学部紀要, 24, 303-327.

　前から読もうとストックしてあった奴。都合で急遽目を通した。

　探索的因子分析では不適解が出ることがある。不適解とは、SPSSとかが「共通性が1を超えました」などと木で鼻をくくったようなメッセージを出してくること、すなわち、独自因子の分散のなかに0以下の値が出現すること。Heywoodケースってやつですね。
　因子分析のモデルからいえば、独自因子分散$\Phi_i$の母数空間は$0 \leq \Phi_i \leq \sigma_{ii}$だ($\sigma_{ii}$は観測変数の分散)。でも最適化問題としては$\Phi_i \leq 0$を許しているから、こういうことが起きるわけである。

　不適解が起きる理由は、大きく4つある。

　A. 標本変動。推定量が運悪く上記の制約の外側に出ちゃうことは、そりゃありうる。いうなれば良性の不適解である。
　不適解の原因が標本変動だと判断するためにはどうしたらよいか。上記の制約を気にせずに推定したとき、(1)反復は収束するし、(2)推定値は初期値やアルゴリズムを問わず安定しているし、(3)独自因子分散のSEはほぼ同じ大きさになり、(4)その信頼区間は0を含み、(5)基準化残差は大体同じになる、ってんなら、それは標本変動のせいだとみてよろしかろう。[基準化残差ってのは、式は省略するけど、えーっと、要するに標本分散行列からモデルで説明できる分を引いて基準化したやつね]
　もし原因が標本変動だと判断されたならどうするか。不適解であろうがなかろうが、独自因子分散の信頼区間が0を含むようなモデルは採択すんな、という意見もある(Bagozzi & Yi, 1991 JCR)。いっぽう、その場合は独自因子分散を0に固定した解をつかっちゃってよい、その項目のパラメータはともかく、ほかのところはわりかしうまく推定できているはずだから(Gerbing & Anderson, 1987 MBR)...という意見もある。

　B. 識別性。因子モデルの識別のためには因子負荷行列の各列に非ゼロ要素が3つ以上ないといけないが、そうなっていない場合。細かく分けると、(B1)非ゼロ要素が1つしかない場合。それって独自因子じゃん、要は因子数が多すぎるんじゃん、という話。(B2)2つしかない場合。このときは、因子数を減らすと適合が悪くなってカイ二乗検定でひっかかるわ、さりとて減らさないと不適解だわ、という八方ふさがりに陥る。
　どう判断するか。まず収束しにくくなりますわね。推定値は当該の1or2項目について不安定になる。独自因子分散のSEは当該の1or2項目ででかくなり、しかし信頼区間が0を含むとは限らない。このように、さっきのチェックリストのうち(1)(2)(3)(4)にひっかかるはずである。ついでにいうと、B2の場合は因子数を一つ減らして残差独立性をLM検定すると有意になるはず。
　対処。B1の場合、因子数を減らす。そのモデルの適合が悪く棄却されちゃう場合は、標本サイズが大きすぎると捉えて、カイ二乗検定をあきらめGFIやCFIをみるか、多変量正規性の仮定が崩れていると捉えてADF推定するか。B2の場合は、独自因子の共分散を推定するか、因子負荷なり独自因子分散なりに等値制約を置くか。[←うーむ、どこまでもSEM的な解決策だ... SPSSとかでEFAやっている人は困るだろうな]

　C. 因子モデル不適合。これにはいろんなパターンがあるんだけど、整理されていない。典型的には次の2つのケースが挙げられる。
　(C1)独自分散の真値が負。5つのチェック項目のうち(4)だけに引っかかる。項目を削るしかない。
　(C2)モデルに合わない変数がはいっている。その変数を突き止めて削るしかない。

　D. 上記以外いろいろ。たとえば外れ値とか。

　後半は事例。メモは省略。

　考察。「本稿では探索的因子分析における不適解の原因と処理について議論してきたわけであるが、率直な意見として、かなりテクニカルだと言わざるを得ない」と、せっかく読んできた読者の膝を後ろからカックンさせるようなセリフに続いて、EFAじゃなくてもっと別の主成分モデルっぽいのを考えたほうがいいんじゃないかという話。独自因子分散を考えるんだけど、それを標本分散に比例させちゃう(つまり信頼性を固定する)モデル、とか。

　。。。大変勉強になりましたです。
　もし他の方がこの論文と同じ趣旨の解説を書いたら、B1では「その項目を削れ」、B2では「その2項目を併合せよ」、という案に触れるだろうな、と思う。実際、EFAにおける不適解についての解説は、対処法として真っ先に「共通性が高すぎる項目を削る」「併合する」を挙げることが多いと思う。この辺の書き方の違いは、著者の先生のお立場の反映なのだろう。
　たしかに、ああいう機械的なアドバイスってどうなの、と思うことあるんですよね。項目選択ってのはなによりも大事なもので、リサーチャーが死ぬほど頭を捻って選んでる(はず)なんだから、たかが不適解くらいでそうそう簡単にいじれないよ、と。ま、この辺は分析の文脈にもよる。

論文：データ解析(2015-) - 読了：狩野(1998) 探索的因子分析の不適解はなぜ起きるか、どう対処するか

読書日記

読んだ本を淡々と記録します

2016年9月 7日 (水)