Jia, F., Moore, W.G., Kinai, R., Crowe, K.S., Schoemann, A.M., Little, T.D. (2014) Planned missing data designs with small sample sizes: How small is too small? International Journal of Behavioral Development. 38(5), 435-452.
計画欠損データの分析は標本サイズがどのくらい小さいとやばいか、という論文。仕事の都合でざーっと目を通した。
いわく。
計画欠損つきデータ(planned missing data, 以下PMD)は、欠損の分類でいえばMCARなので、完全情報最尤法(FIML)とか多重代入法(MI)とかでうまく分析できる。いまどきのSEMソフトにはFIML推定が載っている。MIのほうも、必要な代入回数については議論があるものの、たくさんソフトがある。
本論文では、3-form 調査設計の場合(それがなにかは後述)、標本サイズがどのくらいあればFIMLなりMIなりによる分析がうまくいくのか、調べます。
横断CFAモデル、2時点のCFAモデル、3時点のmediationモデルを考える。いずれも因子数は3。[モデルはパス図で示されている。各因子の指標は3つで交差負荷はない。因子間相関あり。2時点のモデルでは全ての因子ペアで時点間の因子間相関あり。3時点のmediationモデルというのはなんのことをいっているのかというと、時点\(t\)の因子\(j\)を\(f_{jt}\)として、\(f_{1t}\)からは\(f_{1,t+1}\)と\(f_{2,t+1}\)にパスが刺さり、\(f_{2t}\)からは\(f_{2,t+1}\)と\(f_{3,t+1}\)にパスが刺さるというモデル。つまり因子得点が因子1, 2, 3の順にラグ1で時変するってモデルね]
データ生成。
モデル1(横断モデル)では、因子分散は1。因子負荷はすべて同じで(タウ等価ってやつね)、0.7から0.85まで0.05刻みで4水準。因子間相関も0.2から0.5まで0.1刻みで4水準。4×4=16条件。
モデル2と3では、時点1の因子分散は1。負荷と時点内の因子間相関はモデル1と同じ。時点間の因子間相関は、自己回帰のパスは0.4から0.9まで6水準、クロスラグのパスは0.1から0.4まで4水準。4x4x6x4条件できるが、実現できない(時点2の因子分散が負になる)のも出てくるので、それらを除くと340条件。
標本サイズ60から300までのデータを生成する。で、3-form 調査設計の形で計画欠損させる。調査項目をX,A,B,Cの4群にわけ、調査票バージョン1ではX,A,Bに、2ではX,B,Cに、3ではX,A,Cに回答させるわけである。ここでは、Xは各因子の指標1とし、Aは因子1-指標2と因子3-指標3, Bは因子1-指標3と因子2-指標2, Cは因子2-指標3と因子3-指標2とする[欠損デザインが綺麗すぎて引いちゃう…]。モデル2と3の場合、ある時点で調査票バージョン1に答えた人は次の時点では2に答える、という風にバージョンを動かしていく。
最後に5%をMCARで欠損させる。
という架空データを、条件あたり200個つくりました。Rのsimsemパッケージで。
でもって、モデルを推定します。FIMLはRのlavaanパッケージで[ええええ、つまんないの。Mplusでやろうよー]。MIはAmeliaというソフトで20データセットつくって、lavaanで推定して、結果をくっつけた。[なぜ20にしたかという話がひとしきり書いてあったけど飛ばした。Ameliaって使ったことないけど、スタンドアロン版とRパッケージ版があるらしい。ふーん]
以下の指標について調べる。
- モデルの収束。FIMLの場合、イテレーション200で収束するか。MIの場合、20個すべてで収束するか。
- パラメータ推定値とSEの相対バイアス(バイアスと真値との比)。
- パラメータ推定値のMSE。
- relative efficacy(RE)。すなわち、欠損してないデータから得られたパラメータ推定値の分散と、欠損データから得られたパラメータ推定値の分散との比。
次の基準を設ける。(C1)収束率は0.9以上か。(C2)パラメータ推定値の相対バイアスは0.5以下でSEの相対バイアスは0.1以下か。C1とC2を両方満たしたら合格とする。
結果。[こういう論文は手法のほうが面白くて、結果になるとだんだん萎えてくるので、急にメモもおおざっぱになる…]
モデル1ではFIMLのほうが、小標本サイズで収束し、バイアスも小さい。合格するためにはFIMLでは120, MIでは155くらい必要。
モデル2では […中略…] FIMLでは100, MIでは200くらい必要。
モデル3では […中略…] FIMLでは130, MIでは175くらい必要。
考察。
要するに、どのモデルであれどちらの推定手法であれ、標本サイズが小さいと、収束しにくく、バイアスが大きくなる。
FIMLよりMIのほうがパフォーマンスが落ちる。それは当然で、モデルが正しいなら(今回はそうですね)、MIは代入の回数が無限のときにはじめてFIMLと等価になる(とはいえ、補足変数があるときはMIのほうが楽なんだけどね)。諸君、MIの代入回数は増やすべし。
[…めんどくさくなってきたので大幅中略…]
縦断調査の設計をするときは、ある1時点について横断モデルを推定するときに必要な標本サイズと、縦断モデルを推定するときに必要な標本サイズはちがう、という点に気を付けること。[なるほど、そりゃそうだ]
云々。
… ああ、このシンプルなヤッコー感(やったらこうなりましたの略)… 私の疲れた心を優しく癒やしてくれる… すべての論文がこういうものであればいいのに…(それはそれでちょっと困りますね)
どうせなら、計画欠損データでEFAやったときの標本サイズについてのシミュレーション研究はないものかしらん。もっと身近な話だもんで。
メモ: 3-formデザインについての詳細はLittle et al.(2013 J. Pediatric Psych.)をみよとのこと。あ、著者らの論文だ。