« 読了: Park & Lee (2001) デザイン効果、その知られざる真実 | メイン | 読了:Spencer(2000) 抽出確率が測定値と相関している標本におけるデザイン効果の推測 »
2014年3月12日 (水)
またもや「ウェイトバック集計」関連の論文。非比例層別抽出のような、個体のあいだで標本抽出確率が均一でない標本があるとき、確率ウェイティングの下での集計・検定を行うことは多いけど、では回帰分析や因子分析も「ウェイトバック」すべきか。これは大変難しい問題で、いつも答えに困る。厄介なことに、最近はソフトウェアが進歩して、単に「できません」と答えるわけにもいかなくなっている...
Muthen, B., & Satorra, A. (1995) Complex sample data in structural equation modeling. Sociological Methodology, 25, 267-316.
確率ウェイトつきの調査データに対する多変量解析についての概観が読みたくてめくった。掲載誌は年報のような感じ。
いやはや、長くて難しい内容であった。困るなあベン、もっと易しく書いてくれないとさあ。(←論文を何本も読んだのでもはやマブダチである。俺の中ではな)
まず、先行研究概観。complex sample design のデータ解析手法は2つに分けられる。
- aggregated analysis. 通常のパラメータ推定値を算出するけど、標準誤差や適合度を調整する。
- disaggregate analysis. 抽出構造を反映した新しいパラメータを導入する。
別の観点からは次の2つに分けられる。
- design-based approaches. 標本抽出論で発展してきた。有限母集団の特性の推定に関心がある。
- model-based approaches. ふつうの統計モデリング。なんらかの(超)母集団モデルを仮定し、そこから推定量を引き出す。
先日読んだGelmanさんも云ってたけど、いわゆるモデル・ベースのアプローチだって標本抽出デザインについての情報を使っているのだから、なんだか変な区別なんですけどね。まあこの業界の常識的区別なのであろう。以上の区別については、Skinner, Holt, Smith, eds.(1989) "Analysis of Complex Surveys"を参照せよとのこと。
で、先行研究を、単変量のデザイン・ベース、単変量のモデル・ベース、多変量、の3節に分けて紹介。
- 単変量のデザイン・ベース。これが一番多い。パラメータ推定の際にウェイトを使う。標準誤差の算出方法は4つある。(1)テーラー展開。(2)balanced repeated replication (BBR)。(3)ジャックナイフ法。(4)ブートストラップ法。レビューとして以下を参照せよとのこと: Wolter (1985) "Introduction to variance estimation"; Rust(1985, J.Official Stat.)。ぜってーよまねー。4つの方法の性能を比較した研究がいくつもあるらしいが、結局のところ、どれでも良いらしい。
- 単変量のモデル・ベース。さらに二つに分けられる。逆にいうと、この二つの両方を扱った研究はない。
- 抽出確率の不均一性を考慮する研究。母平均推定についてはLittle(1983JASA), 回帰モデリングについてはHolt, Smith & Winter (1980JRSS), Nathan & Holt(1980JRSS), Pfeffermann & Holmes(1985JRSS), Pfefferman & LaVange(1989, in Skinner et al.(eds))がある。デザイン・ベースの方法と比べてMSEが小さいよ、という研究が多い。残差分布の層間異質性をモデル化する研究もある(階層ベイズモデルみたいなものだろうか? Little (1989)というのが挙げられている)。
- クラスタを考慮する研究。古典としてScott & Smith (1969)というのがある。クラスタ内相関をモデル化する分散成分モデルであったそうだ。以来、山ほど研究がある由。面倒なので省略するけど、教育研究での例として(学級がクラスタね)、Bock(1989, 書籍), Bryk & Raudenbush (1992, 書籍), それからLongfordという人のNAEPの研究が挙げられている。よくわからんけど、それって階層回帰モデルの話そのものではないかしらん。
- 多変量。研究は少ないが、以下の2つの領域で出現している。
- 対数線形モデル。ここ、面白いので丁寧に。研究例として、Freeman et al.(1976), Landis et al.(1987), Rao & Thomas (1988, Sociological Methodology) がある。これらの研究は、抽出確率の不均一性とクラスタリングの両方を考慮している。パラメータ推定や仮説検定にはGLSを使う。標本統計量 s (ここでは比率のベクトル)の共分散行列を、ウェイト行列Wで近似するという作戦である。Wの作り方として、Landisらはテイラー展開、Rao & Thomas はジャックナイフやBRRを使っている。また、Rao-Scottの「一般化deff行列」を使う方法、Fayのジャックナイフ・カイ二乗検定、Rao-ScottによるSRSカイ二乗の修正方法、などがある。ひえー。Rao & Thomas (1988)を参照せよとのこと。
- SEM。この辺はいまはちょっと古くなっていると思うので、省略。
以上はこの論文のほんの序盤で、ここからが本題。まず、SEMを一般的に定式化し、complex sampleに対するaggregatedのモデルとdisaggregatedのモデルを定式化する。それも正規性がある場合とない場合の両方について。正直いって私の能力の及ぶところではないので、パス。
で、モンテカルロ・シミュレーション。層やクラスタが出てくるややこしい標本抽出デザインのデータに対する回帰分析と因子分析について、(1)正規性を仮定したML推定(SRSを想定)、(2)robust normal theory に基づく推定(すなわちデザイン・ベース)、(3)マルチレベルモデル(すなわちモデル・ベース)の3つの性能を比較。(2)(3)の性能がいいね、云々。根気が尽きたのでパス。
というわけで、大部分はパラパラとめくっただけだけど、目的は達したので、読了ということにしておいてやろう。なんだかあれだな、散々殴られた挙句に「今日はこのくらいにしておいてやるか」と言い捨てて立ち去るチンピラみたいだな。
論文:データ解析(-2014) - 読了:Muthen & Satorra (1995) 複雑な標本抽出デザインのデータに対するSEM