elsur.jpn.org >

« 読了:Hardie, Fader & Wisniewski (1998) 消費財トライアル売上予測バトルロイヤル | メイン | 消費者パネルデータの栄枯盛衰 »

2019年10月18日 (金)

Ferrari, P.A., Barbiero, A. (2012) Simulating Ordinal Data. Multivariate Behavioral Research, 47, 566-589.

 いま、$m$個の順序変数があって、各変数の周辺分布はわかっている。さらに、任意の2個の変数について、(カテゴリに1,2,...と数字を振って得た)相関係数もわかっている。この周辺分布と相関行列にあわせてデータを生成するにはどうすればいいか、という論文。
 なんでそんなの読んでるの?という感じだが、仕事の都合でそういうのが急遽必要になったのである。ああ流されていく人生。

 著者らはRのGenOrdパッケージの中の人。
 イントロは端折るけど、一般に、欲しい特徴を持つデータ行列をシミュレーションする方法は二つあるそうだ。

 この論文は前者のアプローチ。

 いま、ターゲットである相関行列$\mathbf{R}^{O*}$をつかって、連続変数のデータ行列 $\mathbf{Z} \sim N(\mathbf{0}, \mathbf{R}^{O*})$を生成したとしよう。で、$\mathbf{Z}$の各列について、ターゲットである周辺分布に一致するように離散化したとしよう。ここまでは、まあ、思いつきますね。
 ところが、このデータ行列から相関行列$\mathbf{R}^O$を得ると、それはターゲットの$\mathbf{R}^{O*}$からずれてしまう。そりゃまあそうだ。

 そこで著者らが提案する手順は以下の通り。

 後半は応用例。この方法でなにかの信頼区間を出すとか、PCAと非線形PCAの性質のちがいをシミュレーションするとか。眠くて読み飛ばした。

 ...意外に単純な話で拍子抜け。要はほしい相関行列を共分散としてもつMVNからサンプリングして離散化し、その相関行列をみて共分散を修正してまたサンプリングして離散化して、というのを繰り返すわけだ。

論文:データ解析(2018-) - 読了: Ferrari & Barbiero (2012) 指定された周辺分布と相関行列を持つ多変量順序データを生成する方法