読書日記: 読了：Gilbert & Meijer (2005) 時系列因子分析TSFA

« 読了: Brodensen, et al. (2014) マーケティング・アクション前後の時系列からアクションの因果効果を推定するぜ by Google | メイン | 読了: 「Rによる時系列分析入門」 »

2014年9月17日 (水)

Gilbert, P.D. & Meijer, E. (2005) Time series factor analysis with and application to measuring money. Research Report, University of Groningen.
　Rの tsfa パッケージの基になっている論文。通常の動的因子分析(dynamic factor analysis, DFA)を改訂した時系列因子分析(time series factor analysis, TSFA)を提案する。
　DFAという用語も結構あいまいに使われているので、ここで著者らがなにを想定しているのか、はっきりしないのだが... たぶん、因子負荷にはラグがなく因子得点に時系列構造があるようなモデル(先日読んだZhang, Hamaker, & Nesselroad(2008)いうところのdirect autoregressive factor score model)が念頭にあるのではないかと思う。
　著者らいわく、ふつうのDFAは因子の時系列構造の指定に過度に依存する。いっぽう提案手法は最小限の想定しか置かない。

　時点数を$T$, 因子数を$k$, 指標数を$M$とする。時点$t$における因子得点ベクトルを$\xi_t$, 指標の値のベクトルを$y_t$とする。提案モデルのうち測定モデルは
　$y_t = \alpha_t + B \xi_t + \varepsilon_t$
　なお、ある時点における$\xi_t$と$\varepsilon_t$は独立で、$\xi_t$は平均0, 共分散$\Gamma$, $\varepsilon_t$は平均0, 共分散$\Psi$とする。切片ベクトル$\alpha_t$さえ変動する点に注意。なんというか、ゆるゆるのモデルで、これでは推定できない。
　差分オペレータ$D$を導入する。たとえば$Dy_t := y_t - y_{t-1}$である。$Dy_t$を分解して
　$Dy_t = D\alpha_t + BD\xi_t + D\varepsilon_t$
　で、以下の仮定を置く。略記するけど、$\lim$と書いているのはほんとはすべてplimで、下添え字は$T→\inf$。

$D\alpha_t = \tau$。つまり、切片の差分は定数。
$K := \lim \sum_t D\xi_t / T$が存在し有限である。
$\lim \sum_t D\varepsilon_t / T = 0$。
$\Phi := \lim \sum_t (D\xi_t - \kappa)(D\xi_t - \kappa)' / T$ が存在し有限かつ正定。
$\Omega := \lim \sum_t D\varepsilon_t D\varepsilon'_t / T$ が存在し有限かつ正定。
$\lim \sum_t (D\xi_t - \kappa) D\varepsilon'_t / T = 0$。

あ"あ"あ"あ"あ" (藤原竜也風の叫び)。時系列モデルに疎い私はもう頭が真っ白だが、著者らいわく、因子得点の差分 $D\xi_t$と誤差の差分$D\varepsilon_t$が単位根を持たないことを求めているほかには、実質的にはほとんどなにも仮定していない、のだそうである。そうなんすか。
　識別のためにもう少し制約を追加しないといけないようだが($\Omega$を対角行列とするとか)、まあとにかく、このモデルをどうにかして推定できちゃうそうである。因子得点も推定できるんだそうである。細かい説明は全然理解できないのだが、まあ、いいや。

　後半は数値例。まず人工データへの適用例が載っているけど、パス。
　実データへの適用例。著者らはカナダ銀行の人なので(論文が難しいわけだ)、そっち方面の話である。辞書を引き引き読んだ。
　ええとですね。現在のmonetary aggregates(マネーサプライ。取引に用いられるカネがどの程度出回っているか)にはいろいろ問題がある。TSFAをつかい、これをpopulationにおけるfinancial assets(金融資産)の変化を説明する潜在変数に置き換えたい。
　以下の6個のカテゴリの指標を使う: currency(通貨), personal chequing deposits(個人小切手預金), non-bank chequing deposits (ノンバンク小切手預金... なんのことだ一体？)、non-personal demand and notice deposits(非個人の要求払い預金と通知預金... 会社の普通預金のことかなあ)、non-personal term deposits (非個人の定期預金)、そしてinvestment (投資... ってどういうこと？投資信託とか？)。1986年からの215ヶ月のデータ。なお、ここではいっさい季節調整しないが、してもよい、とのこと。
　まず、差分指標の標本相関行列の固有値を見る(ちょちょちょっと待って, 6本のDy_t 時系列の相関行列ってことよね？)。順に2.08, 1.39, 0.85, 0.69, 0.65, 0.33。伝統に従い、固有値1で切って2因子としよう。直接オブリミン回転で解釈する。
　云々。途中で嫌になったのでパス。

　というわけで、ほとんど読んでないけど、読了にしておく。
　要するに、差分データについて極力素直に因子分析するわけね。そういうモデルであったか。思ってたのと全然ちがったので、めくっておいてよかった。たぶん、比較的に本数が少なく、共分散が定常かどうかわからず、因子の時系列構造がさっぱりわからんような多変量時系列に向いている手法なのだと思う。

論文：データ解析(-2014) - 読了：Gilbert & Meijer (2005) 時系列因子分析TSFA

読書日記

読んだ本を淡々と記録します

2014年9月17日 (水)