読書日記: 読了：Abdi & Valentin (2007) 多重対応分析における寄与をどのように求めるか

« 読了：「きのう何食べた？」「続豆腐百珍百番勝負」「お嬢様のお気に入り」「はたらくすすむ」「ハナヨメ未満」 | メイン | 読了：Butler & Denham (2000) PLS回帰の偏回帰係数は奇妙な縮小特性を示す »

2020年1月 7日 (火)

Abdi, H., & Valentin, D. (2007) Multiple Correspondence Analysis. In: Salkind (ed.) Encyclopedia of Measurement and Statistics.
　多重対応分析を一般化特異値分解で捉えた時、各因子(っていうかなんというか)の寄与は特異値の二乗を割合に直したやつでええんのんか？というのがよくわからなくなり、ネットで拾って大急ぎで目を通したもの。いずれきちんと勉強したいが(特にRのパッケージ間での違いについて知りたい)、とりあえず付け焼刃で...

　いわく。
　多重対応分析とは...[メモ省略]。名義変数のセットによって記述されたケース集合について分析するときにつかう。
　事例...[略]

　名義変数の個数を$K$とする。それぞれの変数の水準数を$J_k$、その合計を$J$とする。ケース数を$I$とする。$I \times J$の指標行列を$\mathbf{X}$とする。$\mathbf{X}$の全合計を$N$とする。
　まず、確率行列$\mathbf{Z} = N^{-1} \mathbf{X}$を求める[確率行列というのは違和感があるけれど、$\mathbf{X}$を二元クロス表のように捉えているわけね]。
　$\mathbf{Z}$の行和ベクトル$\mathbf{r}$, 列和ベクトル$\mathbf{c}$を求める。それぞれを対角に持つ対角行列を$\mathbf{D_c}, \mathbf{D_r}$とする。で、次の特異値分解を行う。
　$\mathbf{D_r}^{-1/2} (\mathbf{Z} - \mathbf{rc}^T) \mathbf{D_c}^{-1/2} = \mathbf{P \Delta Q}^T$
　でもって、
　$\mathbf{F} = \mathbf{D_r}^{-1/2} \mathbf{P \Delta}$
　$\mathbf{G} = \mathbf{D_c}^{-1/2} \mathbf{Q \Delta}$
を行スコアと列スコアにする。
　[あれ？これであってんの？これって
　$\mathbf{Z} - \mathbf{rc}^T = \mathbf{N \Delta M}^T$
　$\mathbf{N}^T \mathbf{D_r N} = \mathbf{M}^T \mathbf{D_c M} = \mathbf{I}$
という一般化特異値分解なんじゃない？だったら特異値分解は
　$\mathbf{D_r}^{1/2} (\mathbf{Z} - \mathbf{rc}^T) \mathbf{D_c}^{1/2} = \mathbf{P \Delta Q}^T$
なんじゃない？ ... きっと私がなにか勘違いしておるのだろう... ]

　行と列の、それぞれの重心からのカイ二乗距離は
　$\mathbf{d_r} = diag\{\mathbf{FF}^T\}$
　$\mathbf{d_c} = diag\{\mathbf{GG}^T\}$
行$i$と因子$l$、列$j$と因子$l$との平方コサイン距離は、$\mathbf{d_r}$の$i$番目の要素を$d^2_{r,i}$, $\mathbf{d_c}$の$j$番目の要素を$d^2_{c,j}$と書くとして、
　$o_{i,l} = f^2_{i,l} / d^2_{r,i}$
　$o_{j,l} = g^2_{j,l} / d^2_{c,j}$
行$i$の因子$l$に対する、ないし列$j$と因子$l$に対する寄与は、$\mathbf{\Lambda} = \mathbf{\Delta}^2$の$l$番目の要素を$\lambda_l$と書くとして
　$t_{i,l} = f^2_{i,l} / \lambda_l$
　$t_{j,l} = g^2_{j,l} / \lambda_l$

　補足要素を射影するには遷移方程式を使って...[略]

　$\mathbf{B} = \mathbf{X}^T \mathbf{X}$ ($J \times J$) をBurt行列という。これが重要な理由はふたつ。(1)Burt行列を対応分析に掛けると$\mathbf{X}$を多重対応分析にかけるのと同じ結果が得られ、かつ計算が簡単。(2)因子のイナーシャは、$\mathbf{X}$の固有値[特異値の二乗のことだろう]よりも$\mathbf{B}$の固有値によってよりよく近似できる。

　さて。[このメモにとってはここからが本題である]
　指標行列ではある名義変数が複数の列を持つので、人工的な次元が生まれ、実は、固有値が$1/K$以下である因子は人工的次元であることが示されている。
　そのため、得られた空間のイナーシャ(つまり分散)はインフレを起こし、第1次元で説明されるイナーシャの割合はすごく過小評価される。これを修正したい。
　そこで、まず固有値$\lambda_l$を修正した$c\lambda_l$を求める。もし$\lambda_l \leq 1/K$なら$c\lambda_l=0$, そうでない場合は$\displaystyle c\lambda_l= \left[ \left( \frac{K}{K-1} \right) \left( \lambda_l - \frac{1}{K} \right) \right]^2$とする。
　でもって、固有値を固有値の和$\sum_l c\lambda_l$で割る... というのが伝統的な方法なんだけど、こんどはイナーシャの割合が過大評価されてしまう。そこでGreenacre(1993)はこう提案した。固有値の合計で割るのではなく、Burt行列の非対角ブロックの平均イナーシャ
　$\displaystyle \bar{\mathscr{i}} = \frac{K}{K-1} \left( \sum_l \lambda^2_l - \frac{J-K}{K^2} \right)$
で割る。[へー]

　事例...[略]

論文：データ解析(2018-) - 読了：Abdi & Valentin (2007) 多重対応分析における寄与をどのように求めるか

読書日記

読んだ本を淡々と記録します

2020年1月 7日 (火)