elsur.jpn.org >

« 読了:「きのう何食べた?」「続 豆腐百珍 百番勝負」「お嬢様のお気に入り」「はたらくすすむ」「ハナヨメ未満」 | メイン | 読了:Butler & Denham (2000) PLS回帰の偏回帰係数は奇妙な縮小特性を示す »

2020年1月 7日 (火)

Abdi, H., & Valentin, D. (2007) Multiple Correspondence Analysis. In: Salkind (ed.) Encyclopedia of Measurement and Statistics.
 多重対応分析を一般化特異値分解で捉えた時、各因子(っていうかなんというか)の寄与は特異値の二乗を割合に直したやつでええんのんか? というのがよくわからなくなり、ネットで拾って大急ぎで目を通したもの。いずれきちんと勉強したいが(特にRのパッケージ間での違いについて知りたい)、とりあえず付け焼刃で...

 いわく。
 多重対応分析とは...[メモ省略]。名義変数のセットによって記述されたケース集合について分析するときにつかう。
 事例...[略]

 名義変数の個数を$K$とする。それぞれの変数の水準数を$J_k$、その合計を$J$とする。ケース数を$I$とする。$I \times J$の指標行列を$\mathbf{X}$とする。$\mathbf{X}$の全合計を$N$とする。
 まず、確率行列$\mathbf{Z} = N^{-1} \mathbf{X}$を求める[確率行列というのは違和感があるけれど、$\mathbf{X}$を二元クロス表のように捉えているわけね]。
 $\mathbf{Z}$の行和ベクトル$\mathbf{r}$, 列和ベクトル$\mathbf{c}$を求める。それぞれを対角に持つ対角行列を$\mathbf{D_c}, \mathbf{D_r}$とする。で、次の特異値分解を行う。
 $\mathbf{D_r}^{-1/2} (\mathbf{Z} - \mathbf{rc}^T) \mathbf{D_c}^{-1/2} = \mathbf{P \Delta Q}^T$
 でもって、
 $\mathbf{F} = \mathbf{D_r}^{-1/2} \mathbf{P \Delta}$
 $\mathbf{G} = \mathbf{D_c}^{-1/2} \mathbf{Q \Delta}$
を行スコアと列スコアにする。
 [あれ? これであってんの? これって
 $\mathbf{Z} - \mathbf{rc}^T = \mathbf{N \Delta M}^T$
 $\mathbf{N}^T \mathbf{D_r N} = \mathbf{M}^T \mathbf{D_c M} = \mathbf{I}$
という一般化特異値分解なんじゃない? だったら特異値分解は
 $\mathbf{D_r}^{1/2} (\mathbf{Z} - \mathbf{rc}^T) \mathbf{D_c}^{1/2} = \mathbf{P \Delta Q}^T$
なんじゃない? ... きっと私がなにか勘違いしておるのだろう... ]

 行と列の、それぞれの重心からのカイ二乗距離は
 $\mathbf{d_r} = diag\{\mathbf{FF}^T\}$
 $\mathbf{d_c} = diag\{\mathbf{GG}^T\}$
行$i$と因子$l$、列$j$と因子$l$との平方コサイン距離は、$\mathbf{d_r}$の$i$番目の要素を$d^2_{r,i}$, $\mathbf{d_c}$の$j$番目の要素を$d^2_{c,j}$と書くとして、
 $o_{i,l} = f^2_{i,l} / d^2_{r,i}$
 $o_{j,l} = g^2_{j,l} / d^2_{c,j}$
行$i$の因子$l$に対する、ないし列$j$と因子$l$に対する寄与は、$\mathbf{\Lambda} = \mathbf{\Delta}^2$の$l$番目の要素を$\lambda_l$と書くとして
 $t_{i,l} = f^2_{i,l} / \lambda_l$
 $t_{j,l} = g^2_{j,l} / \lambda_l$

 補足要素を射影するには遷移方程式を使って...[略]

 $\mathbf{B} = \mathbf{X}^T \mathbf{X}$ ($J \times J$) をBurt行列という。これが重要な理由はふたつ。(1)Burt行列を対応分析に掛けると$\mathbf{X}$を多重対応分析にかけるのと同じ結果が得られ、かつ計算が簡単。(2)因子のイナーシャは、$\mathbf{X}$の固有値[特異値の二乗のことだろう]よりも$\mathbf{B}$の固有値によってよりよく近似できる。

 さて。[このメモにとってはここからが本題である]
 指標行列ではある名義変数が複数の列を持つので、人工的な次元が生まれ、実は、固有値が$1/K$以下である因子は人工的次元であることが示されている。
 そのため、得られた空間のイナーシャ(つまり分散)はインフレを起こし、第1次元で説明されるイナーシャの割合はすごく過小評価される。これを修正したい。
 そこで、まず固有値$\lambda_l$を修正した$c\lambda_l$を求める。もし$\lambda_l \leq 1/K$なら$c\lambda_l=0$, そうでない場合は$\displaystyle c\lambda_l= \left[ \left( \frac{K}{K-1} \right) \left( \lambda_l - \frac{1}{K} \right) \right]^2$とする。
 でもって、固有値を固有値の和$\sum_l c\lambda_l$で割る... というのが伝統的な方法なんだけど、こんどはイナーシャの割合が過大評価されてしまう。そこでGreenacre(1993)はこう提案した。固有値の合計で割るのではなく、Burt行列の非対角ブロックの平均イナーシャ
 $\displaystyle \bar{\mathscr{i}} = \frac{K}{K-1} \left( \sum_l \lambda^2_l - \frac{J-K}{K^2} \right)$
で割る。[へー]

 事例...[略]

論文:データ解析(2018-) - 読了:Abdi & Valentin (2007) 多重対応分析における寄与をどのように求めるか