« 読了:Baillon (2017) ベイジアン・マーケット | メイン | 読了:Nishisato & Clavel (2003) クロス表の対応分析の結果から「行と列の距離」を求めるには »
2018年5月11日 (金)
西里静彦(2014) 行動科学への数理の応用:探索的データ解析と測度の関係の理解. 行動計量学, 41(2), 89-102.
前に読んだ気もするんだけど、調べものの都合で読んだ。前後の文脈を調べてみると、2014年に行動計量学会が開いたワークショップを踏まえた寄稿らしく、題名はそのワークショップのタイトルに由来したもの。論文の内容としては、データを名義尺度で表現しなさい、十分な多次元空間を用いなさい、行と列を同時空間で見なさい、Nishisato & Clavel(2004)の全情報解析へようこそ、という感じ。
いくつかメモ:
- 測度を考慮にいれた統計学の本:Hand(2004 "Measurement theory and practice: The world through quantification"), Michell(2009 in Lissitz(ed.), "The concept of validity"), Nishisato(2007 "Multidimensional nonlinear descriptive analysis")
- 3次元以上の空間を視覚的に表現する方法として「アンドリューズ曲線」というのがある由。へー。
- $n \times m$二元分割表$F$を数量化し、行と列に重みベクトル$x, y$を与えたとする(とりあえず第1成分のことだけ考える)。行の周辺度数を持つ対角行列を$D_r$, 列の周辺度数を持つ対角行列を$D_c$、特異値を$\rho$として、
$\rho y = D_r^{-1} F x$
$\rho x = D_c^{-1} F y$
という双対関係が成り立つ。行と列は同じ空間にない。一方を他方に射影して同時布置を描くことはできるけど[えーと、つまり特異値を右特異ベクトルか左特異ベクトルのどっちかだけに掛けるということね]、特異値は1ってことはないので、射影値のノルムは常に小さく、両者の比較には役立たない。いっぽう、この分割表は行を人、列をカテゴリ(n+m列)とした二値行列でも表現できる[いわゆるアイテム・カテゴリ・データのことね]。この列を数量化すれば2変数を同時布置できる。これがCGSスケーリングのアイデアだった。これに対してGreenacreが強硬に批判する。さて、クロス表の数量化で2変数を同一空間に布置できなかったのがローデータの数量化ではできるようになったのはなぜかというと、後者のほうが次元数が大きいからである。空間を1次元に限るならGreenacreが正しいし、拡張していいってんならCGSが正しい。というわけで西里先生は、「双方ともある程度正しい」と和解を求める論文をJ.Mktg.Res.に投稿するが、「編集者は、ことは解決したとして、筆者の論文を審査にも出さず棄却し、Greenacreに軍杯[ママ]を上げた。編集者は問題を理解できずに筆者の論文を棄却したのである」とのこと。へえー。
論文:データ解析(2018-) - 読了:西里(2014) 全情報解析への招待