elsur.jpn.org >

« 2012年2月 | メイン | 2012年4月 »

2012年3月30日 (金)

Russell, G.J., & Petersen, A. (2000) Analysis of cross category dependence in market basket selection. Journal of Retailing, 76(3), 367-392.
 複数カテゴリ購買の確率モデル。仕事の都合でこの種の論文を何本か集めたのだが、これはコピーだけとって読んでなかった。仕事のほうは一段落しちゃったんだけど、せっかくだからざっと目を通した。

 いろいろ理を尽くして説明してるけど(ページ数が増えるわけだ)、要するに多変量ロジスティック回帰である。消費者 k が買い物 t においてカテゴリ i を買ったかどうかを表す二値変数を C(i,k,t)、その背後にある効用を U(i,k,t)とし、
 U(i,k,t) = \beta_i + HH_{ikt} + MIX_{ikt} + \sum_j \theta_{ijk} C(j,k,t) + \epsilon(i,k,t)
とする。HHは世帯特性、MIXはマーケティングミクス変数。CとUはlogitでつなぐ。このモデルから交差価格弾力性が導出できる由。
 モデルの適用例として、ペーパータオル、トイレットペーパー、顔用ティッシュ、紙ナプキンの4カテゴリについてのホームスキャンデータを分析。HHは前回購入からの期間とロイヤルティ。MIXは価格(その時点、その地域での購買価格を平均しているらしい)。\theta_{ijk}はカテゴリ(i, j)間の関連性の係数(世帯間で共通)と、世帯k における平均バスケットサイズに分解する。で、もっと簡単なモデルと比較して、データへの当てはまり(BICとhold outでの対数尤度)が良いことを示している。
 推定された交差価格弾力性はだいたい負だったが(つまりカテゴリ間には相補性があったが)、案外小さかった由。先生、もうちょっと別のカテゴリでご研究なさったほうが面白いんじゃないですかね。
 こういうモデルを組まずに、2^(カテゴリ数)の組み合わせに対するバスケットの経験分布をカテゴリ間が独立だったときに期待される分布と比べることを、affinity analysisというのだそうだ(wikipediaにも載っていた。やれやれ)。そういう視点から上記データを分析すると、2カテゴリ併買のバスケットが期待より少ない、つまりカテゴリ間には代替性がある、という知見が得られてしまう。これはマーケティングミクス変数や消費者異質性を無視したせいで生じる誤りだ、云々。なるほど。

 分析例では全カテゴリについて同時にML推定しているようで、どうみてもスケーラビリティがなさそうな話だなあと思ったのだが、著者いわく、カテゴリ数が多くなったらば、まず個々のカテゴリについて推定し、それからMCMCで全バスケットの分布を推定すればよろしいんじゃないですか、とのこと。ふうん...?
 ところで、購買におけるカテゴリ間関係についての説明には、この論文のようなモデル(著者らは大域的効用モデルと呼んでいる)のほかに、店舗選択モデルというのもある由。なるほど、「カテゴリXとYが同じバスケットに入りやすい」という関連性は、その時々の店舗選択によって生じるartifactという面もあるだろう。先行研究として、大域的効用モデルではHarlam&Lodish(1995,JMR), Erdem(1998,JMR), Marchanda et al.(1999)、店舗選択モデルではBell & Lattin(1998, Marketing Sci.)というのが挙げられている。

 これまでに読んだ論文を比べてみると,どれもよく似ている。いずれも、複数カテゴリのバスケット分析を目的とし、世帯レベルの購買データに、ある買い物における複数カテゴリの購買有無を従属変数群、世帯変数とマーケティングミクス変数を独立変数群にとった多変量回帰モデルをあてはめている。ちがいは、

Marchanda et al. (1999)Russell & Peterson (2000)Chib et al. (2002)Boztug & Hildebrandt (2005)感想
カテゴリ間の相補性・代替性をモデルでどう表現するか他カテゴリのマーケティングミクス変数を独立変数にし、さらに残差共分散を自由推定他カテゴリの購買有無を直接に独立変数にする残差共分散を自由推定他カテゴリの購買有無を直接に独立変数にするモデルに入れちゃうのと、誤差扱いするのと、どっちがいいんだろうか?
バスケットサイズの扱い当該世帯の平均購入点数を独立変数にする当該の買い物における購入点数を独立変数にするBoztug方式は許されるのか?
マーケティングミクス変数の効果の異質性ランダム係数にし、デモグラ特性で階層回帰無視ランダム係数にしている無視
二値データへのリンクprobitlogitprobitlogitランダム係数があったらprobit, なかったらlogitってことだろうか。それとも、残差共分散を推定したかったらprobit、そうでなかったらlogitということだろうか。よくわからない
論文の印象態度がデカい妙にくどい難しいけど親切謙虚先生ならChibさんたち、友達ならBuztugさんたちがいいなあ

論文:マーケティング - 読了:Russell&Petersen(2000) 複数カテゴリ購買の確率モデル・最終章

2012年3月29日 (木)

Bookcover シェイクスピア全集 (〔25〕) (白水Uブックス (25)) [a]
ウィリアム・シェイクスピア / 白水社 / 1983-01
この本は,つまらないというより,そこはかとなく不愉快であった...
 ロシリオン伯爵バートラムは,取り巻きの良し悪し以前の問題ととして,そもそも本人がロクでもない男だと思うのですよ! あんな男に執心するヘレナもヘレナだ,人を見る目がない。王様もそう助言してやるべきだ。などと,真剣にイライラしていたのであった。我ながら呑気なものだ。

フィクション - 読了:「終わりよければすべてよし」

Bookcover 世界リスク社会論 テロ、戦争、自然破壊 (ちくま学芸文庫) [a]
ウルリッヒ・ベック / 筑摩書房 / 2010-09-08
96年と01年の講演を収録。ベックの考え方がコンパクトに理解できるかな,と期待していたのだが,コンパクトすぎてかえってよくわからない。ちゃんと著作を読んだほうがよさそうだ。

哲学・思想(2011-) - 読了:「世界リスク社会論」

Bookcover 中国嫁日記 (二) [a]
井上 純一 / エンターブレイン / 2012-03-10
国際結婚についてのエッセイマンガ。ブログ連載の書籍化。大変売れているらしいが,読んで思うに,売れて当然だ。類似のマンガは少なくないが,これはレベルがちがう。

コミックス(2011-) - 読了:「中国嫁日記」

 被験者に $t$ 個の刺激のうち 2個を呈示し、どちらが好きかを比較させる場合について考える。提示順序を考慮すると刺激対の数は$t(t-1)$個ある。対象者をいずれかの刺激対にランダムに割り当て、たとえば、先に見せたほうの刺激が非常に良いときに3, 同じときに0, 後にみせたほうが非常に良いときには-3... というふうに答えてもらうことにする。各刺激に対する選好の程度に,刺激間でどのような差があるか。

 刺激対$(i, j)$について対象者$k(=1,...,n)$が評価した際の反応を $x_{ijk}$ とし、
 $x_{ijk} = (\alpha_i - \alpha_j) + \gamma_{ij} + \delta_{ij} + \epsilon_{ijk}$
と考える。$\gamma$は組み合わせの効果($\gamma_{ij} = -\gamma_{ji}$)、$\delta$は順序効果($\delta_{ij} = \delta_{ji}$)、$\epsilon$は誤差項。$\alpha$の総和、$\gamma$の$i$ないし$j$を通した総和は0とする。
 この構造モデルに基づく分散分析は難しくない。全平方和は
 $S_T = \sum_i \sum_j \sum_k x_{ijk}^2$
自由度は$nt(t-1)$, 値の個数そのものである。要因は4つあるが、横着して主効果と誤差のことだけ考える。
 先に $\alpha_i$ の推定量について考えておく。これを $a_i$ と書くことにする。また、構造モデルの右辺から誤差項を取ったやつを$\mu_{ij}$、さらに$\delta$も取ったやつを$\pi_{ij}$、それぞれの推定量を $u_{ij}$, $p_{ij}$と書くことにする。順にゆっくり考えていくと、
 $u_{ij}= 1/n \sum_k x_{ijk}$
 $p_{ij} = 1/2( u_{ij} - u_{ji})$
 $a_i = 1/t \sum_j p_{ij}$
 以上を整理すると、$a_i = 1/(2tn) (\sum_j \sum_k x_{ijk} - \sum_j \sum_k x_{jik}) $となる。
 $\alpha_i$ の推定量が手に入ったところで、主効果の平方和について考えると、
 $S_\alpha = n \sum_i \sum_k (a_i - a_j)^2 = 2nt \sum_i a_i + 2n \sum_i \sum_j (a_i a_j)$
よくよくみると第二項は0である。スバラシイ。自由度は$t-1$。
 誤差の平方和は
 $S_\mu = n \sum_i \sum_j u_{ij}^2$
で、$S_E = S_T - S_\mu$ と考えれば楽勝である。自由度は $t(t-1)(n-1)$。このように、実に綺麗に算出できる。刺激間比較のためにはスチューデント化された範囲を使えば良い。

 では、まったく同じデザインで、提示順序を無視して分析したらどうなるか? 構造モデルは
 $x_{ijk} = (\alpha_i - \alpha_j) + \gamma_{ij} + \epsilon_{ijk}$
セル(i,j)とセル(j,i)をコミにして分析することになる。
 $u_{ij}= 1/(2n) (\sum_k x_{ijk} - \sum_k x_{jik})$
全平方和と主効果はさっきと同じで、誤差が変わる。自由度は $t(t-1)(2n-1)/2$となる。なぜそうなのか真正面から考えていたらなんだかわけがわかんなくなってきたんだけど、搦め手から考えると$\gamma$の自由度は$(t-1)(t-2)/2$だから、これでつじつまが合うのは確かだ。

 実のところ、前者のモデルはいわゆる「Scheffeの一対比較法」、後者のモデルは62年に芳賀敏郎が発表した「芳賀の変法」なのである。以上、佐藤信「統計的官能検査法」(日科技連)より。

 学部生の頃だったか、修士1年の頃だったか、当時心理統計を担当していた先生が、本来教えるべき内容をそっちのけにして、サーストンのケースIIIだのVだの、シェッフェ法だの誰々の変法だの、官能検査関連の超・超・超古典的な手法について蛇のように執念深く語り倒し、心底辟易したことがあった。それは呆れるほどにかびくさく,死ぬほど面倒で、何の役に立つのかさっぱりわからない議論であった。そんなのどうでもいいじゃん、もっと普通の講義をしてくださいよ、と思ったものである。あれは冬だったのだろうか、窓の外には枯れた芝生がみえた。
 このたび勤務先で、たまたま一対比較データの分析の話になり、いやその種のデータの分析方法は古くに確立してて、サーストン法とかシェッフェ法とか... と電話口で説明し始めたところで、突然あの時の記憶が、教室の空気の匂いさえも鮮やかに甦り、クラクラとめまいがするような感覚に襲われた。それはほんの数秒のことで、すぐにささやかで平凡な中年男ライフに戻ることができたけれども。
 電話を切ってから、頬杖をついて、手元にあった本をぼんやりめくっていたら、シェッフェ法とその変法についてわかりやすく説明していて、なあんだ、あのややこしい話って、こんなシンプルな線形モデルだったのか... と、気の抜けるような思いであった。先生、あの話、もう少しわかりやすく説明できたかもしれませんよ。そして私も、もっとまじめに勉強するか、あるいはもう少し別のことをしておいたほうがよかったかもしれません。
 とはいえ、いまとなってはなにもかも詮無い話である。あの先生が亡くなってからずいぶん経つ。

雑記:データ解析 - 突然に、一対比較法について

2012年3月26日 (月)

Bookcover ガラスの動物園 (新潮文庫) [a]
テネシー ウィリアムズ / 新潮社 / 1988-03
大劇作家 T. ウィリアムズの初期の自伝的作品だ,という中途半端な知識だけがあって,きっと同性愛に目覚めた青年が苦悩したりするんだろうなあなどと勝手に想像し,食わず嫌いのまま過ごしていた。この度たまたま舞台を見る機会があって(長塚圭史演出),予想とあまりにちがうのでびっくり。これ,追憶をよすがに生きる母親と,パニック障害の娘の話なのだ。
 戯曲を読み直して思うに,こういう大傑作を33歳で書いちゃうのって,あとがつらいだろうなあ,と... 悲惨な晩年を念頭においた後知恵かもしれないけれど。

フィクション - 読了:「ガラスの動物園」

今月末は青年誌系のマンガ新刊が大変充実していて,ありがたい週末であった。鬱々とした日々の数少ない救いである。

Bookcover 3月のライオン 7 (ジェッツコミックス) [a]
羽海野 チカ / 白泉社 / 2012-03-23
云わずと知れた大人気作品の最新刊。先週金曜日発売だったのだが,日曜日に郊外の電車に乗っていたら,向かいのシートに座った女子高生がこのマンガを一生懸命読んでいた。観察していると,後半のあたり(おそらくは隅田川沿いでヒナが桐山君の手を取るあたり) でとても幸せそうな表情になり,最後まで読まずに本をそっと閉じて,ずっと微笑みながら窓の外の流れる景色を眺めていた。良いマンガっていいですね。

Bookcover 大東京トイボックス (8) (バーズコミックス) [a]
うめ / 幻冬舎 / 2012-03-24
最も楽しみにしていたのがこのマンガ。ゲーム業界を舞台に情熱と絶望と嫉妬と陰謀が渦を巻く,大人の群像劇である。「ずいぶん物騒なんだな,ゲーム業界というのは」「まったくだよ。僕も知らなかった」 いやあ,いいですね,痺れますね。

Bookcover オールラウンダー廻(8) (イブニングKC) [a]
遠藤 浩輝 / 講談社 / 2012-03-23
格闘技を題材にした青春ストーリー。超人も悪人も出てこないごく地味な展開だが,実にさわやかな良い作品である。もうちょっと評判になってもよさそなものだが。

Bookcover ビューティフルピープル・パーフェクトワールド 2 (IKKI COMIX) [a]
坂井 恵理 / 小学館 / 2012-02-29
美容整形が当たり前になった近未来世界を舞台にした,非常に読み応えのある短編集。連載にしては題材が重すぎる,ハードルを上げすぎではないかしらん... と奥付をよくみたら,これ,単行本書き下ろしなんですね。こういう形態もあるのか。

Bookcover 刻刻(5) (モーニング KC) [a]
堀尾 省太 / 講談社 / 2012-03-23
Bookcover もやしもん(11) (イブニングKC) [a]
石川 雅之 / 講談社 / 2012-03-23
うーむ,どちらも面白いなあ...

コミックス(2011-) - 読了:「刻々」「もやしもん」「ビューティフルピープル・パーフェクトワールド」「オールラウンダー廻」「大東京トイボックス」「3月のライオン」

Pennock, D.M., Lawrence, S., Giles, C.L. & Nielsen, F.A. (2001) The real power of artificial markets. Science, 291: 987-988.
人工市場 Foresight Exchange による科学的発見の予測についての報告。よく引用されるらしいのだが、たったの1頁のLetterであった。

論文:予測市場 - 読了:Pennock, et al. (2001) 人工市場で科学的発見を予測

Vermunt, J.K. (2010) Latent class modeling with covariates: Two improved three-step approaches. Political Analysis. 18(4), 450-469.
 先日読んだ Clark & Muthen (2009)に引き続き、潜在クラスと共変量の関係を調べる方法について。こんどは Latent Gold 開発者のVermuntさんの論文。ここでthree-step approachesといっているのは、要するに「分類してから分析」作戦のことで、潜在クラスモデル構築、対象者の分類、共変量と所属先の関係を調べる、で計3ステップになる。Clarkらが比較していた5つの方法のうち、pseudo-class drawを除く4つが検討範囲で、そのかわり所属確率でウェイティングする手法の改善案が2つ提案されている。

 第一の改善案は... Clarkらは引用していなかったが(なぜだろうか)、もともと Bolck, Croon, & Hagenaars(2004, Political Analysis) の方法というのがある。潜在クラスをX, 指標のベクトルをY, LCAモデルによって推定された所属クラスをWとする。対象者 i のカテゴリカル共変量群のベクトルが Z_i であるとき、彼がクラス s に分類される確率は、「Z_i の下で彼がクラス t に属する確率」と「クラス t に属する人が Y を示す確率」と「Yを示した人が s に分類される確率」の積の和、つまり
 P(W = s | Z_i) = \sum_t \sum_Y P(X=t | Z_i) P(Y | X=t) P(W=s | Y)
これを整理すると
 P(W = s | Z_i) = \sum_t P(X=t | Z_i) P(W=s | X=t)
後ろのほうは誤判別率で、LCAではふつう所属確率の経験分布から推定する。要するに、P(W=s | Z_i) は P(X=t | Z_i)を誤判別率P(W=s | X=t)を重みにして結合したものになっている。いま、左辺のP(W=s | Z_i), 右辺のP(X = t | Z_i), 誤判別率 P(W=s | X=t) がそれぞれ行列 E, A, Dの要素であるとすると
 E = A D
Dに逆行列がある限り
 A = E D^{-1}
そこで、共変量ベクトルが取りうる値のパターンを行, Wを列にとったクロス表を N とし(ここにEの情報がはいっている)、N* = N D^{-1} をAの推定値としましょう... というのがBolckらのアイデア。尤度関数に書き換えると、ウェイティングしたロジスティック回帰になっているんだそうだ(数式を追いかけるのが面倒になってきた...)。で、Vermuntさんが提案しているのは、この方法をちょっと変えて、共変量が量的である場合にも対応できるようにしたもの。

 第二の改善案は ... 上記のように、
 P(W = s | Z_i) = \sum_t P(X=t | Z_i) P(W=s | X=t)
である。いっぽう、思い返せば共変量つきLCAモデルは
 P(Y_i | Z_i) = \sum_t P(X=t | Z_i) P(Y_i | X=t)
だ。つまり前者は、指標がひとつしかなくて(Wのこと)、かつ誤判別率が既知であるようなLCAモデルとして解くことができる、というアイデア。なるほど。ステップ1とステップ3で別のLCAモデルを推定するわけだ。

 どちらにしても、誤判別率P(W=s | X=t) を経験分布から推定しているせいで、標準誤差は多少なりとも過小評価されるはずなのだが、シミュレーションによれば(適当に飛ばし読み)、どちらもBolckらの方法よりは良いのだそうな。ついでに実データへの適用例をLatent Goldのシンタクス付きで示している(こちらも飛ばし読み。すいません)。

 私のような素人からみると、西海岸のMuthenさんたち(Mplus製造元)や東海岸のCollinsさんたち(proc lca製造元)の論文と、オランダのVermuntさんたち(Latent Gold製造元)の論文は、内容がとても近いことが多いように思えるのだが、相互引用はなぜか少ない。研究分野の違いだろうか。
 Mplusで誤判別率既知のLCAをどう書けばいいのか、知りたいところだが... Muthen先生はきっと「pseudo-class drawにしとけ」と仰せだろうなあ。

論文:データ解析(-2014) - 読了:Vermunt (2010) 潜在クラスと他の変数との関係を調べる方法 (蘭学バージョン)

Royston, P. (1993) A pocket-calculator algorithm for the Shapiro-Francia test for non-normality: An application to medicine. Statistics in Medicine, 12, 181-184.
 題名の通り、経験分布の正規性を検定する手法のひとつであるShapiro-FranciaのW'統計量を関数電卓レベルで簡単に計算する方法。しばらく前に仕事の都合で読んだ(というメモがさっき出てきた)。
 Rのnortestパッケージの挙動について知りたくて、引用されていたこの文献に目を通したのだが、W'というのは要するに正規確率プロット上の相関の二乗だから、Excelさえ使えるなら実にどうでもいい話である。

論文:データ解析(-2014) - 読了:Royston (1993) 電卓でできる Shapiro-Francia 検定 (電卓でやりたいかどうかは別として)

2012年3月23日 (金)

Abdi, H. (2007) Partial least square regression. in Salkind, N. (ed.) Encyclopedia of Measurement and Statistics. Thousand Oaks, CA: Sage.
 PLS回帰の理屈についてぼんやり考えごとをしていて、なにがなんだかわけがわからなくなってしまったので、頭を整理するために読んだ。

 著者の説明を抜粋すると...

 個体数を$I$, $K$個の従属変数の行列を $Y$, $J$個の独立変数の行列を$X$とする。まず
 $X = T P'$
と分解する。ここで$T$の列は直交。$T$が得点行列、$P$が負荷行列である。で、
 $\hat{Y} = T B C'$
とする。$B$は対角行列で、この対角成分を回帰ウェイトという。また、$C$を$Y$のウェイト行列という。
 さて、上記を満たす$T$は無数にあるが、PLS回帰では、正規化されたベクトル$w, c$について、$t = X w, u=Y c$としたときの$t' u$が最大になるようにする。ここで$t$と$u$を第1潜在ベクトルという。で、$X, Y$のそれぞれから第1潜在ベクトルを取り除く。これを繰り返して、第2,3,...の潜在ベクトルを求めていく。
 具体的なアルゴリズムは次の通り。
  1. $X, Y$を標準化し$E, F$とする。
  2. 乱数ベクトル$u$を用意し、
    • Step 1. $E' u$を求め、これを分散1に基準化して$w$ とする。これが$X$のウェイト。
    • Step 2. $E w$を求め、これを基準化して$t$とする。これが$X$の得点。
    • Step 3. $F' t$を求め、これを基準化して$c$とする。これが$Y$のウェイト。
    • Step 4. $u = Fc$を求める。これが$Y$の得点。これを$t$が収束するまで反復する。
  3. スカラー$b = t' u$、$X$の負荷$p = E't$を求める。
  4. $E - t p'$を新しい$E$に、$F - b t c'$を新しい$F$にする。
ベクトル$t, p, c$を行列$T, P, C$に格納し、$b$を行列$B$の対角成分に格納する。$X$の平方和のうちこの潜在ベクトルで説明できているのが$p'p$であり、$Y$の平方和のうちこの潜在ベクトルで説明できているのが$b^2$である。以上を$E$が空になるまで繰り返す。

 ここでは反復計算で説明されているけれど(NIPALSアルゴリズムという奴だろう)、ウェイト$w, c$を$X'Y$の特異値分解で説明することもできる。$w$はひとつめの左特異ベクトル、$c$はひとつめの右特異ベクトルのことだと思うのだが... 論文中の説明では左右が逆になっている。なんでだろう。

ちなみに、先日読んだMevik & Wehrens (2007)の説明はこうだ。

  1. $X, Y$を標準化し$E, F$とする(標準化しなくてもよい)。
  2. $X'Y$を特異値分解し、ひとつめの左特異ベクトルを$w$, ひとつめの右特異ベクトルを$q$とする。これで$E$と$F$をそれぞれ重みづける: $t=Ew, u=Fq$。これが$X$と$Y$の得点。ここで$t, u$を分散1に基準化してもよい。
  3. $X$の負荷$p = E't$, $Y$の負荷$q =F't$を求める。
  4. $E - t p'$を新しい$E$に、$F - t q'$を新しい$F$にする。
ベクトル$w, t, p, q$をそれぞれ行列$W, T, P, Q$に格納する。以上を繰り返す。

記号の使い方が微妙に異なる。だいたいなんで$q$が二回出てくるんだ。頭が痛いよう。

 ついでに調べたら、SAS 9.3 User's Guideでの説明はこんな感じ。

 標準化ずみのデータ行列$X_0, Y_0$について、$X_0$の線形結合$t =X_0 w$を考える。ここで$t$を得点ベクトル、$w$をウェイトベクトルという。この$t$で$X_0, Y_0$を説明する回帰モデルを考える:
 $\hat{X_0} = t p'$
 $\hat{Y_0} = t c'$
ここでベクトル $p, c$をそれぞれ$X$の負荷、$Y$の負荷という。
 $p'=(t't)^{-1} t' X_0$
 $c'=(t't)^{-1}t' Y_0$
となる。
 さて、$t$は次のようにして決める。反応のなんらかの線形結合$u = Y_0 q$に対し、共分散$t'u$が最大になるようにする。これは、$X$のウェイト$w$と、$Y$のウェイト$q$を、共分散行列$X'_0 Y_0$のひとつめの左特異ベクトルとひとつめの右特異ベクトルに比例させるということでもある。

SASのマニュアルは時として、素人を殺す気じゃないかというくらいに難しく書いてあるのだが、これは案外わかりやすいなあ。

 自分なりに整理すると...$X, Y$を標準化済みデータ行列とする。$X$をXウェイトで線形結合してX得点, $Y$をXウェイトで線形結合してY得点をつくる。XウェイトとYウェイトは、$X$と$Y$の共分散行列の左特異値ベクトルと右特異値ベクトルで、そうするとX得点とY得点の共分散が最大になる。さて、X得点を説明変数、$X$を目的変数にした回帰式の係数がX負荷。X得点を説明変数、(Y得点をすっ飛ばして)$Y$を目的変数にした回帰式の係数がY負荷

論文:データ解析(-2014) - 読了:Abdi (2007) PLS回帰

Clark, S., & Muthen, B. (2009) Relating latent class analysis results to variables not included in the analysis. Submitted for publication.
 未公刊のdraftらしいのだが、MplusでLCAを行うという話のなかでよく引き合いに出されるので、ざっと目を通した。第一著者の修論かなにかかしらん。

 潜在クラス分析で個体を分類した際、次に問題になるのは、潜在クラスの説明変数になっているかもしれない変数(共変量)とクラスとの関係を調べることである。えーっと、市場調査におけるアドホックなセグメンテーションの例でいえば、なにかの項目群への回答によって調査対象者をセグメントに分けてから、デモグラフィック特性とセグメントのクロス表をみる、というのがそれですね。しかし、所属先クラス別に共変量の分布を調べるのは、実はあまりうまいやり方ではない、かもしれない。あるクラスに分類された個体のなかには、所属確率が1に近い個体もあれば低めな個体もあるからだ。じゃあどうすればいいか、という研究。
 実データ(2つ)とシミュレーションで、5つの方法を比較する。(1)クラス別に共変量の分布を調べて比較。(2)各クラスへの所属確率のロジットを目的変数、共変量を説明変数にした回帰。(3)所属先を目的変数、共変量を説明変数にした回帰を、所属確率でウェイティング。(4)pseudo-class drawという方法。所属確率の分布に従って個体を抽出し、得られたクラスについて共変量の分布を比べる。最近Mplusに追加された「AUXILIARY= ほにゃらら(r)」ってのがこれであろう。(5)「分類してから分析」という発想を悔い改め、LCAモデルのなかに共変量を入れて一発推定。
 推定として(5)が正しいことはわかっているけど、潜在クラスの解釈が難しくなるわけで(その分類はいったい何に基づく分類なんですか?という話になる)、焦点は(1)-(4)のうち少しでもましなものを選ぶことである。例によって、シミュレーションの部分は斜め読みで済ませた。すいません。
 著者らいわく、もしLCAのエントロピーが高かったら(0.80以上とか)、所属先クラスをつかっちゃってかまわない。いっぽうエントロピーが低い場合は、(1)-(4)のどの方法でも、標準誤差を低めに推定してしまうことになる由。というわけで、お勧めの手順は以下の通り: まず、共変量抜きでLCA。次に、共変量群が潜在クラスに効いてるかどうか、pseudo-class Waldテストで確認。もし効いていたら、pseudo-class回帰で共変量を絞り込む。そして最後に、効いている共変量をモデルに投入して再推定。

 実のところ、潜在クラスがなんらかのアウトカムの説明変数になっているかもしれない場合について知りたかったんだけど、まあ勉強になったからいいや。そういう話としてはPetras & Masyn(2009)というのが引用されているが、成長混合モデルの文脈での研究らしい。

論文:データ解析(-2014) - 読了: Clark & Muthen (2009) 潜在クラスと他の変数との関係を調べる方法

DeMaris, A. (2002) Explained variance in logistic regression: A monte carlo study of proposed measures. Sciological Methods & Research, 31(1), 27-74.
 ロジスティック回帰のいろんな説明率指標をシミュレーションで比較する研究。先日読んだMittlbock & Schemper (1996) と同趣旨だが、もっときちんとやりました、という主旨。
 著者によると、ロジスティック回帰における説明率には、「分散の説明率」という考え方と「リスクの説明率」という考え方があるのだそうだ。前者は、従属変数の分散と、モデルの誤差分散との比に注目する考え方。いっぽう後者は、 平均 \pi のベルヌーイ分布の分散は \pi(1-\pi) にきまってんだから、(全体の生起率)x(1-全体の生起率)と、(予測された生起率)x(1-予測された生起率)の平均との比をみればいいんだ、という考え方。この二つは、従属変数をどう捉えるかというちがいであって、たとえば「医者が患者の抑うつの有無を診断した」場合は前者が自然だし(従属変数はたまたま二値になっているだけで、抑うつの程度という連続的な潜在変数の代理変数だから)、「未成年者が妊娠した」場合は後者のほうが自然である由(従属変数は本質的に二値だから)。ふうん...
 で、次の8つの指標のふるまいをシミュレーションで比較する。

 シミュレーションのところから面倒になっちゃって飛ばし読み。「分散の説明率」の観点からはMcKelvey & Zavoinaが、「リスクの説明率」の観点からはリスクの説明率の標本推定量なり単純な相関なりがよかったそうだ。ふうん。

 きちんと読んでいないのになんだけど、「リスクの説明率」という考え方がどうもよくわからない。事象が生じる周辺確率を\pi, モデルによる予測確率を (\pi | x) としたとき、リスクの説明率とは 1 - E[\pi(1-\pi)|x] / \pi(1-\pi) だ。当たり外れは一切気にせずに、どんな個体に関しても予測確率1(ないし0)を吐き出し続ければ、説明率100%の予測モデルが作れたことになるわけで、それはさすがに頽廃的なのではないかと... まあ、背景についてもうちょっと勉強しろってことでしょうね。Korn&Simon(1991, American Statistician)というのが引用されている。

論文:データ解析(-2014) - 読了:Demaris(2002) ロジスティック回帰の説明率指標をもっときちんと品定め

Bookcover シェイクスピア全集 (7) リチャード三世 (ちくま文庫) [a]
W. シェイクスピア / 筑摩書房 / 1999-04
最近では一番の大当たり。リチャードはあらゆるものを憎み,破滅に向かって疾走するのである。息もつけないスピード感。熱狂のうちに一気読み。ぜひもう一度読みたい。

Bookcover シェイクスピア全集 (〔34〕) (白水Uブックス (34)) [a]
ウィリアム・シェイクスピア / 白水社 / 1983-01
これはその,ちょっと... 沙翁先生にも好不調があるようだ。

フィクション - 読了:「リチャード三世」「シンベリン」

Bookcover 語りつぐ田中正造―先駆のエコロジスト [a]
/ 社会評論社 / 1998-09
98年刊。このたび閉店するジュンク堂新宿店の,閉店記念「店員さんが売りたかった本」フェアで買った本なのだが,これ,本来は版元品切れの本だと思う。手に取る機会を作ってくれた店員さんに感謝。

日本近現代史 - 読了:「語りつぐ田中正造」

Bookcover 北緯10度線 ─ キリスト教とイスラームの「断層」 [a]
イライザ グリズウォルド / 白水社 / 2011-10-22
先月からずっと持ち歩いていた本。キリスト教とイスラム教の宗教対立が深まっていく情勢を,ナイジェリア,スーダン,ソマリア,インドネシア,マレーシア,フィリピンに取材した分厚いルポルタージュ。疲れた。。。

Bookcover 私の世界文学案内: 物語の隠れた小径へ (ちくま学芸文庫) [a]
渡辺 京二 / 筑摩書房 / 2012-02-08
高名な近代史家の著者が,70年代末に雑誌で連載した,世界の文学作品の紹介。あとがきには,こんな本を出しちゃっていいのかとか,多少アルバイト意識があった仕事だとか,いろいろ言い訳が多いのだが,面白かった。チェーホフ「黒衣の僧」について語る文章が胸をうつ。

Bookcover 三里塚―成田闘争の記憶 [a]
三留 理男 / 新泉社 / 2008-02-27
2008年刊,三里塚闘争の記録写真集。

Bookcover 検証 福島原発事故・記者会見――東電・政府は何を隠したのか [a]
日隅 一雄,木野 龍逸 / 岩波書店 / 2012-01-21

Bookcover メルトダウン ドキュメント福島第一原発事故 [a]
大鹿 靖明 / 講談社 / 2012-01-28

ノンフィクション(2011-) - 読了:「検証・福島原発事故記者会見」「メルトダウン」「私の世界文学案内」「北緯10度線」「三里塚 成田闘争の記録」

Bookcover アヴァール戦記 1 (BUNCH COMICS) [a]
中村 珍 / 新潮社 / 2012-01-07
著者の作品はこれまで読む機会がなかったんだけど,講談社と揉めて小学館に移籍し話題を呼んだときから,ずっと気になっていた。これは新潮社で連載していたエッセイマンガ。震災直後に,仕事場を移しながらもマンガの制作を続けたわせたエピソードは,貴重な証言だと思う。

Bookcover 岳 16 (ビッグコミックス) [a]
石塚 真一 / 小学館 / 2012-02-29

Bookcover しろくまカフェ メロン味! (フラワーコミックススペシャル) [a]
ヒガ アロハ,小学館 / 小学館 / 2012-03-09

Bookcover ヒナまつり 3 (ビームコミックス) [a]
大武政夫 / エンターブレイン / 2012-03-03

Bookcover あさひなぐ 4 (ビッグコミックス) [a]
こざき 亜衣 / 小学館 / 2012-02-29

コミックス(2011-) - 読了:「あさひなぐ」「アヴァール戦記」「ひなまつり」「しろくまカフェ」「岳」

2012年3月13日 (火)

Mittlbock, M., & Schemper, M. (1996) Explained variation for logistic regression. Statistics in Medicine, 15, 1987-1997.
 ロジスティック回帰分析のアウトプットには,なんか変な$R^2$がいろいろはいっているんだけど,あれっていったいなんなんだろうなあ,と前から不思議に思っていた。このたび関連する話題についてちょっと考える機会があったので,適当に論文を見繕って読んでみた。12種類の$R^2$指標を比較しました,という論文。そんなにあるのか。

 12種類の$R^2$指標は,大きくいえば3グループにわかれる。ええと,個体$i$が持つ従属変数の値を$y_i (=\{0,1\})$とする。$y_i = 1$を仮に成功と呼ぶとして,全体における成功率を$\bar{p}$とする。また,独立変数の値を$x_i$とし、ロジスティック回帰モデルで推定された各個体の成功率を$\hat{p}_i$とする。

 最初のグループは,$y_i$と$\hat{p}_i$の相関の二乗に基づく指標。

 順位相関係数を手当たり次第に集めてきて二乗しました、という感じですね。3番目以降はまあどれも似たような指標である(いずれも計算式の分子は同じ)。

 第二のグループは,yの分散の縮減率に基づく指標。一般化していうと,conditionalな残差を表すなんらかの指標 $D(y_i|x_i)$の合計と、unconditionalな残差を表すなんらかの指標$D(y_i)$の合計を出して、比をとって1から引くタイプの指標である。

 最後のグループは,モデルの尤度に基づく指標。

いま調べたら、SAS 9.22のproc logisticでは、$R^2_{LR}$が"RSquare"というラベルで、$R^2_{CU}$が"Max-rescaled RSquare"というラベルで出力されるらしい。

 なんだかもうお腹一杯だが,論文のほうはここからが本番で,いろいろデータをつくっては12種類の$R^2$を求め,挙動を比較している。著者らいわく,

  1. 直観的にわかりやすいか
  2. ロジスティック回帰の性質とつじつまがあうか
  3. 0から1まで動くか
  4. ふつうの線形回帰モデルがうまく当てはまるようなデータでは線形回帰モデルの$R^2$と同じような値になるか

という4つの基準で検討すると,

  1. $R^2_E, R^2_{LR}, R^2_{CU}$は直観的に理解しにくい。
  2. $R^2_{CER}$や順位相関係数系の方法はロジスティック回帰とつじつまがあわない。
  3. $r^2_S$, $\tau$系, $R^2_{LR}$は完全にフィットしても1にならない。
  4. たいていの手法は線形回帰の$R^2$とずれる。

 というわけで,消去法で結局$r^2, R^2_{SS}, R^2_{G}$が残ることになる。結局のところ,$y_i$が二値変数であることを無視しちゃった方がいいね,という,ちょっと奇妙な結論である。

 勉強にはなったけど。。。ロジスティック回帰モデルのときも,慣れ親しんだ$R^2$のような奴が欲しいよ欲しいよ欲しいよ,というのがこの論文の前提になっているところがポイントだと思う。この前提そのものが,なんだかちょっとワガママなような気がしてならない。なんというかその,海外旅行先で味噌汁飲みたい,といっているように聞こえる。いや,それは飲みたいですけどね,私も。
 それはまあいいや。ともかく,Negelkerkeの$R^2$というのが意外に無茶な発想で作られている,という点を学んだのが収穫であった。私の知る狭い範囲の話だが,Negelkerkeの指標はよくみかけるような気がする。SPSSが出力するせいかもしれない。

論文:データ解析(-2014) - 読了:Mittlbock & Schemper (1996) ロジスティック回帰の説明率指標を品定め

2012年3月 2日 (金)

Rothman, K.J. (1990) No adjustments are needed for multiple comparisons. Epidemiology, 1(1), 43-46.
 多重比較法そのものに対する批判としてよく引用されている論文。著者は「ロスマンの疫学」でおなじみの超偉い人。掲載されたのは雑誌Epidemiologyの創刊号で、エディターは先生ご自身である。創刊号になんか書いたらなあかんな、よしこれを機にひとつ無知蒙昧を正しておいてやるか... という感じだったのかも。なにしろロスマン先生は仮説検定にも一家言お持ちの方なのだ(そのせいで起きた波紋についての楽しい論文を読んだことがある)。

 先生いわく、多重比較法は次の2つの不適切な思い込みに基づいている。(1)「異常な知見はたいてい偶然によるものだ」(Chance not only can cause the unusual finding in principle, but it does cause many or most such findings)。(2)「偶然によって引き起こされたものに目印をつけ今後の探求に供したいと思っている人はいない」(No one would want to earmark for further investigation something caused by chance)。
 含蓄がありすぎる表現で困っちゃうのだが、もっと散文的に言い換えると、こういうことだと思う。(1)多重比較法が仮定する帰無仮説はおかしい。(2)ひとつひとつの比較はそれぞれに価値がある。
 論点(1)について。正確を期するために抜き書きすると、"The isolated null hypothesis between two variables serves as a useful statistical contrivance for postulating probability models. [...] Any argument in favor of adjustments for multiple comparisons, however, requires an extension of the concept of the isolated null hypothesis. The formal premise for such adjuestments is the much broader hypothesis that there is no association between any pair of variables under observation, and that only purely random processes govern the variability of all the observations in hand." つまり、多重比較法には次の2つの特徴があるとロスマン先生は考えている。(1-1)「すべての比較において差がない」という帰無仮説を仮定している。(1-2)帰無仮説の下で各比較における誤差が独立だと仮定している。
 先生はどちらの特徴を批判しているのだろうか。確信が持てないのだが、両方ではないかという気がする。(1-1)を批判しているように見える箇所: "The null hypothesis relating a specific pair of variables may be only a statistical contrivance, but at least it can have a scientific counterpart that might be true. The universal null hypothesis implied not only that variable number six is unrelated to variable number 13 for the data in hand, but also that observed phenomena exhibit a general disconnectivity that contradicts everything we know". (1-2)を批判しているようにみえる箇所: "the generalization to a universal null hypothesis has profound implications for empirical science. Whereas we can imagine individual pairs of variables that may not be related to one another, no empiricist could comfortably presume that randomness underlies the variability of all observations".
 論点(2)について。我々は予測できない分散をchanceのせいにする傾向があるけれど、そもそもchanceという言葉は現象の説明ではない。それはいつの日か因果的な説明が可能な現象かもしれない。かつて肺がんの発症はchance phenomenonだったが、いまでは大部分が説明できるではないか。多重比較の調整は、せっかく観察された関連性にchanceという名前を付け、それを覆い隠してしまうことで、科学にダメージを与える。調整しないと誤った知見が得られてしまう、だって? 誤りは科学という試行錯誤のプロセスにつきものだ。観察の増大に伴い観察のprivilegeにペナルティを課そうという多重比較の発想は論理的におかしい。"Science comprises a multitude of comparisons, and this simple fact in itself is no cause for alarm".

 うーむ。正直なところ、よく理解できなかった。ひとことでいうと、論点(1)の批判のスコープがわからない。恥ずかしいけれども、今後の勉強のために、よくわからなかった点を書き出しておく。
 (1-1)についていえば、

 (1-2)についてもよくわからない。

 いっぽう、論点(2)については納得。でも、いやいや実証研究ってのはもっと別のプロセスでもありうるのよ、 たとえば説明はどうでもよくて、取り急ぎ差がありそうな比較をスクリーニングしたいこともあるじゃないの... と開き直る人が出てくるだろうと思う。先日S. Goodmanという人の論文を読んで、なんだか霧が晴れたような気がしたんだけど、Goodmanさんの言い方を借りればロスマン先生は「ある差についての科学的説明の良さを判断する我々の能力を信頼している人」であり、そしてその暖かい信頼は必ずしも自明ではないのではないかしらん。

 この論文、ネットでPDFをみつけたはいいが、スキャンの質が悪くて読みにくく、目が悪くなりそうなので途中であきらめて、国会図書館関西館に郵送複写依頼を出した。その後自分のなかで多重比較のブームが過ぎ去り、すっかり忘れたころになってポストに入っていた。
 毎度のことながら、国会図書館の複写担当の方はコピーを実に丁寧に送ってきてくださる。そうする規則があるというより、日本の学術研究を支えているという誇りをもって業務に携わっておられるということだろう、と想像する。私は全然支えてないですけど。いつもすみません、感謝感謝。

論文:データ解析(-2014) - 読了:Rothman(1990) 多重比較法は使うな

« 2012年2月 | メイン | 2012年4月 »

rebuilt: 2020年11月16日 22:45
validate this page