« 読了:Zhao, Hoeffler, & Dahl (2012) 本当に新しい製品は、使っているところが想像しにくい「ような気がする」ときに評価が下がる | メイン | 読了:水山(2014) 予測市場とその周辺 »
2015年1月26日 (月)
Warton, D., & Hui, F.K.C. (2011) The arcsine is asinine: The analysis of proportions in ecology. Ecology, 92(1), 3-10.
勤務先の仕事の都合でざっと目を通した(ほんとはいまそれどころじゃないんだけど...)。タイトルにあるarcsineとは逆正弦変換(角変換)のこと、asinineとはfoolishというような意味だそうで(ロバ ass から来ているそうだ)、語呂合わせになっているわけだが、日本語のうまい語呂合わせが思いつかない。「逆正弦変換はせーへんように」というのを考えたんだけど、「逆」がどこかに消えているし、突然関西弁になる理由があきらかでない。
わたくしが院生のころはですね、なにかの割合$p$を従属変数にした分析の際には、角変換した変数$arcsine(sqrt(p))$を使いなさい、と習ったものである。岩原信九郎の有名な本(1965)にもそう書いてありました。70年安保粉砕に明け暮れた青春時代でした。嘘ですけど。
でも最近は角変換ってあんまり使わないんだそうで、その理由を知りたくて手に取った。
著者曰く。角変換が使われる場面はふたつある。(1)もともと二項変数で、データが「$n$個中$x$個」という形になっている場合。(2)もともと二項変数というわけではないんだけど、なにかの事情でデータが割合の形になっている場合。「窒素78%含有」とか。
まず、もともと二項変数である場合。$y = x / n$の分散は$p(1-p)/n$で、等分散性がないから、線形モデルのためには変換が必要だ、というのは正しい。さて、角変換すると$var(arcsin(sqrt(y))) \approx 1/(4n)$となり、等分散性が得られ、かつ正規性も得られる、といわれてきた。しかし: (1)$p$が0か1に近いとき、この近似はあてはまらない。(2)$n$が違ってたら等分散にならない。(3)線形モデルは分散異質性には弱いが非正規性には頑健なんだから、正規性を変換の目標にするのはおかしい。
むしろロジスティック回帰を使いなさい。なぜなら(1)logitリンク関数は割合を単調にマップしてくれる。(2)係数の解釈が容易だ [←それは先生、オッズというのが直感的に理解できる人ならばそうでしょうけどね]。(3)分散が $p(1-p)/n$ であることを正しくモデル化している。
もっとも過分散 (overdispersion) という問題もある。検出する方法は...[略]。対処のためには正規ランダム切片項を加えた GLMMという手がある。Rのlme4::glmer()を使いなさい。$var(x) = \phi np (1-p)$という手もあるけど、あんまりよくない。
もともと二項変数でない場合。変換しなきゃいけないというのは正しい。でもあんたらに訊きたいんだけど、角変換を選ぶ理由はどこにある? どこにもないじゃない[←あ、そういわれてみれば...]。解釈しやすい変換を使いなさい。かつ、できれば[0,1] を $(-\inf, \inf)$にマップする変換を使いなさい。logit変換$log(y / (1-y))$とかね。yが0ないし1のときに困っちゃうけど($-\inf, \inf$になるから)、分母と分子の両方に小さな値$\epsilon$を足せばよろしい。
まあどんな変換でもいいけど、とにかく回帰診断を忘れないように。残差と予測値のプロットが大事。$n \lt 30$くらいだったら正規確率プロットも大事。
後半は実数値例とシミュレーション。すいません、適当に読み流しました。
ロジスティック回帰は小標本のときに辛いこともあるだろうけど、リサンプリングとかMCMCとか、なんか工夫しなさい。サンプルコードを公開してあげるから参考にしなさい。これから教科書書く奴、角変換の話なんて書くなよ、わかったか。云々。
。。。二項変数の成功割合じゃなくて、もともと割合値を持っている変数の変換方法について知りたかったんだけど、云われてみれば、わざわざ角変換を選ぶ理由はどこにもないわね。その点は勉強になった。ロジット変換のほかにどういう変換がありえるか(変換しないという手もあると思う)、それらの得失は... という話が読みたかったんだけど、それはない物ねだりであろう。
論文:データ解析(2015-) - 読了: Warton & Hui (2011) 逆正弦変換はせーへんように (←いまいち)