« 読了:Carsternsen(2007) レキシス図で学ぶコウホート分析 | メイン | 読了:Ng & Jordan (2001) 対決!ナイーブベイズ vs. ロジスティック回帰 »
2016年2月27日 (土)
しばらく前に読んだ奴のメモだけど、整理の都合上記録しておく。
Li, T., Anderson, J.J. (2009) The vitality model: A way to understand population survival and demograaphid heterogeneity. Theoretical Population Biology, 76, 118-131.
ふつうの生存モデルとは全然違う生存モデル、その名も4パラメータ生命力モデルをご提案します。という論文。
なにかのきっかけで目にして(あ、そうだ。CRANのtask viewにパッケージが載っていたのだ)、気分転換用の読み物としてストックしていた奴。生存モデルは仕事で使うことがあるので、目先を変えて「このたびは生態学での最新のモデルを適用しまして...」なあんて言えたら、ちょっとカッコよくね? なんて色気を出したんだと思う。ははは、センスないな俺。全然ちがう話であった。
どういうモデルかというと...生存曲線を下式とする。
$l(t) = l_a(t) l_v(t)$
$l_a(t)$は生命力とは関係ない外発的な死に対応する。これはポワソン過程に従うと考えて
$l_a(t) = \exp(-kt)$
とりあえず$k$は定数としておく(時変させるのは今後の課題とのこと)。
$l_v(t)$のほうが本命。これは「生命力が0になったことによる死」に対応する。えーと、実は各個体は生命力(vitality)$v$を持っている。開始時点での生命力$v_0$は個体を通じて正規分布する(SDを$\tau$とする)。生命力は時々刻々と次のように変化していく:
$dv/dt = -\rho + \sigma \epsilon_t$
$\rho$は生命力の減衰率の平均、$\sigma$は生命力のばらつき(この2つは定数だと考える)。$\epsilon_t$はホワイトノイズ。こういうのをウィナー過程というのだそうだ。で、$v$が0に到達したら死ぬ。というメカニズムから導出される生存関数が$l_v(t)$である。
ここからの式の導出がまっっっったく理解できないので、数式も省略するけど、結局, 生存関数$l(t)$は次の4パラメータを持つ超ややこしい式で表現される: ドリフト率$r=\rho/\bar{v}_0$, スプレッド率$s=\sigma/\bar{v}_0$, 初期生命力分布の分散$u=\tau/\bar{v}_0$, そして外的死亡力$k$。何だか知らんが、これ、MLで解けるんだそうです。
ふつうの(?)生存分析でも、Coxモデルの共変量のパートに個体差を表す切片項(フレイルティ)を入れることがある。初期生命力$u_0$に個体差を与えるのはそれと同じかな? と思ったのだが、著者に言わせると次の点が異なる。フレイルティ・モデルでは個体のフレイルティは時変しない(低い個体が間引かれるので、分布は変わるけど)。また、ベースライン死亡力からは独立である。いっぽう生命力モデルでは個体の生命力が経験によっても変化するし、生物学的基盤を持つモデルになっている、とのこと。
モデルの特徴についていろいろ説明があったけど、省略して...
生命力モデルが活躍する事例を4つ紹介。
その1、medflyパラドクス。medfly (辞書によればチチュウカイミバエ)はオスのほうが平均寿命が長いが、最後まで生き残るのはたいていメス。これはオスとメスの死亡力が途中で逆転するからであることがわかっている(パラドクスっていうほどのことではないんじゃないの...?)。先行研究ではメスのフレイルティの分散が大きいんだと考えているけれど、このモデルにいわせれば、メスはスプレッド率が大きいのであって、初期生命力の分散はむしろ小さい。前者はきっと多産性のせいだ(現に子供のいないメスは平均寿命が長い由)。後者は...と延々と生物学的な考察があるけど、省略。
その2、食事制限。寿命を延ばす効果があるといわれているが、従来の手法では平均生存時間や生存曲線を比べるくらいしかできない。ショウジョウバエのデータに当てはめてみると、ドリフト率が低下することがわかる。とかなんとか。すいません、適当に読み飛ばしました。
その3、その4は疲れたのでパス。
ディスカッション。古典的な死亡力モデルの文脈ではフレイルティを生命力ということがあるけど、俺たちの生命力モデルとは全然違うからな、気を付けて物を云えよ。生命力モデルは状態依存死亡力モデルともちがうからな、気をつけろよ(←状態依存モデルってのがあるのか...なにそれ...)。死を初通過過程として捉えるってところが最大のポイントだかんな。云々。
。。。いやー、こういう研究分野があるのね。さまざまなtime-to-eventデータのモデリングについての抽象的な話ではなくて、なにかの生物種の生存曲線を、生物学的にリーズナブルな形でどうやって説明するかという、かなり実質科学寄りの話なのであった。心理学でいうと分散学習の効果をどうやってモデル化するかとか、マーケティングでいうとBassモデルをどう拡張するかとか、そういうレベルの話である。半分も理解できてないけど、自分なりに勉強になりましたです。
ちゃんと読んでないせいだと思うけど、わかんなかった点をメモ。(1)観察に打ち切りのあるデータにはどう対応するの? いっかいカプラン・マイヤー推定量を出して、やおら当てはめるのかしらん。それともこの分野では打ち切りなんて問題にならないのかなあ。(2)共変量はどうやってモデルに組み込むの? それとも、この分野にはそもそもそういう問題意識がなくて、観察された生存曲線を記述することだけが関心事なのだろうか。よくわからん。
論文:データ解析(2015-) - 読了:Li & Anderson (2009) 生命力モデルによる生存分析