elsur.jpn.org >

« 読了:Zeeelenberg & Pieters (2004) 顧客不満の裏にある感情の効果 | メイン | 読了:Hu, et al. (2001) 固定電話対象のRDD調査と携帯電話対象のRDD調査を両方やってひとつにまとめました »

2015年6月 8日 (月)

 仕事の都合で、左側切断と右側打ち切りがある生存時間データについて考えていた。恥ずかしながら、両方ある奴を扱うのははじめてだ。わかりやすく書いてしまうといろいろ差し障りがあるので書けないけど、マーケティング・データ解析ではそんなに珍しい問題状況じゃないかもしれない、と反省。
 意外なことに、この状況についてきちんと説明した参考書がなかなか見当たらない。社会科学の文脈で生存分析を扱った名著Singer & Willett(2003, 最近訳書が出た)には切断の話が出てこないように思う。Rのsurvivalパッケージの中の人Therneauさんによる教科書Therneau & Grambsch (2010) にもほとんど出てこない(これはラッキーともいえる。私にはこの本はかなりわかりにくい)。いまのところ見つけたのはクライン&メシュベルガー(原著2003)なんだけど、先生、文系の私にはこれでさえハードルが高いんです...

Cain, K.C., Harlow, S.D., Little, R.J., Nan, B., Yosef, M., Taffe, J.R., & Elliott, J.R. (2011) Bias Due to Left Truncation and Left Censoring in Longitudinal Studies of Developmental and Disease Processes. American Journal of Epidemiology, 173(9), 1078-1084.
 というわけで、出張の新幹線でメモを取りながら読んだ。

 ええと...
 縦断研究で、関心がある最初のマイルストーン(発症とか)から最後のマイルストーン(死亡とか)までを観察しているのをインシデント・コホート・デザインという。これに対して、なんらかのマイルストーンを観察できなかった人を除外しちゃうのをプリバレント・コホート・デザインという。後者のデザインにはバイアス源が3つあることになる:

生存分析による右側打ち切りの対処は広く活用されているが、左側打ち切り・左側切断はそうでもない。
 左側切断によるバイアスは、切断に関わっているマイルストーンがひとつならまだわかりやすい。ややこしいのは複数のマイルストーンと関連しているときだ。たとえば、女性の更年期についての3つのコホート研究を比較すると、後期更年期の開始時点の分布が全然違う。これは研究によっては参加時にもう後期更年期が始まっている人がいたり(左側打ち切り)、更年期が終わっちゃった人が研究に参加できなかったり(その後のマイルストーンによる左側切断)するからだ。[←ああ、そうか。この例ならすぐ気が付くだろうけど、こうやって対象者条件が複雑になればなるほど、思わぬ落とし穴も増えるなあ...]

 終末イベント時の年齢をY、中間イベント時の年齢をXとする(たとえば、更年期の終了と後期更年期の開始)。D=Y-Xとする。Y, X, Dの分布を推定するというのが目標である。
 研究参加時の年齢をA, 退出時の年齢をBとする[←ここではすべてをカレンダー時間ではなく年齢で定義している点に注意。いやあ、途中で混乱したぜ。Figure 1をぼーっと見ていると誤解するぞ]。可能な順序は6つある: AXYB、AXBY、ABXY、XABY、XAYB, AYAB。
 ここでは次のデザインに焦点を当てる。

 デザインIについて。[←混乱するので自分のために例を挙げておくと、分析対象期間前に退会した会員はデータから抜け落ちているけど、現会員についての入会日はわかる、会員の在籍期間(入会日を原点にとってX)の平均を推定せよ、といわれているような状況だ。ありそうありそう]
 Xの左側切断を無視してYなりXなりDなりの分布を推定したとして、仮にAが固定されていたなら、その推定は X > Aという条件のもとでの条件付き分布となる。実際にはAはたいてい変動するけど。
 このデザインでは、Aを組み込んでXの周辺分布を不偏推定するノンパラなproduct-limit推定量が存在する[←なんのことかと思ったが、カプラン・マイヤー推定量のことをproduct-limit推定量というらしい。へー]。Stata, SAS, Rに載っている。ただし、Aの最小値がXの最小値より早いことが必要。さらに、Aの最小値とXの最小値が近いと不安定になる(リスク集合が小さすぎるから)。こういうときは、Aの最小値の右側にA0という点を定義し、X < A0 の下での条件付き分布を推定するという手もある [←へぇー!]。もちろん周辺分布に対しては不偏でなくなる。
 不幸にして、Xの多くがA (ないしA0)より左だったとしよう。Xの周辺分布を不偏推定するためには、もはやXのパラメトリックな分布を知るよりほかに手がない。それがわかれば、尤度を Pr(X < A)で割ればいい[←理解するまで1分ほど固まりました... いやぁ、専門家の奴らは頭がいい]。StataとRのサンプルコードを示すから読むがよい。
 ところで、すべての潜在的参加者について、Aの前にXがあったかどうかだけはわかっているとしたらどうか。この場合は、Xで左側切断されているのではなく、Xで左側打ち切りしていることになる。これもコードを示すので読め。
 さて、ここまでの話はXが正しくわかる場合の話だ。実際には往々にしてXはあいまいである。更年期の例だと、生理周期が60日を超えた初回を後期更年期の開始と定義するんだけど、ある参加者の生理周期が「はじめて」60日を超えたと参加者が報告したとして、実は観察期間の前にもそれは生じていたかもしれない。以下、参加者の報告を信じる方法をナイーブ法と呼ぶ。

 デザインIIについて。おさらいすると、イベントYで切断、Xで打ち切りが生じてます。[←分析対象期間前に退会した会員はデータから抜け落ちており、入会日(カレンダー時間でX)については新規会員についてはわかるが既存会員についてはもうわからん、会員の在籍期間(退会日をカレンダー時間でYとしてY-X)の平均を推定せよ、でも新規会員のみの平均じゃだめよといわれているようなものか。悪夢ではあるがありそうな話でもある]
 このときは、まずXとYの同時分布のモデルが必要になる。XとYが独立でないかぎり、Yの切断がXの分布の推定にバイアスをもたらすからだ。二変量正規分布を仮定したモデルのコード例を示すから読め。
 なお Jiang et al.(2005 Biometrics)は、XとYの関係についてはパラメトリックに記述しそれぞれの周辺分布についてはノンパラに推定するというモデルを提案している。[←なんでそんな変なことを考えたのかと思ったら、Xは糖尿病性網膜症、Yは糖尿病による死亡だそうだ。なるほど、観察開始前の死亡者はデータから抜け落ちる、網膜症を発症したかどうかはわかるが時期は観察期間でない限りわからない、発症からの平均余命を推定したい、発症年齢の確率分布はわからないけど発症から死亡までの期間についてはなんらかの仮定ができそうだ]

 シミュレーション。 
 TREMINというコホート研究をつかう。参加者は女性で、ずっと生理を記録している。40歳の時点で参加していた人の40歳以降の記録を分析対象とする。後期更年期の開始年齢をX, 閉経年齢をYとする。XとYの周辺分布は正規分布に従っているが、Dは歪んでいる(定義上 X > Yにはならないから当然だ)。でも二変量正規性を仮定して分析するぞ。詳細は付録をみよ。[←すんません、いまちょっとその時間がないっす]
 TREMINには左側打ち切りも左側切断もない。このデータで推定したX, Y, Dの分布を、このデータから以下の手順で抜き出したデータで推定した結果と比較する。(1)ある期間(たとえば40歳~50歳)に参加した人のデータだけ切りだす。(2)ブートストラップ抽出。(3)個々の対象者に一様乱数Aを与え、Aから10年分を切り出す。(4)X < Aの対象者を除外(デザインI)。ないし、Y < Aの対象者を除外(デザインII)。
 結果[きちんと読んでないけど...]。左側切断・左打ち切りをちゃんとモデル化しないとバイアスを受ける。正しく扱っても切断されている割合が50%あたりを超えると不安定になる。云々。

 考察。関心あるイベントが切断を受けるイベントである場合は簡単で、RやSASやStataで扱える。しかし関心があるイベントと切断のあるイベントがずれている場合はややこしくて、なんらかのパラメトリックな仮定が必要になる。
 実際の切断はそんなにシャープじゃなくて、むしろ確率的に生じることも多い。その調整方法は今後の課題。[←ヘックマン・モデルみたいな話か...]
 研究デザインを変えて切断をやり過ごせることもある。たとえば自然流産までのイベント時間分析だったら、すべての潜在的参加者について最初の評価の際に過去の自然流産の有無を調べておくとよい。このクロスセクショナルなデータがあれば、縦断データのほうがY > Aな対象者だけであっても、左側切断が左側打ち切りに変わる。

 正直なところ本文よりappendixのコード例のほうに惹かれて読んだんだけど、いやー、これはホントに勉強になった。ありがたや、ありがたや。

論文:データ解析(2015-) - 読了:Cain, et al. (2011) 左側打ち切りと左側切断が生存分析に与えるバイアス

rebuilt: 2020年11月16日 22:56
validate this page