« 読了: 桑島 (2002) 新製品開発研究の変遷 | メイン | 読了:佐藤 (1993) しまりすのための曝露効果研究法レビュー »
2014年2月28日 (金)
たとえば、消費者を集めてきて2グループに分け、片方のグループにだけある商品の広告かなにか(A)を見せたのち、全員にその商品を買いたいかどうかを尋ねたら、買いたいと答えた人の割合は、見せてない群では10%, 見せた群では20%でした。で、同じ商品について、別の時期に別の広告かなにか(B)で実験したら、見せてない群では30% (なにか事情があって上がったんでしょうね)、見せた群では45%でした。
さあ、どちらの広告が効果があったでしょうか? 何の因果か、私は日頃こういうことばっかり考えて細々と暮らしている。
ひとつの答え方は、Aは10% vs. 20%で10%の上昇、Bは30% vs. 45%で15%の上昇、だからBのほうが効果があった、というものである。いわゆる「リスク差」に注目した考え方だ。
もうひとつの答え方は、Aは10%が20%になったんだから2.0倍、Bは30%が45%になったんだから1.5倍、だからAのほうが効果があった、というものである。「リスク比」に注目した考え方だ。
もしかすると、ややこしいことを考える人がいて、Aは (0.2/0.8) / (0.1/0.9) = 2.25, Bは (0.45/0.55) / (0.3/0.7) = 1.91, だからAのほうが効果があった、というようなことを言い出すかもしれない。「オッズ比」に注目した考え方である。
仕事とはいえ、毎日毎日こんな細かいことをちまちまと考えて一生を終えるのか... と、哀しい気持ちになる人もいるかもしれない。そういう人は私の心の友です。心の友というのは概して役に立たないものだ。
Walter, S.D. (2000) Choice of effect measure for epidemiological data. J. Clinical Epidemiology, 53, 931-939.
そんなこんなで、頭を整理したくて読んだ。つくづく思うんだけど、二値のアウトカムに対する因果的効果を定量化したい、原因変数と共変量は明確だ、という場面では、疫学の道具立ての豊かさにはもう絶対にかなわない。さらに、医学関係者はなにしろ人数が多いので、優れた解説にも事欠かない。読まなきゃ損である。と、景気をつけて...
リスク差とかリスク比とかオッズ比とかの効果指標についてレビューします、という論文。
2つの群におけるイベント生起率を$P_1, P_2$とする。とりあえず、$P_1$を処置群、$P_2$を統制群としておく。良くつかわれる効果指標は:
- リスク差 $RD = P_2 - P_1$
- リスク比 $RR = P_1 / P_2$
- 相対リスク減少 $RRR = (P_2 - P_1) / P_2$
- オッズ比 $OR = (P_1 / (1-P_1)) / (P_2 / (1-P_2))$
- 治療必要数 $NNT = 1/ (P_2 - P_1)$
云うまでもなく、$RRR=1-RR, NNT=1/RD$である。
RRとORが全然ちがう指標である点に注意。ORの批判者たちはそこを見逃している(暗黙のうちにRRを基準にして考えている)。
効果指標に求められる特性のそれぞれについて、RD, RR, ORを比べてみよう。
- 単純であること。RDとRRが該当。ORはわかりにくい。
- 対称的であること(成功と失敗を入れ替えても影響されないこと)。RDとORが該当。
- それが一定である時、生起率は0と1のあいだであること。ORのみが該当(たとえば、RD=0.1, P_2 < 0.1だったらP_1は負になってしまう)。
- 不偏推定が可能であること。RDが該当。
- 小サンプルでも効率的に推定できること。ORが該当。
- 生物学的モデルに基づいていること。すべて該当。(RD, RRはポワソンモデルと整合する。ORは、2つの正規分布の下でカットポイントを決めて判別したとき、カットポイントを問わずほぼ一定になる)。
ついでにいえば、ORは事前オッズに掛ければ事後オッズになるし、2x2クロス表の超幾何分布のパラメータだし、多元クロス表の分析の基盤だし、後向き研究でも前向き研究でもクロスセクショナル研究でも推定できるし...(と、贔屓の引き倒し気味の説明が並んでいる)。
そのほか、RD, RR, ORのそれぞれを固定したままP_2を動かすとP_1はどうなるか(P_2が極端でない限りどの指標もたいして変わらない)、実データ例において層によって値が変わらないのは3つの指標のうちどれだったか(どれも一定ではなかった)、といったデモンストレーションが紹介されている。省略。
考察。
RD, RR, ORのどれを使うべきかはアプリオリには決められない。手元のデータに照らし、ベースライン・リスク(P_2)が変わっても変動しない指標を選ぶのがよいでしょう。まあ単一の研究じゃなかなか決められないと思うけどね。階層混合モデルで検証すればいいんじゃないですか。(←面倒なことを軽く云うねえ、とちょっと笑ってしまった。実例としてThomas(1981, Biometrics)というのが挙げられている。要旨を読むと、どうやら生存時間モデルで任意の関数形について尤度を出しますというような話らしい。そんなんよう読みませんわ)
統計的データ解析とリスク・コミュニケーションは分けて考えましょう。後者は分析のあとで考えればよい。たとえば、分析はOR, コミュニケーションはRR、というように使い分ければいいんじゃないですか。
云々。
著者は「RRの観点からORをけなすな」とずいぶんお怒りだけど、その背後には、医学関係者は因果的効果をRRで捉えるのに慣れていて、ORはケース・コントロール研究における(rare disease assumptionの下での)RRの近似として用いられてきた、といういきさつがあるのだろうと思う。
この話に限らず、一般に「どういう指標が良いか」という議論になったときには、(1)ユーザの受け取り方に注目する論点、(2)データの発生メカニズムに注目する論点、(3)指標の統計的性質に注目する論点、の3つが入り乱れるように思う。私は心の中でひそかに、(1)を右翼、(2)を左翼、(3)を小役人と呼んでいる。この分類でいうと、この著者は右翼的な論点を切り離し、小役人的な論点では決着がつかないと主張する左翼で、でも「イベントの生起メカニズムについて実質科学的に熟考しなさい」というようなラディカル左翼ではなく、「安定しているはずの時に安定している指標を選びなさい」というデータ寄りの視点に重きをおく、ということだと思う。実際には判断が難しいという点では五十歩百歩だと思うけど。
この論文で一番面白かったのは、解析上の良し悪しとコミュニケーション上の良し悪しは別の問題だ、というくだり。なるほど一理あると思う。実際には、分析と報告とを綺麗に分けるのが難しいこともあるけれど、考え方としては正しい。ロスマンだったかしら、RRは臨床家の発想で、RDは公衆衛生の発想だ... というようなことを書いていて、感心したことがあったのだけど、そういうのも、きっとコミュニケーション上の問題だということになるのだろう。
最後に紹介されていたけど、医者が効果指標をどう受け取るかという研究があって、RRRで示すと効果は大きめに受け取られるのだそうだ。へぇー。
論文:データ解析(-2014) - 読了: Walter (2000) リスク比 vs リスク差 vs オッズ比