« 読了:ウォレンドルフ, アポストローバ=ブロッサム (2001) マーケティング・リサーチは創造性の源とはならない(という主旨なのかどうかよくわからない) | メイン | 読了:「アキオ」「取水塔」「辺獄のシュヴェスタ」「東京タラレバ娘」 「緑の罪代」「昭和元禄落語心中」「吼えろペン」 »
2016年9月18日 (日)
Weir, C.J., Lees, K.R. (2003) Comparison of stratification and adaptive methods for treatment allocation in an acute stroke clinical trial. Statistics in Medicine, 22, 705-726.
臨床試験での処理割当についての論文。仕事の都合で読んだ。
多施設臨床試験での割り付けは、予後因子で層別した上でパーミュテッド・ブロックを使うのが標準的な方法である(ブロックサイズはランダムにする。次の人の割り付けを予測できないようにするため)。しかし、予後因子の数が増えると層の数が爆発する。そこで提案されているのが適応的層別化、具体的には最小化法。
本研究ではacute stroke後のglucoseコントロールについての臨床試験のデータを使い、層別パーミュテッド・ブロックと適応的層別化を比較する。
適応的層別化とはなにか。
2群への割り付けを考える(activeとcontrolとする)。まず、所与の予後因子について群間のインバランスのレベルを測る方法を決める(当該水準の人数のSDなり分散なりを使うことが多い)。新患者が来たら、その人の各予後因子の水準について、その人をactiveに割り付けた場合のインバランスと、controlに割り付けた場合のインバランスを測る。で、なんらかの方法で、すべての予後因子を通じた全体的インバランスを求める(単に合計するとか) 。その際、重要な予後因子を重視すべく重みを決めることもある。最後に全体的なインバランスが小さいほうの群にその人を割り付ける確率を、なんらかのやり方で決める(オリジナルの最小化法では確率1)。
このやり方では、予後因子の周辺分布をバランスさせるだけであって、組み合わせはバランスさせない。そこが層別パーミュテッド・ブロックとちがうところ。[←というか、層別ランダム化のアプローチの場合、予後因子のすべての組み合わせを層にせざるを得ない、という云い方のほうがしっくりきますけどね]
というわけで、本研究の課題。適応的層別化において、
- 割り付け確率をどうするか。
- 何因子くらいまでならいけるのか。
- 因子への重みづけは必要か。
- 因子の組み合わせはバランスすべきか。
- 事後の分析をどうするか。
- 検定力はどうなるか。
データ。実データを使うというのが売り。
UKグラスゴーの西部診療所・急性脳卒中治療室は、地域における局所神経障害の突然発症者のうち、 血管と無関係な原因で生じた場合を除くすべての患者を扱う。このデータベースから12個の変数を抽出した:{年齢、plasma glucose level on admission, 卒中の分類、delay to trial enrolment from stroke onset, 卒中のタイプ、resolution time、coma scale on admission、性別、症状の左右(ないし両側)、presence of atrial fibrillation, 血圧}。
変数間関係のグラフィカル・モデルを組み、MS-DOS上のBUGS ver. 0.3で患者データをGibbsサンプリング[←!]、10万人のデータをつくる。さらに、アウトカム(卒中に影響された脳組織の量)をシミュレーションで生成した。
割り付けシミュレーション。
試験当たりの患者数を1000人とする(実際のサイズに近い由)。100試行。
インバランスレベルはこうやって測る。予後因子の水準$j$の処理$k$における人数を$X_{kj}$としたとき、
$q_j = X_{1j} / (X_{1j} + X_{2j})$
とする[当該水準の人数のうち群jに割り当てられた割合ってことね]。で、インバランスを
$100 \times max \{|q_i - q_j|\}, \ \ i \neq j$
と定義する。年齢など4因子についての最終的なインバランスを測る。
シミュレーションで以下を動かす。 [この論文のシミュレーションは、いろんな要因を直交配列で動かす純粋なシミュレーションではなく、 最小化法の手続きを決める場面で、過去の類似データを使ったシミュレーションでパラメータを一つ一つ決めていくときにどうするか、その手順を例示している感じであった]
- 割り付け確率。1, 0.95, 0.9, 0.85と、0.5(=単純無作為化)を比較。 因子数4で試す。結果:どの確率でも、人数は群間でだいたいそろう(最悪でも6人差)。単純ランダム化だともっとずれる。確率が1から離れるとインバランスは大きくなる。予測可能性のことを考えると0.95がよいであろう。
- バランシングする因子の数。4,8,12。 p=0.95で試す。結果: 因子数を増やすと各因子のインバランスは大きくなるけど、大した増大ではない。適応的層別化って予後因子の数が多くても大丈夫だね。
- ウェイト。12因子で、すべて1にする場合と、delayを5, glucose levelを3とする場合を比較。p=0.95で試す。 結果: 当然ながら、ウェイトを大きくした因子のインバランスは小さく、そうでない因子のインバランスは大きくなる。
- 交互作用項を含めるか。含めない場合と、delay x タイプを含める場合を比較。結果:当然ながら、含めると当該交互作用項のインバランスは小さくなる。
- 処理効果の推定。ここからは1000試行に増やす。処理効果なしを含む5水準を比較する。t検定とANCOVAで、名義有意水準を5%にしたときの実質有意水準と検定力を、層別ランダムブロック(3変数、ブロック長4と12)の場合と比較する。結果:効果がない場合、層別ランダムブロックでも適応的層別化でも、t検定では保守的になってしまい(実質有意水準が0.03くらいになってしまう)、ANCOVAで調整しないとだめ。効果がある場合、検定力は単純ランダムブロックよりも適応的層別化のほうが高い。因子数を12にしても大丈夫。
考察。もっとサンプルサイズが小さいときについては別途検討の必要がある。処理効果に個人差がある場合についても要検討。事後分析をANCOVAでやらないと保守的になるという知見は要注目だ。
なお、これは線形モデルで分析するときの話で、ロジスティック回帰や比例ハザードモデルをつかうときは層別ランダム化のほうが良いだろう[←ええええ? なぜ? 理由が書いてない。Begg & Kalish(1984, Biometrics)というのが引用されている]
論文:データ解析(2015-) - 読了:Weir & Lees (2003) 臨床試験における処理の割り付けに最小化法を使うとなにがどうなるかシミュレーションしてみました