« 覚え書き:(1-ΦL)で割るとはどういうことか | メイン | 読了:赤池(1980) 統計的推論のパラダイムの変遷について »
2019年7月12日 (金)
わたくし平凡なサラリーマンだもんで...時として、もう正しいことなんてどうでもいい!みんながどうやってんのか知りたい!と思うことがあるのです...(本音ダダ漏れ)
Talbot, D., Massamba, V.K. (2019) A descriptive review of variable selection methods in four epidemiologic journals: There is still room for improvement. European Journal of Epidemiology, 34(8), 725–730.
というわけで、面白そうなので目を通したやつ。ページ数も少ないし。
疫学の論文だけど、マーケティングのデータ解析というのは、時々びっくりするくらいに疫学に似ていることがあるように思うのです。ほら、マーケティングアクションの効果を観察データから推定するとかって、似てませんかね?
疫学の論文において共変量の選択がどのように行われているかを調べる。
先行研究(Walter & Tiemeier, 2009 同誌)を紹介して...
疫学における共変量の選択手法を簡単に概観して... (因果グラフ, disjunctive cause基準, 単相関とかで選択, ステップワイズ選択, モデル投入による推定値の変化, lasso, adaptive lasso, ベイジアンモデル平均)
Am.J.Epidemiology, Epidemiology, Euro.J.Epidemiorogy, Int.J.Epidemiologyの4誌に注目。2015年に載った論文は975本、ここから観察研究の論文292本を選んだ。追試とかRCTとかは除外。また予測を目的とする研究も除外。
共変量選択の方法を分類すると(排他的分類ではないので合計は100%にならない)、
- 先行知識ないし因果グラフ ... 50% (他と重複していないのだけだと40%)
- 推定値の変化 ... 12%
- ステップワイズ ... 5%
- 単相関とか ... 9%
- その他 ... 2% (ベイジアンアプローチ, モデル適合, 統計的有意性, etc.)
- 十分に説明していない ... 37%
先行研究と比べると単相関による選択とステップワイズ選択が減っている。こういう手法は曝露効果を過大評価しちゃうので、喜ばしいことである。
新しい手法を使っている論文が見当たらない。Bayesian Adjustment for Confounding (Rのbacrパッケージ)とか、Bayesian Causal Effect Estimation(BCEEパッケージ)とか、モデルフリーなアルゴリズム(CovSELパッケージ)とか。
本研究はsystematic reviewとはいえない。また、個別の研究についてのcriticalな評価ではない(たとえば、ステップワイズ変数選択は効果を過大評価しちゃうけど、仮説生成の段階ならまあ許せるかもしれない)。
本研究からの示唆:
- 推定量の変化を調べるというアプローチのパフォーマンスについて、もっとシミュレーション研究が必要。
- 研究者の教育が必要。いまだに変数を有意性で選んでいる奴がいる。また最近の手法を使っている人が少ない。そもそもデータドリブンな変数選択手法は必須じゃないし(データが大きければ全部使っちゃうのもありだ)、データドリブンに変数選択したときは、変数を選ばず全部使った時の結果も併記してほしい。
- 変数選択についてのきちんと説明してない奴が1/3以上いる。よくないねえ。
論文:データ解析(2018-) - 読了:Talbot & Massamba (2019) 疫学者はどうやって変数を選択しているか