論文:データ解析」カテゴリーアーカイブ

読了:Dufor & Farhat (2002) 2群の分布が等しいかどうかの正確ノンパラ・モンテカルロ検定

Dufor, J.M., Farhat, A. (2002) Exact Nonparametric Two-Sample Homogeneity Tests. In: Huber-Carol C., Balakrishnan N., Nikulin M.S., Mesbah M. (eds) Goodness-of-Fit Tests and Model Validity. Chap.33.

 仕事の都合でがんばって読んだ奴。2標本Kolmogov-Smirnov検定が、離散変数のときにどうなるのかを知りたくて、なにか書いてあるかなあと思ったのである。
続きを読む

読了:Heck (2018) ネストされたモデル間のベイズファクターなら、いつだってSavege-Dickey密度比で求められるぜ、なんて思うなよ

Heck, D. W. (2018) A caveat on the Savage–Dickey density ratio: The case of computing Bayes factors for regression parameters. British J. Mathematical and Statistical Psychology.

 仕事の都合で読んだノンパラ検定のベイズ・ファクターについての論文(van Doorn, et al. 2020) で、ネストされたモデルのベイズファクターを点密度だけで簡単に求めるというくだりが出てきて (Savege-Dickey 密度比)、よくわからんかったので探して読んでみた。
 論文の主旨は、Savege-Dickey 密度比を使ってはいけない場面があるよ、特に回帰係数の検定のときには気をつけなさい、というもの。
続きを読む

読了: van Doorn, Ly, Marsman, Wagenmakers (2020) 順位和検定・符号順位検定・順位相関の検定をベイズ・ファクターでやる方法

van Doorn, J., Ly, A., Marsman, M., Wagenmakers, E.J. (2020) Bayesian rank-based hypothesis testing for the rank sum test, the signed rank test and Spearman’s rho. Journal of Applied Statistics.

仕事の都合で慌てて読んだ奴。順位和検定、符号順位検定、順位相関の検定をベイズ・ファクターでやるにはどうすればよいかという解説論文。

続きを読む

読了:Janssens & Martens (2020) ROC曲線下面積に対するご批判にお応えしよう

Janssens, A.C.J.W, Martens, F.K (2020) Reflection on modern methods: Revising the area under the ROC curve. International Journal of Epidemiology, 1-7.

 ちょっと都合で読んだ奴。今年出た記事で、タイトルの通り、ROC曲線下面積(AUC)についての解説。
 題名に添えて Education Corner と書いてあるから、この雑誌にはそういう啓蒙コーナーがあるのだろう。American StatisticianのTeacher’s Cornerみたいなもんかな。
続きを読む

読了: Christodoulou, et al. (2019) 機械学習による臨床リスク予測はロジスティック回帰より優れているかというと、これがそうでもない

Christodoulou, E., Ma, J., Collins, G.S., Steyerberg, E.W., Verbakel, J.Y., Calster, B.V. (2019) A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models. J. Clinical Epidemiology, 110, 12-22.

 仕事の資料をまとめて読んでいる途中でつい読んじゃった奴。タイトル通り、医療分野の予測において機械学習は古典的なロジスティック回帰よか優れているわけではない、というレビュー。はっはっは。
続きを読む

読了:Acemoglu, et al. (2020) コロナ禍の下でのロックダウン政策をマルチリスクSIRモデルに基づき最適化する(お年寄りだけ厳しくロックダウンするのがよい)

Acemoglu, D., Chernozhukov, V, Werning, I., Whinston, M.D. (2020) A Multi-risk SIR model with optimally targeted lockdown. Working Paper 27012, National Bureau of Economic Research.

 なんかいろいろ考えちゃったら眠れなくなり、仕方がないので明け方まで、SNSでみかけた仕事と関係ない論文を読んでいた。NBER(全米経済研究所)のワーキングペーパーで、日付はMay 2020になっているから、著者の誰かが「書いたぜ」と宣伝したのが拡散したのであろう。
 Multi-Risk SIRモデルというから、感染症の数理モデルの古典であるSIRモデルに、生存時間分析でいうところの競合リスクをいれるのかな? 新型コロナと経済自殺が競合するとか? と思ったんだけど(暗い発想だ)、そうではなくて、一言でいうとリスクと接触性に異質性をいれるという話だった。先日読んだ西浦・稲葉(2006)にmultitype epidemicモデルという言葉が出てきたけど、これもそのひとつかしらん?
 さらに、モデルを当てはめるだけでなくて政策的介入(ロックダウン)の最適解を求めるぜという主旨。なるほど、経済学者だろうしね…と思って著者の名前をよくみたら、筆頭のアセモグルって前に読んだ「国家はなぜ衰退するのか」の著者だ。たぶん有名な経済学者だと思う。へー。
続きを読む

読了:Liao (2005) 時系列クラスタリング法レビュー

Liao, T.W. (2005) Clustering of time series data: A survey. Pattern Recognition, 38, 1857-1874.

 ほんとは年明けからロイヤリティ・プログラム関連の文献を集めていて、さっさと読みはじめなきゃと思ってたんだけど、パンデミックで世界が激変するなか、そうした話題がなんだかすべて虚ろに思えてきてしまい、当面の仕事とは無関係な本や論文ばかりを読んでいた。
 これもそのひとつで、しばらく前にめくった奴。当座の仕事とはあんまり関係ないんだけど、でもこういうのはいつ突然必要になるかわからないから、前もって勉強しておかなきゃ、などと自分に言い訳しながら適当にぱらぱらと目を通した。一種の逃避である。データ解析の仕事だっていつまで続けられるのかわからないのにね… 人の営みとは哀しいものだ。
続きを読む

読了:Papies, Ebbes, Van Heerde (2017) マーケティング・モデルにおける内生性という難題

 去年の今頃は諸事情あってマーケティング・ミックス・モデリングのことばかり考えていたのだが、セミナー用資料を作っていてぎりぎりまで悩んだ点のひとつは、内生性に関する話題をどこまで扱うか、という点であった。結局、そういう問題があるんですよという紹介にとどめ、伝統的な伝達関数時系列モデルの定式化と推定に全力を注いだ。虻蜂取らずという言葉もあるし、正しい判断だったとは思うんだけど、いまでもちょっともやもやしている。
 これは私の力量の問題ではなくて(言い訳)… マーケティング効果推定の実務においては、たぶん「内生性のことは触れないのが暗黙のお約束」になっているんじゃないかな、という気がするのである。もちろんアカデミックな文脈では実証研究がいっぱいあるんだけど、実務の文脈においては、あまりに深刻な問題なのにあまりにできることが少なくあまりにしんどいので、視線をそらして見えないふりをしているというか… これは「研究者はきちんとしているが実務家はいいかげん」という話ではなくて、問題解決を取り巻く状況の違いであろう。
 いま試しにgoogleで「マーケティング・ミックス・モデリング」と検索してみたら、業界各社様の華やかな宣伝が目白押しであったが、「マーケティング・ミックス・モデリング 内生性」で検索すると、さっきは何ページめくっても出てこなかった私のしょぼいセミナー資料がいきなり最上位になった。ウケる。

Papies, D., Ebbes, P, Van Heerde, H.J. (2017) Addressing Endogeneity in Marketing Models. Leeflang, P.S.H., et al. (eds) Advanced Methods for Modeling Markets. Chapter 18. Springer.

 これはセミナー準備の際に読みかけた奴。著者はどんな人たちなんだろう、よくわからない。→いま思い出したが、第三著者の論文は読んだことがあった。あ、販促で起きるブランドスイッチングは見た目よか小さいぜ論文もこの人だ。なんだよもう、俺らマブダチじゃん。(でかい態度)
続きを読む

読了:Gao et al.(2019) MRP(マルチレベル回帰・層化)に構造化事前分布をいれる

Gao, Y., Kennedy, L., Simpson, D., Gelman, A. (2019) Improving multilevel regression and poststratification with structured priors. arXiv:1908.06716v2. 30 Sep 2019.
 しばらく前に読んだ奴。たしか勉強のつもりで読んだのだと思う。
 最近の選挙予測でブイブイいわせているらしき、Mr.P こと Multilevel Regression and Poststratification (日本語ではなんていうんだろう? マルチレベル回帰・層化?) に、構造を持つ事前分布をいれるという論文。Mr.Pの生みの親 Andrew Gelman さんも著者に入っている。たぶん未公刊。
続きを読む

読了: Hyndman & Billah (2003) 時系列予測手法「シータ法」を解剖する

Hyndman, R.J., Billah, B. (2003) Unmasking the Theta method. International Journal of Forecasting, 19, 287-290.
 仕事の都合で読んだ奴。タイトルのとおり、時系列予測の手法のひとつTheta法についての解説。たったの4p。
 第一著者のHyndmanさんはいわずとしれた有名人で、Rのforecastパッケージの中の人であらせられる。
続きを読む

読了: Makridakis, et al.(2018) 機械学習による時系列予測は優れているかというと、これが案外そうでもない

Makridakis, S., Spiliotis, E, Assimakopoulos, V. (2018) Statistical and Machine Learning forecasting methods: Concerns and ways forward. PLoS ONE, 13(3), e0194889.

 都合によりあわてて読んだ奴。時系列予測における伝統的な統計手法と機械学習を比較するという論文。筆頭著者は予測研究で著名なマキリダキスさん。予測に関してなにか調べ物をしていると、Andersonさんとこの人に突き当たることが多い。キプロスの大学の先生なのね。
続きを読む