論文:データ解析」カテゴリーアーカイブ

読了:Hadeker et al. (2018) ロジスティック混合回帰モデルで得た回帰係数を集団レベルの係数に変換する方法

Hedeker, D., du Tout, S., Demirtas, H., Gibbons, R.D. (2018) A note on marginalization of regression parameters from mixed models of binary outcomes. Biometrics, 74(1), 354-361.

 ロジスティック回帰混合モデルからランダム切片を取っ払ったとき(marginalizeしたとき)、固定効果の係数をどう修正すれば良いかという解説。仕事の都合で必要になりそうな話題なので目を通した。
 第二著者の所属はScientific Software International。ここはたしかHLMの開発元だ。なんか関係あるのかな。
続きを読む

読了:Leeper (2018) Rのmarginsパッケージで回帰モデルの平均限界効果を求める

Leeper, T.J. (2018) Interpreting Regression Results using Average Marginal Effects with R’s margins.

Rのmarginsパッケージのvignetteのひとつ(技術詳細編)。これまでこういうパッケージは全然使ってなかったんだけど、実戦投入しようかと思って目を通した。
続きを読む

読了:Pavlou, et al.(2015) 一般化線形混合モデルで学習データにはなかったクラスタに属している個人について予測するには

Pavlou, M., Ambler, G., Seaman, S., Omar, R. (2015) A note on obtaining correct marginal predictions from a random intercepts model for binary outcomes. BMC Medical Research Methodology, 15:59.

 たまたまどこかで題名をみかけて、そうそうこれ前から疑問に思ってた話だよなと気づき、移動中にざざーっと目を通した。
続きを読む

読了:Held & Ott (2018) ベイズ・ファクターとP値、その超ややこしい関係

Held, L., & Ott, M. (2018) On p-value and bayes factors. Annual Review of Statistics and Its Application, 5, 393-419.

題名の通り、p値とベイズ・ファクターの関係についての解説。仕事の都合で調べたいことがあって読み始めたんだけど、いやあ、難しかった… 面倒くさかった…
続きを読む

読了:Hastie (2020) リッジ正則化についてこれでもかこれでもかと語り倒す

Hastie, T., (2020) Ridge Regularization: An essential concept in data science. Technometrics.

Hastie先生、リッジ正則化についてこれでもかこれでもかこれでもかこれでもかと語り倒すの巻。都合により勉強したい箇所があって目を通したんだけど、正直、疲れた…
続きを読む

読了:Islam (2011) 回帰分析でt検定したい人のための誤差項の正規性検定

うーん、最近めくった奴なのに、なぜ目を通したのか全然思い出せない… きっとそのときにはなにか事情があったんだろうけど…

Islam, T.U. (2011) Normality Testing: A New Direction. International Journal of Business and Social Science. 2(3), 115-118.
続きを読む

読了:Cribari-Neto & Zeleis (2010) Rのbetaregパッケージでベータ回帰分析

 なんというか、たまにSNSとかwebの記事なんかをみると、大企業のデータサイエンティストなる華やかな人々がビジネスへの貢献について華やかに語っておられて、彼我のちがいにちょっと目眩がすることがある。ああいう人たちってふだんなに食ってんだろうか。ステーキとかかな。なんか知らん横文字の料理とかかな。すくなくとも私みたいに冷やご飯にのりたま振って流しのまえで立ち食いしたりはしないんだろうな。知らんけど。

 まあとにかく、きっと皆さん私の知らないことをたくさん知っているので、たとえば目的変数がなにかの割合であるようなデータを渡されて回帰分析する羽目になったときも(突然に卑近な話になる)、きっとなにか私の知らない先端的な手法を使うのだろうなあと思う(いやいや、アシスタントに丸投げするんでしょうね)。いっぽう私はそのたびにこうジクジクと悩むわけです。毎度毎度binomial-logitでGLMしてていいの? たまにはなんかこう気の利いた誤差分布とかないわけ? 元の観察数がわかんなかったらロジット変換してOLSでいいの? なんかもっとパンクな手法はないわけ? とかなんとか。あーあ、残念な人生だ。

Cribari-Neto, F., Zeleis, A. (2010) Beta Regression in R. Journal of Statistical Software, 34(2), 1–24.

 仕事の都合でざっと目を通した奴。実際に読んだのは上記文献ではなく、その改訂版らしき R のbetaregパッケージのvignetteである。ちょっと都合があって、betaregを実戦投入しようかと思ったことがあったので。
続きを読む

読了:Liu & Chen (2015) k件法項目の回答分布を2群で比べる検定はMann-Whitney検定とKolmogorof-Smirnov検定とCramer-von Mises検定のどれがいいか

Liu, Z., Chen, H. (2015) Power analysis for testing two independent groups of likert-type data. 5th International Conference on Computer Sciences and Automation Engineering (ICCSAE 2015).

 リッカート型のデータの分布が2標本の間で同じかどうか調べる場面で、Mann-Whitney検定(MW), Kolmogorof-Smirnov検定(KS), Cramer-von Mises検定(CM)の頑健性と検定力を比較する、という内容。
 どこかの学会の発表要旨なんだけど… 内容がいま知りたいこととジャストミートだったので、ついつい読んでしまった…
続きを読む

読了:Dufor & Farhat (2002) 2群の分布が等しいかどうかの正確ノンパラ・モンテカルロ検定

Dufor, J.M., Farhat, A. (2002) Exact Nonparametric Two-Sample Homogeneity Tests. In: Huber-Carol C., Balakrishnan N., Nikulin M.S., Mesbah M. (eds) Goodness-of-Fit Tests and Model Validity. Chap.33.

 仕事の都合でがんばって読んだ奴。2標本Kolmogov-Smirnov検定が、離散変数のときにどうなるのかを知りたくて、なにか書いてあるかなあと思ったのである。
続きを読む

読了:Heck (2018) ネストされたモデル間のベイズファクターなら、いつだってSavege-Dickey密度比で求められるぜ、なんて思うなよ

Heck, D. W. (2018) A caveat on the Savage–Dickey density ratio: The case of computing Bayes factors for regression parameters. British J. Mathematical and Statistical Psychology.

 仕事の都合で読んだノンパラ検定のベイズ・ファクターについての論文(van Doorn, et al. 2020) で、ネストされたモデルのベイズファクターを点密度だけで簡単に求めるというくだりが出てきて (Savege-Dickey 密度比)、よくわからんかったので探して読んでみた。
 論文の主旨は、Savege-Dickey 密度比を使ってはいけない場面があるよ、特に回帰係数の検定のときには気をつけなさい、というもの。
続きを読む

van Doorn, Ly, Marsman, Wagenmakers (2020) 順位和検定・符号順位検定・順位相関の検定をベイズ・ファクターでやる方法

van Doorn, J., Ly, A., Marsman, M., Wagenmakers, E.J. (2020) Bayesian rank-based hypothesis testing for the rank sum test, the signed rank test and Spearman’s rho. Journal of Applied Statistics.

仕事の都合で慌てて読んだ奴。順位和検定、符号順位検定、順位相関の検定をベイズ・ファクターでやるにはどうすればよいかという解説論文。

続きを読む

読了:Janssens & Martens (2020) ROC曲線下面積に対するご批判にお応えしよう

Janssens, A.C.J.W, Martens, F.K (2020) Reflection on modern methods: Revising the area under the ROC curve. International Journal of Epidemiology, 1-7.

 ちょっと都合で読んだ奴。今年出た記事で、タイトルの通り、ROC曲線下面積(AUC)についての解説。
 題名に添えて Education Corner と書いてあるから、この雑誌にはそういう啓蒙コーナーがあるのだろう。American StatisticianのTeacher’s Cornerみたいなもんかな。
続きを読む

読了: Christodoulou, et al. (2019) 機械学習による臨床リスク予測はロジスティック回帰より優れているかというと、これがそうでもない

Christodoulou, E., Ma, J., Collins, G.S., Steyerberg, E.W., Verbakel, J.Y., Calster, B.V. (2019) A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models. J. Clinical Epidemiology, 110, 12-22.

 仕事の資料をまとめて読んでいる途中でつい読んじゃった奴。タイトル通り、医療分野の予測において機械学習は古典的なロジスティック回帰よか優れているわけではない、というレビュー。はっはっは。
続きを読む

読了:Acemoglu, et al. (2020) コロナ禍の下でのロックダウン政策をマルチリスクSIRモデルに基づき最適化する(お年寄りだけ厳しくロックダウンするのがよい)

Acemoglu, D., Chernozhukov, V, Werning, I., Whinston, M.D. (2020) A Multi-risk SIR model with optimally targeted lockdown. Working Paper 27012, National Bureau of Economic Research.

 なんかいろいろ考えちゃったら眠れなくなり、仕方がないので明け方まで、SNSでみかけた仕事と関係ない論文を読んでいた。NBER(全米経済研究所)のワーキングペーパーで、日付はMay 2020になっているから、著者の誰かが「書いたぜ」と宣伝したのが拡散したのであろう。
 Multi-Risk SIRモデルというから、感染症の数理モデルの古典であるSIRモデルに、生存時間分析でいうところの競合リスクをいれるのかな? 新型コロナと経済自殺が競合するとか? と思ったんだけど(暗い発想だ)、そうではなくて、一言でいうとリスクと接触性に異質性をいれるという話だった。先日読んだ西浦・稲葉(2006)にmultitype epidemicモデルという言葉が出てきたけど、これもそのひとつかしらん?
 さらに、モデルを当てはめるだけでなくて政策的介入(ロックダウン)の最適解を求めるぜという主旨。なるほど、経済学者だろうしね…と思って著者の名前をよくみたら、筆頭のアセモグルって前に読んだ「国家はなぜ衰退するのか」の著者だ。たぶん有名な経済学者だと思う。へー。
続きを読む

読了:Liao (2005) 時系列クラスタリング法レビュー

Liao, T.W. (2005) Clustering of time series data: A survey. Pattern Recognition, 38, 1857-1874.

 ほんとは年明けからロイヤリティ・プログラム関連の文献を集めていて、さっさと読みはじめなきゃと思ってたんだけど、パンデミックで世界が激変するなか、そうした話題がなんだかすべて虚ろに思えてきてしまい、当面の仕事とは無関係な本や論文ばかりを読んでいた。
 これもそのひとつで、しばらく前にめくった奴。当座の仕事とはあんまり関係ないんだけど、でもこういうのはいつ突然必要になるかわからないから、前もって勉強しておかなきゃ、などと自分に言い訳しながら適当にぱらぱらと目を通した。一種の逃避である。データ解析の仕事だっていつまで続けられるのかわからないのにね… 人の営みとは哀しいものだ。
続きを読む

読了:Papies, Ebbes, Van Heerde (2017) マーケティング・モデルにおける内生性という難題

 去年の今頃は諸事情あってマーケティング・ミックス・モデリングのことばかり考えていたのだが、セミナー用資料を作っていてぎりぎりまで悩んだ点のひとつは、内生性に関する話題をどこまで扱うか、という点であった。結局、そういう問題があるんですよという紹介にとどめ、伝統的な伝達関数時系列モデルの定式化と推定に全力を注いだ。虻蜂取らずという言葉もあるし、正しい判断だったとは思うんだけど、いまでもちょっともやもやしている。
 これは私の力量の問題ではなくて(言い訳)… マーケティング効果推定の実務においては、たぶん「内生性のことは触れないのが暗黙のお約束」になっているんじゃないかな、という気がするのである。もちろんアカデミックな文脈では実証研究がいっぱいあるんだけど、実務の文脈においては、あまりに深刻な問題なのにあまりにできることが少なくあまりにしんどいので、視線をそらして見えないふりをしているというか… これは「研究者はきちんとしているが実務家はいいかげん」という話ではなくて、問題解決を取り巻く状況の違いであろう。
 いま試しにgoogleで「マーケティング・ミックス・モデリング」と検索してみたら、業界各社様の華やかな宣伝が目白押しであったが、「マーケティング・ミックス・モデリング 内生性」で検索すると、さっきは何ページめくっても出てこなかった私のしょぼいセミナー資料がいきなり最上位になった。ウケる。

Papies, D., Ebbes, P, Van Heerde, H.J. (2017) Addressing Endogeneity in Marketing Models. Leeflang, P.S.H., et al. (eds) Advanced Methods for Modeling Markets. Chapter 18. Springer.

 これはセミナー準備の際に読みかけた奴。著者はどんな人たちなんだろう、よくわからない。→いま思い出したが、第三著者の論文は読んだことがあった。あ、販促で起きるブランドスイッチングは見た目よか小さいぜ論文もこの人だ。なんだよもう、俺らマブダチじゃん。(でかい態度)
続きを読む

読了:Gao et al.(2019) MRP(マルチレベル回帰・層化)に構造化事前分布をいれる

Gao, Y., Kennedy, L., Simpson, D., Gelman, A. (2019) Improving multilevel regression and poststratification with structured priors. arXiv:1908.06716v2. 30 Sep 2019.
 しばらく前に読んだ奴。たしか勉強のつもりで読んだのだと思う。
 最近の選挙予測でブイブイいわせているらしき、Mr.P こと Multilevel Regression and Poststratification (日本語ではなんていうんだろう? マルチレベル回帰・層化?) に、構造を持つ事前分布をいれるという論文。Mr.Pの生みの親 Andrew Gelman さんも著者に入っている。たぶん未公刊。
続きを読む

読了: Hyndman & Billah (2003) 時系列予測手法「シータ法」を解剖する

Hyndman, R.J., Billah, B. (2003) Unmasking the Theta method. International Journal of Forecasting, 19, 287-290.
 仕事の都合で読んだ奴。タイトルのとおり、時系列予測の手法のひとつTheta法についての解説。たったの4p。
 第一著者のHyndmanさんはいわずとしれた有名人で、Rのforecastパッケージの中の人であらせられる。
続きを読む