月別アーカイブ: 2020年5月

読了:Heck (2018) ネストされたモデル間のベイズファクターなら、いつだってSavege-Dickey密度比で求められるぜ、なんて思うなよ

Heck, D. W. (2018) A caveat on the Savage–Dickey density ratio: The case of computing Bayes factors for regression parameters. British J. Mathematical and Statistical Psychology.

 仕事の都合で読んだノンパラ検定のベイズ・ファクターについての論文(van Doorn, et al. 2020) で、ネストされたモデルのベイズファクターを点密度だけで簡単に求めるというくだりが出てきて (Savege-Dickey 密度比)、よくわからんかったので探して読んでみた。
 論文の主旨は、Savege-Dickey 密度比を使ってはいけない場面があるよ、特に回帰係数の検定のときには気をつけなさい、というもの。
続きを読む

仮説の事後確率をBICで評価する(Wagenmakers, 2007より)

 ベイズ・ファクターのBICによる近似についてなんだかよくわかんなくなっちゃったので、ちょっとメモしておく。
 出典は
 Wagenmakers, E.J. (2007) A practical solution to the pervasive problems of p values. Psychonomic Bulletin & Review, 14(5), 779-804.
 この論文は前に目を通したんだけど(なんと4年前だ)、長い論文だし、途中で飽きてしまって適当に読み飛ばしていた。
続きを読む

読了: van Doorn, Ly, Marsman, Wagenmakers (2020) 順位和検定・符号順位検定・順位相関の検定をベイズ・ファクターでやる方法

van Doorn, J., Ly, A., Marsman, M., Wagenmakers, E.J. (2020) Bayesian rank-based hypothesis testing for the rank sum test, the signed rank test and Spearman’s rho. Journal of Applied Statistics.

仕事の都合で慌てて読んだ奴。順位和検定、符号順位検定、順位相関の検定をベイズ・ファクターでやるにはどうすればよいかという解説論文。

続きを読む

購入頻度が負の二項分布に従うと考えられているのはなぜか

 消費者パネルの購買データを真夜中にコリコリと集計しながらあれこれ考えていて、なんだか混乱しちゃったので書いたメモを載せておく。

 よく、顧客の月あたり購入回数の分布は負の二項分布に従う、とかっていうじゃないですか。いかにも「そんなの常識ですよね」というような顔で。頭のいい人のそういうとこ、まじでむかつく。
 というわけで、以下、自分向けの易しい説明である。
続きを読む

読了:Janssens & Martens (2020) ROC曲線下面積に対するご批判にお応えしよう

Janssens, A.C.J.W, Martens, F.K (2020) Reflection on modern methods: Revising the area under the ROC curve. International Journal of Epidemiology, 1-7.

 ちょっと都合で読んだ奴。今年出た記事で、タイトルの通り、ROC曲線下面積(AUC)についての解説。
 題名に添えて Education Corner と書いてあるから、この雑誌にはそういう啓蒙コーナーがあるのだろう。American StatisticianのTeacher’s Cornerみたいなもんかな。
続きを読む

読了: Christodoulou, et al. (2019) 機械学習による臨床リスク予測はロジスティック回帰より優れているかというと、これがそうでもない

Christodoulou, E., Ma, J., Collins, G.S., Steyerberg, E.W., Verbakel, J.Y., Calster, B.V. (2019) A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models. J. Clinical Epidemiology, 110, 12-22.

 仕事の資料をまとめて読んでいる途中でつい読んじゃった奴。タイトル通り、医療分野の予測において機械学習は古典的なロジスティック回帰よか優れているわけではない、というレビュー。はっはっは。
続きを読む

読了: Preston & Colman (2000) X件法評定尺度のXはなにがよいか実験 in 2000

Preston, C.C., Colman,A.M. (2000) Optimal number of response catgories in rating scales: Reliability, validity, discriminating power, and respondent preferences. Acta Psychologica, 104, 1-15.

 仕事の都合でざっと目を通した。「X件法評定尺度のXはどうするのがよいか」実験。あまりに枯れたトピックなので、00年代の論文は珍しい。
続きを読む

「調査におけるX件法評定項目の回答はXによってどう変わるか」研究リスト

 仕事の関連で、調査でX件法評定項目を使う際、5件法にしようか7件法にしようか…といったことが問題になる場合がある。ありふれた問いだが、ちょっと答えようのない問いでもある。その道の経験者(ないし経験者を自負する人)は、それぞれに俺セオリーを心に抱いているものだが(例, 「私が思うに日本人にはX件法が向いていると思うんです」)、いずれもその人の逸話的な経験によるものであって(いったい日本人を誰とどう比較したのだろう?)、たいがいあてにならないと思った方がよい。
 調べてみると、この問題については実証研究が腐るほどある。しかし得られている結果はてんでんばらばらで、どう捉えたらよいのかよくわからない。エビデンスに基づく意思決定というのは、実際にはなかなか難しいもんですね。

 そういうわけで、あんまり関心の湧かないトピックではあるんだけど、いったいどんな研究があるのか集めてみた。たった3本の論文から、先行研究が50件以上集まった。やれやれ。
続きを読む

読了:Wikman & Warneryd (1990) 再検査信頼性はどんな調査項目で低くなるか

Wikman, A., Warneryd, B. (1990) Measurement errors in survey questions: Explaining response variability. Social Indicators Research, 22, 199-212.

 仕事の都合でばーっと目を通した奴。
 要するに「どんな項目で検査再検査信頼性が低いか」を、実際の公的調査で調べてみました、という話であった。
続きを読む

読了:Felix (2011) 3件法で訊こうが9件法で訊こうがリスケールしちゃえば変わんないよ

Felix, R. (2011) The impact of scale width on responses for multi-item, self-report measures. J. Targeting, Measurement and Analysis for Marketing, 19, 153-164.

 仕事の都合でリッカート尺度の段階数について調べてたら、なんと2011年の研究が出てきて、びっくりして目を通した。この話題でまだ論文書く人がいるの!? という驚きだが(検索でひっかかる論文はたいてい80年代まで)、まああれかもね、盛り上がることも滅びることもなく総括も進展もない、ゴルフの打ちっ放しみたいな感じのテーマなのかもしれないっすね。
 著者はメキシコのマーケティングの先生。途中で疑問に思って調べたけど(失礼な…)、ちゃんとした業績のある方であった。掲載誌についてはよくわからない。CiNiiによれば現在はJ. Marketing Analyticsという誌名らしい(寡聞にして初耳である)。大学図書館での所蔵館数は1。渋い。
続きを読む

読了: Breugelmans et al. (2015) これからのロイヤリティ・プログラム研究はかくあるべし

Breugelmans, E., et al. (2015) Advancing research on loyalty programs: A future research agenda. Marketing Letters, 26, 127-139.

少し前に仕事の都合で読んだ奴。ロイヤリティ・プログラムについての概観論文。9人の連名で、ワークショップのまとめなのだそうで、そういうのは総花的でつまんないことが多いんだけど、まあ短いからいいかと思って。
続きを読む

読了:Acemoglu, et al. (2020) コロナ禍の下でのロックダウン政策をマルチリスクSIRモデルに基づき最適化する(お年寄りだけ厳しくロックダウンするのがよい)

Acemoglu, D., Chernozhukov, V, Werning, I., Whinston, M.D. (2020) A Multi-risk SIR model with optimally targeted lockdown. Working Paper 27012, National Bureau of Economic Research.

 なんかいろいろ考えちゃったら眠れなくなり、仕方がないので明け方まで、SNSでみかけた仕事と関係ない論文を読んでいた。NBER(全米経済研究所)のワーキングペーパーで、日付はMay 2020になっているから、著者の誰かが「書いたぜ」と宣伝したのが拡散したのであろう。
 Multi-Risk SIRモデルというから、感染症の数理モデルの古典であるSIRモデルに、生存時間分析でいうところの競合リスクをいれるのかな? 新型コロナと経済自殺が競合するとか? と思ったんだけど(暗い発想だ)、そうではなくて、一言でいうとリスクと接触性に異質性をいれるという話だった。先日読んだ西浦・稲葉(2006)にmultitype epidemicモデルという言葉が出てきたけど、これもそのひとつかしらん?
 さらに、モデルを当てはめるだけでなくて政策的介入(ロックダウン)の最適解を求めるぜという主旨。なるほど、経済学者だろうしね…と思って著者の名前をよくみたら、筆頭のアセモグルって前に読んだ「国家はなぜ衰退するのか」の著者だ。たぶん有名な経済学者だと思う。へー。
続きを読む

読了:Liao (2005) 時系列クラスタリング法レビュー

Liao, T.W. (2005) Clustering of time series data: A survey. Pattern Recognition, 38, 1857-1874.

 ほんとは年明けからロイヤリティ・プログラム関連の文献を集めていて、さっさと読みはじめなきゃと思ってたんだけど、パンデミックで世界が激変するなか、そうした話題がなんだかすべて虚ろに思えてきてしまい、当面の仕事とは無関係な本や論文ばかりを読んでいた。
 これもそのひとつで、しばらく前にめくった奴。当座の仕事とはあんまり関係ないんだけど、でもこういうのはいつ突然必要になるかわからないから、前もって勉強しておかなきゃ、などと自分に言い訳しながら適当にぱらぱらと目を通した。一種の逃避である。データ解析の仕事だっていつまで続けられるのかわからないのにね… 人の営みとは哀しいものだ。
続きを読む