論文:データ解析」カテゴリーアーカイブ

読了:Haggstrom (1983) ロジスティック回帰係数を線形回帰のソフトで求める

Haggstrom, G.W. (1983) Logistic Regression and Discriminant Analysis by Ordinary Least Squares. Journal of Business & Economic Statistics, 1(3), 229-238.

 勤務先の仕事の都合で、多数の多項ロジスティック回帰モデルのパラメータ推定値を、ダミー変数に対する線形回帰モデルのパラメータ推定値へと大急ぎで変換しないといけないという謎の用事ができてしまい(自分でもこいつ何言ってんだと思う)、慌てて読んだ奴。事情はちょっと書けないけれど、なぜそんなシュールな事態に陥ったものかと、正直、途方に暮れた。ところが読んでいる途中で、さらなる別の事情によって必要性が消滅したもので、この論文のほうは続きを読む気が失せてしまった。整理の都合上、読了としておく。
続きを読む

読了:松本(2019) コウホート分析の推定手法を比較する

松本雄大(2019) ベイズ統計モデリングによるAge-Period-Cohort分析: ランダム効果モデル, リッジ回帰モデル, ランダムウォーク. 理論と方法, 34(1), 99-112

 仕事の都合で読んだ。掲載誌は数理社会学会の発行。いわゆるコウホート分析の推定手法について解説し、簡単なシミュレーションで特徴を示す、という内容。
続きを読む

読了:Hubbard, et al. (2010) 混合モデル vs. 母集団平均モデル: GEEすべきか、せざるべきか、それが問題だ

 仕事の話なので抽象化して書くけれど、被験者内1要因の実験計画、被験者x要因内でさらに反復測定(反復回数は一様でない)、目的変数は二値。検定したいんだけどやり方がよくわからん、どうすればいい? …という主旨のお問い合わせを、先日受けた。うーん、それは確かに、ちょっと困るかも。少なくとも市場調査のルーチンワークからは外れている。
 それはもうGLMMなんじゃないっすかね、と説明しかけて、いや待てよ、こういうときにはGEEってのもあるよな、というのが頭をよぎり、どんよりした気分になった。GEE(一般化推定方程式)、それは過去なんどか勉強しようとしては挫折した、私にとっての鬼門のひとつなのである。

Hubbard, A.E., et al. (2010) To GEE or Not to GEE: Comparing Population Avarage and Mixed Models for Estimating the Associations Between Neighborhood Risk Factors and Health. Epidemiology, 21(4), 467-474.
 というわけで、易しそうな文献で再チャレンジ。
続きを読む

読了:O’Gorman, et al. (1994) 層別分析で共通リスク差を推定するときWLS推定量とCMH推定量のどっちがいいか

O’Gorman, T.W, Woolson, R.F., Jones, M.P. (1994) A Comparison of Two Methods of Estimating a Common Risk Difference in a Stratified Analysis of a Multicenter Clinical Trial. Controlled Clinical Trials, 15, 135-153.

 仕事の都合で読んだ。層別された2×2クロス表について層を潰したリスク差を求めるとき、マンテル・ヘンツェルのアプローチだとどうなるか、という話。
 MHオッズ比についての解説はその辺の教科書に載っているけど、リスク差についての解説は少ないので、仕方なくめくった。勤務先の本棚にあるAgrestiの厚い本に書いてあったような気がするけど、いま自宅に閉じこもっているもので…
続きを読む

読了:Lu, Chow, Loken (2016) 因子分析モデルで負荷行列のどこにゼロが埋まっているのか、ベイジアン変数選択の枠組みで考えよう

Lu, Z.H., Chow, S.M., Loken, E. (2016) Bayesian Factor Analysis as a Variable-Selection Problem: Alternative Priors and Consequences. Multivariate Behavioral Research, 51(4), 519–539.

 仕事の都合で因子分析モデルをベイズ推定するとき、いつも悩むのは因子負荷の事前分布の設定である。導師Muthenが提案するベイジアンSEMは確かにすごく有用な手法だと思うし、日本語での紹介が少ないことに義憤を感じて書籍で紹介させて頂いたりもしたんだけど(嗚呼、自己満足)、個別具体的な事例においては、どうしても困っちゃうわけです。いったい負荷の事前分布とはなんなのか… 我々はデータについて何を知っているのか… この世界のなりたちとは… 人生の意味とは… 眠い… 今日は寝よう… っていう風になります。
 
 というわけで、たまたまみつけた論文を読んでみた(目先の仕事からの現実逃避であるともいえる)。ベイジアン因子分析において、因子負荷にspike-and-slab事前分布を与えるのがよろしいのではないでしょうか、という論文。
続きを読む

読了:Rudolph et al. (2014) 大規模調査の標本の一部について別のデータがあるとき、そこで推定された平均処理効果を母集団へと一般化する方法

Rudolph, K., Diaz, I., Rosenblum, M., Stuart, E. (2014) Estimating Population Treatment Effects From a Survey Subsample. Americal Journal of Epidemiology, 180(7), 737-748.

 これ仕事の役に立つんじゃないかしらんと思って読んでみた奴。Google様的な引用件数は20。
 自分の仕事に近づけて言うと、えーっと、大規模な消費者調査のデータがあり、そのなかの一部の対象者についてだけ広告接触有無と製品購買有無がわかっているとき、母集団における広告効果を推定したい、というような話である。RCTの結果を一般化するんじゃなくて観察研究の結果を一般化するというのがポイント。
続きを読む

読了:Fattorini (2006) 標本抽出デザインが複雑すぎて、そこから推定しようにも抽出確率がわからない、よし電子計算機の力でなんとかしよう

Fattorini, L. (2006) Applying the Horvitz-Thompson criterion in complex designs: A computer-intensive perspective for estimating inclusion probabilities. Biometrika, 93(2), 269-278.

 仕事の関連で調べものをしていて、適切なキーワードがわからず迷走していたんだけど、この論文のイントロ部分にあまり期待せず目を通し、探していたタイプの研究がついに目の前に現れたことに気が付いた。長かった。Google様いわく引用回数93。
続きを読む

読了:Wang, et al. (2006) 観察データからの因果効果推定に使うIPTW推定量は処理の割付についてのある仮定が破られていると歪むのでその歪みの大きさを推測する方法を考えたぞ

Wang, Y., Petersen, M.L., Bangsberg, D., van der Laan, M.J. (2006) Diagnosing Bias in the Inverse Probability of Treatment Weighted Estimator Resulting from Violation of Experimental Treatment Assignment. Working Papter 211, Division of Biostatistics, University of California, Berkeley.

 仕事の関係でこの1ヶ月近く延々と悩んでいることがあるんだけど、あまりにspecificな問題で、より一般的な問題として捉え直したいもののどう捉えたらいいのかわからず悶々としている。で、なんとジャスト・フィットなタイトルを持つ論文をみつけて大喜びし、アブストラクトは理解不能だったが、勢い込んで読んでみた。
 いや、動機は間違ってなかったと思うんだけど… たしかに私が抱えている問題は、ある種の実験条件の割付の話で、しかし割付は完全には無作為化できておらず、分析にあたって割付確率の逆数でウェイティングしようとしていて、でもそこにはある種のバイアスがあって、それを診断したい、という話なんだけど… 蓋をあけてみたら、求めていたのとはまるきり違う内容で、途方に暮れた。
 意地を張って少しだけ目を通したけど、もうね… 地獄でしたよ…
続きを読む

読了: Jia et al.(2014) 調査対象者に調査票の一部分だけ答えてもらう調査データで確認的因子分析するときに必要な標本サイズ

Jia, F., Moore, W.G., Kinai, R., Crowe, K.S., Schoemann, A.M., Little, T.D. (2014) Planned missing data designs with small sample sizes: How small is too small? International Journal of Behavioral Development. 38(5), 435-452.

 計画欠損データの分析は標本サイズがどのくらい小さいとやばいか、という論文。仕事の都合でざーっと目を通した。
続きを読む

読了:Groenen & van de Velden (2016) SMACOFアルゴリズムによるMDSについて解説しましょう

Groenen, P.J.F, van de Velden, M. (2016) Multidimensional Scaling by Majorization: A Review. Journal of Statistical Software. 73(8).

 仕事の都合でMDSについて考えていて(滅多にないことである)、Rのsmacofパッケージの実戦投入に先立つ儀式として読んだ論文。
 smacofパッケージについては開発者自身による紹介論文を読んだことがあるのだが、そのときはあまり理解できなかった。この論文はsmacofパッケージの紹介ではあるが、書いているのは第三者のようで、もっとわかりやすいかな、と思って。
続きを読む

読了:Engel et al.(2012) 多変量データ視覚化のための次元縮約手法レビュー

Engel, D., Huttenberger, L., Hamann, B. (2012) A Survey of Dimension Reduction Methods for High-dimensional Data Analysis and Visualization. Visualization of Large and Unstructured Data Sets: Applications in Geospatial Planning, Modeling and Engineering – Proceedings of IRTG 1131 Workshop, 135-149.

 次元縮約についてのレビュー論文。ちょっと調べものがあって。
 Rdimtoolsというパッケージのマニュアルでお勧めされていたので読んでみたんだけど、Google様いわく被引用数63。だいじょうぶなんだろうか… いや、まあ、いいけどさ…
続きを読む

読了:Josephy et al. (2016) ランダム切片プロビット回帰混合モデルでクラスタサイズがすごく小さい場合のRパッケージを品定め

Josephy, H., Loeys, Tom, Rosseel, Y. (2016) A Review of R-packages for Random-Intercept Probit Regression in Small Clusters. Frontiers in Applied Mathematics and Statistics. 13.

 題名の通り、一般化線型混合モデル、アウトカムは二値、リンクはプロビット、ランダム切片付き、クラスタサイズはめっちゃ小さい、という際のRに使えるパッケージを比較しましたという論文。
 正直なところ、そういう局面になったらそのとき悩めばいいわけで、別に読まなくてもいいんだけど、なんだかなあこんなんで論文一本書けちゃうんだなあ(すいません)…などと呟きながら眺めていて、つい最後まで読んでしまった。だって気楽じゃないですかこういう話題。いささか心がなごむのであります。
続きを読む

読了:Hadeker et al. (2018) ロジスティック混合回帰モデルで得た回帰係数を集団レベルの係数に変換する方法

Hedeker, D., du Tout, S., Demirtas, H., Gibbons, R.D. (2018) A note on marginalization of regression parameters from mixed models of binary outcomes. Biometrics, 74(1), 354-361.

 ロジスティック回帰混合モデルからランダム切片を取っ払ったとき(marginalizeしたとき)、固定効果の係数をどう修正すれば良いかという解説。仕事の都合で必要になりそうな話題なので目を通した。
 第二著者の所属はScientific Software International。ここはたしかHLMの開発元だ。なんか関係あるのかな。
続きを読む

読了:Leeper (2018) Rのmarginsパッケージで回帰モデルの平均限界効果を求める

Leeper, T.J. (2018) Interpreting Regression Results using Average Marginal Effects with R’s margins.

Rのmarginsパッケージのvignetteのひとつ(技術詳細編)。これまでこういうパッケージは全然使ってなかったんだけど、実戦投入しようかと思って目を通した。
続きを読む

読了:Pavlou, et al.(2015) 一般化線形混合モデルで学習データにはなかったクラスタに属している個人について予測するには

Pavlou, M., Ambler, G., Seaman, S., Omar, R. (2015) A note on obtaining correct marginal predictions from a random intercepts model for binary outcomes. BMC Medical Research Methodology, 15:59.

 たまたまどこかで題名をみかけて、そうそうこれ前から疑問に思ってた話だよなと気づき、移動中にざざーっと目を通した。
続きを読む

読了:Held & Ott (2018) ベイズ・ファクターとP値、その超ややこしい関係

Held, L., & Ott, M. (2018) On p-value and bayes factors. Annual Review of Statistics and Its Application, 5, 393-419.

題名の通り、p値とベイズ・ファクターの関係についての解説。仕事の都合で調べたいことがあって読み始めたんだけど、いやあ、難しかった… 面倒くさかった…
続きを読む

読了:Hastie (2020) リッジ正則化についてこれでもかこれでもかと語り倒す

Hastie, T., (2020) Ridge Regularization: An essential concept in data science. Technometrics.

Hastie先生、リッジ正則化についてこれでもかこれでもかこれでもかこれでもかと語り倒すの巻。都合により勉強したい箇所があって目を通したんだけど、正直、疲れた…
続きを読む

読了:Islam (2011) 回帰分析でt検定したい人のための誤差項の正規性検定

うーん、最近めくった奴なのに、なぜ目を通したのか全然思い出せない… きっとそのときにはなにか事情があったんだろうけど…

Islam, T.U. (2011) Normality Testing: A New Direction. International Journal of Business and Social Science. 2(3), 115-118.
続きを読む

読了:Cribari-Neto & Zeleis (2010) Rのbetaregパッケージでベータ回帰分析

 なんというか、たまにSNSとかwebの記事なんかをみると、大企業のデータサイエンティストなる華やかな人々がビジネスへの貢献について華やかに語っておられて、彼我のちがいにちょっと目眩がすることがある。ああいう人たちってふだんなに食ってんだろうか。ステーキとかかな。なんか知らん横文字の料理とかかな。すくなくとも私みたいに冷やご飯にのりたま振って流しのまえで立ち食いしたりはしないんだろうな。知らんけど。

 まあとにかく、きっと皆さん私の知らないことをたくさん知っているので、たとえば目的変数がなにかの割合であるようなデータを渡されて回帰分析する羽目になったときも(突然に卑近な話になる)、きっとなにか私の知らない先端的な手法を使うのだろうなあと思う(いやいや、アシスタントに丸投げするんでしょうね)。いっぽう私はそのたびにこうジクジクと悩むわけです。毎度毎度binomial-logitでGLMしてていいの? たまにはなんかこう気の利いた誤差分布とかないわけ? 元の観察数がわかんなかったらロジット変換してOLSでいいの? なんかもっとパンクな手法はないわけ? とかなんとか。あーあ、残念な人生だ。

Cribari-Neto, F., Zeleis, A. (2010) Beta Regression in R. Journal of Statistical Software, 34(2), 1–24.

 仕事の都合でざっと目を通した奴。実際に読んだのは上記文献ではなく、その改訂版らしき R のbetaregパッケージのvignetteである。ちょっと都合があって、betaregを実戦投入しようかと思ったことがあったので。
続きを読む

読了:Liu & Chen (2015) k件法項目の回答分布を2群で比べる検定はMann-Whitney検定とKolmogorof-Smirnov検定とCramer-von Mises検定のどれがいいか

Liu, Z., Chen, H. (2015) Power analysis for testing two independent groups of likert-type data. 5th International Conference on Computer Sciences and Automation Engineering (ICCSAE 2015).

 リッカート型のデータの分布が2標本の間で同じかどうか調べる場面で、Mann-Whitney検定(MW), Kolmogorof-Smirnov検定(KS), Cramer-von Mises検定(CM)の頑健性と検定力を比較する、という内容。
 どこかの学会の発表要旨なんだけど… 内容がいま知りたいこととジャストミートだったので、ついつい読んでしまった…
続きを読む