「論文：データ解析」カテゴリーアーカイブ

読了：Asparouhov & Muthen (2021) よく聞け、これが残差SEMだ

Asparouhov, T., Muthen, B. (2021) Residual Structural Equation Models. Mplus.

　泣く子も黙る構造方程式モデリング用ソフトウェアMplusは、バージョンアップのたびになんらかの先進的すぎる謎機能を搭載してくることで有名である(私のなかで)。
　今月リリースされたVersion 8.7では、えーと、従来は残差動的構造方程式モデルのベイズ推定のみが可能であったラグ変数残差間回帰が単一レベルモデルの最尤推定・重みつき最小二乗推定・ベイズ推定へと拡張され、パネルデータのランダム切片クロスラグモデルならびにランダム切片自己回帰移動平均モデルの推定が可能となった、のだそうだ。
　はあ、そうですか、と虚ろな目でディスプレイに相槌を打つ私である。わからない。もうなにもわからない。
続きを読む →

読了: Jackson(2019) Rのmsmパッケージで楽しいマルコフモデリング

Jackson, C. (2019) Multi-state modelling with R: the msm pachage. Version 1.6.8.

　パネルデータに多状態マルコフモデルをあてはめるRパッケージ msm の解説。実戦投入のための儀式として読んだ。もとはJ. Statistical Software の2011年の論文だそうだ。
　おっと、いまみたら今年9月に1.6.9が出ている… なんてこった…
続きを読む →

読了：久保田(2021) コロナ危機のマクロ経済分析

久保田荘(2021) 新型コロナウィルス危機のマクロ経済分析. 医療経済研究, 33(1), 1-18.

　当面の仕事とはあんまり関係ないんだけど、面白そうなので「いつか読む」箱に放り込んであった論文。「いつか」じゃあきっと読まずに終わっちゃうだろうなと思い、仕事の気分転換に目を通した。
続きを読む →

読了: Taylor & Letham (2017) Facebook社謹製ライブラリProphetはいったいなにをやっておるのか

Taylor, S.J., & Letham, B. (2017) Forecasting at scale. PeerJ Preprints.

　Facebookが公開している時系列予測ライブラリ Prophet のテクニカルペーパーに相当する資料。仕事の都合で目を通した。
　読み終えてから気が付いたけど、同名の記事がAmerican Statisticianに載っている。たぶん中身は同じだと思う。
　Prophetについては、検索すると日本語で解説しているブログ記事がたくさんヒットするので、そういうので勉強したほうが効率がいいんだろうけど… なんというか、気分の問題です。
続きを読む →

読了：吉田・村井(2021) 心理学者たちよ、諸君の重回帰分析はここがおかしい

吉田寿夫・村井潤一郎(2021) 心理学研究における重回帰分析の適用に関わる諸問題. 心理学研究.

　心理学分野の観察研究における重回帰分析についてのユーザ向け啓蒙論文… なんだけど、2017-2019年の「心理学研究」誌に載った論文を集め、実名を挙げて斬りまくる。ひいいい。こういうの、英語の論文では珍しくないけど、日本語ではかなりレアですよね。
続きを読む →

読了：岩崎(2021) 統計的因果推論の視点による重回帰分析

岩崎学(2021) 統計的因果推論の視点による重回帰分析. 日本統計学会誌, 50(2), 363-379.
　ファイル整理の途中で目を通した(仕事からの逃避ともいう)。日本統計学会賞の受賞記念論文。重回帰分析を教える人向けの啓蒙論文である。
続きを読む →

読了: Brumback, He (2011) ウェイトつきデータから共通オッズ比を推定するためにあなたがお使いのMHオッズ比は、標本の層サイズが固定されていると考えると一致推定量でない

Brumback, B., He, Z. (2011) The Mantel-Haenszel estimator adapted for complex survey designs is not dually consistent. Statistics and Probability Letters, 81, 1465-1470.

　仕事の都合で致し方なく読んだ奴について記録しておくけど、正直、面白くも何ともない話である。(著者の先生、すいません…)
続きを読む →

読了: Thompson & Wu (2008) ややこしい標本抽出デザインのウェイトをシミュレーションで求める

Thompson, M.E., Wu, C. (2008) Simulation-based randomized systematic PPS sampling under substitution of units.　Survey Methodology, 34(1), 2-10.

　仕事の都合で読んだ奴。標本抽出デザインがややこしくて包含確率が解析的に出せないとき(ここではProportion-to-size標本抽出で回答拒否があるという場面を想定している)、計算機パワーで無理矢理なんとかしちゃうという話である。
　掲載誌はカナダ統計局が出している雑誌で、著者らはITC China Surveyというタバコについてのコホート調査の中の人らしい。
続きを読む →

読了：Haggstrom (1983) ロジスティック回帰係数を線形回帰のソフトで求める

Haggstrom, G.W. (1983) Logistic Regression and Discriminant Analysis by Ordinary Least Squares. Journal of Business & Economic Statistics, 1(3), 229-238.

　勤務先の仕事の都合で、多数の多項ロジスティック回帰モデルのパラメータ推定値を、ダミー変数に対する線形回帰モデルのパラメータ推定値へと大急ぎで変換しないといけないという謎の用事ができてしまい(自分でもこいつ何言ってんだと思う)、慌てて読んだ奴。事情はちょっと書けないけれど、なぜそんなシュールな事態に陥ったものかと、正直、途方に暮れた。ところが読んでいる途中で、さらなる別の事情によって必要性が消滅したもので、この論文のほうは続きを読む気が失せてしまった。整理の都合上、読了としておく。
続きを読む →

読了：松本(2019) コウホート分析の推定手法を比較する

松本雄大(2019) ベイズ統計モデリングによるAge-Period-Cohort分析: ランダム効果モデル, リッジ回帰モデル, ランダムウォーク. 理論と方法, 34(1), 99-112

　仕事の都合で読んだ。掲載誌は数理社会学会の発行。いわゆるコウホート分析の推定手法について解説し、簡単なシミュレーションで特徴を示す、という内容。
続きを読む →

読了：Hubbard, et al. (2010) 混合モデル vs. 母集団平均モデル: GEEすべきか、せざるべきか、それが問題だ

　仕事の話なので抽象化して書くけれど、被験者内１要因の実験計画、被験者x要因内でさらに反復測定(反復回数は一様でない)、目的変数は二値。検定したいんだけどやり方がよくわからん、どうすればいい？ …という主旨のお問い合わせを、先日受けた。うーん、それは確かに、ちょっと困るかも。少なくとも市場調査のルーチンワークからは外れている。
　それはもうGLMMなんじゃないっすかね、と説明しかけて、いや待てよ、こういうときにはGEEってのもあるよな、というのが頭をよぎり、どんよりした気分になった。GEE(一般化推定方程式)、それは過去なんどか勉強しようとしては挫折した、私にとっての鬼門のひとつなのである。

Hubbard, A.E., et al. (2010) To GEE or Not to GEE: Comparing Population Avarage and Mixed Models for Estimating the Associations Between Neighborhood Risk Factors and Health. Epidemiology, 21(4), 467-474.
　というわけで、易しそうな文献で再チャレンジ。
続きを読む →

読了：O’Gorman, et al. (1994) 層別分析で共通リスク差を推定するときWLS推定量とCMH推定量のどっちがいいか

O’Gorman, T.W, Woolson, R.F., Jones, M.P. (1994) A Comparison of Two Methods of Estimating a Common Risk Difference in a Stratified Analysis of a Multicenter Clinical Trial. Controlled Clinical Trials, 15, 135-153.

　仕事の都合で読んだ。層別された2×2クロス表について層を潰したリスク差を求めるとき、マンテル・ヘンツェルのアプローチだとどうなるか、という話。
　MHオッズ比についての解説はその辺の教科書に載っているけど、リスク差についての解説は少ないので、仕方なくめくった。勤務先の本棚にあるAgrestiの厚い本に書いてあったような気がするけど、いま自宅に閉じこもっているもので…
続きを読む →

読了：Lu, Chow, Loken (2016) 因子分析モデルで負荷行列のどこにゼロが埋まっているのか、ベイジアン変数選択の枠組みで考えよう

Lu, Z.H., Chow, S.M., Loken, E. (2016) Bayesian Factor Analysis as a Variable-Selection Problem: Alternative Priors and Consequences. Multivariate Behavioral Research, 51(4), 519–539.

　仕事の都合で因子分析モデルをベイズ推定するとき、いつも悩むのは因子負荷の事前分布の設定である。導師Muthenが提案するベイジアンSEMは確かにすごく有用な手法だと思うし、日本語での紹介が少ないことに義憤を感じて書籍で紹介させて頂いたりもしたんだけど(嗚呼、自己満足)、個別具体的な事例においては、どうしても困っちゃうわけです。いったい負荷の事前分布とはなんなのか… 我々はデータについて何を知っているのか… この世界のなりたちとは… 人生の意味とは… 眠い… 今日は寝よう… っていう風になります。
　
　というわけで、たまたまみつけた論文を読んでみた(目先の仕事からの現実逃避であるともいえる)。ベイジアン因子分析において、因子負荷にspike-and-slab事前分布を与えるのがよろしいのではないでしょうか、という論文。
続きを読む →

読了：Rudolph et al. (2014) 大規模調査の標本の一部について別のデータがあるとき、そこで推定された平均処理効果を母集団へと一般化する方法

Rudolph, K., Diaz, I., Rosenblum, M., Stuart, E. (2014) Estimating Population Treatment Effects From a Survey Subsample. Americal Journal of Epidemiology, 180(7), 737-748.

　これ仕事の役に立つんじゃないかしらんと思って読んでみた奴。Google様的な引用件数は20。
　自分の仕事に近づけて言うと、えーっと、大規模な消費者調査のデータがあり、そのなかの一部の対象者についてだけ広告接触有無と製品購買有無がわかっているとき、母集団における広告効果を推定したい、というような話である。RCTの結果を一般化するんじゃなくて観察研究の結果を一般化するというのがポイント。
続きを読む →

読了：Fattorini (2006) 標本抽出デザインが複雑すぎて、そこから推定しようにも抽出確率がわからない、よし電子計算機の力でなんとかしよう

Fattorini, L. (2006) Applying the Horvitz-Thompson criterion in complex designs: A computer-intensive perspective for estimating inclusion probabilities. Biometrika, 93(2), 269-278.

　仕事の関連で調べものをしていて、適切なキーワードがわからず迷走していたんだけど、この論文のイントロ部分にあまり期待せず目を通し、探していたタイプの研究がついに目の前に現れたことに気が付いた。長かった。Google様いわく引用回数93。
続きを読む →

読了：Wang, et al. (2006) 観察データからの因果効果推定に使うIPTW推定量は処理の割付についてのある仮定が破られていると歪むのでその歪みの大きさを推測する方法を考えたぞ

Wang, Y., Petersen, M.L., Bangsberg, D., van der Laan, M.J. (2006) Diagnosing Bias in the Inverse Probability of Treatment Weighted Estimator Resulting from Violation of Experimental Treatment Assignment. Working Papter 211, Division of Biostatistics, University of California, Berkeley.

　仕事の関係でこの1ヶ月近く延々と悩んでいることがあるんだけど、あまりにspecificな問題で、より一般的な問題として捉え直したいもののどう捉えたらいいのかわからず悶々としている。で、なんとジャスト・フィットなタイトルを持つ論文をみつけて大喜びし、アブストラクトは理解不能だったが、勢い込んで読んでみた。
　いや、動機は間違ってなかったと思うんだけど… たしかに私が抱えている問題は、ある種の実験条件の割付の話で、しかし割付は完全には無作為化できておらず、分析にあたって割付確率の逆数でウェイティングしようとしていて、でもそこにはある種のバイアスがあって、それを診断したい、という話なんだけど… 蓋をあけてみたら、求めていたのとはまるきり違う内容で、途方に暮れた。
　意地を張って少しだけ目を通したけど、もうね… 地獄でしたよ…
続きを読む →

読了: Jia et al.(2014) 調査対象者に調査票の一部分だけ答えてもらう調査データで確認的因子分析するときに必要な標本サイズ

Jia, F., Moore, W.G., Kinai, R., Crowe, K.S., Schoemann, A.M., Little, T.D. (2014) Planned missing data designs with small sample sizes: How small is too small? International Journal of Behavioral Development. 38(5), 435-452.

　計画欠損データの分析は標本サイズがどのくらい小さいとやばいか、という論文。仕事の都合でざーっと目を通した。
続きを読む →

読了：Groenen & van de Velden (2016) SMACOFアルゴリズムによるMDSについて解説しましょう

Groenen, P.J.F, van de Velden, M. (2016) Multidimensional Scaling by Majorization: A Review. Journal of Statistical Software. 73(8).

　仕事の都合でMDSについて考えていて(滅多にないことである)、Rのsmacofパッケージの実戦投入に先立つ儀式として読んだ論文。
　smacofパッケージについては開発者自身による紹介論文を読んだことがあるのだが、そのときはあまり理解できなかった。この論文はsmacofパッケージの紹介ではあるが、書いているのは第三者のようで、もっとわかりやすいかな、と思って。
続きを読む →

読了：Engel et al.(2012) 多変量データ視覚化のための次元縮約手法レビュー

Engel, D., Huttenberger, L., Hamann, B. (2012) A Survey of Dimension Reduction Methods for High-dimensional Data Analysis and Visualization. Visualization of Large and Unstructured Data Sets: Applications in Geospatial Planning, Modeling and Engineering – Proceedings of IRTG 1131 Workshop, 135-149.

　次元縮約についてのレビュー論文。ちょっと調べものがあって。
　Rdimtoolsというパッケージのマニュアルでお勧めされていたので読んでみたんだけど、Google様いわく被引用数63。だいじょうぶなんだろうか… いや、まあ、いいけどさ…
続きを読む →

読了：Josephy et al. (2016) ランダム切片プロビット回帰混合モデルでクラスタサイズがすごく小さい場合のRパッケージを品定め

Josephy, H., Loeys, Tom, Rosseel, Y. (2016) A Review of R-packages for Random-Intercept Probit Regression in Small Clusters. Frontiers in Applied Mathematics and Statistics. 13.

　題名の通り、一般化線型混合モデル、アウトカムは二値、リンクはプロビット、ランダム切片付き、クラスタサイズはめっちゃ小さい、という際のRに使えるパッケージを比較しましたという論文。
　正直なところ、そういう局面になったらそのとき悩めばいいわけで、別に読まなくてもいいんだけど、なんだかなあこんなんで論文一本書けちゃうんだなあ(すいません)…などと呟きながら眺めていて、つい最後まで読んでしまった。だって気楽じゃないですかこういう話題。いささか心がなごむのであります。
続きを読む →

読書日記

読んだ本を淡々と記録します