論文:データ解析」カテゴリーアーカイブ

読了:岩崎(2021) 統計的因果推論の視点による重回帰分析

岩崎学(2021) 統計的因果推論の視点による重回帰分析. 日本統計学会誌, 50(2), 363-379.
 ファイル整理の途中で目を通した(仕事からの逃避ともいう)。日本統計学会賞の受賞記念論文。重回帰分析を教える人向けの啓蒙論文である。
続きを読む

読了: Brumback, He (2011) ウェイトつきデータから共通オッズ比を推定するためにあなたがお使いのMHオッズ比は、標本の層サイズが固定されていると考えると一致推定量でない

Brumback, B., He, Z. (2011) The Mantel-Haenszel estimator adapted for complex survey designs is not dually consistent. Statistics and Probability Letters, 81, 1465-1470.

 仕事の都合で致し方なく読んだ奴について記録しておくけど、正直、面白くも何ともない話である。(著者の先生、すいません…)
続きを読む

読了: Thompson & Wu (2008) ややこしい標本抽出デザインのウェイトをシミュレーションで求める

Thompson, M.E., Wu, C. (2008) Simulation-based randomized systematic PPS sampling under substitution of units. Survey Methodology, 34(1), 2-10.

 仕事の都合で読んだ奴。標本抽出デザインがややこしくて包含確率が解析的に出せないとき(ここではProportion-to-size標本抽出で回答拒否があるという場面を想定している)、計算機パワーで無理矢理なんとかしちゃうという話である。
 掲載誌はカナダ統計局が出している雑誌で、著者らはITC China Surveyというタバコについてのコホート調査の中の人らしい。
続きを読む

読了:Haggstrom (1983) ロジスティック回帰係数を線形回帰のソフトで求める

Haggstrom, G.W. (1983) Logistic Regression and Discriminant Analysis by Ordinary Least Squares. Journal of Business & Economic Statistics, 1(3), 229-238.

 勤務先の仕事の都合で、多数の多項ロジスティック回帰モデルのパラメータ推定値を、ダミー変数に対する線形回帰モデルのパラメータ推定値へと大急ぎで変換しないといけないという謎の用事ができてしまい(自分でもこいつ何言ってんだと思う)、慌てて読んだ奴。事情はちょっと書けないけれど、なぜそんなシュールな事態に陥ったものかと、正直、途方に暮れた。ところが読んでいる途中で、さらなる別の事情によって必要性が消滅したもので、この論文のほうは続きを読む気が失せてしまった。整理の都合上、読了としておく。
続きを読む

読了:松本(2019) コウホート分析の推定手法を比較する

松本雄大(2019) ベイズ統計モデリングによるAge-Period-Cohort分析: ランダム効果モデル, リッジ回帰モデル, ランダムウォーク. 理論と方法, 34(1), 99-112

 仕事の都合で読んだ。掲載誌は数理社会学会の発行。いわゆるコウホート分析の推定手法について解説し、簡単なシミュレーションで特徴を示す、という内容。
続きを読む

読了:Hubbard, et al. (2010) 混合モデル vs. 母集団平均モデル: GEEすべきか、せざるべきか、それが問題だ

 仕事の話なので抽象化して書くけれど、被験者内1要因の実験計画、被験者x要因内でさらに反復測定(反復回数は一様でない)、目的変数は二値。検定したいんだけどやり方がよくわからん、どうすればいい? …という主旨のお問い合わせを、先日受けた。うーん、それは確かに、ちょっと困るかも。少なくとも市場調査のルーチンワークからは外れている。
 それはもうGLMMなんじゃないっすかね、と説明しかけて、いや待てよ、こういうときにはGEEってのもあるよな、というのが頭をよぎり、どんよりした気分になった。GEE(一般化推定方程式)、それは過去なんどか勉強しようとしては挫折した、私にとっての鬼門のひとつなのである。

Hubbard, A.E., et al. (2010) To GEE or Not to GEE: Comparing Population Avarage and Mixed Models for Estimating the Associations Between Neighborhood Risk Factors and Health. Epidemiology, 21(4), 467-474.
 というわけで、易しそうな文献で再チャレンジ。
続きを読む

読了:O’Gorman, et al. (1994) 層別分析で共通リスク差を推定するときWLS推定量とCMH推定量のどっちがいいか

O’Gorman, T.W, Woolson, R.F., Jones, M.P. (1994) A Comparison of Two Methods of Estimating a Common Risk Difference in a Stratified Analysis of a Multicenter Clinical Trial. Controlled Clinical Trials, 15, 135-153.

 仕事の都合で読んだ。層別された2×2クロス表について層を潰したリスク差を求めるとき、マンテル・ヘンツェルのアプローチだとどうなるか、という話。
 MHオッズ比についての解説はその辺の教科書に載っているけど、リスク差についての解説は少ないので、仕方なくめくった。勤務先の本棚にあるAgrestiの厚い本に書いてあったような気がするけど、いま自宅に閉じこもっているもので…
続きを読む

読了:Lu, Chow, Loken (2016) 因子分析モデルで負荷行列のどこにゼロが埋まっているのか、ベイジアン変数選択の枠組みで考えよう

Lu, Z.H., Chow, S.M., Loken, E. (2016) Bayesian Factor Analysis as a Variable-Selection Problem: Alternative Priors and Consequences. Multivariate Behavioral Research, 51(4), 519–539.

 仕事の都合で因子分析モデルをベイズ推定するとき、いつも悩むのは因子負荷の事前分布の設定である。導師Muthenが提案するベイジアンSEMは確かにすごく有用な手法だと思うし、日本語での紹介が少ないことに義憤を感じて書籍で紹介させて頂いたりもしたんだけど(嗚呼、自己満足)、個別具体的な事例においては、どうしても困っちゃうわけです。いったい負荷の事前分布とはなんなのか… 我々はデータについて何を知っているのか… この世界のなりたちとは… 人生の意味とは… 眠い… 今日は寝よう… っていう風になります。
 
 というわけで、たまたまみつけた論文を読んでみた(目先の仕事からの現実逃避であるともいえる)。ベイジアン因子分析において、因子負荷にspike-and-slab事前分布を与えるのがよろしいのではないでしょうか、という論文。
続きを読む

読了:Rudolph et al. (2014) 大規模調査の標本の一部について別のデータがあるとき、そこで推定された平均処理効果を母集団へと一般化する方法

Rudolph, K., Diaz, I., Rosenblum, M., Stuart, E. (2014) Estimating Population Treatment Effects From a Survey Subsample. Americal Journal of Epidemiology, 180(7), 737-748.

 これ仕事の役に立つんじゃないかしらんと思って読んでみた奴。Google様的な引用件数は20。
 自分の仕事に近づけて言うと、えーっと、大規模な消費者調査のデータがあり、そのなかの一部の対象者についてだけ広告接触有無と製品購買有無がわかっているとき、母集団における広告効果を推定したい、というような話である。RCTの結果を一般化するんじゃなくて観察研究の結果を一般化するというのがポイント。
続きを読む

読了:Fattorini (2006) 標本抽出デザインが複雑すぎて、そこから推定しようにも抽出確率がわからない、よし電子計算機の力でなんとかしよう

Fattorini, L. (2006) Applying the Horvitz-Thompson criterion in complex designs: A computer-intensive perspective for estimating inclusion probabilities. Biometrika, 93(2), 269-278.

 仕事の関連で調べものをしていて、適切なキーワードがわからず迷走していたんだけど、この論文のイントロ部分にあまり期待せず目を通し、探していたタイプの研究がついに目の前に現れたことに気が付いた。長かった。Google様いわく引用回数93。
続きを読む