論文:データ解析」カテゴリーアーカイブ

読了:Gelman & Carlin (2014) 諸君の検定力計算は甘い。タイプSエラーとタイプMエラーを求めなさい

Gelman, A., Carlin, J. (2014) Beyond Power Calculations: Assessing Type S(Sign) and Type M(Magnitude) Errors. Perspectives on Psychological Science, 9(6), 641-651.

 ずっと前に目を通して放置していた奴。こういうメモが散乱して収拾がつかなくなっている。

 Gelman兄貴らが心理学者向けにお送りする、検定力に関する解説論文。タイプSエラーとタイプMエラーという面白い概念が登場する。
 ふだんこういう論文はほげーっと脱力しながら目を通すのだけれど(そして読み終えると忘れてしまう)、今回は検定力の話で結構面倒くさいので、適宜メモをとりながら読んだ(それでも読み終えると忘れてしまっている)。
続きを読む

読了:津田ほか(2006) 高速のトンネルのランプはいつ切れるか(ワイブルハザードモデルのベイズ推定)

津田尚胤, 貝戸清之, 山本浩司, 小林潔司 (2006) ワイブル劣化ハザードモデルのベイズ推計法. 土木学会論文集F, 62(3), 473-491.
 土木施設の劣化を統計的に予測するためにハザードモデルをベイズ推定します、という話。ひょんな事情がありまして、昼飯のお茶漬けを啜りながら目を通した。えーっと、筆頭著者の方の修士論文とかかしらん?
続きを読む

読了:Debeer & Stroble (2020) Rのpartyパッケージでランダムフォレストの条件付きパーミュテーション重要性を求めていた諸君、悪いね、悪いね、ワリーネ・ディートリッヒ

Debeer, D., Stroble, C. (2020) Conditional permulation importance revisited. BMC Bioinformatics, 21:307.

 仕事の都合で読んだ。ランダム・フォレストにおいて変数重要性を評価する手法のひとつに、「他の変数で条件づけたパーミュテーション重要性」というのがあるんだけど、その算出方法についての論文。
 Rにおける既存の実装についていくつか疑問点があったのでなんとなく目を通して見たら、なんと著者らはRパッケージpartyの中の人であり(途中で気が付いた)、しかも、途中でなんだかとんでもないことを言い出した… 続きを読む

読了:Gregorutti, Michel, Saint-Pierre (2015) 変数グループの重要性指標

Gregorutti, B., Michel, B., Saint-Pierre, P. (2015) Grouped variable importance with random forests and application to multiple functional data analysis. Computational Statistics & Data Analysis, 90, 15-35.
 仕事の都合で読んだ奴。ランダムフォレストとかで、個々の変数についてのpermutation重要性じゃなくて、分析者が定義したなにかしらの変数グループについてpermutation重要性を求めるという論文。
 第一著者は、おそらくこの論文の提案手法を実装したであろうRパッケージRFgrooveを公開しているが、開発したきりメンテしておらず、CRANからは最近削除されている模様。
 28頁あるけど本文は19頁だ、なんとかなるさ!と思って読み始めたけど…
続きを読む

読了:Smith & Wakefield (2016) コウホート分析レビュー

Smith, T.R., Wakefield, J. (2016) A Review and Comparison of Age-Period-Cohort Models for Cancer Incidence. Statistical Science, 31(4), 591-610.

 いわゆるコウホート分析についてのレビュー。どうやら私の能力と根性を超える論文だが、都合により無理やり読んだ。主旨は以前に読んだ松本(2019)と似ている。
続きを読む

読了:Schmid, Held (2007) 君もBAMPパッケージで楽しい楽しいベイジアン・コウホート分析をしてみないかい

Schmid, V.J., Held, J. (2007) Bayesian Age-Period-Cohort Modeling and Prediction – BAMP. Journal of Statistical Software, 21(8).
 ベイジアン・コウホート分析のソフトウェアBAMPの解説書。この段階ではスタンドアローンのソフトだが、その後Rパッケージに移植されている。仕事の都合で、実戦投入前の儀式として読んだ。
続きを読む

読了:Asparouhov & Muthen (2021) よく聞け、これが残差SEMだ

Asparouhov, T., Muthen, B. (2021) Residual Structural Equation Models. Mplus.

 泣く子も黙る構造方程式モデリング用ソフトウェアMplusは、バージョンアップのたびになんらかの先進的すぎる謎機能を搭載してくることで有名である(私のなかで)。
 今月リリースされたVersion 8.7では、えーと、従来は残差動的構造方程式モデルのベイズ推定のみが可能であったラグ変数残差間回帰が単一レベルモデルの最尤推定・重みつき最小二乗推定・ベイズ推定へと拡張され、パネルデータのランダム切片クロスラグモデルならびにランダム切片自己回帰移動平均モデルの推定が可能となった、のだそうだ。
 はあ、そうですか、と虚ろな目でディスプレイに相槌を打つ私である。わからない。もうなにもわからない。
続きを読む

読了: Jackson(2019) Rのmsmパッケージで楽しいマルコフモデリング

Jackson, C. (2019) Multi-state modelling with R: the msm pachage. Version 1.6.8.

 パネルデータに多状態マルコフモデルをあてはめるRパッケージ msm の解説。実戦投入のための儀式として読んだ。もとはJ. Statistical Software の2011年の論文だそうだ。
 おっと、いまみたら今年9月に1.6.9が出ている… なんてこった…
続きを読む

読了:久保田(2021) コロナ危機のマクロ経済分析

久保田荘(2021) 新型コロナウィルス危機のマクロ経済分析. 医療経済研究, 33(1), 1-18.

 当面の仕事とはあんまり関係ないんだけど、面白そうなので「いつか読む」箱に放り込んであった論文。「いつか」じゃあきっと読まずに終わっちゃうだろうなと思い、仕事の気分転換に目を通した。
続きを読む

読了: Taylor & Letham (2017) Facebook社謹製ライブラリProphetはいったいなにをやっておるのか

Taylor, S.J., & Letham, B. (2017) Forecasting at scale. PeerJ Preprints.

 Facebookが公開している時系列予測ライブラリ Prophet のテクニカルペーパーに相当する資料。仕事の都合で目を通した。
 読み終えてから気が付いたけど、同名の記事がAmerican Statisticianに載っている。たぶん中身は同じだと思う。
 Prophetについては、検索すると日本語で解説しているブログ記事がたくさんヒットするので、そういうので勉強したほうが効率がいいんだろうけど… なんというか、気分の問題です。
続きを読む

読了:吉田・村井(2021) 心理学者たちよ、諸君の重回帰分析はここがおかしい

吉田寿夫・村井潤一郎(2021) 心理学研究における重回帰分析の適用に関わる諸問題. 心理学研究.

 心理学分野の観察研究における重回帰分析についてのユーザ向け啓蒙論文… なんだけど、2017-2019年の「心理学研究」誌に載った論文を集め、実名を挙げて斬りまくる。ひいいい。こういうの、英語の論文では珍しくないけど、日本語ではかなりレアですよね。
続きを読む

読了:岩崎(2021) 統計的因果推論の視点による重回帰分析

岩崎学(2021) 統計的因果推論の視点による重回帰分析. 日本統計学会誌, 50(2), 363-379.
 ファイル整理の途中で目を通した(仕事からの逃避ともいう)。日本統計学会賞の受賞記念論文。重回帰分析を教える人向けの啓蒙論文である。
続きを読む

読了: Brumback, He (2011) ウェイトつきデータから共通オッズ比を推定するためにあなたがお使いのMHオッズ比は、標本の層サイズが固定されていると考えると一致推定量でない

Brumback, B., He, Z. (2011) The Mantel-Haenszel estimator adapted for complex survey designs is not dually consistent. Statistics and Probability Letters, 81, 1465-1470.

 仕事の都合で致し方なく読んだ奴について記録しておくけど、正直、面白くも何ともない話である。(著者の先生、すいません…)
続きを読む

読了: Thompson & Wu (2008) ややこしい標本抽出デザインのウェイトをシミュレーションで求める

Thompson, M.E., Wu, C. (2008) Simulation-based randomized systematic PPS sampling under substitution of units. Survey Methodology, 34(1), 2-10.

 仕事の都合で読んだ奴。標本抽出デザインがややこしくて包含確率が解析的に出せないとき(ここではProportion-to-size標本抽出で回答拒否があるという場面を想定している)、計算機パワーで無理矢理なんとかしちゃうという話である。
 掲載誌はカナダ統計局が出している雑誌で、著者らはITC China Surveyというタバコについてのコホート調査の中の人らしい。
続きを読む

読了:Haggstrom (1983) ロジスティック回帰係数を線形回帰のソフトで求める

Haggstrom, G.W. (1983) Logistic Regression and Discriminant Analysis by Ordinary Least Squares. Journal of Business & Economic Statistics, 1(3), 229-238.

 勤務先の仕事の都合で、多数の多項ロジスティック回帰モデルのパラメータ推定値を、ダミー変数に対する線形回帰モデルのパラメータ推定値へと大急ぎで変換しないといけないという謎の用事ができてしまい(自分でもこいつ何言ってんだと思う)、慌てて読んだ奴。事情はちょっと書けないけれど、なぜそんなシュールな事態に陥ったものかと、正直、途方に暮れた。ところが読んでいる途中で、さらなる別の事情によって必要性が消滅したもので、この論文のほうは続きを読む気が失せてしまった。整理の都合上、読了としておく。
続きを読む

読了:松本(2019) コウホート分析の推定手法を比較する

松本雄大(2019) ベイズ統計モデリングによるAge-Period-Cohort分析: ランダム効果モデル, リッジ回帰モデル, ランダムウォーク. 理論と方法, 34(1), 99-112

 仕事の都合で読んだ。掲載誌は数理社会学会の発行。いわゆるコウホート分析の推定手法について解説し、簡単なシミュレーションで特徴を示す、という内容。
続きを読む

読了:Hubbard, et al. (2010) 混合モデル vs. 母集団平均モデル: GEEすべきか、せざるべきか、それが問題だ

 仕事の話なので抽象化して書くけれど、被験者内1要因の実験計画、被験者x要因内でさらに反復測定(反復回数は一様でない)、目的変数は二値。検定したいんだけどやり方がよくわからん、どうすればいい? …という主旨のお問い合わせを、先日受けた。うーん、それは確かに、ちょっと困るかも。少なくとも市場調査のルーチンワークからは外れている。
 それはもうGLMMなんじゃないっすかね、と説明しかけて、いや待てよ、こういうときにはGEEってのもあるよな、というのが頭をよぎり、どんよりした気分になった。GEE(一般化推定方程式)、それは過去なんどか勉強しようとしては挫折した、私にとっての鬼門のひとつなのである。

Hubbard, A.E., et al. (2010) To GEE or Not to GEE: Comparing Population Avarage and Mixed Models for Estimating the Associations Between Neighborhood Risk Factors and Health. Epidemiology, 21(4), 467-474.
 というわけで、易しそうな文献で再チャレンジ。
続きを読む

読了:O’Gorman, et al. (1994) 層別分析で共通リスク差を推定するときWLS推定量とCMH推定量のどっちがいいか

O’Gorman, T.W, Woolson, R.F., Jones, M.P. (1994) A Comparison of Two Methods of Estimating a Common Risk Difference in a Stratified Analysis of a Multicenter Clinical Trial. Controlled Clinical Trials, 15, 135-153.

 仕事の都合で読んだ。層別された2×2クロス表について層を潰したリスク差を求めるとき、マンテル・ヘンツェルのアプローチだとどうなるか、という話。
 MHオッズ比についての解説はその辺の教科書に載っているけど、リスク差についての解説は少ないので、仕方なくめくった。勤務先の本棚にあるAgrestiの厚い本に書いてあったような気がするけど、いま自宅に閉じこもっているもので…
続きを読む

読了:Lu, Chow, Loken (2016) 因子分析モデルで負荷行列のどこにゼロが埋まっているのか、ベイジアン変数選択の枠組みで考えよう

Lu, Z.H., Chow, S.M., Loken, E. (2016) Bayesian Factor Analysis as a Variable-Selection Problem: Alternative Priors and Consequences. Multivariate Behavioral Research, 51(4), 519–539.

 仕事の都合で因子分析モデルをベイズ推定するとき、いつも悩むのは因子負荷の事前分布の設定である。導師Muthenが提案するベイジアンSEMは確かにすごく有用な手法だと思うし、日本語での紹介が少ないことに義憤を感じて書籍で紹介させて頂いたりもしたんだけど(嗚呼、自己満足)、個別具体的な事例においては、どうしても困っちゃうわけです。いったい負荷の事前分布とはなんなのか… 我々はデータについて何を知っているのか… この世界のなりたちとは… 人生の意味とは… 眠い… 今日は寝よう… っていう風になります。
 
 というわけで、たまたまみつけた論文を読んでみた(目先の仕事からの現実逃避であるともいえる)。ベイジアン因子分析において、因子負荷にspike-and-slab事前分布を与えるのがよろしいのではないでしょうか、という論文。
続きを読む

読了:Rudolph et al. (2014) 大規模調査の標本の一部について別のデータがあるとき、そこで推定された平均処理効果を母集団へと一般化する方法

Rudolph, K., Diaz, I., Rosenblum, M., Stuart, E. (2014) Estimating Population Treatment Effects From a Survey Subsample. Americal Journal of Epidemiology, 180(7), 737-748.

 これ仕事の役に立つんじゃないかしらんと思って読んでみた奴。Google様的な引用件数は20。
 自分の仕事に近づけて言うと、えーっと、大規模な消費者調査のデータがあり、そのなかの一部の対象者についてだけ広告接触有無と製品購買有無がわかっているとき、母集団における広告効果を推定したい、というような話である。RCTの結果を一般化するんじゃなくて観察研究の結果を一般化するというのがポイント。
続きを読む