論文:データ解析」カテゴリーアーカイブ

読了: Breidt & Opsomer (2017) 調査データ分析の第三の道、モデル・アシステッド・アプローチ (前編)

Breidt, F.J., Opsomer, J.D. (2017) Model-assisted survey estimation with modern prediction techniques. Statistical Science, 32(2), 190-205.

 標本ウェイトつき調査データの分析方法について調べていて(ときどき仕事の都合でそういうニーズに突き動かされる)、たまたまめくった奴なんだけど、意外や意外、とても面白くて、最後まで目を通すことなく、途中で冒頭に戻ってメモを取り始めた。しかも講演口調で。
 実はいまもって読み終えてないんだけど(記事題名に読了とあるのは現時点で偽りである)、これ、もっと早く読んでおけばよかった… そうすれば先日のToth & Eltinge (2011)ももう少しは理解できていたかもしれない。

 長くなりそうなので数回に分ける。まずは全9章のうち1-3章のメモ。
続きを読む

読了: Toth & Eltinge (2011) ウェイトつきの調査データでつくった回帰木が一致性を持つ条件

Toth, D., Eltinge, J. (2011) Building consistent regression trees from complex sample data. Journal of the American Statistical Association, 106(409), 1626-1636.

 仕事の都合で標本ウェイトつきのデータを使って分類木モデルをつくりたくなり、あれこれ調べていて見つけた論文。
 少なくともタイトルは知りたいことにぴったりだし、第一著者はサーベイデータに特化した分割木・森モデリングのRパッケージrpmsの中の人だし、これを読めば道が開けるかな、と思ったのが運の尽き… いやあ、えらい目にあった。
続きを読む

読了: Yao, Lo, & Graubard (2014) ウェイトつき調査データからAUCを求めるには

Yao, W., Li, Z., Graubard, B.I. (2014) Estimation of ROC curve with complex survey data. Statistics in Medicine, 34(8), 1293-1303.

 仕事の都合で読んだやつ。複雑な標本抽出デザインのデータからROC下面積(AUC)とその分散を推定するにはどうしたらいいか、という論文である。
 うーん、マニアックな話だなあ。夢もへったくれもないなあ。俺もChatGPTのマーケティング活用だとかそういうの語りたいのに。なんかこう、カメラの前でろくろとか回したいのに…
続きを読む

読了: Downes& Carlin (2020) Mr.P (マルチレベル回帰・層化)ってやっぱり良いの? はい、良いみたいです

 代表性のない標本調査に基づいて母集団特性をうまいこと推測する、という話題のひとつに、Mr.P ことMRP(マルチレベル層化・回帰)というのがある。選挙予測で注目を集めた手法で(たしかYouGovがジョンソン勝利を当てたときに使ったんですよね)、私は面白がってGelman先生たちのarXivの論文のメモをとったりしてたんだけど、国内でもあれよあれよという間に有名になり、周囲から「MRPって知ってます?」と訊かれ、学会発表やそのへんの調査結果リリースでも見かけるようになり、なんと日本の伝統的大手メディアの方まで採用を検討しはじめ、ついには「MRPってできますか」と問い合わせが来たりするようになった。さすがにここまで来ると、個人的な熱は冷めてしまう。

 このたびちょっと思い立って検索してみたら、もはや心理学などの隣接諸分野で啓蒙論文が出るレベルにまで普及したようだ。2020年以降の論文は件数が少なく、とっくにハイプ・カーブの峠を越えたという感じである。
 そのなかから試しに一本読んでみた。疫学分野での手法検証研究である。
続きを読む

読了: Wang, Yue, Faraway (2023) INLAで学ぶ時系列モデリング (モデル編)

 ここしばらく、時系列モデリングの解説書を頼りに、INLA(積分段階的ラプラス近似)の理屈を理解しようと試みていた。目当ての2章は読み終えたので、この本はこれでおしまいにするつもりにするつもりだったのだが、なんとなく3章も目を通してしまった。

Wang, X., Yue, Y.R., Faraway, J. (2023) Dynamic Time Series Models using R-INLA: An Applied Perspective. Chapter 3. Details of R-INLA for Time Series.

せっかくなので、各節のごくごく概要についてメモしておく。ちなみに本章は長いのだが、チャートが多く、実質的な内容はみかけほど多くない。
続きを読む

読了: Wang, Yue, Faraway (2023) INLAで学ぶ時系列モデリング (概論編)

 前回に引き続き、時系列モデルについてのINLA(積分段階的ラプラス近似)の解説書。全14章だが、第1,2章だけはメモしながら読むことにした。いよいよ第2章。

Wang, X., Yue, Y.R., Faraway, J. (2023) Dynamic Time Series Models using R-INLA: An Applied Perspective. Chapter 2. A Review of INLA.
続きを読む

読了: Wang, Yue, Faraway (2023) INLAで学ぶ時系列モデリング(準備編)

Wang, X., Yue, Y.R., Faraway, J. (2023) Dynamic Time Series Models using R-INLA: An Applied Perspective. Chapter 1. Bayesian Analysis.

 長く個人的懸案のひとつであったINLA(積分段階的ラプラス近似)について学ぶべく、このたびRue, Martino, Chopin(2019)にチャレンジし、学力不足により涙を飲んで撤退した次第だが、いきなり原典における一般的記述を読もうとしたのがいかんかったよな、というのが反省点であった。気を取り直し、今度は領域を絞った解説書をあたってみた。
 R-INLAについての解説本のうち、特に時系列モデルについての本。本の評判については知らないが、なんだかわかりやすそうだし、きちんとした感じだし、なにより全文が公開されている。ありがたい。
続きを読む

読了: Laken, Scheel, Isager (2018) 諸君、もっと等価性検定をやれ

Lakens, D., Scheel, A.M., Isager, P.M. (2018) Equivalence Testing for Psychological Research: A Tutorial. Advances in Methods and Practices in Psychological Science. 1(2), 259-269.

 仕事の都合でごくたまに等価性検定の話が出てくることがある。消費財のマーケティングリサーチでは、たとえば原材料や製法をコスト削減しても製品知覚は変わんないことを確認したい、というような場面が典型的である。今回もちょっと似たような用事があって、話のついでにめくってみた。ときどき読まないと忘れてしまう。
 等価性検定や非劣性検定の話をマジメに勉強するならば、それはもう医学統計の教科書をあたるべきなんだけど、今回は心理学者向けの易しい啓蒙論文。週末の気分転換だからね、と自分に言い訳して…
続きを読む

読了: Rue, Martino, Chopin (2009) INLAを使って楽しい楽しい潜在ガウシアン・モデル (後編)

 前回に引き続き、以下の論文のメモ。

Rue, H., Martino, s., Chopin, N. (2009) Approximate Bayesian Inference for Latent Gaussian Models by Using Integrated Nested Laplace Approximations. Journal of Royal Statistical Society, B. 71(2), 319-392.

 どうやら私の能力を超えている… 辛い…
続きを読む

読了: 万, et al. (2020) 比例ハザード性を仮定しない生存時間Bump Hunting手法の提案

万可, 谷岡健資, 南弘征, 下川敏雄, 水田正弘 (2020) 治療効果が顕著なサブグループを抽出するための境界内平均生存時間に基づく生存時間Bump Hunting法の開発. 計算統計学, 33(1), 1-28.

 仕事の都合でめくった奴。
 どういう話かというと、観察データなり臨床試験のデータなりから、新治療と既存治療のアウトカムの差が特に大きいサブグループを抽出したいという話である。大変失礼ながら提案手法そのものには関心がなくて、この領域にはどういう手法があるのかな、という関心から斜め読みした次第。すいません、ちゃんと読んでないです…
続きを読む

読了: Rue, Martino, Chopin (2009) INLAを使って楽しい楽しい潜在ガウシアン・モデル (前編)

 流れ流れてデータ解析とかで生計を立てていますが、一日に三回くらい、なぜ私はこんなことをしているのか… もっとましな人生があったのではないか… という疑念に囚われる。もっとましな人生ってなに? よくわかんないけど。
 さらに、Stanのコンパイルでイライラするたび、なぜ私はこんな面倒なことをしているのか… これはMCMCじゃなくてなにか別の方法でも解けるのではないか… という疑念に囚われる。別の方法ってなに? 知らんけど。INLAとか?
 そんなこんなで、数年前から何度かINLAを実戦投入しようとし、その度に挫折している。検索すると2017年、R-INLAについての解説を読んでいるようだが、メモを読み返すと内容をあまり理解できていないことが丸分かりである。切ないのう。

Rue, H., Martino, s., Chopin, N. (2009) Approximate Bayesian Inference for Latent Gaussian Models by Using Integrated Nested Laplace Approximations. Journal of Royal Statistical Society, B. 71(2), 319-392.

 そういうわけで、先日も仕事の都合で発作的にINLAの勉強をはじめた(仕事のほうは時間切れでそれどころではなくなり、結局はStanで切り抜けた)。その際のメモ。長くなるので2パートくらいにわける。
続きを読む

読了: Tierney & Kadane (1986) 事後分布の平均とか分散とか周辺密度とかをラプラス近似で得る

Tierney, L, Kadane, J.B. (1986) Accurate Approximations for Posterior Moments and Marginal Densities. Journal of the American Statistical Association, 82(393), 82-86.

 都合により調べ物をしていて(後日のためにメモしておくとRue, Martino, & Chopin(2009), INLAについての論文)、途中で話についていけなくなったので、引用を遡って読んでみた奴。
 こんなの読むなんて柄じゃないんですけどね。数学できないんですけどね。いったいどういう罰ゲームなのか。
続きを読む

読了:合崎(2015) Rのsupport.CEsパッケージとsurvival::clogit()で選択型コンジョイント分析

合崎英男(2015) Rパッケージsupport.CEsとsurvivalを利用した離散選択実験の実施手順. 北海道大学農經論叢, 70, 1-16.

 離散型コンジョイント分析のRパッケージSupport.CEsの作者ご自身による解説。このたび離散型コンジョイント分析の実験計画についてのメモを作っていて、その都合で目を通した。
 Aizaki(2012 JSS), Aizaki, Nakatani, Sato(2014 書籍)の日本語解説版とのこと。ほんとは本を読むべきなんだけど。
続きを読む

読了: 合崎・西村 (2007) 選択型コンジョイント分析の実験計画作成とパラメータ推定

合崎英男・西村和志 (2007) データ解析環境Rによる選択型コンジョイント分析入門. 農村工学研究所技報, 206, 151-173,

 選択型コンジョイント分析の実験計画作成・パラメータ推定についての手順解説。前に目を通していたのだけれど、このたび仕事の都合で選択型コンジョイント分析の実験計画作成について考えていて、メモを書いたりしていた関係で、ついでに再読した。
 第1著者の先生はこの後、選択型コンジョイント分析のRパッケージsupport.CEを公開し、日本語・英語で数多くの解説を書いておられるので、こんなに古いのを読むのは良くないのかもしれないけれど…
続きを読む

読了: Davis, et al. (2021) カウント時系列モデリング・レビュー

Davis, R., Fokianos, K., Holan, S.H., Joe, H., Livsey, J., Lund, R. ,Pipiras, V. Ravishanker, N. (2021) Count Time Series: A Methodological Review. Journal of the American Statistical Association, 116(535), 1533-1547.

仕事の都合でカウント時系列について考えることになり、とりあえずRのtscountパッケージの解説に目を通したら、知らない話題がたくさんあることに気が付き、あわてて手に取った。
続きを読む

読了: Liboschik, Fokianos, Fried (2017) カウント時系列の一般化線形モデル(tscountパッケージ)

Liboschik, T, Fokianos, K, Fried, R. (2017) tscount: An R Package for Analysis of Count Time Series Following Generalized Linear Models. Journal of Statistical Software, 82(5), 1–51.

 カウント時系列データ分析のRパッケージtscountの解説。このパッケージを実践投入する予定はないんだけど、カウント時系列の分析方法について知りたくて手に取った。
 本文だけで34ページある…
続きを読む

読了: Ly, et al.(2017) 頻度主義・ベイジアン・MDLからみたフィッシャー情報量

Ly, A., Marsman, M., Verhagen, J., Grasman, R.P.P.P, Wagenmakers, E.J. (2017) A Tutorial on Fisher information. Journal of Mathematical Psychology, 80, 40-55.

 仕事の都合で選択課題の最適実験計画について調べていて、学力不足を痛感して読んでみた論文。題名のとおり、フィッシャー情報量だけに焦点をしぼったチュートリアルである。
 著者にWagenmakersさんが入っているから、頻度主義だけでなくベイジアンな話が出てくるのは予想がつくが、その2つに並ぶもう一つのパラダイムとしてMDLが出てくるところが、へええ? という感じである。
続きを読む

読了: Glickman & Jensen (2005) 一対比較の適応的実験計画 by ベイジアン最適計画アプローチ

Glickman, M.E., Jensen, S.T., (2005) Adaptive paired comparison design. Journal of Statistical Planning and Inference, 127, 279-293.

 仕事の都合で一対比較法の実験計画の動的最適化について考えていて(なぜこんな柄にもないことを考えているのか…)、タイトルがそのものずばりだったのでめくってみた。Google様いわく被引用件数73件。この分野では多いのだろうか、少ないのだろうか。

 本論文はあいにくトーナメント戦の設計を考えていて(大相撲の15日間の各日の取り組み表を決めるというような状況)、私が抱えているところの、調査における刺激の心理量の一対比較測定という問題とは、いっけん乖離が著しいのだが、でも本質的には同じ話なんだろうなと思う。
続きを読む

読了: Geyer (2011) MCMC入門 (前編)

 仕事の都合でMCMCについて考えていて、マルコフ連鎖が目標分布に収束する理由がやっぱりわかんなくなってしまった。説明を読んだときには「よし理解した」と思うんだけど、いざちょっと応用的な問題になると、実は本当はよく理解できていないということに否応なしに気づかされるのである。

Gayer, C.J. (2011) Introduction to Markov Chain Monte Carlo. in Brooks, S., et al. (eds) “Handbook of Markov Chain Monte Carlo“, CRC Press.

 諦めてはなるまい、というので、MCMCについての分厚い論文集の最初に載っている解説の章を読んでみた。
 全17節。さあ深呼吸。
続きを読む