「論文：データ解析」カテゴリーアーカイブ

読了: Little (1993) 調査データ解析における事後層別について、予測モデリングの観点から解説しよう

Little, R.J.A. (1993) Post-Stratification: A Modeler’s Perspective. Journal of the American Statistical Association, 88(423), 1001-1012.

　統計学者Little先生による、調査における事後層別(post-stratification)についての解説。伝統的なデザイン・ベースの説明ではなく、モデル・ベースの観点から説明するというのがミソである。
　良く引用される論文で、前から気になっていたのだがずるずると後回しになっていた。このたびちょっと調べ物をしていて、その流れで思い出し、試しに読んでみた。別にいま読まなくてもいいっちゃいいんだけど、この一週間体調を崩して寝込んでいたので、そのリハビリを兼ねている。
　途中で気が付いたけど、これ、招待講演を元にした論文なんですね。講義を思わせるちょっとカジュアルな書きぶりである。
続きを読む →

読了: Gao et al.(2021) MRP(マルチレベル回帰・層化)に構造化事前分布をいれる

Gao, Y., Kennedy, L., Simpson, D., Gelman, A. (2021) Improving multilevel regression and poststratification with structured priors. Bayesian Analysis, 16(3), 719-744.

　2020年にプレプリントを読んでメモをとっていた奴。このたび事情により公刊版を読み直したので記録しておく。
　なお、ついでにメモも取りなおした。自分の古いブログ記事を修正するのって、なんだか妙なものだ。物好きにもほどがあるという気がする。

読了: Broniecki, Leeman, & Wuest (2022) MrPで地域レベル変数が多すぎるとき、機械学習でいい感じにやる方法

Broniecki, P., Leemann, L., & Wuest, R. (2022) Improved Multilevel Regression with Post-Stratication Through Machine Learning (autoMrP). The Journal of Politics, 84(1), 597–601.

　先日仕事の都合で読んだ奴。みんな大好きMr.Pことマルチレベル回帰・事後層別を機械学習で改善しますという話。RパッケージautoMrPの元論文である。
　これ、以前から読もうと思っていたのだけど、勤務先の同僚が読んでくれていたので放置していたのである。トシを取ると多様な言い訳を思いつくようになることがわかる。
続きを読む →

読了: 坂地ほか (2024) 人工知能学会誌「ナラティブと人工知能」特集号

武富有香・須田永遠 (2024) 物語の読解技術とその応用－文学研究におけるナラティブ－. 人工知能, 39(5), 588-594.
土井智暉・谷中瞳 (2024) 自然言語処理を用いたナラティブ分析の可能性. 人工知能, 39(5), 608-614.
坂地泰紀・塩野剛志・金田規靖・新谷元嗣 (2024) 経済におけるナラティブ. 人工知能, 39(5), 651-657.

昨年9月の人工知能学会誌「ナラティブと人工知能」特集号より。仕事の都合で読んだ。ほんとは所載の13本を全部読んだんだけど、全部書くのは手間なので、特に面白かった3本をメモしておく。

読了: Quinn & Bederson (2011) ヒューマン・コンピュテーションを分類する

Quinn, A.J., & Bederson, B.B. (2011) Human Computation: A Survey and Taxonomy of a Growing Field. CHI’11: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. 1403-1412.

ヒューマン・コンピュテーションについてのレビュー。誰かと話していてうっかりヒューマン・コンピュテーションという言葉を使ってしまい、自分もよく意味がわかっていないな… と思って読んだ奴。google様によれば被引用回数1182なんだけど、この分野では13年前の国際会議発表なんて古文書に近いでしょうね…
続きを読む →

読了: 矢野 et al.(2024) 日本語の文埋め込みモデルを文書検索・RAGの文脈で比べる

矢野千紘, 塚越駿, 笹野遼平, 武田浩一 (2024) 日本語文埋め込みの文書検索性能と検索補助付き生成での評価. 言語処理学会発表論文集, 2024/03.

　理解できたかどうかは別にして、読んだものはなんでも記録しておこうということで…
　文書検索における文埋め込み手法の性能を比較したという発表。文埋め込みを使った密ベクトル検索、およびRAGに注目する。意外にも、日本語での評価は「ほとんど行われていない」由。えええ、そういうもんなんですか？
続きを読む →

読了: 美馬 et al. (2022) N-of-1 研究入門

美馬達哉, 小金丸聡子, 芝田純也, 佐藤岳史 (2022) N-of-1研究をどう行うか. リハビリテーション医学, 59, 1111-1117.

　勉強のつもりで目を通した啓蒙論文。
続きを読む →

読了：Salmon, Schumacher, Hohle (2016) Rパッケージsurveillanceで君も感染症のアウトブレイクを監視しよう

Salmon, M., Schumacher, D., Hohle, M. (2016) Monitoring Count Time Series in R: Aberration Detection in Public Health Surveillance. Journal of Statistical Software. 70(10).

　カウント時系列監視のためのRパッケージsurveillanceの解説。実戦投入しようかな？と思ってめくってみた。サーベイランスと言っても広うございますが、これは疫学の文脈での、アウトブレイク検出を意図したパッケージである。
　個人的な好みの問題だと思うけど、品質管理系の論文より10倍くらいわかりやすいような気がする…
続きを読む →

読了: Borror, Shamp, Rigdon (1998) カウント時系列監視のためのポアソンEWMA管理図

Borror, C.M., Shamp, C.W., Rigdon, S. (1998) Poisson EWMA Control Charts. Journal of Quality Technology, 30(4), 352-361.

　カウント時系列の監視手法のひとつ、ポアソンEWMA管理図について知りたくて読んだ。初学者向けの解説論文である。ありがてえ、ありがてえ。
続きを読む →

読了: Shen, Tsui, Woodall, Zou (2015) カウント時系列のEWMA管理図の管理限界をブートストラップ法で決める

Shen, X., Tsui, K., Woodall, W., Zou, C. (2015) Self-starting monitoring scheme for Poisson count data with varying population sizes. Technometrics, 58(4), 460-471.

　仕事の都合で読み漁った、カウント時系列の監視の論文のひとつ。残念ながら提案手法が理解できず、途中で読むのをやめてしまった奴である。いちおう記録しておくが、うーん、残念。
　時系列監視の分野では、平常時のパラメータが未知なのに監視を始めないといけないという問題を自動スタートself-startingというらしい。機械学習とかでいうところのcold startと似た意味だと思う。
続きを読む →

読了: Lucas (1985) カウント時系列のCUSUM法による監視

Lucas, J. (1985) Count Data CUSUM’s. Technometrics, 27(2), 129-144.

　時系列監視手法のうち、件数データに対するCUSUM法の解説。難しい話はなし、実務家向けな啓蒙論文である。
　なぜ私が生まれる前の論文を読まなければならないのかと思うが(すいません嘘です、超生まれてましたね、ヒゲ剃ったりしてましたね)、温故知新っていうことで…
続きを読む →

読了: Praus, Schindel, Fescharek, Schwarz (1993) 処方薬発売後の副作用サーベイランスによる警告システム

Praus, M., Schindel, F., Fescharek, R., Schwarz, S. (1993) Alert systems for post-marketing surveillance of adverse drug reactions. Statistics in Medicine, 12, 2383-2393.

　医学分野での時系列監視についての解説論文。処方薬の副作用件数の監視の話である。これこれ、こういうのが読みたかったのよ…
続きを読む →

読了: Bourazas, Kiagias, & Tsiamyrtzis (2002) ベイジアンな管理図

　仕事の都合で時系列のオンライン監視のことを考えているんだけど、データ生成過程とかはもうどうでもよくて、なんかこう、折れ線が点線を超えたらブザーが鳴るというか… なんていうんですかそういうの… 管理図… そう、管理図みたいなものがあればいいんじゃないかと… そう思えてきました… (ずいぶん弱気になってきた)

Bourazas, K., Kiagias, D., Tsiamyrtzis, P. (2002) Predictive Control Charts (PCC): A Bayesian approach in online monitoring of short runs. Journal of Quality Technology, 54(4), 367-391.

　というわけで、なんだかそれっぽいのをみつけたのでめくってみた次第である。google様的には被引用件数12件だが、CRANのbayespmパッケージの元論文だというのが読みどころである。
続きを読む →

読了：Sonesson & Bock (2003) 公衆衛生における時系列監視

Sonesson, C., Bock, D. (2003) A review and discussion of prospective statistical surveillance in public health. Journal of Royal Statitical Society, A. 166, 5-21.

　公衆衛生分野での時系列監視のレビュー。やれやれ、なぜこんな面白くもない話を勉強しているのか… (すいません、頭の悪い奴のひがみです)
　とはいえ、品質管理の話よりはとっつきやすい。あとファイナンスね！いったいなんなのあれ。疫学や品質管理の専門家は人類にとって必要だけど、ファイナンスの専門家なんて全員拉致して離島に閉じ込めてしまえば世界はかえって平和になるのではないだろうか。(ごめんなさい、貧乏人のそねみです)
続きを読む →

読了：Frisen (2009) 時系列の監視

Frisen, M. (2009) Optimal Sequential Surveillance for Finance, Public Health, and Other Area. Sequential Analysis, 28, 310-337.

　仕事の都合で読んだやつ。時系列監視についての解説論文。
　著者のFrisenさんはこの分野の有名な人だと思う(前に仕事で翻訳をやったことがある)。google様いわく、本論文の被引用件数は82。招待論文という位置付けで、10人のコメントと返答がついている。っていうか、Sequential Analysisなんていうジャーナルがあるのね。掲載論文を読むのははじめてだと思う。

　時系列の監視の話って、いろんな分野に専門家がいて全然違う用語を使うのでどうもとっつきにくく、あまり関わりたくない話題のひとつである。とはいえ、それをいうならそもそも万物に関わり合いを持ちたくないし(枕と布団を除く)、仕事とあらば好き嫌いはいってられない。がんばりましょう、と気合をいれて…
続きを読む →

読了：Datta & Polson (2022) 標本調査におけるIPW推定量からモンテカルロ法におけるIPW推定量へ

Datta, J., Polson, N. (2022) Inverse Probability Weighting: from Survey Sampling to Evidence Estimation. arXiv:2204.14121v2.

　IPW推定量についての解説だというので、勢い込んでめくってみたんだけど、調査データ分析とか因果推論とかじゃなくて、シミュレーションの話で出てくる、重点サンプリングっていうの？ああいう角度からの話であった。わたくし、そういう難しい話ってよくわかんないので、なけなしの関心がかろうじて維持できた部分についてのみメモする。
続きを読む →

読了：Gambino (2009) 「デザイン効果」利用者諸君への注意事項

Gambino, J. G. (2009) Design Effect Caveats. The Americal Statistician, 63(2), 141-146.

　調査データ解析に関してときどき出てくる話題である「デザイン効果」についての資料を探していたら、2009年のAmerican Statisticianに解説が載っているのを見つけた。ありがたや。考えてみれば2009年は最近とはいえないが、話題自体がわりかし古いので、この話題の解説としては新しめであるといえよう。
続きを読む →

読了: Kish(1995) デザイン効果とはなにか

Kish, L.(1995) Methods for Design Effects. Journal of Official Statistics, 11, 55-77.

　調査データ解析のレジェンド、Kish大先生によるデザイン効果の解説。デザイン効果ってのはあれですね、推定量の分散が標本デザインのせいでどれだけ拡大したかってやつですね。調査に関わる多くの人にとってさえ、わりかしどうでもいい話かもしれないが、マーケティング・リサーチにおいては結構深刻な話題である。その深刻さに気付いているかどうかは別にして。
続きを読む →

読了: Williams, et al.(1998) ポアソン抽出デザインにおける母合計推定量を比較する

Williams, M.S., Schreuder, H.T., Terrazas, G.H. (1988) Poisson Sampling: The Adjusted and Unadjusted Estimator Revisited. Research Note, RMRS-RN-4. U.S. Department of Agriculture, Forest Service, Rocky Mountain Research Station.

別に読む必要は全然、全くないんだけど、標本抽出についての資料を作っていて悩んでいるときにぱらぱらめくったもの。ポアソン抽出での母合計推定量を比べるという話。なんであれ、めくったものはとりあえず記録しておこう、ということで…
続きを読む →

読了: Godambe & Thompson (1986) 推定関数の理論から見た母集団特性の推定 (難しい話をより難しく)

Godambe, V.P, & Thompson, M.E. (1986) Parameters of Superpopulation and Survey Population: Their Relationships and Estimation. International Statistical Review, 53(2), 127-138.

　調査データの分析について調べていると、母平均のHajek推定量 (標本の個々の値をその個体の標本包含確率の逆数で重みづけて平均した量)は母平均のデザイン不偏推定量ではないけれど、実はある種のモデルのもとでモデル不偏推定量なのだ… という話がでてきて、そこでこの論文がよく引用されている。
　第一著者のGodambeさんという人は推定方程式アプローチの理論で有名な人らしい。第二著者はHorvitz-Thompson推定量のThompsonとは別人の模様。
続きを読む →

読書日記

読んだ本を淡々と記録します