論文:データ解析」カテゴリーアーカイブ

読了: Bourazas, Kiagias, & Tsiamyrtzis (2002) ベイジアンな管理図

 仕事の都合で時系列のオンライン監視のことを考えているんだけど、データ生成過程とかはもうどうでもよくて、なんかこう、折れ線が点線を超えたらブザーが鳴るというか… なんていうんですかそういうの… 管理図… そう、管理図みたいなものがあればいいんじゃないかと… そう思えてきました… (ずいぶん弱気になってきた)

Bourazas, K., Kiagias, D., Tsiamyrtzis, P. (2002) Predictive Control Charts (PCC): A Bayesian approach in online monitoring of short runs. Journal of Quality Technology, 54(4), 367-391.

 というわけで、なんだかそれっぽいのをみつけたのでめくってみた次第である。google様的には被引用件数12件だが、CRANのbayespmパッケージの元論文だというのが読みどころである。
続きを読む

読了:Sonesson & Bock (2003) 公衆衛生における時系列監視

Sonesson, C., Bock, D. (2003) A review and discussion of prospective statistical surveillance in public health. Journal of Royal Statitical Society, A. 166, 5-21.

 公衆衛生分野での時系列監視のレビュー。やれやれ、なぜこんな面白くもない話を勉強しているのか… (すいません、頭の悪い奴のひがみです)
 とはいえ、品質管理の話よりはとっつきやすい。あとファイナンスね! いったいなんなのあれ。疫学や品質管理の専門家は人類にとって必要だけど、ファイナンスの専門家なんて全員拉致して離島に閉じ込めてしまえば世界はかえって平和になるのではないだろうか。(ごめんなさい、貧乏人のそねみです)
続きを読む

読了:Frisen (2009) 時系列の監視

Frisen, M. (2009) Optimal Sequential Surveillance for Finance, Public Health, and Other Area. Sequential Analysis, 28, 310-337.

 仕事の都合で読んだやつ。時系列監視についての解説論文。
 著者のFrisenさんはこの分野の有名な人だと思う(前に仕事で翻訳をやったことがある)。google様いわく、本論文の被引用件数は82。招待論文という位置付けで、10人のコメントと返答がついている。っていうか、Sequential Analysisなんていうジャーナルがあるのね。掲載論文を読むのははじめてだと思う。

 時系列の監視の話って、いろんな分野に専門家がいて全然違う用語を使うのでどうもとっつきにくく、あまり関わりたくない話題のひとつである。とはいえ、それをいうならそもそも万物に関わり合いを持ちたくないし(枕と布団を除く)、仕事とあらば好き嫌いはいってられない。がんばりましょう、と気合をいれて…
続きを読む

読了:Datta & Polson (2022) 標本調査におけるIPW推定量からモンテカルロ法におけるIPW推定量へ

Datta, J., Polson, N. (2022) Inverse Probability Weighting: from Survey Sampling to Evidence Estimation. arXiv:2204.14121v2.

 IPW推定量についての解説だというので、勢い込んでめくってみたんだけど、調査データ分析とか因果推論とかじゃなくて、シミュレーションの話で出てくる、重点サンプリングっていうの? ああいう角度からの話であった。わたくし、そういう難しい話ってよくわかんないので、なけなしの関心がかろうじて維持できた部分についてのみメモする。
続きを読む

読了:Gambino (2009) 「デザイン効果」利用者諸君への注意事項

Gambino, J. G. (2009) Design Effect Caveats. The Americal Statistician, 63(2), 141-146.

 調査データ解析に関してときどき出てくる話題である「デザイン効果」についての資料を探していたら、2009年のAmerican Statisticianに解説が載っているのを見つけた。ありがたや。考えてみれば2009年は最近とはいえないが、話題自体がわりかし古いので、この話題の解説としては新しめであるといえよう。
続きを読む

読了: Kish(1995) デザイン効果とはなにか

Kish, L.(1995) Methods for Design Effects. Journal of Official Statistics, 11, 55-77.

 調査データ解析のレジェンド、Kish大先生によるデザイン効果の解説。デザイン効果ってのはあれですね、推定量の分散が標本デザインのせいでどれだけ拡大したかってやつですね。調査に関わる多くの人にとってさえ、わりかしどうでもいい話かもしれないが、マーケティング・リサーチにおいては結構深刻な話題である。その深刻さに気付いているかどうかは別にして。
続きを読む

読了: Williams, et al.(1998) ポアソン抽出デザインにおける母合計推定量を比較する

Williams, M.S., Schreuder, H.T., Terrazas, G.H. (1988) Poisson Sampling: The Adjusted and Unadjusted Estimator Revisited. Research Note, RMRS-RN-4. U.S. Department of Agriculture, Forest Service, Rocky Mountain Research Station.

別に読む必要は全然、全くないんだけど、標本抽出についての資料を作っていて悩んでいるときにぱらぱらめくったもの。ポアソン抽出での母合計推定量を比べるという話。なんであれ、めくったものはとりあえず記録しておこう、ということで…
続きを読む

読了: Godambe & Thompson (1986) 推定関数の理論から見た母集団特性の推定 (難しい話をより難しく)

Godambe, V.P, & Thompson, M.E. (1986) Parameters of Superpopulation and Survey Population: Their Relationships and Estimation. International Statistical Review, 53(2), 127-138.

 調査データの分析について調べていると、母平均のHajek推定量 (標本の個々の値をその個体の標本包含確率の逆数で重みづけて平均した量)は母平均のデザイン不偏推定量ではないけれど、実はある種のモデルのもとでモデル不偏推定量なのだ… という話がでてきて、そこでこの論文がよく引用されている。
 第一著者のGodambeさんという人は推定方程式アプローチの理論で有名な人らしい。第二著者はHorvitz-Thompson推定量のThompsonとは別人の模様。
続きを読む

読了: 柳本(1995) 推定方程式に基づく推定

 読んだものはなんでも記録しておこう、ということで…

柳本武美(1995) 推定方程式に基づく推定: 最尤法とモーメント法から. 応用統計学, 24(1), 1-12.

 別の論文に挑戦しようとして(メモしておくとGodambe & Thompson(1986)、有限母集団特性のモデルベース推定の話)、到底歯が立たず、せめてもの手がかりにならないかと思ってめくった。
 正直、これも難しくてよくわからんかった… 悲しい…
続きを読む

読了: Dorfman & Valliant (1997) Hajek推定量再訪

Dorfman, A.H., Valliant, R. (1997) The Hajek Estimator Revisited. Proceedings of the Section on Survey Methods Research, American Statistical Association.

 標本ウェイティングについて調べ物をしていると、googleの検索結果にはいつもこれが上位に挙がってくる。内容は難しそうだし、そもそも論文ではないし、毎回「これはちがうだろう」と避けていたのだが、あまりによく見かけるので、これもなにかの勉強だろうと思い、メモをとりながら読んでみた。正直、かなり早い段階で後悔しはじめたのだが…
続きを読む

読了: Delovoye & Savje (2020) Horvitz-Thompson推定量の一致性

 標本抽出について調べていると、値を抽出確率の逆数で重みづけて合計して母集団サイズで割ると(Horvitz-Thompson推定量)、それは母平均の不偏推定値だよ、いっぽう母集団サイズじゃなくて重みの和で割ると(Hajek統計量)、それは不偏じゃない、でも一致推定量だよ、なんていう話が出てくる。で、不偏性の証明は出てくるけど、一致性の証明は出てこない。おまえらユーザには理解できんだろうから省略するよ、というニュアンスがひしひしと伝わってくる。なんだかイライラする。いま文化大革命とか起きたら、私は紅衛兵となってキャンパスに突入し統計家を群衆のもとに引き出して自己批判を迫るかもしれない。(すいません冗談です)
 まあご配慮は正しいんだけどさ。推定量の漸近的挙動なんて途方に暮れるじゃないですか。聞かされても絶対理解できるわけないじゃないですか。でもちょっと覗き見したいんですよね。背伸びして大人の世界に触れてみたい、というか。(いいおっさんが… 我ながらキモイ)

Delovoye, A., Savje, F. (2020) Consistency of the Horvitz-Thompson estimator under general sampling and experimental design. Journal of Statistical Planning and Inference, 207, 190-197.

 そんなこんなで、本文が短いので読んでみた。HT推定量の一致性の一般的条件を示すのだそうです。Google様いわく、被引用件数11件。
 さあ、怖いものみたさでゴー!
続きを読む

読了: Tille & Wilhelm (2017) 標本抽出デザインの良し悪しを決める三つの原理

Tille, Y., Wilhelm, M. (2017) Probability Sampling Designs: Princeples for Choice of Design and Balancing. Statistical Science, 32(2), 176-189

 Statistical Science誌の2017年の調査特集号に掲載された論文を全部読んじゃおうプロジェクト、その第4弾。この論文は標本抽出デザインの選択という話で、いまの私の関心からちょっと外れているので、メモは粗めである。
続きを読む

読了: Skinner & Wakefield (2017) 標本抽出デザインと調査データ分析:イントロダクション

 仕事の都合で、調査データのウェイティングという複雑怪奇な問題について考える羽目になることがあるのだけれど、なにか役にたつ資料はないものかと探していると、Statistical Scienceの2017年の調査特集号に突き当たることが多い。去年目を通した Elliot & Valliant(2017)、先日読んだBreidt & Opsomer(2017)もこの号に掲載された論文だった。
 四の五の言わず、この号に載った9本の論文(残り7本)に片っ端から目を通しちゃえばいいのではないか、と思って、とりあえず(おそらくは編者によるのであろう)イントロをパラパラめくり始めたら、これが意外に面白く、かつ難しく… 結局、最初からメモを取りながら読み直すことになった。

Skinner, C., Wakefield, J. (2017) Introduction to the Design and Analysis of Complex Survey Data. Statistical Science, 32(2), 165-175.
続きを読む

読了: Breidt & Opsomer (2017) 調査データ分析の第三の道、モデル・アシステッド・アプローチ (後編)

前々回前回に引き続き、

Breidt, F.J., Opsomer, J.D. (2017) Model-assisted survey estimation with modern prediction techniques. Statistical Science, 32(2), 190-205.

のメモ、最終回。いよいよ面白い話になってくる。GREG推定でいうところの「作業モデル」を機械学習で組んじゃうのだ。
続きを読む

読了: Breidt & Opsomer (2017) 調査データ分析の第三の道、モデル・アシステッド・アプローチ (中編)

前回に引き続き、

Breidt, F.J., Opsomer, J.D. (2017) Model-assisted survey estimation with modern prediction techniques. Statistical Science, 32(2), 190-205.

のメモ、その第二回。いよいよ、著者の云うところのモデル・アシステッド推定とはなんなのかが明らかになる。話の先取りになるけど、要するにGREG推定量のことなのだ。ナアンダというなかれ、俺はこういう風に考えたことなかったよ。
続きを読む

読了: Breidt & Opsomer (2017) 調査データ分析の第三の道、モデル・アシステッド・アプローチ (前編)

Breidt, F.J., Opsomer, J.D. (2017) Model-assisted survey estimation with modern prediction techniques. Statistical Science, 32(2), 190-205.

 標本ウェイトつき調査データの分析方法について調べていて(ときどき仕事の都合でそういうニーズに突き動かされる)、たまたまめくった奴なんだけど、意外や意外、とても面白くて、最後まで目を通すことなく、途中で冒頭に戻ってメモを取り始めた。しかも講演口調で。
 実はいまもって読み終えてないんだけど(記事題名に読了とあるのは現時点で偽りである)、これ、もっと早く読んでおけばよかった… そうすれば先日のToth & Eltinge (2011)ももう少しは理解できていたかもしれない。

 長くなりそうなので数回に分ける。まずは全9章のうち1-3章のメモ。
続きを読む

読了: Toth & Eltinge (2011) ウェイトつきの調査データでつくった回帰木が一致性を持つ条件

Toth, D., Eltinge, J. (2011) Building consistent regression trees from complex sample data. Journal of the American Statistical Association, 106(409), 1626-1636.

 仕事の都合で標本ウェイトつきのデータを使って分類木モデルをつくりたくなり、あれこれ調べていて見つけた論文。
 少なくともタイトルは知りたいことにぴったりだし、第一著者はサーベイデータに特化した分割木・森モデリングのRパッケージrpmsの中の人だし、これを読めば道が開けるかな、と思ったのが運の尽き… いやあ、えらい目にあった。
続きを読む

読了: Yao, Lo, & Graubard (2014) ウェイトつき調査データからAUCを求めるには

Yao, W., Li, Z., Graubard, B.I. (2014) Estimation of ROC curve with complex survey data. Statistics in Medicine, 34(8), 1293-1303.

 仕事の都合で読んだやつ。複雑な標本抽出デザインのデータからROC下面積(AUC)とその分散を推定するにはどうしたらいいか、という論文である。
 うーん、マニアックな話だなあ。夢もへったくれもないなあ。俺もChatGPTのマーケティング活用だとかそういうの語りたいのに。なんかこう、カメラの前でろくろとか回したいのに…
続きを読む

読了: Downes& Carlin (2020) Mr.P (マルチレベル回帰・層化)ってやっぱり良いの? はい、良いみたいです

 代表性のない標本調査に基づいて母集団特性をうまいこと推測する、という話題のひとつに、Mr.P ことMRP(マルチレベル層化・回帰)というのがある。選挙予測で注目を集めた手法で(たしかYouGovがジョンソン勝利を当てたときに使ったんですよね)、私は面白がってGelman先生たちのarXivの論文のメモをとったりしてたんだけど、国内でもあれよあれよという間に有名になり、周囲から「MRPって知ってます?」と訊かれ、学会発表やそのへんの調査結果リリースでも見かけるようになり、なんと日本の伝統的大手メディアの方まで採用を検討しはじめ、ついには「MRPってできますか」と問い合わせが来たりするようになった。さすがにここまで来ると、個人的な熱は冷めてしまう。

 このたびちょっと思い立って検索してみたら、もはや心理学などの隣接諸分野で啓蒙論文が出るレベルにまで普及したようだ。2020年以降の論文は件数が少なく、とっくにハイプ・カーブの峠を越えたという感じである。
 そのなかから試しに一本読んでみた。疫学分野での手法検証研究である。
続きを読む

読了: Wang, Yue, Faraway (2023) INLAで学ぶ時系列モデリング (モデル編)

 ここしばらく、時系列モデリングの解説書を頼りに、INLA(積分段階的ラプラス近似)の理屈を理解しようと試みていた。目当ての2章は読み終えたので、この本はこれでおしまいにするつもりにするつもりだったのだが、なんとなく3章も目を通してしまった。

Wang, X., Yue, Y.R., Faraway, J. (2023) Dynamic Time Series Models using R-INLA: An Applied Perspective. Chapter 3. Details of R-INLA for Time Series.

せっかくなので、各節のごくごく概要についてメモしておく。ちなみに本章は長いのだが、チャートが多く、実質的な内容はみかけほど多くない。
続きを読む