「論文：データ解析」カテゴリーアーカイブ

読了: Sugasawa & Kubokawa (2020) 混合モデルによる小地域推定のレビュー

Sugasawa, S., Kubokawa, T. (2020) Small area estimation with mixed models: a review. Japanese Journal of Statistics and Data Science. 3, 693–720.

　勉強のためにめくったやつ。小地域推定という地味な分野にも、なんか新しい展開とかあるんじゃないかなと思って。
　小地域推定のうち混合モデルを使う手法についてのレビュー論文(小地域推定の多くの議論は混合モデルに基づくので、ほぼ小地域推定レビューといえよう)。第二著者は「現代数理統計学の基礎」の著者の先生であろう。
　2章が基礎、3章が分散推定の話。4章が本題である。
続きを読む →

読了: Godambe & Thompson (1986) 推定関数理論からみた超母集団パラメータと調査母集団パラメータ

Godambe, V.P., Thompson, M.E. (1986) Parameters of Superpopulation and Survey Population: Their Relationships and Estimation. International Statistical Review, 54(2), 127-138.

　有限母集団特性の推定の話を読んでいるとときどき出てくる、推定関数・推定方程式という考え方がどうにも理解しにくく、悔しい思いをしている。腹立ちまぎれに、標本抽出論の解説書Arnab (2017) の該当章を読んでみたんだけど、やはりよくわからない。よし、原典に戻ってみよう！逐語訳に近いレベルでメモを取れば俺にだって少しはわかるだろう！と思って、Godambeさんの論文を読んでみた。無謀だなあ。
　短い論文だが、たぶん当該領域の重要文献だと思う。google様曰く被引用回数238。
続きを読む →

読了: Yang, Kim, & Song (2020) 非確率標本に基づく二重頑健推定の際の共変量選択法

Yang, S., Kim, J.K., Song, R. (2020) Doubly robust inference when combining probability and non-probability samples with high dimensional data. Journal of the Royal Statistical Society Series B: Statistical Methodology, 82(2), 445–465.
　
　非確率標本と確率標本があるとき、前者をうまいことウェイティングしましょうとか、前者でモデルを組んで後者にあてはめて母集団特性を予測しましょうといった方法があるけれど、最近ではその延長線上に、両方やって二重頑健推定しましょうという話もある。ひゅー、かっこいい、今流行りの因果推論みたいだ。私も市場調査みたいな地味な仕事じゃなくて、web広告の最適化とかでぶいぶいいわせられるかもしれない。よーし転職してタワマンの上の方に住んで港区女子と不倫するぞ！ (←貧困なイメージ)
　まあとにかくそういうとき、かつ、共変量がたくさんありすぎて困っちゃうとき(どんどんSFっぽくなっていくね)、罰則付き回帰で変数選択するぞ、という論文。
続きを読む →

読了: Arnab (2017) 推定関数とはなにか

Arnab, R. (2017) Estimating Function. in “Survey Sampling Theory and Applications“, Chapter 22. Academic Press.

　有限母集団推定の話を読んでいると、ときどきGodambeの推定方程式アプローチというのが出てきて、話のポイントが全然つかめず困惑することがある。いらいらしてきたので教科書的な説明を探して読んでみた。著者とこの書籍についてはまったく初見だが、標本抽出についての難しめの教科書である模様。
　全部で23ページあるが、読むのは前半の14ページ。
続きを読む →

覚え書き: James-Stein推定量の全MSEは標本平均のそれよりも小さい

　多変量正規分布の母平均ベクトルのJames-Stein推定量は、誤差二乗和の観点から見て標本平均に優越している。これはあっちこっちに書いてある有名な話だが、証明をいくら読んでもピンとこなかった。
　このたび業を煮やし、真剣に考えた。
続きを読む →

読了: Samworth (2020) Steinのパラドックス

Samworth, R.J. (2020) Stein’s paradox. Eureka, 66.

　スタインのパラドクスについての短い解説。掲載誌はthe Mathematical Society of Cambridge Universityの発行で、学会誌というより親睦団体の会報みたいなのだと思う。
　パラドクスの証明(母平均ベクトルのJames-Stein推定量の誤差の二乗和の期待値が標本平均のそれより小さいという証明)が別の補題とかを使わずに半頁で示されていて、こんなにコンパクトに証明できるのか！と感心したんだけど、読んでみたら、全然むずかしいよ、これ。多変量正規分布を積分するんだけど、途中でしれっと変形しているところがからきしわからない。ChatGPTくんにPDFを渡し、延々問い詰めてようやく理解できたけど、著者はわからせようと思ってないんじゃなかろうか。頭のいい奴らってほんとに信用できない！

読了: 松田(2021) 縮小推定と優調和性

松田孟留(2021) 縮小推定と優調和性. 応用数理, 31(4), 7-14.

　題名の通り、縮小推定についての解説。母平均ベクトルのベイズ推定量は事前分布がどんなんだと許容的になるかとか(優調和性という性質があるといいんだってさ)、行列の縮小推定とか。正直、内容の8割は理解できなかったが、これは私が背伸びしすぎだからである。
　参考書としてSpringerから出ているFourdrineir, Strawderman, & Wells(2018) “Shrinkage Estimation”というのが挙げられていた。たまたま原著を手に取る機会があったのでめくってみたら、少なくとも最初のほうはなんとか読めそうな感じであった。あれで勉強すればいいのかな。

読了: Marra & Radice (2017) 未観察の交絡がある？非確率標本？ふたつの二値アウトカムの両方が1かそうでないかしか測定してない？よろしい、RのGJRMパッケージで二変量二値回帰モデルを組みなさい

Marra, G. & Radice, R. (2017). A joint regression modeling framework for analyzing bivariate binary data in R. Dependence Modeling, 5(1), 268-294.

　先日から非確率標本で母集団を推定するという話についてあれこれ調べているんだけど、たいていの話は共変量の下での標本選択と目的変数の独立性、つまり欠損データ分析でいうところのMARを前提としていて、MNARモデルの話はなかなか出てこない。でも、そういうのもありそうじゃんね？考えてみたらHeckmanモデルとかそうじゃんね？
　などと思いながらRパッケージを眺めていたら、GJRMパッケージというのが怪しげである。というわけで、実戦投入の予定はないが、vignetteに相当するであろう論文を読んでみた。掲載誌はみたこともない謎の雑誌だが、版元はDe Gruyterなので、そんなに変な雑誌ではないだろう。
続きを読む →

読了: 星野・前田 (2006) ネット調査を傾向スコアで調整する in 2006

星野崇宏・前田忠彦(2006) 傾向スコアを用いた補正法の有意抽出による標本調査への応用と共変量の選択法の提案. 統計数理, 54(1), 191-206.

　非確率調査の傾向スコア補正について日本語で書かれた代表的な論文。すでに読んでいたが、このたび都合により読み直した。
　このたび同趣旨の論文をあれこれ読んでいるのだが、2006年というのは初期に属すると思う。この年、私なにしてたっけ… あれこれあって路頭に迷った末、新聞広告でみた市場調査会社様に拾っていただいたら、これがイケイケの伸び盛りの会社で、思いのほか忙しくて後悔していた時期、かな…
続きを読む →

読了: Cobo, Ferri-Garcia, Rueda-Sanchez, & Rueda (2024) 非確率標本のためのR/Pythonパッケージ

Cobo, B, Ferri-Garcia, R., Rueda-Sanchez, J.L,, Rueda, M.D.M. (2024) Software review for inference with non-probability surveys. The Survey Statistician, 90, 40-47.

　非確率調査のためのR/Pythonパッケージの紹介記事。あ、著者らはNonProbEstパッケージの中の人ではなかろうか。掲載誌についてはよくわからないが、学会の会報みたいな感じだ。
　RのNonProbEstパッケージ, nonprobsvyパッケージ、nppRパッケージ (CARTによる傾向スコアモデル、二重頑健推定量を提供)、KWMLパッケージ(機械学習によるウェイティングを提供)、Pythonのinpsパッケージが紹介されている。

読了: Valliant & Dever (2011) 任意参加型Web調査を傾向スコア調整する

Valliant, R., Dever, J.A. (2011) Estimating Propensity Adjustments for Volunteer Web Surveys. Sociological Methods & Research, 40(1), 105-137.

　非確率標本の傾向スコア調整に関する研究で頻繁に引用されている論文。私が読んだ範囲でも、えーと、Mercer, et al.(2017), Chen, Li, & Wu (2020), Rueda, Ferri-Garcia, & Castro (2020), Wu(2022), Elliott(2022)に出てきた。
　実のところ、この論文の提案はWu(2022)で結構きつめに批判されていて、たしかに変だよなという感じだったのだが、でもプロの研究者がそういう方法を提案したからにはなにがしか理由があったんじゃないのかな、とも思ったのであった。というわけで、原文に当たってみた次第。
続きを読む →

読了: Datta & Ghosh (2012) 小地域縮小推定レビュー

Datta, G., & Ghosh (2012) Small Area Shrinkage Estimation. Statistical Science, 27(1), 95-114.

　仕事の都合でMrPモデルを推定していて思ったんだけど、地域の母平均推定量は地域の標本サイズが小さいときにふつう全体の母平均推定値に向かってシュリンクしていく。これはMrP(つまり階層回帰モデル)の性質というより、小地域推定に用いられるいろんな方法に共通した性質だし(地域レベルの単純な方法、たとえばFay-HerriotモデルやJames-Stein推定量もそうだ)、他のいろんな推定でもそういうことが起きる(回帰の正則化とか)。
　小地域推定のいろんな手法を、縮小特性という角度からレビューしたものはないだろうか？と思って探してみたら、そのものずばりの論文があった。きっと私の能力を超える論文だろうなとは思ったが、試しに読んでみた。仕事を離れた勉強のつもりなので、いきなりメモを取りながら読みはじめ、嫌になったら挫折する気満々、という作戦である。
　掲載誌のこの号は”Minimax Shrinkage Estimation: A Tribute to Charles Stein”という特集号だったようだ。WikipediaによればSteinの死去は2016年。
続きを読む →

読了: Elliot(2009) 確率標本と非確率標本の結合データに疑似ウェイトを振る

Elliot, M.R. (2009) Combining Data from Probability and Non- Probability Samples Using Pseudo-Weights. Survey Practice, 2(6).

　たった7pの短い論文。この掲載誌っていったいなんだろう？オンラインジャーナルらしいけれど。まあとにかく、ときどき引用されているので読んでみた。
　傾向スコアという言葉は使っていないが傾向スコア調整の話である。google様曰く被引用回数93。
続きを読む →

読了: Ferri-Garcia & Rueda (2018) 傾向スコア調整とカリブレーションでネット調査をどうにかする実験

Ferri-Garcia, R., & Rueda, M.D.M. (2018) Efficacy of propensity score adjustment and calibration on the estimation from non-probabilistic online surveys. SORT, 42(2), 159-182.

非確率標本を傾向スコアで調整したりカリブレーションで調整したりするけどどうするのがいいのかシミュレーションで調べたよという論文。そりゃ傾向スコアでしょ、というか、共変量が良ければ勝つし、共変量に交互作用があるんなら周辺分布じゃなくて同時分布を調整したほうが勝つって話でしょ、と思ったけれど、「あとで読む」リストに入っていたので仕方なく読んだ。
　掲載誌はカタルーニャの学術誌だと思う。なぜ読もうと思ったのか思い出せないが、著者らはNonProbEstパッケージの中の人。あ、そうだ、Rueda, Ferri-Garcia, & Castro (2020)で引用されていたからリストにいれたんだった。忘れてた。
続きを読む →

読了: Meng (2018) ビッグデータにおける統計的パラダイス、そしてパラドクス

Meng, X.L. (2018) Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics, 12(2), 685-726.

　非確率標本の分析について調べていて、Meng による推定誤差の分解というのが出てきた。どこで出てきたんだっけ？えーと、Bailey(2022), Meng(2022)で出てきたようだ。他でも見かけたような気がする。
　よく理解できなかったので、referされている論文を読み始めたんだけど、偉い学者に特有の皮肉と諧謔に満ちた文章で、私にとっては死ぬほど読みにくく… 途中で疲れ切ってしまい、あえなく中断した。あーあ。
続きを読む →

読了: Cornesse et al.(2020) 確率標本と非確率標本を比較した実証研究レビュー(非確率標本をいろいろ頑張って補正してもうまくいかないことが多いです)

Cornesse, C., Blom, A.G., Dutwin, D., Krosnick, J.A., de Leeuw, E., Legleye, S., Pasek, J., Pennay, D., Phillips, B., Sakshaug, J.W., Struminskaya, B., & Wenz, A. (2020) A Review of Conceptual Approaches and Empirical Evicdence on Probability and Nonprobability Sample Survey Research. Journal of Survey Statistics and Methodology, 8, 4-36.

　調べ物のついでに読んだ奴。謝辞によればドイツの大学のワークショップの産物で、第一著者はポスドクさん、あとはアルファベット順とのこと。よくわからんが、Krosnickさんが入っているので信用できそうだなと思った次第。
続きを読む →

読了: Buelen, Burger, & van den Brakel (2018) 非確率標本で機械学習して母集団特性を当てますコンテスト

Buelens, B., Burger, J., & van den Brakel (2018) Comparing Inference Methods for Non-probability Samples. International Statistical Review, 86(2).

　仕事の都合で調べ物をしていて読んだ奴。非確率標本に基づいて母集団特性をモデルベース推測するのに機械学習を使い、手法間で成績を比較しました、という話。
続きを読む →

読了: Little, West, Boonstra & Hu (2020) 標本選択が無視不能だったら標本にはこのくらいのバイアスがあるでしょうということを示す指標

Little, R.J.A., West, B.T., Boonstra, P.S., & Hu, J. (2020) Measures of the Degree of Departure from Ignorable Sample Selection. Journal of Survey Statistics and Methodology, 8(5), 932–964.

　非確率標本からの母集団特性推定についてあれこれ調べていて、たまたま見つけた論文。たいていの手法は、母集団の個体が標本に包含されないということを欠損と捉えたときにその欠損が調査変数にとってMARであることを想定してバイアスを取り除こうとするのだが(傾向スコアであろうがMRPであろうがそうです)、この論文は珍しく、MNARであることを前提にして、バイアスをどう取り除いたらいいのかわからんけれどどのくらいの大きさのバイアスがありそうかを推定します、という話である。
　なんだかややこしそうな話ではあるが、第一著者はLittle先生。話は難しいけれど書き方はわかりやすい先生だ、というぼんやりした信頼感がある。
続きを読む →

読了: Chrostowski, Chlebicki, & Beresewicz (2025) 非確率調査データ分析のためのいまどきの手法を詰め込んだRパッケージnonprobsvy

Chrostowski, L., Chlebicki, P., & Beresewicz, M. (2025) nonprobsvy – An R Package for modern methods for non-probability surveys. arXIv.

　非確率標本に基づく母集団特性の推定のためのRパッケージとして、CRAN Task Viewの “Official Statistics & Survey Statistics“には、NonProbEstパッケージとnonprobsvyパッケージというのが載っている。前者についてはR Journalに記事があった。後者のvignetteにあたるらしきプレプリントを見つけたので読んでみた。こっちのほうが新しい機能を積んでいるようだ。
続きを読む →

読了: Chen, Li, & Wu (2020) 非確率標本からの二重頑健推定

Chen, Y., Li, P., & Wu, C. (2020) Doubly Robust Inference With Nonprobability Survey Samples. Journal of the American Statistical Association.

相変わらず非確率標本からの母集団特性推定について調べているのだけれど、このたびは、先日読んだ Wu(2022)でフィーチャーされていた、Wuさんチームの論文を読んでみた。筆頭著者は博士課程の院生さん。
続きを読む →

読書日記

読んだ本を淡々と記録します