「論文：データ解析」カテゴリーアーカイブ

読了: Marra & Radice (2017) 未観察の交絡がある？非確率標本？ふたつの二値アウトカムの両方が1かそうでないかしか測定してない？よろしい、RのGJRMパッケージで二変量二値回帰モデルを組みなさい

Marra, G. & Radice, R. (2017). A joint regression modeling framework for analyzing bivariate binary data in R. Dependence Modeling, 5(1), 268-294.

　先日から非確率標本で母集団を推定するという話についてあれこれ調べているんだけど、たいていの話は共変量の下での標本選択と目的変数の独立性、つまり欠損データ分析でいうところのMARを前提としていて、MNARモデルの話はなかなか出てこない。でも、そういうのもありそうじゃんね？考えてみたらHeckmanモデルとかそうじゃんね？
　などと思いながらRパッケージを眺めていたら、GJRMパッケージというのが怪しげである。というわけで、実戦投入の予定はないが、vignetteに相当するであろう論文を読んでみた。掲載誌はみたこともない謎の雑誌だが、版元はDe Gruyterなので、そんなに変な雑誌ではないだろう。
続きを読む →

読了: 星野・前田 (2006) ネット調査を傾向スコアで調整する in 2006

星野崇宏・前田忠彦(2006) 傾向スコアを用いた補正法の有意抽出による標本調査への応用と共変量の選択法の提案. 統計数理, 54(1), 191-206.

　非確率調査の傾向スコア補正について日本語で書かれた代表的な論文。すでに読んでいたが、このたび都合により読み直した。
　このたび同趣旨の論文をあれこれ読んでいるのだが、2006年というのは初期に属すると思う。この年、私なにしてたっけ… あれこれあって路頭に迷った末、新聞広告でみた市場調査会社様に拾っていただいたら、これがイケイケの伸び盛りの会社で、思いのほか忙しくて後悔していた時期、かな…
続きを読む →

読了: Cobo, Ferri-Garcia, Rueda-Sanchez, & Rueda (2024) 非確率標本のためのR/Pythonパッケージ

Cobo, B, Ferri-Garcia, R., Rueda-Sanchez, J.L,, Rueda, M.D.M. (2024) Software review for inference with non-probability surveys. The Survey Statistician, 90, 40-47.

　非確率調査のためのR/Pythonパッケージの紹介記事。あ、著者らはNonProbEstパッケージの中の人ではなかろうか。掲載誌についてはよくわからないが、学会の会報みたいな感じだ。
　RのNonProbEstパッケージ, nonprobsvyパッケージ、nppRパッケージ (CARTによる傾向スコアモデル、二重頑健推定量を提供)、KWMLパッケージ(機械学習によるウェイティングを提供)、Pythonのinpsパッケージが紹介されている。

読了: Valliant & Dever (2011) 任意参加型Web調査を傾向スコア調整する

Valliant, R., Dever, J.A. (2011) Estimating Propensity Adjustments for Volunteer Web Surveys. Sociological Methods & Research, 40(1), 105-137.

　非確率標本の傾向スコア調整に関する研究で頻繁に引用されている論文。私が読んだ範囲でも、えーと、Mercer, et al.(2017), Chen, Li, & Wu (2020), Rueda, Ferri-Garcia, & Castro (2020), Wu(2022), Elliott(2022)に出てきた。
　実のところ、この論文の提案はWu(2022)で結構きつめに批判されていて、たしかに変だよなという感じだったのだが、でもプロの研究者がそういう方法を提案したからにはなにがしか理由があったんじゃないのかな、とも思ったのであった。というわけで、原文に当たってみた次第。
続きを読む →

読了: Datta & Ghosh (2012) 小地域縮小推定レビュー

Datta, G., & Ghosh (2012) Small Area Shrinkage Estimation. Statistical Science, 27(1), 95-114.

　仕事の都合でMrPモデルを推定していて思ったんだけど、地域の母平均推定量は地域の標本サイズが小さいときにふつう全体の母平均推定値に向かってシュリンクしていく。これはMrP(つまり階層回帰モデル)の性質というより、小地域推定に用いられるいろんな方法に共通した性質だし(地域レベルの単純な方法、たとえばFay-HerriotモデルやJames-Stein推定量もそうだ)、他のいろんな推定でもそういうことが起きる(回帰の正則化とか)。
　小地域推定のいろんな手法を、縮小特性という角度からレビューしたものはないだろうか？と思って探してみたら、そのものずばりの論文があった。きっと私の能力を超える論文だろうなとは思ったが、試しに読んでみた。仕事を離れた勉強のつもりなので、いきなりメモを取りながら読みはじめ、嫌になったら挫折する気満々、という作戦である。
　掲載誌のこの号は”Minimax Shrinkage Estimation: A Tribute to Charles Stein”という特集号だったようだ。WikipediaによればSteinの死去は2016年。
続きを読む →

読了: Elliot(2009) 確率標本と非確率標本の結合データに疑似ウェイトを振る

Elliot, M.R. (2009) Combining Data from Probability and Non- Probability Samples Using Pseudo-Weights. Survey Practice, 2(6).

　たった7pの短い論文。この掲載誌っていったいなんだろう？オンラインジャーナルらしいけれど。まあとにかく、ときどき引用されているので読んでみた。
　傾向スコアという言葉は使っていないが傾向スコア調整の話である。google様曰く被引用回数93。
続きを読む →

読了: Ferri-Garcia & Rueda (2018) 傾向スコア調整とカリブレーションでネット調査をどうにかする実験

Ferri-Garcia, R., & Rueda, M.D.M. (2018) Efficacy of propensity score adjustment and calibration on the estimation from non-probabilistic online surveys. SORT, 42(2), 159-182.

非確率標本を傾向スコアで調整したりカリブレーションで調整したりするけどどうするのがいいのかシミュレーションで調べたよという論文。そりゃ傾向スコアでしょ、というか、共変量が良ければ勝つし、共変量に交互作用があるんなら周辺分布じゃなくて同時分布を調整したほうが勝つって話でしょ、と思ったけれど、「あとで読む」リストに入っていたので仕方なく読んだ。
　掲載誌はカタルーニャの学術誌だと思う。なぜ読もうと思ったのか思い出せないが、著者らはNonProbEstパッケージの中の人。あ、そうだ、Rueda, Ferri-Garcia, & Castro (2020)で引用されていたからリストにいれたんだった。忘れてた。
続きを読む →

読了: Meng (2018) ビッグデータにおける統計的パラダイス、そしてパラドクス

Meng, X.L. (2018) Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics, 12(2), 685-726.

　非確率標本の分析について調べていて、Meng による推定誤差の分解というのが出てきた。どこで出てきたんだっけ？えーと、Bailey(2022), Meng(2022)で出てきたようだ。他でも見かけたような気がする。
　よく理解できなかったので、referされている論文を読み始めたんだけど、偉い学者に特有の皮肉と諧謔に満ちた文章で、私にとっては死ぬほど読みにくく… 途中で疲れ切ってしまい、あえなく中断した。あーあ。
続きを読む →

読了: Cornesse et al.(2020) 確率標本と非確率標本を比較した実証研究レビュー(非確率標本をいろいろ頑張って補正してもうまくいかないことが多いです)

Cornesse, C., Blom, A.G., Dutwin, D., Krosnick, J.A., de Leeuw, E., Legleye, S., Pasek, J., Pennay, D., Phillips, B., Sakshaug, J.W., Struminskaya, B., & Wenz, A. (2020) A Review of Conceptual Approaches and Empirical Evicdence on Probability and Nonprobability Sample Survey Research. Journal of Survey Statistics and Methodology, 8, 4-36.

　調べ物のついでに読んだ奴。謝辞によればドイツの大学のワークショップの産物で、第一著者はポスドクさん、あとはアルファベット順とのこと。よくわからんが、Krosnickさんが入っているので信用できそうだなと思った次第。
続きを読む →

読了: Buelen, Burger, & van den Brakel (2018) 非確率標本で機械学習して母集団特性を当てますコンテスト

Buelens, B., Burger, J., & van den Brakel (2018) Comparing Inference Methods for Non-probability Samples. International Statistical Review, 86(2).

　仕事の都合で調べ物をしていて読んだ奴。非確率標本に基づいて母集団特性をモデルベース推測するのに機械学習を使い、手法間で成績を比較しました、という話。
続きを読む →

読了: Little, West, Boonstra & Hu (2020) 標本選択が無視不能だったら標本にはこのくらいのバイアスがあるでしょうということを示す指標

Little, R.J.A., West, B.T., Boonstra, P.S., & Hu, J. (2020) Measures of the Degree of Departure from Ignorable Sample Selection. Journal of Survey Statistics and Methodology, 8(5), 932–964.

　非確率標本からの母集団特性推定についてあれこれ調べていて、たまたま見つけた論文。たいていの手法は、母集団の個体が標本に包含されないということを欠損と捉えたときにその欠損が調査変数にとってMARであることを想定してバイアスを取り除こうとするのだが(傾向スコアであろうがMRPであろうがそうです)、この論文は珍しく、MNARであることを前提にして、バイアスをどう取り除いたらいいのかわからんけれどどのくらいの大きさのバイアスがありそうかを推定します、という話である。
　なんだかややこしそうな話ではあるが、第一著者はLittle先生。話は難しいけれど書き方はわかりやすい先生だ、というぼんやりした信頼感がある。
続きを読む →

読了: Chrostowski, Chlebicki, & Beresewicz (2025) 非確率調査データ分析のためのいまどきの手法を詰め込んだRパッケージnonprobsvy

Chrostowski, L., Chlebicki, P., & Beresewicz, M. (2025) nonprobsvy – An R Package for modern methods for non-probability surveys. arXIv.

　非確率標本に基づく母集団特性の推定のためのRパッケージとして、CRAN Task Viewの “Official Statistics & Survey Statistics“には、NonProbEstパッケージとnonprobsvyパッケージというのが載っている。前者についてはR Journalに記事があった。後者のvignetteにあたるらしきプレプリントを見つけたので読んでみた。こっちのほうが新しい機能を積んでいるようだ。
続きを読む →

読了: Chen, Li, & Wu (2020) 非確率標本からの二重頑健推定

Chen, Y., Li, P., & Wu, C. (2020) Doubly Robust Inference With Nonprobability Survey Samples. Journal of the American Statistical Association.

相変わらず非確率標本からの母集団特性推定について調べているのだけれど、このたびは、先日読んだ Wu(2022)でフィーチャーされていた、Wuさんチームの論文を読んでみた。筆頭著者は博士課程の院生さん。
続きを読む →

読了: Valliant (2020) 非確率標本で母集団特性を推定する手法のエキジビジョン・マッチ

Valliant, R. (2020) Comparing Alternatives for Estimation from Nonprobability Samples. Journal of Survey Statistics and Methodology, 8, 231-263.

　非確率標本に基づいて母集団特性を推測する手法をシミュレーションで比較しましたという論文。
続きを読む →

読了: Rueda, Ferri-Garcia, & Castro (2020) 非確率標本のためのRパッケージNonProbEst

Rueda, M., Ferri-García, R., & Castro L. (2020) The R package NonProbEst for estimation in non-probability surveys. The R Journal, 12(1), 406-418.

　ここんとこ非確率標本に基づく推定の話を調べていて、含蓄の深い話が続いて心底くたびれた。リハビリのため、あまり深い話が出てこないであろう資料を手に取った。
　非確率標本のためのRパッケージNonProbEstの紹介記事。要はソフトの機能紹介で、後半はコード例である。癒されるねえ。
続きを読む →

読了: Zhang (2019) 非確率標本に基づく記述的推論

Zhang, L.C. (2019) On valid descriptive inference from non-probability sample. Statistical Theory and Related Fields, 3(2), 103-113.

　都合により読んだ論文。なぜ読んだかというと、これの直前に読んだMeng(2022)がこれを読めと云っていたからである。嗚呼、素直な私。いずれ特殊詐欺とかに騙されるんじゃなかろうか。
続きを読む →

読了: Wu (2022) 非確率標本による統計的推論 (質疑応答編パートII)

Meng, X.L. (2022). Comments on “Statistical inference with non-probability survey samples” – Miniaturizing data defect correlation: A versatile strategy for handling non-probability samples. Survey Methodology, 48(2), 339-360.

非確率標本の分析についてのレビュー論文 Wu(2002) に寄せられた5人の識者によるコメントと著者の返答のうち、4人までは読んだんだけど、残る一人分はコメントとは思えない大論文になっている。こうなったら意地で読むしかない。
続きを読む →

読了: Wu (2022) 非確率標本による統計的推論 (質疑応答編パートI)

Bailey, M.A. (2022) Comments on “Statistical inference with non-probability survey samples” – Non-probability samples: An assessment and way forward. Survey Methodology, 48(2), 313-318.
Elliott, M.R. (2022) Comments on “Statistical inference with non-probability survey samples”. Survey Methodology, 48(2), 319-329.
Lohr, S.L. (2022). Comments on “Statistical inference with non-probability survey samples”. Survey Methodology, 48(2), 331-338.
Wang, Z. & Kim, J.K. (2022) Comments on “Statistical inference with non-probability survey samples”. Survey Methodology, 48(2), 361-366.

　カナダ統計局のSurvey Methodology誌に載った、非確率標本の分析についてのレビュー論文 Wu(2002) には、5人の識者によるコメントと著者の返答が付いている。以下はそのうち4人についてのメモ。残るMengさんのコメントは、20頁近い大論文になってしまっているので、別のエントリで。

　読み返してみるとなんだか喧嘩しているように見えて面白い。論文へのコメンタリーというものはかなりの行数を使って元論文の良いところを挙げるものだが、そういうのは全部端折ってメモしているので、そうみえるのである。いいぞ、もっとやれ。
続きを読む →

読了: Wu (2022) 非確率標本による統計的推論 (レビュー編)

Wu, C. (2022) Statistical Inference with Non-probability survey samples. Survey Methodology, 48(2), 283-311.

　仕事の都合で読んだ奴。非確率標本からの母集団特性推定についての研究レビュー。掲載誌はカナダ統計局の発行。
　本文は35ページ、その後5人の論者による質疑応答がついて、全部で100ページ近い。いや、読みますよ、読みますけどね、いろいろ辛いなあ。
続きを読む →

読了: Sigmund & Ferstl (2019) パネルVARモデルのRパッケージpanelvar、その全内幕

Sigmund, M., & Ferstl, R. (2019) Panel vector autoregression in R with the package panelvar. The Quarterly Review of Economic and Finance.

パネルVAR(ベクトル自己回帰)モデルのためのRパッケージpanelvarの解説。先日、仕事で使おうかなと思う用事があったので、試しにめくった次第。もちろん細かいところは全然理解できていない。
続きを読む →

読書日記

読んだ本を淡々と記録します