論文:データ解析」カテゴリーアーカイブ

読了: Sonner, Aislie, & Otther (2007) コンジョイント分析で属性のWTPを推定したいとき、価格の効用を真面目に推定したほうが良いか、いっそ傾き1に固定しちゃった方が良いか

Sonnier, G., Ainslie, A., Otther, T. (2007) Heterogeneity distributions of willingness-to-pay in choice models. Quantitative Marketing and Economics, 5, 313–331.

 仕事の足しになるかと思って読んだ奴。Googleさんいわく被引用件数223。経済学の論文としては、これって多いほうなんですかね?
 最初なにいってんだかわかんなくなって混乱したんだけど、ここでいっているWTPというのは製品そのものに対する支払意思額のことではなく、価格以外の属性の部分効用の増分を価格に換算した値のことである(たとえば、同じ製品がブランドBじゃなくてAだったらいくら多めに払うか)。
続きを読む

読了: Sisson & Fan (2011) 尤度を使わないMCMC

Sisson, S.A., Fan, Y. (2021) Likelihood-Free MCMC. in Brooks, S., et al.(eds) “Handbook of Markov Chain Monte Carlo,”, CRC Press.

 尤度フリーMCMCについての解説。いま仕事の関係で悩んでいることについて、ちょっとした手がかりでも得られるかも、と思って目を通した。高い本を買っちゃったから無理にでもモトを取らなくちゃ、というのがもう一つの動機である。
続きを読む

読了: Chib & Greenberg (1995) Metropolis-Hastingsアルゴリズム解説

Chib, S., Greenberg, E. (1995) Understanding the Metropolis-Hastings Algorithm. American Statistician, 327-335.

 MCMCの古典的手法であるMetropolis-Hastingsアルゴリズムについての解説。Hitchcock(2003) によれば、この手法の普及させる立役者となった論文なのだそうだ。
 現在では日本語でも優れた解説が山のようにあるのに、いまになってこれを読んでいるのは無駄なような気もするんだけど… なんとなく目を通してしまった。
続きを読む

読了: Hitchcock (2003) MCMCの歴史

Hitchcock, D.B. (2003) A History of the Metropolis-Hastings Algorithm. American Statistician, 57(4), 254-257.

 仕事の都合で柄にもなくMCMCについて調べているのだけれど、なにしろ数学の知識がないので到底歯が立たない。いったいボレル測度ってなによ!? どれだけ短期間に値上げできるかってことですか!? (それはぼれる速度だ)

 ついつい現実逃避で、こんなのを読んじゃったりして、メモまでとっちゃったりなんかして…
続きを読む

読了:De’ath (2002) 多変量回帰木のご提案

 Rで決定木・回帰木モデルをつくるとき、標準のrpart::rpart()を使ってもいいし、他にもパッケージが山ほどある。なのに、巷の解説をみると、なぜかmvpartパッケージを使って説明していることが多い。すでに公開停止されたパッケージなのに、なぜか今でも広く使われているように思う。なぜだろう? そんなに使いやすいわけでもないんですけど。
続きを読む

読了:Therneau, Atkinson & Mayo Foundation (2022) Rのrpartパッケージによる決定木・回帰木の舞台裏

Therneau, T.M., Atkinson, E.J., Mayo Foundation (2022) An Introduction to Recursive Partitioning Using the RPART Routines. Octover 21, 2022.

 決定木・回帰木を提供するRの標準パッケージrpartのビネット。たまにこのパッケージを使うとき、パラメータの意味を忘れちゃってて混乱するので、このたび目を通した。
続きを読む

読了: Jacomy, et al. (2014) 俺たちが開発したForceAtlas2はネットワーク・グラフをどのように視覚化しているか

Jacomy, M., Venturini, T., Heymann, S., Bastian, M. (2014) ForceAtlas2, a Continuous Graph Layout Algorithm for Handy Network Visualization Designed for the Gephi Software. PLoS One, 9(6), e98679.

 たまに仕事の都合でネットワーク・グラフを描くことがあるんだけど、あれはホントに怖い。ノードの位置やエッジの太さ・色などの非本質的な視覚的要素によって、ユーザが図から受ける印象ががらっと変わってしまう。正直、データの視覚化手法としては危険すぎると思うこともある。
 ノードの位置を決めるアルゴリズムもいろいろあって困ってしまう。適切なアルゴリズムを選ぶのはなかなか難しいし、個々のアルゴリズムについて理解する時間も体力もないけれど、せめてよく使う奴については、中でなにをやっているのかを知っておきたいものだ。
続きを読む

読了:北條・岡田 (2018) アンカリング・ビネットを使って反応スタイルを分類する

北條大樹、岡田謙介(2018) 係留ビネット法による反応スタイルの分類:ヨーロッパの大規模健康調査を例に. 行動計量学, 45(1), 13-25.
 
 anchoring vignetteについての論文。以前ざっと目を通したんだけど、今回仕事の都合で再読。
続きを読む

読了: Tsai & Bockenholt (2002) 2レベル線形一対比較モデルの推定と識別性

Tsai, R.C, Bockenholt, U. (2002) Two-level linear paired comparison models: estimation and identifiability issues. Mathematical Social Sciences. 43, 429-449.

 もういいかげんうんざりしているのだけれど、ひきつづき一対比較の論文である。
 Thurstonian一対比較モデルの識別性について論じている Tsai(2003) で、ペア特有誤差の分散が一定なときの識別条件についてこの論文がreferされていたので、読んでみた。なお、Tsai(2003)ではペア特有誤差の分散を制約しない識別条件がこの論文に頼らずに示されているし、ペア特有誤差がないときの識別条件ならTsai(2000) にわかりやすい導出があるので、べつにこれを読む必要はないんだけど、毒も喰らわば皿まで、ということで…
続きを読む

読了: Tsai (2000) 順位付けデータに選好の個人差があるThurstonianモデルを当てはめるときの識別性について

Tsai, R.C. (2000) Remarks on the Identifiability of Thurstonian Ranking Models: Case V, Case III, or Neither? Psychometrika, 65(2), 233-240.

 サーストンの一対比較モデルを複数の回答者に拡張したときのモデルの識別条件について調べていたんだけど、そのものずばりであるTsai(2003)がなかなか難しく、著者の前の論文に遡って読んでみた。ここでは完全順位付け課題について考えており、選択誤差を考えないので話がよりシンプルである。
続きを読む

読了: Asparouhov & Muthen (2010) Mplusにおけるベイズ推定の内部事情

Asparouhov, T., Muthen, B. (2010) Bayesian Analysis Using Mplus: Technical Implementation. Mplus Technical Appendices.

 Mplusのベイズ推定についての技術資料。共分散行列の事前分布を指定する方法について考えていたらわけがわからなくなり、遡って読んでみた。いささか古いテクニカル・ペーパーなのでこれまで無視していたんだけど…
 膨大な内容のうちいま必要な部分に目を通しただけなので、実のところ読了とは言いがたいが、たぶん死ぬまで読み終えることはないだろうから、心の整理の都合上、読了ということにしておく。読了とはかくも柔軟な概念なのだ。
続きを読む

読了: Roy (2020) MCMC収束診断レビュー

Roy, V. (2020) Convergence Diagnostics for Markov Chain Monte Carlo. The Annual Review of Statistics and Its Application, 7(15), 1-26.

 仕事の都合でちょっと悩んだことがあって、現実逃避のために読んだ奴。
 題名通り、MCMCの収束診断についてのレビューである。正直、そんなに関心ある話題ではないのに、そしてすでにVats, et al.(2020), BDA3の該当部分を読んでいるのに、私にしては勉強熱心なことだ…
続きを読む

読了: Goncalves et al. (2017) BarkerアルゴリズムによるMCMC

Goncalves, F.B, Latuszynski, K., Roberts, G.O. (2017) Barker’s algorithm for Bayesian inference with intractable likelihoods. Brazilian Journal of Probability and Statistics. 31(4). 732-745.

 本来私なんかが読むような論文じゃないんだけど、ちょっと事情があって前半部分のみ目を通した。すいません、すいません…
 えーと、MCMCではイテレーションのたびに移動を受理するかどうか確率的に決めるじゃないですか。受理の確率を求めるために、MHアルゴリズムの場合だと密度比とかいう式を使いますわね。でもあの式の代わりに別の式を使おうという話があって、そのひとつとしてBarkerのアルゴリズムというのがあるのだそうだ。この論文はその解説。
 2023/04/18追記: arXivに上がってたドラフトを読んでたんだけど、公刊されているのをみつけたので、そちらを読み直した。
続きを読む

読了: Merkle, et al. (2021) blavaanパッケージはもはや潜在変数をサンプリングしないことにしたよ。Stanコードをいちいちコンパイルするのもやめたよ

 ここんところ仕事に家事に疲弊していて、残り時間はひたすらぼーっと過ごしていた。時間蠅は矢を好むということわざの通りである。(← 疲れているとろくなことを書かない)

Merkle, E.C., Fitzsimmons, E., Uanhoro, J. Goodrich, B. (2021) Efficient Bayesian Structural Equation Modeling in Stan. J. Statistical Software, 100, 1-22.

 Rのblavaanパッケージ、というのはつまりはSEMのための定番パッケージのひとつlavaanのベイズ版なんだけど、その紹介。実戦投入する前の儀式として読んだ。本論文の前にMerkle & Rosseel (2018, 同誌)というのがあるんだけど、そっちはめんどくさいのでパス。
 私はMplusの忠実な信者なので、lavaan/blavaanなど無視してMplusのみと戯れるシンプルライフを送りたいのだが、なかなかそうも云ってられない事情がある。
続きを読む

読了:Thompson (2018) サーヴェイデータ結合についてのレビュー

Thompson, M.E. (2018) Combining Data from New and Traditional Sources in Population Surveys. International Statistical Review, 87. S79-S89.

 これも仕事の都合で読んだ奴。サーヴェイデータをセンサスとか管理データと結合するという話のレビューである。
 Google様いわく、被引用回数12件。渋い.. 渋いなあ…
続きを読む

読了:Rao (2020) 非確率標本に基づく統計的推測手法レビュー

Rao, J.N.K. (2020) On Making Valid Inferences by Integrating Data from Surveys and Other Sources. Sankhya B: The Indian Journal of Statistics. 83, 242–272.

 これも仕事の都合で読んだ奴。非確率標本に基づく推測に焦点を当てたレビュー。
 ふだんなら読まないジャーナルだけど、著者が小地域推定で知られるラオ先生とあっては目を通さざるを得まい…と思った次第。
続きを読む

読了: Little(2011) Calibrated Bayesアプローチからみた欠損データ分析

Little, R. (2011) Calibrated Bayes, for Statistics in General, and Missing Data in Particular (with comments and a rejoinder). Statistical Science, 26(2), 162-186.

 統計学者Little先生があちこちで提案している Calibrated Bayes アプローチについて調べていて、その一環として読んだ奴。
 良く引用されるLittle(2011)は2012年にメモをとりながら読んでいたのだが、私には話が大きすぎ、いまいち雲をつかむような感じでよく分からなかった。この論文は「欠損データ」と問題が狭く指定されているので、もう少しわかりやすいかと思ったのだが…
続きを読む