2022年の秋から冬にかけて、仕事の都合で延々と一対比較課題の分析のことを考えていたのだけれど(官能評価みたいな伝統的モデルじゃなくて、個人レベル効用を推定したい場合の話)、とにかくややこしいのは識別性の話である。何本か論文を読んだり、あれこれ考えたりはしたんだけれど、どうも俺は選択モデルの基礎がわかってないな… という後ろめたさがある。
毎度の疑問ですが、こういうのって皆さんどこで習ってんですかね、いったい。巷のデータサイエンティスト養成コースとかで教えてくれるんでしょうか。そんならぜひ習いたい。実践演習とかいいからさ、基礎を教えてくださいよ、基礎を。
続きを読む
「雑記:データ解析」カテゴリーアーカイブ
覚え書き:逆ウィシャート事前分布のパラメータの決め方
仕事の都合で、分散共分散行列に情報的な逆ウィシャート事前分布を与えるとき、そのパラメータをどう解釈したらいいのかがわからずに困っていた。いろいろ探した結果、なんと灯台もと暗し、Muthen一家の若頭Asparouhovさんが、哀れなMplusユーザ向けに親切な解説を書いてくれていた。
続きを読む
覚え書き:一対比較法関係の論文メモ
今年の夏ごろだったか、仕事の都合で、調査における一対比較法について考えていた時期があった。で、このたび都合で再び一対比較法のことを考える羽目になったが、このブログを見返すと、あれ、こんな論文読んでたっけ? と思うものが多い。三歩歩くとすべてを忘れてしまうのだ。
というわけで、このブログに記録したメモに限定し、一対比較法関連の論文メモをリストアップしておく。
続きを読む
覚え書き:私が考えた最強のRパッケージ作成方法 (2022年12月版)
仕事の都合でRパッケージを作ることがあるんだけど、そのたびに作り方を忘れていることに気づき右往左往する羽目になる。自分のための覚え書きとして、Rパッケージをつくるための手順をメモしておく。
あくまでの私のためのメモなので、レベルの低さに驚愕したとしても、内緒にしておいてください。
続きを読む
覚え書き: BDA3 1.3 BDA3を読もうとするおまえらが知っておくべき確率論の基礎知識
仕事の都合で、先日からベイズ統計学の有名な解説書BDA3をちまちまと読んでるんだけど、痛感するのは基礎学力のなさである。ほんとにね、私がこんな本読まなきゃいけない社会はどうかしていると思う。適材は適所に置くべきだ。私は寝るのに向いている。
BDA3自体はなかなか親切な本で、大事なことはなんども説明してくれるし、それほど高レベルな知識を要求しているわけでもない。むしろ、必要な知識を前半部分でおさらいしてくれているからこそ、分厚い本になっているのである。従って、途中の章をいきなり読むと、私のように途方にくれることになる。
というわけで、以下の節よりメモ。原文は2頁ちょっとしかない。
Gelman, A. et al.(2014) Bayesian Data Analysis, Third Edition. Section 1.8 Some usefull results from probability theory.
続きを読む
覚え書き: BDA3 Chap.12 計算効率の良いマルコフ連鎖シミュレーション
引き続き、BDA3のメモ。
Gelman, A. et al.(2014) Bayesian Data Analysis, Third Edition. Chapter 12. Computationally efficient Markov chain simulation.
計算に関わる解説10-13章のうち中盤戦。いよいよHMCが登場する。
実をいうと、これまで何度かHMCについて勉強しようと試みたことがあったのだが、そのたびに挫折していたのである。とにかくですね、物理学の用語が出てくると心が折れるのである。高校時代のトラウマかしらん。
幸い本章は、HMCについても物理学ぬきで説明して下さる模様である。はい深呼吸して…
続きを読む
覚え書き: BDA3 Chap.11 マルコフ連鎖シミュレーションの基礎
引き続き、BDA3のメモ。
Gelman, A. et al.(2014) Bayesian Data Analysis, Third Edition. Chapter 11. Basics of Markov chain simulation.
計算に関わる解説10-13章のうち序盤戦、11章である。MHアルゴリズムまで出てくるが、HMCはまだ出てこない。いやー、計算の話って苦手なもので、どこまでついていけるものか、冷や汗が出ますね。
原文はマルコフ連鎖シミュレーションという表現を好んで使っているんだけど、字数が多いので、このメモではMCMCと書く。またメトロポリス-ヘイスティングスはMHと書く。
続きを読む
覚え書き: BDA3 Chap.10 ベイジアン計算入門
中年男のぼやきというのは果てしないものだが、私の場合、仕事しててつくづく思うのは基礎学力の足りなさである。どこがどう足りないのかは面倒なので書きませんけど、それはもうね、辛いものです。
わざわざデータ・サイエンティスト(っていうんですか?)を目指そうという物好きな方々に、私は言いたい。あほかと。ばかかと。いい年こいて勉強を続けなきゃいけないってのがどういう地獄なのか、ほんとにわかってんのかと。
というわけで、時折発作的に「俺の知識には抜け漏れがある…!」「勉強しなきゃ…!」という焦燥感に駆られて、愛する布団からガバリと跳ね起き、小難しい本をメモをとりながら読んだりする次第である。
以下もそのようにしてとったメモである。
Gelman, A. et al.(2014) Bayesian Data Analysis, Third Edition. Chapter 10, Introduction to Bayesian computation.
この大著の10-13章は計算の話に割かれており、本章はそのイントロにあたる短めの章である。わたくし、苦手なんです、計算の話。
続きを読む
データフレームの行ごとに処理をするRコードをどう書くか in 2021
特に趣味とかもないもので、せっかくの日曜の朝なのに、仕事の都合で書いたコードを見直していた次第である。つまらない人生だ。
で、自分が書いたRコードを眺めていてふと思ったんだけど、「ここどう書こうかな…」と考えあぐねることが多い場面のひとつとして、「データフレームの行ごとに処理をする」場面があると思う。
続きを読む
Rのdplyrパッケージでプログラミングするときの注意点 2021
Rのdplyrパッケージを使っていて困ることのひとつに、非標準評価(NSE)をめぐるトラブルがある。いざ困ったときにすぐ調べられるように、以前、dplyrのvignettesのひとつ”Programming with dplyr“を通読してメモを取った。
ところがdplyrの仕様はあれこれ変わり、このvignetteの中身もすっかり変わってしまった。考えてみたら、前に目を通したのは2017年だもんな。あのころの私は若かった。[すいませんいまちょっと適当なことをいいました]
続きを読む
どうでもよい覚え書き:McNemar検定と「対応のあるZ検定」
これは仕事のための単なる覚え書きで、面白くも何ともない話であります。
ごくごく教科書的な標準的知識でも、分野が違うとその分野に特化した表現となり、ちょっと面食らうことがある。そんなことありませんか? ありますよね?
個人的な思い出話だけど、市場調査の会社に拾って頂いて、おまえ大学でなんか教えてたんだから統計学できるんだろ、というのでいろいろ訊かれるようになったんだけど(おまえ日本人だからカラテできるだろうというのと似ている)、ごく平凡な手法について訊ねられたのに見たこともない式を示されて、アレッ、と面食らったことがあった。
続きを読む
RでARIMAモデルを推定するときの定数項の指定(driftってなんのこと?)
仕事でたまーにARIMAモデルを推定することがあるんだけど、そのたびに「いま推定してるモデルって、どんな定数項が入っているんだろう…」とちょっと混乱してしまう。じっくり考えればわかるんだけど、あいにく単変量のARIMAモデルというのは、(自分の仕事のなかでは) 深く考えずにちゃちゃっと推定する場面が多く、考えている時間がないことが多い。時計を睨みながらキーボード叩いているようなときに、いちいちマニュアルなど調べたくないじゃないですか。
というわけで、このたびイライラが募り、メモを取った。
続きを読む
カテゴリカル因子分析において因子得点をどうやって求めるのか
カテゴリカル変数について因子分析をしたとき、その因子得点ってどうやって求めるの? いや、ベイズ推定のときにシミュレーションで求めるのは知っているけど(plausible valuesっていうんでしたっけ)、そうじゃなくて頻度主義的に求めたときには…
仕事の都合で上記の疑問を抱き、構造方程式モデリングのソフトウェア Mplus の技術文書を読んでみたんだけど、途中でさらに別の文書に遡る羽目になり、ずいぶん時間がかかってしまった。
以下は Mplus Technical Appendix 11. Estimation of Factor Scoresのメモである。Mplus ver.3の頃の古い文書であり、パラメータのベイズ推定量の話は出てこない。
続きを読む
Mplus は計算するときモデルをどのように再定式化しているか
構造方程式モデリングのソフトウェア Mplus を使っていて、よくわからないことが起きて解説を辿っていくと、最終的にすごく基礎的な説明までさかのぼることになり、難しすぎて断念することがある。今回も仕事の都合で、ちょっとそういうことが起きかけて、大変イライラしたので仕事を放りだし、初期の技術文書をメモを取りながら読んだ。
以下は Mplus Technical Appendix 2. The general modeling framework からのメモである。Mplus ver.3の頃の古い文書なので(Mplusの最新版は8.5)、当然ながらベイジアンな話は出てこない。
続きを読む
読めばいやでもわかる、逆二項抽出標本からの母比率の不偏推定
要約
「ある属性を持つ人が\(x\)人に達するまで標本抽出を続ける」方式の標本抽出で標本サイズが\(n\)になったとき、その属性を持つ人の母比率\(p\)の不偏推定量は、\(x/n\)ではなく\((x-1)/(n-1)\)である。
続きを読む
MCMCの収束診断に使うPSRとESSについて
仮説の事後確率をBICで評価する(Wagenmakers, 2007より)
ベイズ・ファクターのBICによる近似についてなんだかよくわかんなくなっちゃったので、ちょっとメモしておく。
出典は
Wagenmakers, E.J. (2007) A practical solution to the pervasive problems of p values. Psychonomic Bulletin & Review, 14(5), 779-804.
この論文は前に目を通したんだけど(なんと4年前だ)、長い論文だし、途中で飽きてしまって適当に読み飛ばしていた。
続きを読む
購入頻度が負の二項分布に従うと考えられているのはなぜか
消費者パネルの購買データを真夜中にコリコリと集計しながらあれこれ考えていて、なんだか混乱しちゃったので書いたメモを載せておく。
よく、顧客の月あたり購入回数の分布は負の二項分布に従う、とかっていうじゃないですか。いかにも「そんなの常識ですよね」というような顔で。頭のいい人のそういうとこ、まじでむかつく。
というわけで、以下、自分向けの易しい説明である。
続きを読む