雑記:データ解析」カテゴリーアーカイブ

データフレームの行ごとに処理をするRコードをどう書くか in 2021

 特に趣味とかもないもので、せっかくの日曜の朝なのに、仕事の都合で書いたコードを見直していた次第である。つまらない人生だ。
 で、自分が書いたRコードを眺めていてふと思ったんだけど、「ここどう書こうかな…」と考えあぐねることが多い場面のひとつとして、「データフレームの行ごとに処理をする」場面があると思う。
続きを読む

Rのdplyrパッケージでプログラミングするときの注意点 2021

 Rのdplyrパッケージを使っていて困ることのひとつに、非標準評価(NSE)をめぐるトラブルがある。いざ困ったときにすぐ調べられるように、以前、dplyrのvignettesのひとつ”Programming with dplyr“を通読してメモを取った
 ところがdplyrの仕様はあれこれ変わり、このvignetteの中身もすっかり変わってしまった。考えてみたら、前に目を通したのは2017年だもんな。あのころの私は若かった。[すいませんいまちょっと適当なことをいいました]
続きを読む

どうでもよい覚え書き:McNemar検定と「対応のあるZ検定」

 これは仕事のための単なる覚え書きで、面白くも何ともない話であります。

 ごくごく教科書的な標準的知識でも、分野が違うとその分野に特化した表現となり、ちょっと面食らうことがある。そんなことありませんか? ありますよね?

 個人的な思い出話だけど、市場調査の会社に拾って頂いて、おまえ統計学できるんだろ、というのでいろいろ訊かれるようになったんだけど(おまえ日本人だからカラテできるだろうというの似ている)、ごく平凡な手法について訊ねられたのに、見たこともない式を示されて、アレッ、と面食らったことがあった。
続きを読む

RでARIMAモデルを推定するときの定数項の指定(driftってなんのこと?)

 仕事でたまーにARIMAモデルを推定することがあるんだけど、そのたびに「いま推定してるモデルって、どんな定数項が入っているんだろう…」とちょっと混乱してしまう。じっくり考えればわかるんだけど、あいにく単変量のARIMAモデルというのは、(自分の仕事のなかでは) 深く考えずにちゃちゃっと推定する場面が多く、考えている時間がないことが多い。時計を睨みながらキーボード叩いているようなときに、いちいちマニュアルなど調べたくないじゃないですか。
 というわけで、このたびイライラが募り、メモを取った。
続きを読む

カテゴリカル因子分析において因子得点をどうやって求めるのか

 カテゴリカル変数について因子分析をしたとき、その因子得点ってどうやって求めるの? いや、ベイズ推定のときにシミュレーションで求めるのは知っているけど(plausible valuesっていうんでしたっけ)、そうじゃなくて頻度主義的に求めたときには…
 仕事の都合で上記の疑問を抱き、構造方程式モデリングのソフトウェア Mplus の技術文書を読んでみたんだけど、途中でさらに別の文書に遡る羽目になり、ずいぶん時間がかかってしまった。
 以下は Mplus Technical Appendix 11. Estimation of Factor Scoresのメモである。Mplus ver.3の頃の古い文書であり、パラメータのベイズ推定量の話は出てこない。
続きを読む

Mplus は計算するときモデルをどのように再定式化しているか

 構造方程式モデリングのソフトウェア Mplus を使っていて、よくわからないことが起きて解説を辿っていくと、最終的にすごく基礎的な説明までさかのぼることになり、難しすぎて断念することがある。今回も仕事の都合で、ちょっとそういうことが起きかけて、大変イライラしたので仕事を放りだし、初期の技術文書をメモを取りながら読んだ。
 以下は Mplus Technical Appendix 2. The general modeling framework からのメモである。Mplus ver.3の頃の古い文書なので(Mplusの最新版は8.5)、当然ながらベイジアンな話は出てこない。
続きを読む

仮説の事後確率をBICで評価する(Wagenmakers, 2007より)

 ベイズ・ファクターのBICによる近似についてなんだかよくわかんなくなっちゃったので、ちょっとメモしておく。
 出典は
 Wagenmakers, E.J. (2007) A practical solution to the pervasive problems of p values. Psychonomic Bulletin & Review, 14(5), 779-804.
 この論文は前に目を通したんだけど(なんと4年前だ)、長い論文だし、途中で飽きてしまって適当に読み飛ばしていた。
続きを読む

購入頻度が負の二項分布に従うと考えられているのはなぜか

 消費者パネルの購買データを真夜中にコリコリと集計しながらあれこれ考えていて、なんだか混乱しちゃったので書いたメモを載せておく。

 よく、顧客の月あたり購入回数の分布は負の二項分布に従う、とかっていうじゃないですか。いかにも「そんなの常識ですよね」というような顔で。頭のいい人のそういうとこ、まじでむかつく。
 というわけで、以下、自分向けの易しい説明である。
続きを読む