雑記:データ解析」カテゴリーアーカイブ

データフレームの行ごとに処理をするRコードをどう書くか in 2021

 特に趣味とかもないもので、せっかくの日曜の朝なのに、仕事の都合で書いたコードを見直していた次第である。つまらない人生だ。
 で、自分が書いたRコードを眺めていてふと思ったんだけど、「ここどう書こうかな…」と考えあぐねることが多い場面のひとつとして、「データフレームの行ごとに処理をする」場面があると思う。
続きを読む

Rのdplyrパッケージでプログラミングするときの注意点 2021

 Rのdplyrパッケージを使っていて困ることのひとつに、非標準評価(NSE)をめぐるトラブルがある。いざ困ったときにすぐ調べられるように、以前、dplyrのvignettesのひとつ”Programming with dplyr“を通読してメモを取った
 ところがdplyrの仕様はあれこれ変わり、このvignetteの中身もすっかり変わってしまった。考えてみたら、前に目を通したのは2017年だもんな。あのころの私は若かった。[すいませんいまちょっと適当なことをいいました]
続きを読む

どうでもよい覚え書き:McNemar検定と「対応のあるZ検定」

 これは仕事のための単なる覚え書きで、面白くも何ともない話であります。

 ごくごく教科書的な標準的知識でも、分野が違うとその分野に特化した表現となり、ちょっと面食らうことがある。そんなことありませんか? ありますよね?

 個人的な思い出話だけど、市場調査の会社に拾って頂いて、おまえ大学でなんか教えてたんだから統計学できるんだろ、というのでいろいろ訊かれるようになったんだけど(おまえ日本人だからカラテできるだろうというのと似ている)、ごく平凡な手法について訊ねられたのに見たこともない式を示されて、アレッ、と面食らったことがあった。
続きを読む

RでARIMAモデルを推定するときの定数項の指定(driftってなんのこと?)

 仕事でたまーにARIMAモデルを推定することがあるんだけど、そのたびに「いま推定してるモデルって、どんな定数項が入っているんだろう…」とちょっと混乱してしまう。じっくり考えればわかるんだけど、あいにく単変量のARIMAモデルというのは、(自分の仕事のなかでは) 深く考えずにちゃちゃっと推定する場面が多く、考えている時間がないことが多い。時計を睨みながらキーボード叩いているようなときに、いちいちマニュアルなど調べたくないじゃないですか。
 というわけで、このたびイライラが募り、メモを取った。
続きを読む

カテゴリカル因子分析において因子得点をどうやって求めるのか

 カテゴリカル変数について因子分析をしたとき、その因子得点ってどうやって求めるの? いや、ベイズ推定のときにシミュレーションで求めるのは知っているけど(plausible valuesっていうんでしたっけ)、そうじゃなくて頻度主義的に求めたときには…
 仕事の都合で上記の疑問を抱き、構造方程式モデリングのソフトウェア Mplus の技術文書を読んでみたんだけど、途中でさらに別の文書に遡る羽目になり、ずいぶん時間がかかってしまった。
 以下は Mplus Technical Appendix 11. Estimation of Factor Scoresのメモである。Mplus ver.3の頃の古い文書であり、パラメータのベイズ推定量の話は出てこない。
続きを読む

Mplus は計算するときモデルをどのように再定式化しているか

 構造方程式モデリングのソフトウェア Mplus を使っていて、よくわからないことが起きて解説を辿っていくと、最終的にすごく基礎的な説明までさかのぼることになり、難しすぎて断念することがある。今回も仕事の都合で、ちょっとそういうことが起きかけて、大変イライラしたので仕事を放りだし、初期の技術文書をメモを取りながら読んだ。
 以下は Mplus Technical Appendix 2. The general modeling framework からのメモである。Mplus ver.3の頃の古い文書なので(Mplusの最新版は8.5)、当然ながらベイジアンな話は出てこない。
続きを読む

仮説の事後確率をBICで評価する(Wagenmakers, 2007より)

 ベイズ・ファクターのBICによる近似についてなんだかよくわかんなくなっちゃったので、ちょっとメモしておく。
 出典は
 Wagenmakers, E.J. (2007) A practical solution to the pervasive problems of p values. Psychonomic Bulletin & Review, 14(5), 779-804.
 この論文は前に目を通したんだけど(なんと4年前だ)、長い論文だし、途中で飽きてしまって適当に読み飛ばしていた。
続きを読む

購入頻度が負の二項分布に従うと考えられているのはなぜか

 消費者パネルの購買データを真夜中にコリコリと集計しながらあれこれ考えていて、なんだか混乱しちゃったので書いたメモを載せておく。

 よく、顧客の月あたり購入回数の分布は負の二項分布に従う、とかっていうじゃないですか。いかにも「そんなの常識ですよね」というような顔で。頭のいい人のそういうとこ、まじでむかつく。
 というわけで、以下、自分向けの易しい説明である。
続きを読む