雑記:データ解析」カテゴリーアーカイブ

マイ・ガラパゴス・変数名ルール (すごくどうでもいい話)

 私は普段ぼんやりと、あまり他人と会話することなく生きているので、たまに年齢の近いクライアントさんなどとお話しているとき、「役職定年」とか「企業人としての残りの人生を…」などという発言を耳にし、息を吞むような感じになることがある。俺は先のことをなんにも考えてないなあ、と痛感する。

 柄にもなく反省し、これからやってみたいことを頭のなかに書き出してみると、これがすごくたくさんある。まず数学を勉強したいですね。私が高校生の頃、授業はGHQの指導により数学Iまでだったんです(すいません冗談です)。英語ももう一度本腰をいれて勉強したいし、中国語もやりたい。仕事の都合でデータ解析とか調査法とか消費者行動論の論文を読むことが多いんだけど、それはそれで面白いので可能な限り続けたい。積読の本の山の大きさはもう一生本屋に行かなくていいくらいだし、映画も観たい。音楽も聴きたい。これまであまり行かなかったが観光にだって行きたい。趣味のジョギング鑑賞の時間も確保したい。ジョギング鑑賞とは、公園のベンチに座ってジョギングする人々を鑑賞するという高雅な趣味である。足長いなあとか、胸が揺れているなあとか、いろいろな着眼点があり奥が深い。いずれ広く普及し、創設者である私の銅像が行きつけの公園に立つはずである。
続きを読む

ウェイティング回顧録 2023

 世の中には、興味を持って取り組める事柄もあれば、全く興味はないけどやらなきゃならない雪かきみたいな仕事もあれば、本質的な興味はないんだけけど行きがかり上なんだか気になる問題というのもある。私にとっての三番目の代表例が、調査における標本ウェイティングである。きわめて切実な問題であり(その割に解説が少ない)、とても難しい(その割にお金にならない)。

 というわけで、ときどき必要に駆られて資料を読み、ブログに記録したりしているんだけど、ブログに書いた内容を忘れるどころか、書いたことさえ忘れてしまう。三歩歩けば全て忘れる、ニワトリなみの記憶力である。
 そこで、これまでに書いたウェイティングに関するエントリをまとめておこう。… というエントリを、実は2015年に書いているんだけど、それから幾星霜、追加して読んだものもたまってきて、いよいよ記憶があやふやになってきた。再度まとめ直す。すいません、これは私の私による私のためのメモです。
続きを読む

覚え書き: ヤコビアンとかヘシアンとかコシアンとかもうわけがわかんない

 もう一万回くらい書いていると思うけど、私はきちんとした教育をうけていないので数学が全然わからない。しかし仕事上わかりませんでは洒落にならないので、いいトシこいて机に向かって練習問題を解いたりして貴重な休日を費やしたりしているのである。ほんとに辛い。
 いま仕事の都合で読んでいる資料にも、なんの前置きもなくヘシアンがどうたらこうたらと書いてあり、少しでも理解しようと思って机の横にある教科書をめくると、さらにヤコビアンだのナントカアンだのというのが乱舞していて、ほんとにもう、頭の良い奴はみんな死ねばいいのにと思う。

 以下はヤコビアン、ヘシアン、ナントカアンについての自分のための覚え書きである。誰も読む人はいないだろうけど、うっかり読んでしまうと、さみしい中年男の悪あがきに涙が止まらなくなるだろう。
続きを読む

覚え書き:GARCHモデルってなんだっけ

 データ解析に関連して、苦手な話題は多々あるが(というか得意な話題が見当たらないが)、特に苦手な話題が、時系列分析での分散変動モデルである。ああいうのはさ、数学が得意な人が資本主義に魂を売り、ファイナンスだかなんだかで儲けようとするときに使うモデルでしょう?
 と思ってたんだけど、仕事の都合でちょっと変わった事情が生じて、少し勉強せざるを得なくなった。ごく表層的な知識しか身につく気がしないけれど。
続きを読む

覚え書き: cmdstanr+OpenCLでGPUをうまく使えたり使えなかったり (WSL2-Ubuntu-NVIDEA編)

 cmdstanrパッケージでOpenCLを経由してGPUを使う方法についての試行錯誤の記録、その第三弾。こんどは、Windows上のWSL(Windows Subsystem for Linux)の上でLinuxを動かし、そこでcmdstanからGPUを使ってみようという試みである。
 なんだか遠回りな話だが、一概にばかばかしいとはいえない。下のCase 21でわかるように、GPUを使わない場合、Windows上でcmdstanを使うより、おなじPCのWindows上のWSL上のLinux仮想マシン上でcmdstanを使ったほうが、計算速度が速かったりするのである。
続きを読む

覚え書き: cmdstanr+OpenCLでGPUをうまく使えたり使えなかったり (Windows-Intel編)

 cmdstanrパッケージでOpenCLを経由してGPUを使う方法についての試行錯誤の記録、前回のWindows+NVIDIA編に続く第二弾。こんどはWindows+Intel。実のところ、前回記事にまとめた実験の途中で、PC再起動などで手が空いた時間にノートPCでも試してみた、といういきさつである。
 気をとりなおして頑張ろう!
続きを読む

覚え書き: cmdstanr+OpenCLでGPUをうまく使えたり使えなかったり (Windows-NVIDIA編)

 仕事の都合でStanを使うことがあるんだけど、その環境を用意するのは結構面倒である。
 特に困るのが並列処理。Stanの実装のひとつcmdstanは並列処理の方法をいくつか用意していて、そのひとつがOpenCLライブラリを経由したGPUの利用である。Windows上のRでcmdstanrパッケージを使う場合、その実行の遅さによってストレス死しないためにも、GPUをぜひ利用したい。
 説明を読む分には簡単そうである。ところが、実際に試してみると、これがなかなかうまくいかない。
続きを読む

覚え書き: Mplus version 8.1-8.10の新機能

 えー、昨今は大規模言語モデルとかナントカGPTとかでいろいろ大騒ぎですけれど、大人のデータサイエンティストが本気で使うソフトといえばMplusですよね。Mplus一択ですよね。Mplus一択ですよね。
 (ウエストランドという漫才コンビが、ステージに出てきていきなり「本気の大人のデートは吉祥寺の鳥貴族に限りますよね、吉祥寺の鳥貴族一択ですよね、吉祥寺の鳥貴族一択ですよね」と畳みかける際の口調で)
続きを読む

覚え書き:MCMCの収束速度を求めてみよう

 相変わらずMCMCについてぐちぐちと考えている。以下、Haggstrom(2017)「やさしいMCMC入門」(原著2002) からのメモ、第二弾。今回は7-8章からのメモで、MCMCの収束速度について。

 この本の特徴なんだけど、有限状態・離散時間のマルコフ連鎖に話が限定されている。ときどき「これ状態が可算無限だったり非可算無限だったらどうなるんだろうか」と疑問に思う箇所があるんだけど、千里の道も一歩から、である。まあそうやって時間切れで死んでいくんだけどな。
続きを読む

覚え書き: 私はもうε-δ論法を忘れない (たぶん)

 私のやっているようなささやかな仕事のなかでも、なにか技術的な説明を読まなければならないことがあって、たまに「任意の正の数\(\varepsilon\)に対して適当な正の数 \(\delta\)が存在して…」というような説明を目にすることがある。私はそういう難しい話がわからなかったせいで、流れ流れてここに至っているのに。なんでこのトシになってそんなのを読まねばならんのか。人生というのはなにか壮大な罰ゲームのようなものではないかと思うことがある。
 なんでも、こういうロジックは\(\varepsilon-\delta\)論法といい、頭のいい大学に行った学生さんはみんな習うんだってさ。みーーーんな!! 習うんだってさ!!! 知らんけど。
 というわけで、こういう説明を目にするたびに、私はだめだ… という胃液のような苦酸っぱい思いがこみあげてくる次第である。辛い。
続きを読む

覚え書き:マルコフ連鎖の定常分布について

 以下は、Haggstrom(2017)「やさしいMCMC入門」(原著2002) の2-6章からのメモである。
 仕事の都合で、MCMCの基礎的な部分について考える羽目になり、いやいやちょっと待って、そもそもマルコフ連鎖がひとつの定常分布を持つってなぜいえるんだ? と疑問に思った次第である。学力がないもので、こういうところで躓くのです。

 それにしても、いったいみんなこういうのどこで覚えるの? 大学ってところで教えてるの? 俺も大学ってとこに在籍してたんだけど(それもずいぶん長い間)、全然習わなかったですけどね。参っちゃうなあ。
続きを読む

覚え書き: 離散選択モデルの識別性 (Train, 2009)

 2022年の秋から冬にかけて、仕事の都合で延々と一対比較課題の分析のことを考えていたのだけれど(官能評価みたいな伝統的モデルじゃなくて、個人レベル効用を推定したい場合の話)、とにかくややこしいのは識別性の話である。何本か論文を読んだり、あれこれ考えたりはしたんだけれど、どうも俺は選択モデルの基礎がわかってないな… という後ろめたさがある。
 毎度の疑問ですが、こういうのって皆さんどこで習ってんですかね、いったい。巷のデータサイエンティスト養成コースとかで教えてくれるんでしょうか。そんならぜひ習いたい。実践演習とかいいからさ、基礎を教えてくださいよ、基礎を。
続きを読む

覚え書き:逆ウィシャート事前分布のパラメータの決め方

 仕事の都合で、分散共分散行列に情報的な逆ウィシャート事前分布を与えるとき、そのパラメータをどう解釈したらいいのかがわからずに困っていた。いろいろ探した結果、なんと灯台もと暗し、Muthen一家の若頭Asparouhovさんが、哀れなMplusユーザ向けに親切な解説を書いてくれていた。
続きを読む

覚え書き:一対比較法関係の論文メモ

 今年の夏ごろだったか、仕事の都合で、調査における一対比較法について考えていた時期があった。で、このたび都合で再び一対比較法のことを考える羽目になったが、このブログを見返すと、あれ、こんな論文読んでたっけ? と思うものが多い。三歩歩くとすべてを忘れてしまうのだ。
 というわけで、このブログに記録したメモに限定し、一対比較法関連の論文メモをリストアップしておく。 
続きを読む

覚え書き:私が考えた最強のRパッケージ作成方法 (2022年12月版)

 仕事の都合でRパッケージを作ることがあるんだけど、そのたびに作り方を忘れていることに気づき右往左往する羽目になる。自分のための覚え書きとして、Rパッケージをつくるための手順をメモしておく。
 あくまでの私のためのメモなので、レベルの低さに驚愕したとしても、内緒にしておいてください。
続きを読む

覚え書き: BDA3 1.3 BDA3を読もうとするおまえらが知っておくべき確率論の基礎知識

 仕事の都合で、先日からベイズ統計学の有名な解説書BDA3をちまちまと読んでるんだけど、痛感するのは基礎学力のなさである。ほんとにね、私がこんな本読まなきゃいけない社会はどうかしていると思う。適材は適所に置くべきだ。私は寝るのに向いている。
 BDA3自体はなかなか親切な本で、大事なことはなんども説明してくれるし、それほど高レベルな知識を要求しているわけでもない。むしろ、必要な知識を前半部分でおさらいしてくれているからこそ、分厚い本になっているのである。従って、途中の章をいきなり読むと、私のように途方にくれることになる。

 というわけで、以下の節よりメモ。原文は2頁ちょっとしかない。
 Gelman, A. et al.(2014) Bayesian Data Analysis, Third Edition. Section 1.8 Some usefull results from probability theory.
続きを読む

覚え書き: BDA3 Chap.12 計算効率の良いマルコフ連鎖シミュレーション

 引き続き、BDA3のメモ。
 Gelman, A. et al.(2014) Bayesian Data Analysis, Third Edition. Chapter 12. Computationally efficient Markov chain simulation.

 計算に関わる解説10-13章のうち中盤戦。いよいよHMCが登場する。
 実をいうと、これまで何度かHMCについて勉強しようと試みたことがあったのだが、そのたびに挫折していたのである。とにかくですね、物理学の用語が出てくると心が折れるのである。高校時代のトラウマかしらん。
 幸い本章は、HMCについても物理学ぬきで説明して下さる模様である。はい深呼吸して…
続きを読む

覚え書き: BDA3 Chap.11 マルコフ連鎖シミュレーションの基礎

 引き続き、BDA3のメモ。
 Gelman, A. et al.(2014) Bayesian Data Analysis, Third Edition. Chapter 11. Basics of Markov chain simulation.

 計算に関わる解説10-13章のうち序盤戦、11章である。MHアルゴリズムまで出てくるが、HMCはまだ出てこない。いやー、計算の話って苦手なもので、どこまでついていけるものか、冷や汗が出ますね。
 原文はマルコフ連鎖シミュレーションという表現を好んで使っているんだけど、字数が多いので、このメモではMCMCと書く。またメトロポリス-ヘイスティングスはMHと書く。
続きを読む