「雑記：データ解析」カテゴリーアーカイブ

覚え書き: Pearl先生、「強い無視可能性」概念を全力でディスるの巻

　いま流行りの因果推論の分野における一方の巨匠Pearl先生は、同時にかなり攻撃的な物言いでも知られている方である。もしかすると同業の先生方は困っちゃっているのかもしれないし、パレスチナ問題に関するツィートは私もちょっと引いちゃいましたが(私はもうXにアクセスしてないので最近の動向はわからない)、専門家がご専門の話題について旗幟を鮮明にし論点を明示してくださるのは、初学者としては助かる面もありますね。それに、ほら、人の悪口ってちょっと楽しかったりしませんか。しますよね。

　Pearl先生の主著”Causality”は第1版が邦訳されているが、難解さで知られており、私は何度もトライしては挫折している。いっぽう、第2版(2009)には第1版から追加された章があり、その一部はwebで公開されており、それらはなかなか楽しい内容が多い。11.5.3節の架空対話は以前ほとんど全訳してしまった。
　このたび調べ物をしていて、因果推論の重要概念として人口に膾炙している「強い無視可能性」概念を批判しその提唱者らをディスっている文章を見つけてしまい、お茶を啜りつつフガフガと楽しく読んだ(すいません)。勢いあまってメモを取ったので載せておく。
続きを読む →

覚え書き: 咲き誇れ、乱れ飛べ、動的SEMのよくわからないモデルたちよ

　これは完全に、私による私のための覚書です。いや、全部そうなんですけどね。

　仕事の都合もあって、性懲りもなく時系列のマルコフ・スイッチング・モデルについて調べているのだけれど、いろいろと困惑している。手元の具体的問題というのは常になにかしら特殊性を帯びているもので、教科書的な事例がそのまま適応できることはめったにない。
　このたびは、ものすごおおおくたくさんの時系列がある、カレンダー時間は共通、レジームも共通、でもスイッチングのタイミングは時系列ごとに推定したい、という問題を抱えている。こういうのってなんていえばいいんですかね？そんなに変わった問題ではないと思うんだけど、計量経済学の先生は頼りにならなさそうだ。

　この手の話について検索すると途端に上位に出現するのが、かのMplusの開発元、Muthen一家による動的SEM(DSEM)の論文である。パネルの縦断測定をSEMの枠組みで分析しちゃおう、計量経済学者たちよ、おまえらがやってんのは所詮は我々の分析の特殊ケース(N=1のケース)に過ぎない、そこにひざまずいて心理学者に謝れ、とおっしゃる危ない奴らである(いってません)。
　正直、勘弁してほしい。いや、Muthen先生たちに罪はないのよ。彼らの論文はわかりやすいことが多いし、Mplusは我々いたいけなユーザを泥沼に沈めるいっぽうでとんでもない問題を一発で解決してくれることもある。でも… あの先生たちの論文って往々にして、聞きなれないモデル名称が頻出するじゃないですか。さらにいえば、そもそも論文など読みたかないじゃないですか。疲れているんです、生きているだけで。

　というわけで、以下からメモ。

Asparouhov, T., Muthen, B., Hamaker, E. (2016) Latent class analysis for intensive longitudinal data, Hidden Markov processses, Regime Switching models and Dynamic Structural Equations in Mplus.
続きを読む →

マイ・ガラパゴス・変数名ルール (すごくどうでもいい話)

　私は普段ぼんやりと、あまり他人と会話することなく生きているので、たまに年齢の近いクライアントさんなどとお話しているとき、「役職定年」とか「企業人としての残りの人生を…」などという発言を耳にし、息を吞むような感じになることがある。俺は先のことをなんにも考えてないなあ、と痛感する。

　柄にもなく反省し、これからやってみたいことを頭のなかに書き出してみると、これがすごくたくさんある。まず数学を勉強したいですね。私が高校生の頃、授業はGHQの指導により数学Ｉまでだったんです(すいません冗談です)。英語ももう一度本腰をいれて勉強したいし、中国語もやりたい。仕事の都合でデータ解析とか調査法とか消費者行動論の論文を読むことが多いんだけど、それはそれで面白いので可能な限り続けたい。積読の本の山の大きさはもう一生本屋に行かなくていいくらいだし、映画も観たい。音楽も聴きたい。これまであまり行かなかったが観光にだって行きたい。趣味のジョギング鑑賞の時間も確保したい。ジョギング鑑賞とは、公園のベンチに座ってジョギングする人々を鑑賞するという高雅な趣味である。足長いなあとか、胸が揺れているなあとか、いろいろな着眼点があり奥が深い。いずれ広く普及し、創設者である私の銅像が行きつけの公園に立つはずである。
続きを読む →

覚え書き：proportion-to-size抽出デザインで推定量の分散が減少するのはなぜか

　仕事とは直接に関係しているわけではないんだけど、あれこれ考えていたら訳が分かんなくなってしまったので。頭を整理するためにメモしておく。自分のための覚書です。
続きを読む →

ウェイティング回顧録 2023

　世の中には、興味を持って取り組める事柄もあれば、全く興味はないけどやらなきゃならない雪かきみたいな仕事もあれば、本質的な興味はないんだけけど行きがかり上なんだか気になる問題というのもある。私にとっての三番目の代表例が、調査における標本ウェイティングである。きわめて切実な問題であり(その割に解説が少ない)、とても難しい(その割にお金にならない)。

　というわけで、ときどき必要に駆られて資料を読み、ブログに記録したりしているんだけど、ブログに書いた内容を忘れるどころか、書いたことさえ忘れてしまう。三歩歩けば全て忘れる、ニワトリなみの記憶力である。
　そこで、これまでに書いたウェイティングに関するエントリをまとめておこう。… というエントリを、実は2015年に書いているんだけど、それから幾星霜、追加して読んだものもたまってきて、いよいよ記憶があやふやになってきた。再度まとめ直す。すいません、これは私の私による私のためのメモです。
続きを読む →

覚え書き: ヤコビアンとかヘシアンとかコシアンとかもうわけがわかんない

　もう一万回くらい書いていると思うけど、私はきちんとした教育をうけていないので数学が全然わからない。しかし仕事上わかりませんでは洒落にならないので、いいトシこいて机に向かって練習問題を解いたりして貴重な休日を費やしたりしているのである。ほんとに辛い。
　いま仕事の都合で読んでいる資料にも、なんの前置きもなくヘシアンがどうたらこうたらと書いてあり、少しでも理解しようと思って机の横にある教科書をめくると、さらにヤコビアンだのナントカアンだのというのが乱舞していて、ほんとにもう、頭の良い奴はみんな死ねばいいのにと思う。

　以下はヤコビアン、ヘシアン、ナントカアンについての自分のための覚え書きである。誰も読む人はいないだろうけど、うっかり読んでしまうと、さみしい中年男の悪あがきに涙が止まらなくなるだろう。
続きを読む →

覚え書き: ラプラス近似とはなんぞや (PRML 4.4)

　連続変数$z$について、分布$$ p(z) = \frac{1}{Z} f(z)$$ を仮定する。$f(z)$はわかってるけど、正規化定数$Z = \int f(z)dz$がわからないとしよう。この分布を正規分布で近似したい。さあ、どうしたらいいでしょうか。
続きを読む →

覚え書き：GARCHモデルってなんだっけ

　データ解析に関連して、苦手な話題は多々あるが(というか得意な話題が見当たらないが)、特に苦手な話題が、時系列分析での分散変動モデルである。ああいうのはさ、数学が得意な人が資本主義に魂を売り、ファイナンスだかなんだかで儲けようとするときに使うモデルでしょう？
　と思ってたんだけど、仕事の都合でちょっと変わった事情が生じて、少し勉強せざるを得なくなった。ごく表層的な知識しか身につく気がしないけれど。
続きを読む →

覚え書き: cmdstanr+OpenCLでGPUをうまく使えたり使えなかったり (WSL2-Ubuntu-NVIDEA編)

　cmdstanrパッケージでOpenCLを経由してGPUを使う方法についての試行錯誤の記録、その第三弾。こんどは、Windows上のWSL(Windows Subsystem for Linux)の上でLinuxを動かし、そこでcmdstanからGPUを使ってみようという試みである。
　なんだか遠回りな話だが、一概にばかばかしいとはいえない。下のCase 21でわかるように、GPUを使わない場合、Windows上でcmdstanを使うより、おなじPCのWindows上のWSL上のLinux仮想マシン上でcmdstanを使ったほうが、計算速度が速かったりするのである。
続きを読む →

覚え書き: cmdstanr+OpenCLでGPUをうまく使えたり使えなかったり (Windows-Intel編)

　cmdstanrパッケージでOpenCLを経由してGPUを使う方法についての試行錯誤の記録、前回のWindows+NVIDIA編に続く第二弾。こんどはWindows+Intel。実のところ、前回記事にまとめた実験の途中で、PC再起動などで手が空いた時間にノートPCでも試してみた、といういきさつである。
　気をとりなおして頑張ろう！
続きを読む →

覚え書き: cmdstanr+OpenCLでGPUをうまく使えたり使えなかったり (Windows-NVIDIA編)

　仕事の都合でStanを使うことがあるんだけど、その環境を用意するのは結構面倒である。
　特に困るのが並列処理。Stanの実装のひとつcmdstanは並列処理の方法をいくつか用意していて、そのひとつがOpenCLライブラリを経由したGPUの利用である。Windows上のRでcmdstanrパッケージを使う場合、その実行の遅さによってストレス死しないためにも、GPUをぜひ利用したい。
　説明を読む分には簡単そうである。ところが、実際に試してみると、これがなかなかうまくいかない。
続きを読む →

覚え書き: Mplus version 8.1-8.11の新機能

　えー、昨今は大規模言語モデルとかナントカGPTとかでいろいろ大騒ぎですけれど、大人のデータサイエンティストが本気で使うソフトといえばMplusですよね。Mplus一択ですよね。Mplus一択ですよね。
　(ウエストランドという漫才コンビが、ステージに出てきていきなり「本気の大人のデートは吉祥寺の鳥貴族に限りますよね、吉祥寺の鳥貴族一択ですよね、吉祥寺の鳥貴族一択ですよね」と畳みかける際の口調で)
続きを読む →

覚え書き：MCMCの収束速度を求めてみよう

　相変わらずMCMCについてぐちぐちと考えている。以下、Haggstrom(2017)「やさしいMCMC入門」(原著2002) からのメモ、第二弾。今回は7-8章からのメモで、MCMCの収束速度について。

　この本の特徴なんだけど、有限状態・離散時間のマルコフ連鎖に話が限定されている。ときどき「これ状態が可算無限だったり非可算無限だったらどうなるんだろうか」と疑問に思う箇所があるんだけど、千里の道も一歩から、である。まあそうやって時間切れで死んでいくんだけどな。
続きを読む →

覚え書き: 私はもうε-δ論法を忘れない (たぶん)

　私のやっているようなささやかな仕事のなかでも、なにか技術的な説明を読まなければならないことがあって、たまに「任意の正の数$\varepsilon$に対して適当な正の数 $\delta$が存在して…」というような説明を目にすることがある。私はそういう難しい話がわからなかったせいで、流れ流れてここに至っているのに。なんでこのトシになってそんなのを読まねばならんのか。人生というのはなにか壮大な罰ゲームのようなものではないかと思うことがある。
　なんでも、こういうロジックは$\varepsilon-\delta$論法といい、頭のいい大学に行った学生さんはみんな習うんだってさ。みーーーんな！！習うんだってさ！！！知らんけど。
　というわけで、こういう説明を目にするたびに、私はだめだ… という胃液のような苦酸っぱい思いがこみあげてくる次第である。辛い。
続きを読む →

覚え書き：マルコフ連鎖の定常分布について

　以下は、Haggstrom(2017)「やさしいMCMC入門」(原著2002) の2-6章からのメモである。
　仕事の都合で、MCMCの基礎的な部分について考える羽目になり、いやいやちょっと待って、そもそもマルコフ連鎖がひとつの定常分布を持つってなぜいえるんだ？と疑問に思った次第である。学力がないもので、こういうところで躓くのです。

　それにしても、いったいみんなこういうのどこで覚えるの？大学ってところで教えてるの？俺も大学ってとこに在籍してたんだけど(それもずいぶん長い間)、全然習わなかったですけどね。参っちゃうなあ。
続きを読む →

覚え書き: 離散選択モデルの識別性 (Train, 2009)

　2022年の秋から冬にかけて、仕事の都合で延々と一対比較課題の分析のことを考えていたのだけれど(官能評価みたいな伝統的モデルじゃなくて、個人レベル効用を推定したい場合の話)、とにかくややこしいのは識別性の話である。何本か論文を読んだり、あれこれ考えたりはしたんだけれど、どうも俺は選択モデルの基礎がわかってないな… という後ろめたさがある。
　毎度の疑問ですが、こういうのって皆さんどこで習ってんですかね、いったい。巷のデータサイエンティスト養成コースとかで教えてくれるんでしょうか。そんならぜひ習いたい。実践演習とかいいからさ、基礎を教えてくださいよ、基礎を。
続きを読む →

覚え書き：逆ウィシャート事前分布のパラメータの決め方

　仕事の都合で、分散共分散行列に情報的な逆ウィシャート事前分布を与えるとき、そのパラメータをどう解釈したらいいのかがわからずに困っていた。いろいろ探した結果、なんと灯台もと暗し、Muthen一家の若頭Asparouhovさんが、哀れなMplusユーザ向けに親切な解説を書いてくれていた。
続きを読む →

覚え書き：一対比較法関係の論文メモ

　今年の夏ごろだったか、仕事の都合で、調査における一対比較法について考えていた時期があった。で、このたび都合で再び一対比較法のことを考える羽目になったが、このブログを見返すと、あれ、こんな論文読んでたっけ？と思うものが多い。三歩歩くとすべてを忘れてしまうのだ。
　というわけで、このブログに記録したメモに限定し、一対比較法関連の論文メモをリストアップしておく。　
続きを読む →

覚え書き：私が考えた最強のRパッケージ作成方法 (2022年12月版)

　仕事の都合でRパッケージを作ることがあるんだけど、そのたびに作り方を忘れていることに気づき右往左往する羽目になる。自分のための覚え書きとして、Rパッケージをつくるための手順をメモしておく。
　あくまでの私のためのメモなので、レベルの低さに驚愕したとしても、内緒にしておいてください。
続きを読む →

覚え書き: BDA3 1.3 BDA3を読もうとするおまえらが知っておくべき確率論の基礎知識

　仕事の都合で、先日からベイズ統計学の有名な解説書BDA3をちまちまと読んでるんだけど、痛感するのは基礎学力のなさである。ほんとにね、私がこんな本読まなきゃいけない社会はどうかしていると思う。適材は適所に置くべきだ。私は寝るのに向いている。
　BDA3自体はなかなか親切な本で、大事なことはなんども説明してくれるし、それほど高レベルな知識を要求しているわけでもない。むしろ、必要な知識を前半部分でおさらいしてくれているからこそ、分厚い本になっているのである。従って、途中の章をいきなり読むと、私のように途方にくれることになる。

　というわけで、以下の節よりメモ。原文は2頁ちょっとしかない。
　Gelman, A. et al.(2014) Bayesian Data Analysis, Third Edition. Section 1.8 Some usefull results from probability theory.
続きを読む →

読書日記

読んだ本を淡々と記録します