elsur.jpn.org >

« トピックモデルの表記比較 (いつも思うんですが、専門家のみなさん記号を統一していただけませんかね) | メイン | 読了:佐藤(2017) 人工知能と政治 »

2017年9月13日 (水)

Roberts, M.E., Steward, B.M., Tingley, D. (in preparation) stm: R package for structural topic models.

 構造的トピックモデルのRパッケージ stm のvignette。いつ書かれたものかもよくわからないのだが、J. Statistical Softwareの判型になっているから、投稿中かなにかなのかも。

 いわく。
 構造的トピックモデル(STM)とは、トピックモデルに文書に付与されたメタデータを統合したモデル。トピックを抽出すると同時に、トピックとメタデータとの関連性を推定する。

 モデルの説明。
 通常のトピックモデルと同じく、語のカウントの生成モデルを考える。なお、メタデータがなかったら、STMはBleiらの相関トピックモデルと同じである。
 文書を$D_1, \ldots$, 単語を$w_1, \ldots$, トピックを$T_1, \ldots, T_k$とする。文書$d$のメタデータを$X_d$とする。メタデータは次の2種類に分けて指定できる。

 生成モデルは次の通り。

 推定はsemi EMアルゴリズムを用いた変分的推定である、とのこと。[よくわからんが変分ベイズ推定だということかしらん]

 stmパッケージの使い方の説明。
 初期値決定はスペクトル分解による決定論的方法がお勧めだが、まず崩壊型ギブスサンプラーでLDAモデルを推定するとか、ランダムに決めるというオプションもある。
 ちゃんと読んでないので省略するか、データ準備からモデル評価、トピック数決定、結果の視覚化まで、これでもかっていうくらいにいろんなヘルパー関数がある。
 云々, 云々...

 他のパッケージとの比較。
 相関トピックモデルはtopicmodelsパッケージでも推定できるけど、こっちのほうがパフォーマンスが良い。云々, 云々...
 
 ... とかなんとか。途中からはパラパラめくっただけだけど、いずれに必要になったらきちんと読もう。

論文:データ解析(2015-) - 読了: Roberts, Steward, Tingley (in preparation) 構造的トピックモデルのRパッケージ stm