読書日記: 読了：Asparouhov & Muthen (2015) Mplusで項目反応モデル

« 読了：Othman, et al. (2013) LMSRマーケット・メーカの流動性を自動調整する | メイン | 読了：Brahma, et al. (2012) ベイジアン・マーケット・メーカ »

2015年11月10日 (火)

　市場メカニズムがどうとかこうとか、最近すっかり消耗しちゃったので、気分転換に読んだ。計量心理系の話って、こうしてみると胸和みますね。お金とか出てこないし。

Asparouhov, T., Muthen, B. (2015) IRT in Mplus. Mplus Technical Notes.
　MplusのIRTモデルを定義するテクニカル・ノート。今週発表されたMplus 7.4のリリースノートで、IRT系新機能の参考文献として挙げられていたので、勉強のために目を通した次第。

項目特性曲線(ICC)。
　Mplusは以下の4種類に対応する。以下、潜在クラス$C=k$、共変量$X=x$の下での潜在因子$f$のカテゴリカル指標を$U_i$とする。

　その1、ロジット・リンク、ML/MLR/MLF推定量。カテゴリ $j$が最初のカテゴリだったら
　$P_{ijk} (f) = P(U_i = j | f, C=k, X=x)$
　$= 1 / ( 1 + \exp(-\tau_{ijk} + \lambda_{ik} f +\beta_{ik} x ) )$
もし最後のカテゴリだったら、右辺が
　$1 - 1 / (1 + \exp(\tau_{i,j-1,k} + \lambda_{ik} f + \beta_{ik} x))$
にかわる。じゃあ真ん中のカテゴリだったら？さあ深呼吸！
　$1 / (1 + \exp(-\tau_{ijk} + \lambda_{ik} f + \beta_{ik} x ) - 1 / (1 + \exp(-\tau_{i,j-1,k} + \lambda_{ik} f + \beta_{ik} x ) )$
ですね。

　その2、プロビット・リンク、ML/MLR/MLF推定量。$\psi$を標準正規累積分布関数とします。最初のカテゴリは
　$P_{ijk}(f) = P(U_i = j | f, C=k, X=x)$
　$= \psi (\tau_{ijk} - \lambda_{ik} f - \beta_{ik} x)$
最後のカテゴリだったら右辺が
　$1 - \psi (\tau_{i,j-1,k} - \lambda_{ik} f - \beta_{ik} x)$
にかわり、真ん中のカテゴリだったら
　$\psi (\tau_{ijk} - \lambda_{ik} f - \beta_{ik} x) - \psi (\tau_{i,j-1,k} - \lambda_{ik} f - \beta_{ik} x) $
にかわる。

　その3、プロビット・リンク、WLS/WLSM/WLSMV/ULS推定量。潜在クラスじゃなくて群$G$を導入します。残差$\theta_{ik}$が登場する。カテゴリ$j$を最初のカテゴリとしよう。ICCは、
　$P_{ijk}(f) = P(U_i = j | f, G=k, X=x)$
　$ = \psi ( (\tau_{ijk} - \lambda_{ik} f - \beta_{ik} x) / \sqrt{\theta_{ik}})$
となる。最後のカテゴリだったら、真ん中のカテゴリだったら ... というのは上記と同じなので省略。
　このやりかたはさらに2つに分かれる。
　(1)theta パラメータ化。残差$\theta_{ik}$をパラメータとみる(どこかの群を1にする)。
　(2)delta パラメータ化。$\theta_{ik}$そのものじゃなくて
　$\theta_{ik} = \Delta^{-2}_{ik} - Var(\lambda_{ik} f)$
　とおいた$\Delta_{ik}$をパラメータとみる(どこかの群を1にする)。
　ま、どっちにしろ、Mplusは$\theta_{ik}$を出力する。

項目情報曲線(IIC)。
　IICの定義は下式のとおり。
　$I_{ik} (f) = \sum_{r=1}^{l} \frac{({\partial P_{irk}} / {\partial f})^2}{P_{irk}}$
以下、話を簡単にするために、$Q_{i0k}=0, Q_{ilk} = 1$、それ以外の$j$について$Q_{ijk} = \sum_{r=1}^j P_{irk}$とします。

　MplusにおけるIIC $I_{ik} (f) $は、推定量を問わず、
　$\sum_{r=1}^{l} ( (Q_{irk}(1-Q_{irk}) - Q_{i,r-k,l} (1-Q_{i,r-k,l}))^2 ) / P_{irk}$
　になにかを掛けた奴になる。
　ロジット・リンクなら素直に$\lambda_{ik}^2$を掛ける。
　プロビット・リンクのML/MNL/MLR推定量の場合でも、ロジットで近似して、$3.29 \lambda_{ik}^2$を掛ける。$3.29$ってのは$\pi^2/3$から来ている[これ、昔納得した覚えがあるんだけど、全然おもいだせないや]。
　WLS/WLSM/WLSMV/ULS推定量の場合は $3.29 \frac{\lambda_{ik}^2}{\theta_{ik}}$ を掛ける。
　全情報関数は、$f$の分散を$\psi$として
　$I_k (f) = 1/\psi + \sum_i I_{ik} (f)$
　となる。そのSEはどうやって出すかというと...[略]。

IRTパラメータ化。
　1因子・2値項目の場合、Mplusは伝統的なIRTの形でもパラメータを出力する。因子の平均を$\alpha$, 分散を$\psi$とする。因子$f$と、IRTでいう$\theta$(平均0, 分散1)との間には $f = \alpha + \sqrt{\psi} \theta$という関係がある。IRTでいう弁別力と困難度は
　$a_{ik} = \lambda_{ik} \sqrt{\psi}$
　$b_{ik} = (\tau_{ik} - \lambda_{ik} \alpha) / (\lambda_{ik} \sqrt{\psi})$
となる。ただし、WLS/WSLM/WLSMV/ULS推定量の場合は、thetaパラメータ化なら
　$a_{ik} = (\lambda_{ik} \sqrt{\psi}) / \sqrt{\theta_{ik}}$
deltaパラメータ化だと
　$a_{ik} = 1 / \sqrt{\Delta_{ik}^{-2} \lambda_{ik}^{-2} \psi^{-1} - 1}$
となる。[あれ？なんでだろう... ま、よっぽどヒマになったら考えよう]

　この辺から新機能の話だと思う。

Partial Credit Model。
　$U$がカテゴリ数$m$の順序カテゴリカル変数、$X$がその予測子のベクトルだとしよう(潜在・観察は問わない)。Partial Credit Modelとは、
　$P (U = k | X) = \exp (\sum_{i=0}^{k} (\beta X - \tau_i)) / hogehoge$
というモデルで、めんどくさくなってhogehogeと書いたが、分母は全カテゴリを通した分子の合計である。識別のために最初の閾値は$\tau_0 = 0$とする。
　なにこれ多項回帰じゃん、と思った人[→はいはい！俺思った思った！]、あなたは正しい。ここまでに出てきたモデルとこのPCMモデルとの違いは、PCMでは対数オッズが$X$の線形関数になるという点である。ロジットがいいか、プロビットがいいか、PCMがいいか、決めたいときはBICを使いなさい。
　1因子のときには伝統的なIRTパラメータも出力する。[... 関心がなくなってきたのでこの項省略]

Guessingモデル(3PL), 上界漸近線ありのGuessingモデル(4PL)
　[うわー、3PLや4PLも推定できるんだ。すげー。でもたぶん一生使わないので省略]

　... というわけで、よくよく考えてみたらMplus 7.4のIRT系新機能は私とはちょっと縁がなさそうなので、後半から飛ばし読みになってしまった。でも、まあ、なけなしの知識の再活性化ということで。
　それにしても、なぜIRTをもっときちんと勉強しておかなかったかなあ。短い間ではあったが、世界にも類を見ない巨大テスト・サービス機関(ほんとう)で、データ解析をやらせていただいてたのに。もったいないことをした、と悔やまれる。

論文：データ解析(2015-) - 読了：Asparouhov & Muthen (2015) Mplusで項目反応モデル

読書日記

読んだ本を淡々と記録します

2015年11月10日 (火)