メイン > 論文:データ解析
2009年11月19日 (木)
宮代隆平,松井知己 (2006) ここまで解ける整数計画. システム/制御/情報 : システム制御情報学会誌, 50(9).
昨年,勤務先の仕事の都合で組み合わせ最適化について勉強する羽目になった。勉強するといっても,素人向け入門書を読みかじる程度なのだが,この入門書というのがどれもギリシャ語のような按配なのである。途中で何度か半泣きになった。
そのプロセスでもっとも役に立ったのが,意外にも,ネットで拾ったこの文献であった。いまでもことあるごとに読み返している。感謝の意を込めてメモしておく。
変数間の関係に線形な制約が課せられていて,それらの制約を満たす値の組を見つけるような課題のことを線形計画問題という。最近は技術が進歩して,ソフトウェア(ソルバー)が大変優秀だし,フリーのソルバーさえ存在する。で,変数(の一部)が整数であることが求められている場合を,特に整数計画問題という。普通の線形計画問題より,整数計画問題のほうがはるかに難しい。使えるソルバーはすごく高価だし,フリーのソルバーはオモチャ並みの性能しか持たない。
資料を読みかじっていてびっくりしたのは,この分野には素人考えでは想像もつかないような不思議なノウハウがある,というところ。たとえば,制約式が少ないほど速く解けそうなものだが,そうともいえない。冗長な制約を重ねて定義すると遅くなりそうなものだが,これがそうでもない。また,この論文によれば,単に許容解がひとつわかればいいという場合でも,嘘でもいいからなにかの目的関数の最小化を目指したほうが速く解けるし,目的関数の係数がばらばらの値であるほうが速く解けたりするんだそうだ。わけわからんなあ。
整数計画問題がうまく解けない場合の対処策には,大きく分けて(1)あきらめる,(2)あきらめない,のふたつの方法がある由。ははは。で,後者を選ぶ場合には,緩和課題(変数を整数ではなく実数にしてしまった課題ということだと思う)を解いて,(1)その最適解で,値が0ないし1になっている変数の個数をみる,(2)最適解発見までの時間をみる,(3)最適解が元の整数計画課題の何割くらいになっているかどうかをみる...のがお勧めだそうだ。(3)の意味がよくわかんないんだけど...すでに整数計画問題で最適解が得られている場合の話であろう。
久保幹雄 (2006) 数理計画ソルバーを用いたメタ解法. システム/制御/情報 : システム制御情報学会誌, 50(9).
最適化の問題へのアプローチには,線形計画法で最適解を求めるやり方と,メタ・ヒューリスティクス(汎用的なヒューリスティクスのこと。局所探索とか焼きなまし法とか)を使って近似的な解を探索するやり方がある。本屋であれこれ探していて,線形計画の本には線形計画,メタ解法の本にはメタ解法のことしか書いてないことに気が付いた。なんでもいいから解き方を教えてくださいよ,というアサハカな立場からみると,この状況はかなり不思議であった。
先週たまたま見つけたのが,上記と同じ特集号に載ったこの論文。内容は難しすぎて手に負えない部分が多いのだが,冒頭2ページの概観を読んで,霧が晴れるような思いであった。著者らによれば,整数計画ソルバーで解く方法のほうが実務的汎用性がある。メタ解法は問題の構造を正しく捉えないと設計できないし,ちょっと問題が変化しただけで位置からやり直しになってしまいかねない。いうなれば,ソルバーは万能ナイフ,メタ解法は日本刀や中華包丁のようなもの。で,このふたつの技術はほとんど独立のグループによって研究されており,あまり接点がないのだそうだ。
なるほど。。。ことばから受ける印象では,メタ解法のほうが汎用的,という感じだが,現実にはそうでもないんですね。先週から遺伝的アルゴリズムの入門書を何冊か読みかじっていたのだけれど,どうやらポイントはアルゴリズムそのものより,課題の構造をうまく捉えた遺伝子型の設計にあるようで,これは案外に名人芸の世界なんじゃないか,と混乱していたところであった。この論文のおかげで,疑問が氷解した思いである。
(で,この著者の名前に惹かれて久保&ペドロソ(2009)を買い込んだら,その第三章がこの論文の中身と同じだった。やられたぜ)
思うに,こういう素人向け啓蒙論文を書いたところで,あまり業績評価にはつながらないのではないだろうか。そういう点でも,著者の先生方に感謝。それともORの世界では,こういう啓蒙も研究者の大事な仕事だと認められているのだろうか。そうだといいんですが。
2009年10月28日 (水)
Muthen, B.O. (2002) Beyond SEM: General letent variable modeling. Behaviormetrika, 29(1), 81-117.
Mplusの開発者Muthenさんが,Mplusの背後にある理論的フレームワークについて説明した論文。潜在変数として連続変数とカテゴリカル変数の両方を考え,かつ共変量を考えることで,従来のSEMで捉えられるモデルはもちろん,潜在クラスモデル,成長曲線モデル,項目反応モデル,階層モデル,離散時間生存モデルなどなどの多様な分析手法をぜーんぶひとつの枠組みで捉えることができるのですよ。という主旨。
この論文は前の会社に勤めたばかりのころに読み始め,あまりに難しくて途中で挫折したのであった。で,先日ちょっと頭を整理したくてぱらぱらめくっていたら,これが意外にもわかりやすく,途中ちょっと飛ばしたものの,気がついたら読み終えていた。狐につままれたような感じだ。俺なりに多少は成長したのか。。。いや,きっと論文を読むときの態度が変わったのだろう。適当に流し読みするようになったというか,関与が下がったというか。
これはよく引用される論文だと思うが(Google scholarではただいま200件),よくみたら,掲載誌は日本の行動計量学会の英文誌である。へー。
2009年10月21日 (水)
先日片側検定について調べていたときに読んだ論文。ほかにも読んだような気がするんだけど。。。
Liu, T., Stone, C.C. (1999) A critique of one-tailed hypothesis test procedures in business and economics statistics textbooks. J. Economic Education, 30(1), 59-63.
Lombardi, C.M., Hurlbert, S.H. (2009) Misprescription and misuse of one-tailed tests. Austral Ecology, 34(4), 447-468.
面倒なところを飛ばしてしまったが(非同等性試験のあたりとか),俺のなかでの片側検定ブーム(?)が過ぎ去ってしまったような気がするので,これは読了にしちゃおう。
2009年9月10日 (木)
二群の比率の差の検定法としてFisherの正確検定が広く知られている。俺も学生のときに習った。この方法には,2x2クロス表の周辺度数をすべて固定して考えるという特徴がある。有名な紅茶実験を例に挙げると,Fisher先生は紅茶のカップを8つ用意し,うち4つには紅茶を先に,残りの4つにはミルクを先に注いだ。で,農業試験場の同僚の女性がこれらを飲み比べ,どのカップで紅茶が先に注がれたかを言い当てようとした。さて,このとき同僚の女性は,紅茶を先に注いだカップが8つのうち4つだということをあらかじめ知っている。つまり,正解を行,女性の回答を列に置いた2x2クロス表を考えると,女性の舌が正確だろうがいい加減だろうが,行周辺度数も列周辺度数も4であることはあらかじめ決まっているわけである。この事実がFisherの正確検定の基盤になる。
しかし,我々が二群の比率の差を調べる際,各群のサイズ(行周辺度数)はあらかじめ固定されているとしても,両群あわせた比率(列周辺度数)は固定されていないのが普通である。紅茶実験のたとえでいえば,同僚の女性が「紅茶を先に注いだカップが何杯あるのか」さえ知らされていない状況に相当する。こうした問題にFisherの正確検定を適用するということは,本来固定されていない周辺度数を固定して考えてしまっているわけだ。これはなんだか変じゃないか?。。。という疑問を,院生のころから漠然と胸に抱いていたのだけれど,そういう難しいことにはあまり立ち入らないようにしようと思っていた。なんといっても,統計学は苦手なのだ。
このたび仕事の都合で,ちょっと正確検定のことを調べていて知ったのだが,上の疑問は古典的な議論の種なのだそうで,すでに膨大な論争の積み重ねがあるらしい。ふうん。
哲学的論争だけではなく,具体的な検定手法としても,Fisherの方法とちがって列周辺度数を固定しないタイプの正確検定(これをunconditionalな検定という)がいろいろ提案されているのだそうである。Fisher法は保守的であることが知られているが,これは周辺度数をすべて固定した上で数え上げているからであり(検定統計量が過度に離散的になる),unconditionalな手法ならば少しはマシになるだろう,と期待されているわけである。へー。
Mehrotra, D.V., Chan, I.S.F., Berger, R.L. (2003) A cautionary note on exact unconditional inference for a difference between two independent binomial proportions. Biometrics, 59, 441-450.
というわけで,たまたま拾った論文に目を通してみた。11種類の検定手法について,実質的なType I Error率や検定力を比較している。その内訳は,まずconditionalな検定としてFisherの正確検定。unconditionalな検定として,Suissa&Shuster(1985)が提案した2種類の方法,Santner&Snell(1980)の方法,Boshloo(1970)の方法,そしてこれら4つの方法をBerger&Boos(1994)に基づいてそれぞれ改訂したもの4種類,以上あわせて8種類(やれやれ,いろいろあるものですね)。最後に漸近的手法として,Pearsonのカイ二乗検定ともう一種類。
結論としては,状況によって手法の良し悪しは大きく変わるし,unconditionalな手法の検定力が高いとは限らない由。一般的なお勧めは,Boshlooの方法,その改訂版,Sussa&Shusterの"Z-pooled"法の3つだそうだ。ほー。
論文の本筋とは離れるが,帰宅する電車のなかでこの論文をめくっていて,表のなかのある箇所に目を吸い寄せられ,あまりの意外さに茫然としてしまった。またもや勉強不足をさらすようで,ここにセキララに書くのはちょっと勇気がいるのだが...
独立な2群間の比率の差の検定について考える。Pearsonのカイ二乗検定,各群N=150,両側検定,α=.05とする。さて,実は母比率は両群ともに50%であるとしよう。このとき,誤って有意差が得られてしまう確率は?
そりゃもちろん5%であろう,というのが俺の答えである。αとはType I Errorの確率,つまり「帰無仮説が真のときに誤って棄却する確率」だ。もし母比率が等しい,つまり帰無仮説が真ならば,そのとき有意差が得られる確率とは,すなわちαにほかならない。そうですよね? このように信じ込んで,わたくし,これまでのうのうと生きて参りました。
ああ,俺と同じように答える人が多からんことを。あなたたちは私の心の友である。そして心の友よ,我々は深く反省すべきだ。この論文のTable 1.によれば,正解は5.7%である。
(正直いって信じられなかったので,翌朝簡単なシミュレーションのコードを書いて確かめてみた。嘘じゃありませんでした。二項乱数を使って100万試行繰り返したところ,有意差が得られたのは56,357試行であった)
このズレは,検定統計量の分布をカイ二乗分布で近似している点に由来する。セルの期待度数が5を下回っているときにこの近似が成立しないことは良く知られているが,それどころか,N=300という大きな標本サイズにおいてさえ,カイ二乗検定の実質的なαは名目上のαをかなり上回ってしまうことがあるのだ。いやあ驚いた,思ってもみなかった。
そんならコンピュータにモノを言わせて,大標本においてもバンバン正確検定を使い倒せばよいのかといえば,もちろんそういう問題でもない。上の状況でFisherの正確検定を使うと,その実質的αは4.3%。こんどは過度に保守的になってしまう。そこで上記のような研究が登場するわけである。比率の差の検定というオーソドックスな問題にも,意外な難しさがあるんだなあ。いやいや,勉強になりました。
2009年9月 6日 (日)
勤め先で検定力関数のグラフを描く用事があった。サンプルサイズを横軸に,仮説検定で得られる検定力を縦軸にプロットした折れ線グラフ。たまにはそういう変わった仕事もある。
必要なグラフは描けたので,戯れにパラメータをいろいろ変えてみては,グラフの様子が変化するのを,頬杖をついてぼんやり眺めていた。ふつうの検定力関数は滑らかな単調増加曲線だが,パラメータによってはガタガタの階段状になったり,ノコギリの歯みたいな形になったりする。ふうん,面白いなあ。さて,昼飯でも食いに行くか,と席を立った。で,ぼーっと外に出て,ぼけーっと交差点をわたり,ぼんやりコーヒーを啜っているあたりで,はた,と気が付いた。
ノコギリの歯?! それはつまりその,サンプルサイズを増やすと検定力が下がることがある,ということですか? ま・さ・か,そんなはずがない。。。
このブログを誰が読んでいるのかわからないが,なかには俺の同類,すなわち自分に統計学の知識が欠けていることを認めたがらない哀れな解析ユーザもいるだろう。そういう人はきっと,やれやれ,こいつ幻覚でも見るようになったか,と思うに違いない。
証拠を載せておこう。下に貼ったのは独立二群間の比率差の検定における検定力曲線(母比率60%と50%,α=.05,標本サイズは群間で等しい)。いまG*Power3で描いた。
このグラフはFisherの正確検定の場合。たとえばN=18(群あたりN=9)の場合の検定力は3%,N=20の場合の検定力は2%であり,二例ふやしたせいで検定力が落ちてしまう,ということがわかる。こういうことがあるんですね。専門家には鼻で笑われちゃうかもしれないけど,俺は驚いた。これで統計学の講義などやってたんだから,ホントに申し訳ない。言い訳になりますが,心理学出身者は正確検定なんてあんまり使わないんです。
しばらく考えて自分なりにようやく納得したのだが,このからくりは,棄却のための臨界値を決めるとき,与えられたNの下でα=.05以下となる上限を求める,という点に由来するんじゃないかと思う。その結果として達成されるactualなαは往々にして.05を下回ってしまう。上記の例の場合,α=.05, N=20の下で,実際のαは実に.012である。名目的なα=.05からのギャップが大きい分だけ,無駄に保守的になっている,つまり,検定力を失っていることになる。
というわけで,このような例はFisherの正確検定に限らず,検定統計量の分布が離散的なときには常に生じうる。いっぽう下のグラフのように,Pearsonのカイ二乗検定のような漸近法では生じない。
ついでに関連論文を一本読んでみた。ここまでくると,仕事に役立つわけではないので,純粋に趣味というべきである。
Chernick,M.R., Liu,C.Y. (2002) The Saw-Toothed Behavior of Power versus Sample Size and Software Solutions: Single Binomial Proportion Using Exact Methods. The American Statistician. 56(2), 149-155.
SAS のマニュアルで引用されていた論文。検定力関数がノコギリ状になることがある点を指摘したうえで,市販ソフトがそれにどう対応しているかを紹介している。問題はノコギリ状になることそのものではなく,検定力からサンプルサイズを決定する際に,ソフトがちゃんと事態を説明してくれるか,という点にあるようだ。つまり,たとえば「ご指定の検定力を達成するためにはN=18必要です」と出力されたとして,読み手はうっかり「なるほど,N=18以上あればいいんだな」と思ってしまうが,実はそうではないかもしれない。ソフトはそのことをちゃんと教えてくれるか,ということである。なるほどね,そういう業界の人にとってはシビアな話であろう。
なお,取り上げられていたソフトはnQuery Advisor, Power and Precision, StatXact, PASS, UnifyPow。最後のやつはSASのマクロで,SAS 9.1から実装されたPOWERプロシジャの元になったらしい。
2009年8月24日 (月)
Hahn, C., Johnson, M.D., Herrmann, A., Huber, F. (2002) Capturing customer heterogeneity using a finite mixture PLS approach. Schmalenbach Business Review, 54, 243-269.
FIMIX-PLS法の解説論文。SmartPLSのBBSで紹介されていた。掲載誌はどういう雑誌なのか見当がつかないが,名前からすると「一橋ビジネスレビュー」みたいなもんかしらん。Webcatでみると所蔵図書館が110館もあるから,きっと有名な雑誌なのだろう。
たとえば,顧客満足度について共分散構造分析のモデルを組んだとしよう。で,よくよく考えると顧客のなかにも異質性があるはずで,ある人々においては従業員の礼儀正しさから顧客満足に伸びるパスの係数が高いだろうし,別の人々においては店舗の品揃えのパス係数が高いだろう,というようなことを考えたとしよう。この場合,思いつくデモグラ変数で対象者を分けて,群ごとにパス係数を推定したりするのがオーソドックスなやり方だが,うまい切り口が見つかるかどうかは運次第だし,実は「男30代と女50代は従業員重視」が正解でした!。。。などという場合には,もうほとんどお手上げである。そこで登場するのが,有限混合分布モデルをつかって,対象者を潜在クラスにわけつつかつクラスによって異なる係数を推定する,というやり方である。
いっぽう,顧客満足度のモデリングでよく使われる手法には,普通の共分散構造分析のほかにPLSモデリングもある。では,有限混合分布モデルをつかった PLSモデリングはできないのだろうか?できますとも,FIMIX-PLSをごらんあれ,というのがこの論文の主旨。数式のところは飛ばして読んだが,勉強になりました。
アメリカのコンビニ顧客満足度調査データを使い,係数の異なる5つのセグメントを求めて見せる。デモグラ変数でアプリオリに層別した分析をいくらやっても,このセグメントに到達するのは難しい由。
このモデルでは,顧客満足に対して10個の潜在変数からのパスが刺さっている。クラス数を変えながらパス係数を推定していくのだが,その際,どのクラスでも係数はすべて0以上,という制約をかけてしまう。著者らはこの制約の下での解を局所最適解と呼び,異なる初期値から繰り返し計算して,解が同じだったらそれは大域最適であるとみなしている。要するに,潜在変数は互いに独立だ,真の重回帰係数はすべて0以上になるはずだ,と前提しているわけだ。えええ?重回帰係数の符号が直感と逆向きになるのは,独立変数間に因果関係があることの証拠かもしれないではないか。Store LayoutとSafetyなんて,いかにも複雑な因果関係がありそうだから,どちらかの直接効果が負になってもおかしくない(店内の安全性さえ確保されていれば,棚のレイアウトはむしろ入り組んでいたほうが顧客満足が高い,とか)。解釈は難しいけど,それはそれで大事な知見ではないですか。
そもそも,論文の主旨は有限混合分布に基づくセグメンテーションにあるのであって,独立変数が互いに独立だという想定は別に要らないのではないか? なにもそんな制約をかけなくてもいいじゃん,と思ったのだが,察するに,こういう手続きを踏まないと負の係数が出まくってしまい,結果を解釈できなかったのかも。
セグメンテーション後の分析が勉強になった。各対象者の事後確率を従属変数,デモグラ情報を独立変数にした回帰モデルを組む。なるほど,分類結果とデモグラのクロス表を取るよりも気が利いている。もっとも実務の文脈では,個人にセグメント番号ではなく所属確率が割り当てられるというのは,ちょっと受け入れられにくそうだ。(あとでSmartPLSのBBSを眺めていたら,そういうことを書いている人がいた)
クラス数を決定する際に,どの適合度指標をみればよいのか(AIC, BIC, CAIC, ENのどれが良いか)を知りたかったのだが,書いてなかった。ま,全部みろってことかしらね。
2009年5月 6日 (水)
Mulaik, S.A., Millsap, R.E. (2000) Doing the four-step right. Structural Equation Modeling. 7(1), 36-73.
Hayduk&Glaser(2000)への返答論文。元論文と同様,論点が多岐にわたりすぎていて,どうにもついて行けないのだけれど,読んだ範囲内では,まあそう答えるだろうな,という内容であった。EFAで正しい因子数を知ることができるなどと主張した覚えはない由。
SEM誌のこの号は,Hayduk&Glaserをめぐる討論論文集になっている。他の人のコメントとか,Haydukらの再批判なども載っているようだ。でもそっちを読むより,非常に良く引用されるAnderson&Gerbing(1988)を先に読んだ方がいいんじゃないか,という気がしてきた。いかにいい加減なやり方で目を通しているとはいえ,長い論文を読むのは,やっぱり面倒なのである。
文献を読んだらすぐにメモを取らないと,どんどん忘れてしまう。。。いったい何をやっているんだろうか。砂浜に城を建てるような案配だ。
2009年4月22日 (水)
Hayduk, L.A., Glaser, D.N.(2000) Jiving the four-step, waltzing around factor analysis, and other serious fun. Strucural Equation Modeling. 7(1), 1-35.
SEMNETメーリングリストでの議論を基にした論文。長い長い論文だったが,書き方がカジュアルというか冗長なので,読むのは案外ラクだった。
題名にあるfour-stepというのは,あるSEMのモデルをつくるとき,(1)EFAモデル, (2)CFAモデル, (3)SEMモデルの順に制約をかけながら進んでいくやり方のこと。CFAモデルの適合度が低かったら測定部分の問題,SEMモデルの適合度が低かったら構造部分の問題,つまりこのやり方なら測定と構造を分離して検証できることになる。この考え方を著者らは徹底的に批判するが,その最大のポイントは,因子数が正しいかどうかは誰にもわからない,という点。
four-stepはいわれているほど正しくないよ,という論文であって,four-stepよりも良い方法があるよという論文ではなかった。それはいいとしても,いったんfour-step擁護者の主張をすごく拡大解釈しておいて,やおらそれを叩くというあたりが,なんだか筋の悪い議論に思えて仕方がない。適合度指標だけで正しい因子数を求めることが出来ると思っている人が,ほんとにいるんだろうか?
2009年2月22日 (日)
Glockner-Rist, A., & Hoijtink, H. (2003) The best of both worlds: Factor analysis of dichotomous data using item response theory and structual equation modeling. Structural Equation Modeling, 10(4), 544-565.
順序尺度の変数が指標になっている多母集団SEMモデルで測定不変性を調べる方法(←あまりに長いのでこのブログの前の記事からコピー)についての論文,第三弾。SEM的アプローチとIRT的アプローチは結局同じものなのよ,という啓蒙論文。
群間で指標の因子負荷や閾値が違うかどうか(IRTでいうところのDIF)を調べる方法として,多群分析のほかにMIMICモデルを組む方法も紹介されていた。男女の2群のモデルを組むのではなく,性別という共変量を投入して,性別から指標へのパスを引いていくわけである。ふつうのSEMでは見たことがあったが,順序尺度のSEMでもその手はアリなのだな。
わざわざSEM誌の論文などという面倒なものに手を出しているのは,多群分析でpartial invariantなモデルをつくるとき(一部の指標の負荷や閾値が群間で異なるモデルをつくるとき),制約を置いたりはずしたりしていくのは閾値を先にするのがよいか負荷を先にするのがよいか,といういささかマニアックな話に関心があったからである。この論文は「閾値を決めるのが先」と示唆してはいるものの(備忘のため書いておくとp.555),そうするのがよいというエビデンスを示しているわけではなかった。なあんだ。
まあいいや,この話題について調べるのはそろそろ打ち止めにしておこう。
先週のとある日,諸般の事情でもう眠くて眠くて,もう机に頭をぶつけそうだ,という時間帯があった。いまデータの分析をしたら絶対に間違えると思い,仕事を中断しコーヒーをすすりながらこの論文を読んだ次第である。おかげで内容が全然頭に残っていない。手元にあるコピーにはあちこちに俺の字で書き込みがあるのだが,全然覚えていない箇所が多い。いかんなあ。
2009年2月13日 (金)
Millsap, R. & Tein, J.Y. (2004) Assessing factorial invariance in ordered-categorical measures. Multivariate Behavioral Research. 39(3), 479-515.
順序尺度の変数が指標になっている多母集団SEMモデルで測定不変性を調べる方法(長い...)についての論文,第二弾。イキオイがついているうちに,と思って目を通した。
論文の焦点は,測定不変性を調べる具体的な順序というよりも,モデルの同定条件にあるようであった。関心のあるところを抜き書き:
順序カテゴリカル指標がp個あるとする。k番目の群に属するi番目の人のj番目の指標の得点をX_{ijk}とする。どの指標も値\{0,1,...,c\}を取り,その値は潜在反応変数X^*_{ijk}と閾値\nu_{jk1},...\nu_{jk(c-1)}で決まるものとする。潜在反応変数の平均ベクトルを\mu^*_k,潜在反応変数の共分散行列を\Sigma^*_k,因子分析モデル(因子数r)の項目切片ベクトルを\tau_k, 因子パターン行列を\Lambda_k, 独自因子の分散をあらわす対角行列を\Theta_k, 因子共分散行列を\Phi_k,因子平均行列を\kappa_kとする。
順序カテゴリカル指標の多群因子分析におけるモデル同定のためには,たとえば以下の手順に従うと良い。
因子構造が1因子構造ないし単純構造の場合:
- ある群で,潜在反応変数の平均を0,分散を1に固定する(\mu^*_k=0, Diag(\Sigma^*_k)=I)。これでこの群の閾値パラメータを同定できる。
- 上の群で因子平均を0に固定する(\kappa_k=0)。
- すべての群で,項目切片を0に固定する(\tau_k=0)。また,各因子について1項目選び,負荷を1に固定する(この項目のことを基準変量と呼ぶことにする)。
- あるmを選び(二値変数の場合にはm=1),すべての項目についてm番目の閾値に群間等値制約を置く(\nu_{jkm}=\nu_{jm})。さらに,それぞれの基準変量については,もうひとつの閾値についても群間等値制約を置く。二値変数の場合は,基準変量の潜在反応変数の分散を(たとえば)1に固定する。
p+r個の閾値を不変にするだけでよく,基準変量のすべての閾値を不変にするわけではないことに注意。また,因子平均,因子共分散行列,独自因子分散を制約していないことに注意。
因子構造が1因子構造でも単純構造でもない場合,モデル同定の十分条件は指標が量的な場合でさえあきらかでないが,同定の問題を量的な場合と同じところにまで持っていくためには:
- ある群で,潜在反応変数の平均を0,分散を1に固定する(\mu^*_k=0, Diag(\Sigma^*_k)=I)。これでこの群の閾値パラメータを同定できる。
- 上の群で因子平均を0に固定する(\kappa_k=0)。
- すべての群で,項目切片を0に固定する(\tau_k=0)。また,各群のパターン行列に制約を置いて,回転の観点から見てユニークであるようにする。その方法はいろいろあるが,一般的なやり方は,r個の項目を選び,そのr行からできる行列を単位行列にすることである[その因子にしか負荷を持たない項目を確保し,それを基準変量にするということだろうな]。
- ふたつのmを選び(項目が二値の場合にはm=1だけ),すべての項目について,m番目の閾値に群間等値制約を置く(\nu_{jkm}=\nu_{jm})。項目が二値の場合は,さらにすべての潜在反応変数の分散を1に固定する(Diag(\Sigma^*_k)=I)。
測定不変性の検討という観点から見ると,潜在反応変数の分散を1に固定してしまうことには欠点がある。独自因子の共分散行列\Theta_kの不変性を評価するのが難しくなってしまうのである。たとえば,負荷\Lambda_kが不変で,すべての群の潜在反応変数の分散が1に固定されているとしよう。このとき,共通因子の共分散行列\Phi_kが群間で異なれば,独自因子の共分散行列\Theta_kも群間で異なってしまう。この問題を避けるためのもうひとつの方法は,独自因子の分散を1にしてしまうことである(\Theta_k=I)。Mplusではこの制約を「シータ・パラメータ化」と呼んでいる。測定不変性の検討に際しては,連続潜在変数の分散の不変性に関心があるのでない限り,「シータ・パラメータ化」が適切である。
測定不変性の検討に際しては,まず負荷の不変性を検討し,それから閾値の不変性を検討し,最後に独自因子分散の不変性を検討する,という順番が想定されているようであった(先週読んだTemme(2006)の意見と異なる)。もっとも,その順番が良いのだという明確な議論はなかったように思う。
LISRELをつかったときとMplusをつかったときのモデルの違いについて詳細な説明があった。LISRELの部分は飛ばして読んだので詳しくはわからないが,閾値の指定があまり細かくできないので,この問題についてはMplusのほうが有利らしい。
Millsap先生はwebでこの論文のMplusのシンタクスを配っておられる。神のような人だ。
去年,非常勤先の講義に,友人のKくんがデータを取りに来たので,ついでに研究の話を喋ってもらい,さらには昼飯をつきあってもらった。その際,論文を手に入れるのが大変なんだよね,という話をしたら,国会図書館で手に入りますよ,とKくんがいう。いやいや,実は国会図書館の雑誌って案外そろってないのよ,と偉そうなことを云ったが,実は関西館の郵送取り寄せのことしか頭になかった。で,このあいだ国会図書館のwebをよくよく見てみたら,なんと,東京館に足を運べば館内端末からものすごくたくさんの雑誌に全文アクセスできるし,一枚20円くらいで印刷もできるのであった。知らなかった。嘘ついちゃった。
で,今週時間を作って会社を抜け出し,上記論文をはじめ,手に入れたかった論文を10本ほど印刷してきた。国会図書館は事実上の初体験(二十年ほど前に行ったかもしれないが,記憶にない)。ロッカーにカバンを預け,妙なビニール袋に手荷物を入れるあたりから,もうワクワクしてしまった。大きな図書館は,大きいというだけでなんだか楽しい。あの立ち入り禁止の暗い階段を間違えて下りたら,村上春樹の小説みたいに,謎の老人に監禁されて無理矢理読書させられ,あとで脳みそをちゅうちゅうと吸われちゃったりして。。。などと空想が膨らむ。今度は勤務時間じゃないときに,ゆっくり探検してみたいものだ。
2009年2月10日 (火)
Temme, D. (2006) "Assessing measurement invariance of ordinal indicators in cross-national research." in Diehl, S., & Terlutter, R. (eds.) "International Advertising and Communication: Current Insights and Empirical Findings." pp. 455-472. Gabler.
仕事の都合で読んだ。順序変数が指標になっているモデルの測定不変性を検討する方法について悩んでいたら,sem-netでまさにその質問をしている人がいて,Millsap&Tein(2004)とともにこの論文がお勧めされていた。とても急いでいたので,購入申請を出し,この章だけPDFを買い,プリンタが吐き出してくるその横で大急ぎで読んだ。論文を見つけてから読み始めるまで5分足らず。あっちこっち図書館を探したりするのが馬鹿馬鹿しくなってしまう。
多母集団のSEMで測定不変性を検討する手順としては,まず因子負荷に群間等値制約を置いたモデルと置かないモデルを比較するのが普通だと思う。前者が勝って(metric invariance)なおかつ因子平均を比較したいときになってはじめて,項目の切片に群間等値制約を置こうかどうしようか(scalar invariance)という話になる。んじゃないでしょうか。
指標が二値変数や順序変数のときは,項目の切片のかわりに閾値が登場するが,metric invarianceの検討にあたっては,因子負荷と閾値の両方について考えないといけない。MplusのマニュアルやサポートBBSを読んでいると,かのMuthen導師は閾値と負荷は常にタンデムで扱うべきだと強硬に主張しておられる。等値制約するんなら両方そうしなきゃいけないし,自由推定するんなら両方そうしなきゃいけない,ということだ。カテゴリカルSEMの日本語の解説はなかなか見当たらないんだけど,豊田本(疑問編)の説明もそんな風な感じだった。
IRTでいうところの項目曲線は,SEMでいうところの閾値と負荷のどっちかが変わるだけで変わってしまうわけだから,まあそういうもんかなあ,という気もする。しかし,これはなかなか不便な話だ。プラクティカルにいえば,完全な測定不変性が確保できなくても,特定の項目について部分的に等値制約を緩め,なんとかpartial invarianceに辿り着きたいというのが人情である。その際,緩和するパラメータはなるべく少なく済ませたい。それに,もし閾値だけ等値なまま負荷だけ自由推定できたら,群間での負荷のちがいについて解釈しやすいではないか。
導師夫妻には怒られちゃうかもしれないけど,この論文によれば,そういう手順もアリなんだそうである。ただし直観に反して,まず負荷に群間等値制約を置いて閾値の不変性を検討し,次に閾値に群間等値制約を置ける項目について負荷の不変性を検討する,という順序が良いのだそうだ。実際の分析例でも,閾値も負荷も群間等値な指標,閾値が群間等値で負荷がちがう指標,閾値がちがって負荷が群間等値な指標の3つが混在したCFAモデルをつくってみせている。へー。
ともあれ,Muthen&Asparouhov(MplusのWeb Note 4),Millsap&Tein(2004), Glockner-Rist&Hoijtink(2003),あたりがこの話題の基本文献であることがわかった。読まないといけないなあ。たぶん読まないけど。
あれこれ悩んだせいで締め切り間際になってしまい,会社に泊まりこむ羽目になってしまった。その後の週末にたっぷり寝たんだけど,なんだか疲れが取れない。そういうお年頃なのである。
2008年12月15日 (月)
Grewal, R., Cote, J.A., Baumgartner, H. (2004) Multicollinearity and measurement error in structural equation models: Implications for theory testing. Marketing Science, 23(4), 219-529.
構造モデルが重回帰になっているような簡単なSEMモデルを想定し(例:4つの潜在変数からひとつの潜在変数にパスが伸びているモデル。各潜在変数は4つの指標を持つ),{潜在変数間の相関,測定誤差の大きさ,目的変数のR2,真のパス係数のパターン,標本サイズ}を操作してモンテカルロ・シミュレーションを行い,パス係数の有意性検定での検定力を推定しました。検定力は潜在変数間の相関が高いときに下がりますが,測定誤差の大きさ,R2の低さ,標本サイズの小ささによっても下がりました。という論文。
重回帰における多重共線性の問題は広く知られているが,SEMでの構造方程式での多重共線性については,なぜかあまり気にする人がいないように思う。このたび仕事の関係でそのあたりについて悩むところあったので,ネットで探して読んでみた。所詮シミュレーション研究だから,ああそういう状況ではそうなるんですかというしかないんだけど,勉強にはなりました。
この論文が示しているように,たとえばLV1とLV2のそれぞれからLV3にパスが伸びているSEMモデルで,それらしいパス係数が推定されていても(そしてまともな適合度が得られていても),実はLV1とLV2の間に高い相関があったりすると,そこんとこの係数に限り信頼できないかもしれないわけだ。なるほど,気をつけないといけない。たいていのアウトプットでは,潜在変数間の相関なんていちいち書かないし。
SEMによって測定誤差を分離することができるのだ,という一般的解説が頭にあったので,測定誤差が大きいときに多重共線性の問題が深刻になるという話は,ちょっと思いつかなかった。なるほどなあ。その点を確認するためには,Fornell&Larcker(1981)のAVEという統計量と,潜在変数間相関の二乗とを比較するのがよいそうだ。よくわからないけど,どうやらAVEとはある潜在変数が配下の指標の分散を説明している割合のようなものらしい。要するに,弁別的妥当性がない多重指標モデルはまずいということなんだろうな。
潜在変数間の相関があまりに高いときには,潜在変数間にパスを引くのをあきらめ,潜在変数間の相関行列を分析せよとのこと(構造モデルを取り除いて,ただの測定モデルにしちゃうわけだ)。なるほどなあとは思うが,そこからどう進めばよいのか...因子間相関行列をグラフィカルモデリングに持ち込むという例が,しばらく前の心研に出ていたが,相関が高すぎる場合はうまくいかないだろうし...
2008年11月21日 (金)
Fornell, C. (1994) "Partial Least Squares" in Bagozzi, R.(ed.) "Advanced Methods of Marketing Research." Wiley.
仕事でPLSモデリングについて急遽理論武装する必要が生じ,上司様の蔵書を引っ張り出して目を通した。前に同じような都合でChinによる解説を読んだことがあるのだが,あれよりもわかりやすいような気がする。
共分散構造分析の解説書はいまや汗牛充棟という様子だが,PLSモデリングについての日本語の解説をまだみたことがない(PLS回帰を分析化学の手法として解説しているものは多いけど)。なぜだろうか? 間違いなくニーズがあると思うのに。
ふつうのSEMを見慣れた目からすると,PLSによるSEMは謎めいた手法で,びっくりするくらい小さな標本サイズで推定できてしまうし,分布についての仮定がないし(多変量正規性から離れてもロバストだという話ではなく,そもそも仮定がないのだ),適合度に相当する概念がないし...不思議だけど,実用性が高いし,すごく面白い。
ほかに何本かデータ解析方面の論文を読んだような気がするが,思い出せない。うーん,よくないなあ。
2008年10月27日 (月)
Cote, J.A., Buckley, M.R. (1988) Measurement Error and Theory Testing in Consumer Research: An illustration of the Importance of Construct Validation. Journal of Consumer Research, 14(4), 579-582.
相関の希薄化についての短い啓蒙論文なのだが,ちょっと面白いのは,どのくらい希薄化するかをむりやり定量的に一般化してみせているところ。なんでも著者らのメタ分析(JMR,1987)によれば,態度指標における真の(traitの)分散は30%, 手法による分散は41%, 行動指標における真の分散は42%, 手法による分散は26%,手法の相関が0.55だそうな。ここから算出するに,態度指標と行動指標の標本相関は,仮に真の相関が1.00だとして0.53, 逆に0.00だとして0.18となる由。ちょっとした数字の遊びだが,こうしてデモンストレーションされるとインパクトがあるなあ。仕事には使えないけど,研修のネタにつかえそうだ。
2008年10月21日 (火)
Cohen, J. (1992) A power primer. Psychological Bulletin, 1992, 112(1), 155-159.
仕事の都合で,効果量についてあわてて勉強する羽目に。正直,よく知らんのである。別に心理学の論文書く訳じゃないからどうでもいいと思って,油断していた。
とりあえず,有名な先生が書いた啓蒙論文を拾ってきて目を通したところ,さあこれからだ,というところでいきなり最終ページに到達してしまい,ちょっと呆然。効果量が出てくる主な文脈として,(1)サンプルサイズを決めたり検定力を求めたりするとき,(2)個別の研究で検定のかわりに,(3)メタ分析のとき,の3つがあると思うが,この論文は(1)だけに焦点を当てた内容であった。(2)の方向の説明が欲しかったのに。がっくりしたが,読み終えるまで気がつかない方がどうかしている。
よく効果量の説明で,Cohenの提唱する基準(小0.2, 中0.5, 大0.8)ってのが出てくるけど,その根拠はどこにあるのかしらん。この論文にも出てきたけど,特に説明はない。やっぱり本を読まなきゃいけないようだ。Cohen先生も, For readers who find this [simplest explanation] inadequate, I unhesitatingly recommend Cohen(1988) なあんて書いておられる。うーん,こういうときのunhesitatinglyってのは,ちょっとユーモラスなニュアンスがあるのかな,そうでもないのかな。
Fern, E.F., Monroe, K.B. (1996) Effect-size estimate: Issues and problems in interpretation. J. Consumer Research, 23, 1996.
(2)のタイプの論文。これは消費者行動系の雑誌論文なので,職場で堂々とめくっていたのだが(別に誰も気にしちゃいないと思うけど),今度は眠くて参った。
内容は,まず効果量指標のレビュー(案外いっぱいあるのだ。ただの平均差の効果量さえ3種類もあるぞ)。それから効果量に影響する様々な要因についてのレビュー(指標の信頼性とか,標本の等質性とか,尺度の水準数とかなんとか)。途中で面倒になっちゃって,適当に読み飛ばしてしまった。
効果量は重要性の指標ではない。効果量に実質的な有意性とか重要性とかを帰属させようとする人への最良のアドバイスは「やめとけ」だ,とのこと。いや,正論ですけどね。じゃあ重要性を求めろっていわれたら,どうすりゃいいのさ。
いまこれを書くためにぱらぱらめくってみたら,読んだ覚えのない面白いことが書いてあって,こりゃよほどいい加減にめくったな,と反省。これではただの自己満足だ。
標本サイズのくだりで,こんな事が書いてあった。有意な結果が得られたとき,その標本サイズが小さいとその結果を当てにしない人が多いが,これは伝統的な観点からは理屈に合わない(効果量はむしろ大きいわけだから)。しかしベイジアンの観点からみると,効果が同じなら大標本のほうがより証拠として価値がある,という見方は正しいのだそうだ。この話,前にどこかで(たぶん別の文脈で)読んだことがあるんだけど,どこだっただろうか? 思い出せなくて気持ちが悪い。
2008年7月20日 (日)
相対的重要度関連の論文を2本。
Pratt, J.W. (1987) Dividing the indivisible: Using simple symmetry to partition variance explained. Proceedings of the second international Tampere conference in statistics. 245-260.
学会のproceedingsだが,あまりによく引用されるので,非常勤先の図書館で取り寄せてもらった。
重回帰における独立変数の重要性の指標は標準偏回帰係数×相関係数だ,ということを公理的に証明(!)してみせた論文。残念ながら,さっぱりわかんなかった。
この指標はシンプルだし,和が決定係数に一致するので都合がよいのだけれど,もっともあからさまな難点は,ともすれば負になってしまうというところだろう。著者にいわせれば,負になるのは現象があまりに複雑だということを示しているのだそうだが。。。そんなことをいわれてもね。
Kruskal, W. (1984) Concepts of relative importance. Questiio, 8(1), 39-45.
クラスカルによる初期のレビュー。この雑誌もなんだかよくわからない(スペイン語圏の大学の紀要かしらん)。
うーん,こんなマイナーな論文をのんびり読んでいても埒があかないぞ。
2008年6月29日 (日)
Kruskal, W. & Majors, R. (1989) Concepts of relative importance in recent scientific literature. The American Statistician, 43(1), 2-6.
タイトルに重要性ということばが入っている論文を集めて,重要性をどうやって調べているかを集計した報告。統計的有意性に頼っている論文が多い由。ふーん。
Gustafsson, A. & Johnson, M.D. (2004) Determining Attribute Importance in a Service Satisfaction Model. J. Service Research, 7(2), 124-141.
独立変数の重要性を調べる手法を比較した論文。サービス満足度・ロイヤリティと属性評価のデータについて,PLSモデル,主成分回帰モデル,重回帰モデル,NPE(単相関みたいなもの),重要性の直接評定を比較する。手法を評価する指標は,分散の説明率とか,重要性と重要性の順位の関係が線形になるかどうか(診断性の指標である由。よくわからん)とか,負の係数が出るかどうかとか。
手法を評価する方法がいまいちわからなかったのだが。。。統計的指標は経験された満足に対する属性の重要性をうまく示し,いっぽう主観的指標はロイヤリティに対する属性の重要性をうまく示す由。なるほど,重要性測定手法の良し悪しは,目的変数の生成メカニズムによっても変わるわけだな。
Bring, J. (1994) How to standardize regression coefficients. The American Statistician, 48(3), 209-213.
重回帰式における独立変数の重要性の指標として標準偏回帰係数を使うのは筋が通りません。X1の偏回帰係数は「X2, X3...が固定されたときになにが起きるか」をあらわしますが,X2, X3, ...が固定されちゃったらX1のSDも変わります。ですから偏回帰係数を全体のX1のSDで割る(標準偏回帰係数)のではなく,X2, X3, ...を固定したときのX1のSD,つまり偏SDで割るべきなのです。云々。
ウプサラ大の院生さんが書いた論文。この雑誌は啓蒙的な論文が多いような印象があるのだが,心理学でいうAmerican Psychologistみたいなもんなんだろうか?
論文中には独立変数の重要性がどうこうという話が出てくるが,そもそも偏回帰係数ベースの指標が重要性をあらわしうるのか,という議論は避けていて,あくまで偏回帰係数を重要性指標とみなすにあたっての正しい標準化について述べた論文であった。なるほど,それはそれでわかりやすい。
数学がからきし駄目なのでよくわかんないんだけど,この人がお勧めしている新しい標準偏回帰係数というのは,きっとTypeIII平方和とか部分相関係数みたいなものなのであろう。
2008年6月 3日 (火)
Gromping, U. (2007). Estimators of Relative Importance in Linear Regression Based on Variance Decomposition. The American Statistician 61, 139-147.
相対的重要度についての論文。著者はRのrelimpというパッケージの作者でもある。
Kruskal流のall subset regressionと,それを改善したというFeldmanのProportional marginal variance decomposition(PMVD)というアプローチを比較する。X1がX2を経由してYに影響しているとき(SEM風にいえば,X1に間接効果があって直接効果がないとき),X1はKruskal的な重要度は持つが,Feldmanのアプローチだと重要度が0になるのだそうだ。それはまあ,なんというか,良し悪しですわね。
数学にはからきし弱いもので,Feldmanの提案の中身についてはさっぱりわからない。webで説明を公開しているが,査読論文ではない(この論文で引用されているのもdraftみたいなやつだ)。Feldmanさんに直接問い合わせてみたが(どうもありがとうございました),現時点でもそうらしい。これじゃ引用されにくいだろう,もったいないなあ,と思ったが,この方は自営の統計コンサルタントらしく,webには「PMVDによるヘッジファンドの分析をご提供します」などとハナヤカなことが書いてあるから,全然もったいなくないんだろうな。
この論文には後にMenardという人がコメントを寄せていて,いわく,all subset regressionだのPMVDだのと大変な計算をしなくても,単に偏回帰係数×相関係数なりなんなりを重要度とみなせばいいじゃん,運悪く偏回帰係数が負になっちゃったら絶対値にすればいいじゃん,とのことであった。いやいや,いまそういう話をしてないでしょう,と笑ってしまったが(著者もコテンパンな感じの返答をしている),この人とてプロのstatisticianなわけであって。。。要するに,想定している課題状況がちがうんじゃないかと思う。
2008年5月20日 (火)
都合により論文漬けの一日であった。
Lebreton, J.M., Ployhart, R.E. Ladd, R.T. (2004) A Monte Carlo Comparison of Relative Importance Methodologies. Organizational Research Methods. 7(3), 258-282.
相対的重要度の特集号に載った論文。相関や偏回帰係数やJohnsonのepsilonのうち,相対的重要度指標として良いのはどれかを調べるために,指標の数や基準関連妥当性や多重共線性や単純構造の有無などを直交計画で動かしてモンテカルロシミュレーションをおこなう。
シミュレーションのやりかたは勉強になったけど。。。うーん。この論文が調べているのは要するに,Budescuのdominance 指標と近い振る舞いをするのはどの指標か,ということなのである。そこんところに納得できるかどうかで,評価が分かれると思う。
論文の前半で,いかにdominance指標が重要度の指標として優れているかを力説しているのだけれど,それは結局重要度の定義によって決まることなんじゃないか,という気がして仕方がない。というか,独立変数間の関係についての洞察を求めず,ただ重要度のランク付けを求めるという態度そのものが,データ解析の視点としていかがなものか,という気がしてしまう。
Budescu, D.V., Azen, R. (2004) Beyond Global Measures of Relative Importance: Some Insights from Dominance Analysis. Organizational Research Methods. 7(3), 341-350.
同じ特集号の巻末論文。dominance analysisの使い方あれこれの紹介とか,今後の展開の紹介とか(従属変数が複数の場合とか)。
dominance analysisでは,行にサブモデル(独立変数がp個あったら2^p-1行),列に独立変数(p列),セルに「そのサブモデルに当該の独立変数を入れた場合と抜いた場合のR2の差」を入れた表をつくるが,その表からいろいろな定性的情報が読み取れるよ,というくだりがあった。「X1を考慮したときはX2よりもX3が重要だけど,考慮しないときはX2のほうが重要なのね」とか。
そういった情報がどのくらい有り難いのか,仮に有り難いとしてそれを読み取るために最適な方法がdominance analysisの表なのかどうか,俺にはどうもよくわからないのだけれど(graphical modelingのほうがいい場合もありそうだ),それはともかく,ここで示唆されている方向は,ただ重要度のランク付けを求めるんじゃなくて独立変数間の関係について探索しなさい,ということだと思う。
我が意を得たりという気分だが,でもそういう探索のためには,単相関と偏回帰係数を両にらみしつつ考えるような,ローテクな方法でも十分役に立つんじゃないだろうか? 相対的重要度指標の価値はどこにあるんだろうか,と再び考え込んでしまう。うーん。
2008年5月19日 (月)
仕事の都合で,相対的重要度関係の論文を二本。
Budescu, D.V. (1993) Dominance analysis: A new approach to the problem of relative importance of predictors in multiple regression. Psychological Bulletin, 114(3), 542-551.
重回帰をベースに独立変数の相対的重要度を求める方法としてはKruskalの方法が有名だが(p個の変数のうち任意個を用いる重回帰式を片っ端から求め,2^p-1本の式を通じた偏回帰係数の二乗の平均を求める),その系統の方法で一番評判が良いのが,どうやらBudescuらのdominance analysisらしい。この方法が初お目見えした論文。
この段階では,著者はp個の変数を強い順に並べることだけを考えているようで,仮にうまく順番がつけられたら重要度の定量的な評価はKruskalに近い方法でやる,とのこと(偏回帰係数じゃなくて部分相関係数の二乗の平均を求める)。運悪く順番がつけられなかったら,重要度は付与できないと思し召せ,ということらしい。そりゃあちょっとストイックだなあ。前に読んだJohnsonのレビュー論文には,この論文のあとで著者らは態度を軟化させた,というようなことが書いてあったと思う。
Courville, T., & Thompson, B. (2001) Use of structure coefficients in published multiple regression articles: beta is not enough. Educational and Psychological Measurement, 61(2), 229-248.
調査データで重回帰をやるときは,偏回帰係数だけではなくて構造係数(xとy-hatの相関係数)もみておかないとダメですよ,という啓蒙的解説が前半。後半は,Journal of Applied Psychologyから実際の論文例を挙げて片っ端から批判していく。大変失礼ながら,ヒマな人たちだなあ,と思ってしまった。うむむ,申し訳ありません。
相対的重要度関係の論文は,Organizational Research Methodsとか,Educational and Psychological Measurementとか,ナニソレ?というジャーナルに載っていることが多くて,入手に困っていた。ところがつい数日前,Sage発行の雑誌の論文は,今月いっぱい全て無料でダウンロードできることを発見。神の恩寵というか,読まない言い訳ができなくなったというか。。。
2008年5月 8日 (木)
Lehmann, D.R. (2006) Using Regression to answer "What if." in Grover, R. & Vriens, M. (eds.) "The handbook of marketing research," Chapter 13.
かなり間が空いたが,ハンドブック一人読書会の第三弾。
回帰の初歩の章だから甘くみていたが,経済統計系の慣れない用語がでてきてちょっと戸惑った(弾力性とか,Hausman検定とか)。まあきっと経済系の人だって,それはそれで知らない話があるだろう,と自分を慰める次第だが,でも重回帰の周辺で,心理学出身の人が知ってて経済学出身の人がよく知らない話題ってあるんだろうか? bとβとどっちがいいか,なんていう話がそうか? なんだかつまんない話題だなあ。
Iyengar, R., & Gupta, S. (2006) Advanced Regression Models. in Grover, R. & Vriens, M. (eds.) "The handbook of marketing research," Chapter 14.
第四弾。判別分析,ロジスティック回帰,多項ロジット,多項プロビット,それからちょっぴりトービット分析の話。
多項選択のモデルとして多項ロジットモデルと多項プロビットモデルが用いられているが,前者はIIA仮定の下にあるので,各選択肢に影響している未知の因子が相関しているような場合には後者を選べとのこと。そ,そうなんですか。リンク関数の指定それ自体はただの趣味の問題かと思っていた。よくわかんないけど,張り切ってプロビット関数を使ったところで,誤差の共分散を推定しないモデルを作っちゃったら同じことじゃないかしらん。
2008年5月 7日 (水)
用事があって,信頼区間についての論文を三本読んだ。
Rouder, J.N., & Morey, R.D. (2005) Relational and Arelational Confidence Intervals: A Comment on Fidler, Thomason, Cumming, Finch, and Leeman (2004). Psychological Science, 16(1), 77-79.
前に読んだ論文(なんと,もう3年前か)へのコメント。平均の信頼区間は記述的には有用だが,条件間の比較の際にはわかりにくいよ,云々。
Fidler, F., Thomason, N., Cumming, G., Finch, S., & Leeman, J. (2005) Still Much to Learn About Confidence Intervals. Reply to Rouder and Morey (2005). Psychological Science 16 (6) , 494-495.
そんなことないよ,云々という返答。言葉尻がちがうだけで,云っていることは大体同じみたいだ。
Cumming, G., & Finch, S. (2005) Inference by Eye: Confidence Intervals and How to Read Pictures of Data. American Psychologist 60(2), 170-180.
信頼区間を図示しましょうという啓蒙論文。
信頼区間を正しく説明する文章の例を挙げているところが面白かったので,抜き書き:
- (This is our favorite:) Our CI is a range of plausible value for \mu. Values outside the CI are relatively implausible.SEをエラーバーにしたときの図の読み方について,ごくごく初歩的な勘違いをしていたことに気が付いた(あまりに初歩的な勘違いなので恥ずかしくて書けない)。この著者らには「科学者がいかに信頼区間のエラーバーを読み間違えているか」という実証研究もあって,なあんだみんなわかってないのねえ,なんて笑いながら読んだ覚えさえあるのに。。。気が付いてちょっと悲鳴をあげてしまった。誰かに嘘を教えていたりはしないと思うのだが。。。うわああん。。。
- We can be 95% confident that our CI includes \mu.
- Our data are compatible with any value of \mu within the CI but relatively incompatible with any value outside it.
- The lower limit is a likely lower bound estimate of the parameter; the upper limit a likely upper bound.
2008年4月 6日 (日)
Eltinge, J. (2001) "Diagnostics for the Practical Effects of Nonresponse Adjustment Methods." in Groves, R.M. et. al (eds.) "Survey Nonresponse", Wiley.
無回答の補正だかなにかのために,調査データになんらかのウェイティングをするとして,そのウェイト値の算出方法が2種類あるとき,どっちがいいかを決めるためにはどうしたらいいか,という話。信頼区間や検定力曲線を比較する。
この度入手した調査無回答の論文集のなかの一編(まさか自分がそんな本を読むことになるとは。もうなにがなんだか)。数学的にはあんまり高度ではない章なので,目を通してみたのだが,うーむ,これはほんとにマニアックな話だ。
そういえば先日,まったく未知の方から,このブログを経由してコーヒーミルを買ったのは私です,と名乗るメールを頂いた。ウェイティングについて検索していてこのブログをごらんになった由。てっきり知人の誰かだと思っていたので,驚いたのなんの。。。世の中なにがあるかわからない。
2008年3月 9日 (日)
Little, R.J.A., Vartivarian, S. (2005) Does weighting for nonresponse increase the variance of survey means? Survey Methodology, 31(2), 161-168.
いま手元にないのであいまいなのだが。。。無回答の補正のためになんらかの補助変数をつかってウェイトバックしたとき,統計量の偏りは減るが分散は大きくなる,と一般に考えられているが,一概にそうとはいえません,という内容であった。偏りが除去できるかどうかは補助変数と無回答との関連性によって決まり,分散がどうなるかは補助変数と集計対象の変数との関連性によって決まる,とのことである。なるほど,そうだろうなあという話だが,きちんと数式とシミュレーションで示してくれているので,勉強になった。
ここ数ヶ月,ずうっと調査データのウェイティングのことについて考えていた。あれこれ読みかじって改めて痛感したのは,俺には数学のスキルが圧倒的に足りない,ということであった。正直,これではいくら勉強したって埒があかない。これからどうやって生きていけばいいんでしょうかねえ。
いくら文献を読み漁ってもきりがないので,もうこれはこの辺にして別のことを考えよう,と金曜夜に決意した。散乱した資料を整理するついでに,あとで読むつもりだったこの論文に目を通した。雑誌はカナダの学会誌で,マイナー誌なので後回しにしていたのである。これを先に読んでおけばよかったなあ。
ウェイティングは偏りの除去のためにある,というのが直観的な理解だが,「集計対象の変数と強く関連しているが無回答とは関連しない」補助変数でウェイティングすると,無回答による偏りは除去できないが統計量の分散を小さくすることができるわけだ。実際の調査では,非回収誤差はしょうがないけど分散は小さくしたい,という不思議な状況も少なくない(トラッキング調査とか。とにかく経年で不安定なのが困る)。そんなとき,「ウェイティングによって非回収誤差を取り除きましょう」などと云いつつ,良さそうなデモグラフィック属性でツルッと事後層化ウェイティングを掛けてしまう,という方法も可能なわけだな。
この論文も含め,このたびウェイティングをめぐる議論を読んでいて不思議だったのは,みんな特定の調査変数の統計量を真値に近づけることばかり考えているという点だ。実際の集計では,ウェイト値はいったん決めたらすべての変数に対して用いるわけで,どの変数でもMSEがそこそこ小さい,というようなウェイト値が望ましいのではないかと思うのだが。。。まあそれは,俺の視野がそういう多目的的な調査に向いているからかもしれない。
2008年2月26日 (火)
Kish, L. (1992) Weighting for unequal Pi. Journal of Official Statistics, 8(2), 183-200.
こないだ読んだASAの大会発表を論文化したもの。こないだ仕事で読んだ。
それにしても,標本ウェイト関連の文献はたいてい平均や比についてのみ取り扱っていて,analytical な統計量(回帰係数とか)についての議論がなかなか見当たらない。たまに見つけても,やたら難しくて歯が立たない。参るなあ。。。こんな勉強に時間を取られていても仕方ないのに。
2008年1月15日 (火)
Potter, F.J. (1990). "A study of procedures to identify and trim extreme sampling weights." Proceedings of the Section on Survey Research Methods, American Statistical Association, 225-230.
仕事の空き時間に読んだ。
層別抽出とか事後層化とかで,各ケースを抽出確率の逆数でウェイティングして集計するとき,不幸にして抽出確率が小さい層があったりすると,ウェイトがすごく大きくなっちゃって困る。そこで,ある基準を上回ったウェイト値はトリミングしちゃおうという発想が出てくる。その基準を決める方法として,
- 既存の方法を2つ紹介します(MSEの推定値を最小にする方法,NAEPで使われている方法)。
- さらに新手法を二つご提案します(テイラー級数を使う方法,ウェイトの理論分布を使う方法)。
4つの手法をARFデータに適用して結果を比較してみました。という内容。
ARF(Area Resource File)というのは米保健社会福祉省による大規模データベースらしい。実データに適用したところで優劣はいまいちはっきりしないわけだが(そりゃそうだよな),論文の主旨はむしろ4つの手法を並べてみせるところにあるようだ。
テイラー級数を使う方法とMSEを最小化する方法は,ターゲットになる調査変数が同定されているときの話である。調査データにウェイティングするとき,なにが主要な調査変数かは決まっていないのが普通だろうし,もし決まっているのならマルチレベルモデルをつくればいいんじゃないかと思う。というわけで,適用範囲がかなり狭いような気がする。いっぽう,ウェイト分布を使うやり方は魅力的だけど,あいにく難解なもので(ウェイト値はベータ分布に従うと仮定すると...云々。降参),実装しているソフトがないことにはお手上げである。それにNAEP方式でやってもさほど変わらないそうだから,だったらNAEP方式でやればいいやね。
NAEP(全米の学力テスト)で使っている方式とは:ウェイト値はすべて二乗する。その平均のc倍を基準と定める(cは分布をみて決めればよい。NAEPでは10)。基準を上回っているウェイト値は基準まで切り詰め,その分ほかのウェイト値を底上げして(平均が変わらないように),やおら基準を再計算する。これを繰り返す。んだそうな。案外ローテクだなあ。
PotterというのはRTI internatinalというところのひとで,ここはSUDAANという複雑な調査データの分析に特化したソフトをつくっているから,きっとその開発関係者なのであろう。それにしても,延々と検索してもこの種の議論が公的調査の文脈でしかみつからないのが不思議である。マーケティングリサーチでも同じ事が起きるだろうに。みなさんどうしておられるんですかね。想像するに,こんな勉強をしている暇があったら,もっとお金儲けに直結したことを考えた方が良いのであろう。いくら勉強しても統計学者になれるわけではなし。。。
SUDAANをgoogleで検索すると,日本語で言及しているページもあることはあるのだが,最初に出てくるのは大洗町の割烹「寿多庵」である。アンコウ鍋か,いいなあ。。。
2007年12月 5日 (水)
Kish, L. (1990). "Weighting: Why, When and How?" Proceedings of the Section on Survey Research Methods, American Statistical Association, 121-130.
ここんところ,全訳しかねない勢いで読んでいた論文(いや待て,これは査読論文でさえないぞ。なぜこんなに時間をかけているんだ?)。ASAのwebページで公開されていた。
市場調査の会社に拾って頂いたところ,もう親の仇かっていうくらいにデータをウェイティングするので驚いた。そのわりには,ウェイティングについてのまとまった解説がなかなか見当たらないので困っていたのである。市場調査分野の日本語の解説に至っては,ことごとくレベルが低すぎて,実務上の疑問にさっぱり答えてくれない。たとえば,事後層化ウェイトが極端に大きくなってしまったらどうするか。そもそも,なにをもって極端に大きいというべきか。誰か答えられるだろうか? 日本語で解説しているのをみたことがないぞ。
ひとくちに調査データのウェイトつき集計といっても,その内実は実に多様である。Kishによれば,ウェイトを使う理由は7種類あるんだそうである(層への非比例配分,フレームの不備,無回答,統計的調整,標本結合,コントロール用統計表をつかった調整,非確率標本の確率標本への調整)。やれやれ,やっと頭が整理できた。
2007年11月28日 (水)
Lilien, G.L., & Rangaswamy, A. (2006) Marketing decision support models. in Grover, R. & Vriens, M. (eds.) "The handbook of marketing research," Chapter 12.
ハンドブック一人読書会の第二弾。これはマーケティング・リサーチの本だから,勤務時間中と通勤時間でしか読まないぞ,とルールを決めていたのだが,さすがに実現困難であり,早々に破ってしまった。業界団体の大会の開始待ちのため,ホテルの茶店で時間を潰した際に読了。会社員の鏡だねえ。
テクニカルな話はごく一部。広告投入量と売り上げの関係を示すというような,市場反応の簡単なモデルのバリエーションを紹介(ADBUDGモデルってどう発音するんだろうか)。個人ベースのモデル構築の話は1/2頁だけ。なあんだ,つまんないの。
残りの話はすべて,マーケティング意思決定を支援する情報システムはかくあるべし,という非常に一般的な話であった。将来のマーケティング工学は,(アナリストにではなく)一般従業員に対し,(予測や最適化に留まらず)説明を提供してくれる,(グループウェアを越えた)知的決定モデルへと進化するのだそうである。それはすごいですね。市場調査会社なんていらなくなっちまいますね。あーあ。
いや,たった二章で挫折するわけにはいかん。馬鹿高い本だったのだ,意地でも読まねば。
2007年11月19日 (月)
Smith, S.M., & Albaum, G.S. (2006) Basic Data Analysis. in Grover, R. & Vriens, M. (eds.) "The handbook of marketing research," Chapter 11.
私費で買っちゃったので,暇を見つけてちびちび読んでいくことにした。31章もあるから途中で挫折しそうだが。そういえば一昨年,"New methods for the analysis of change"のひとり読書会をはじめたのだが,数章読んだところで転職してしまい,本は前の勤務先に置いてきてしまった。心残りだが,私費で気軽に買い直せるほど安い本ではないし。いつもこんなんばっかしだ。
とりあえず,一番つまんなさそうな章を読んでみた。クロス表とか相関とか検定とか。ほんとにつまんなかったけど,この種の本にはこういう章も必要であろう。
2007年8月 2日 (木)
Xiong, R. & Meullenet, J. (2006) A PLS dummy variable approach to assess the impact of jar attributes on liking. Food Quality and Preference, 17(3-4), 188-198.
JAR尺度の変数を独立変数にして回帰モデルをつくる方法を提案した論文。著者様に送ってもらった。感謝感謝。
ここでいうJAR尺度(just-about-right scale)というのは,このジュースの甘さは「弱すぎる - ちょうどよい - 強すぎる」のどれですか,というような評定尺度のこと。回答者に理想像を直接尋ねているわけで,いつも使えるわけではないと思うが,こういう訊き方が自然な場合もあるだろう。食品の評価とか。
製品への全体的好意度評価と属性評価を得て,改善すべき属性を調べましょう,というような場面で,属性評価がJAR尺度だと厄介である(好意度との関係はどうみても逆V字型だから)。簡単なやりかたは,まず属性評価で回答者を3群にわけ(「弱すぎる」群,「ちょうどよい」群,「強すぎる」群),各群で好意度の平均を求め,たとえば「弱すぎる」群の好意度平均が「ちょうどよい」群よりも大きく下がっていたら,その属性はもっと強くしなくっちゃね,というような見方である。しかしこれでは単一の属性だけを相手にしていて,属性間の相関をみていない。そうではなくて重回帰モデルをつくろう,というのがこの論文の目的。
内容は以下のとおり(なぜかデスマス調で):
JAR尺度を2つのダミー変数(「弱すぎる」と「強すぎる」)で表現しましょう。JAR5件尺度の評定項目があったら,そこから「弱すぎる」変数(値は順に{-2,-1,0,0,0})と「強すぎる」変数({0,0,0,1,2})をつくるのです。こうしてk属性から2k個の変数をつくり,これを回帰モデルの独立変数にしましょう(回帰の手法はなんでもいいけど,まあPLS回帰だということにしておきましょう)。
たとえばその製品の甘さが十分に強いときは,「弱すぎる」と答える人は少ないし,「弱すぎる」ダミー変数の係数は小さくなります。そんなわけで,どうみても2k個全部はいらないでしょうから,ジャックナイフ法で変数を落とします(「弱すぎる」と答えた人が少なかったら落とす,というルールでもいいけど,ジャックナイフ法のほうがよいでしょう)。その結果をFモデルと呼ぶことにします。
さて,「弱すぎる」変数と「強すぎる」変数の両方が生き残る属性があったら,その2つのかわりに,「弱すぎるか強すぎる」変数({-2,-1,0,-1,-2})をいれる手もあります。これをRモデルと呼ぶことにします。FモデルとRモデルの両方で残差を求め,paired t-test をやって,残差の平均が小さいほうのモデルを採用するのがよいでしょう。
うまくモデルができたら,その切片は「全属性をうまく改善できた暁にどれだけの好意度上昇が期待できるか」を示します。ここから予測値の平均値を引けば,改善による好意度上昇の最大幅がわかります。
ご厚意で送ってもらっといてなんだが,いろいろ納得いかない点がある。
まずテクニカルな点では,FモデルとRモデルをつくるくだりがよく理解できない。「弱すぎる」変数と「強すぎる」変数の両方が生き残った属性が複数ある場合,Fモデルはそれらすべてについて,好意度に対する逆V字型が左右非対称だと考え,いっぽうRモデルはそれらすべてについて左右対称だと考えていることになる。しかし,それぞれの属性について左右対称かどうかを別々に検討するほうが,もっと自然なのではなかろうか。
概念的な疑問もある。JAR尺度でわざわざ重回帰モデルをつくろうとする,その動機がよくわからない。考えられる動機は,(1)全属性が「ちょうどよい」になったときの好意度を予測する,(2)好意度を向上させるための改善点を探す,(3)消費者の選好の構造をモデル化する,の3つだと思うのだが,どれもいまひとつ共感できないのである。
- (1)についていえば,全属性が「ちょうどよい」になりうるかどうかが怪しい。製品の属性は往々にしてトレードオフの関係にあるものだからだ。あまりに非現実的な条件下での従属変数の値を予測しても仕方がないと思う。
- もし主な動機が(2)ならば,「弱すぎる」ダミー変数と「強すぎる」ダミー変数の両方が生き残った属性,つまり好意度との関係が明確な逆V字型である属性は,モデルから抜いてしまってかまわないと思う。それがどんなに重要な属性であれ,改善しようがないからだ。いま「強すぎる」と答えた人が4割,「弱すぎる」と答えた人が4割いて,好意度の平均は同程度にかなり低いとしよう。それはとても大事な属性だろうけれども,強くすればいいのか弱くすればいいのか見当がつかない。そんな属性をPLS回帰モデルに投入することには,どういうメリットがあるのだろうか。
- いっぽう(3)の観点からは,なるほど,改善不可能な属性であってもモデルに投入すべきだ。しかしその場合は,好意度への回帰モデルの係数を推定する前に,属性間の因果関係を含めたモデルを探索するのが本筋だと思う。その際にもこの論文でいうダミー変数が役に立つのかどうか,よくわからない。JAR属性同士の関係は逆V字型にならないからだ。
だんだん勤め先の仕事の話そのものになってきてしまい差し障りがあるので,このへんでストップ。ともあれ,あれこれ考えさせられる論文であった。日本にこういう研究をしている人はいないのかしらん。
2007年7月22日 (日)
Chin, W.W. (1998) Issues and Opinion on Structural Equation Modeling. Management Information Systems Quarterly, 22(1)
どういう雑誌か知らないが,全文がwebで公開されている。SEMの使い方についてまとめた短いコメント。会社で変なときに待ち時間が出来たので,その隙に目を通した。
formativeな指標はふつうのSEMではモデリングできないので,PLSをつかえ,とのこと。そんなあ。。。このご意見は,この人がPLSの専門家だからか,それとも98年当時は一般にそう考えられていたのか。それとも,もしや俺が知らないだけで,いまでもformativeな指標があるときはPLSを使うのが普通なのだろうか。
2007年7月 1日 (日)
Johnson, J.W. & LeBreton, J.M. (2004) History and use of relative importance indices in organizational research. Organizational Research Methods, 7, 3, 238-257.
マイナーな雑誌なので入手に困ったが,著者様が送ってくれた。ありがとうございました。
相対的重要度についての特集号に載ったレビュー(そんな特集号があるのね)。ここで相対的重要度というのは,ある結果側変数と複数の原因側変数を押さえている調査データを使い,それぞれの原因側変数に相対的な重要度を割り当てたい,でも原因側変数同士に相関があるので偏回帰係数は使い物にならない,さあどうしようか,という話。紹介されているのは,
(1)単回帰ベースの指標(r,b,β,t,R2増加量,βr)
(2)重回帰ベースの指標(部分相関の二乗のモデル間平均;偏相関の二乗のモデル間平均;BudescuのDominance指標;Anzen&Budescuのcriticality指標)
(3)いったん直交変数に変換する方法(Greenらのδ;著者らのε)
わかりやすくまとめてくれていて,大変助かった。この論文のおかげで霧が晴れた思いである。
もっとも,このテーマにはほかのアプローチもあると思う。主成分回帰やPLS回帰のように次元縮約するやり方もあるし,リッジ回帰という手もあるだろう。事前知識やグラフィカル・モデリングを使い,独立変数間の関係について正面からモデル化しちゃう路線もあるだろうし,データが大きければニューラルネットだっていけそうだ。その意味では狭い範囲に限定したレビューなのだが,ま,なにもかも人に頼ってはいけないよな。
Johnson, J.W. (2000) A heuristic method for estimating the relative weight of predictor variables in multiple regression. Multivariate Behavioral Research, 35,1,1-19.
上の論文でεという指標がお薦めされていたので(まあ自分が提案した指標だからな),国立の図書館に出張してコピーしてきた。数学苦手なのに,こんな雑誌の論文を読む羽目になろうとは。しかも自分でプログラムを書かねばならんのか,と途方にくれていたら,著者様がサンプルプログラムを送ってくれた。尋ねてみるものだ。ありがたやありがたや。
εというのはこういう指標である。変数X1,X2,...,Xkについて,まず,「ひとつひとつにぴったりフィットしつつも直交している」変数Z1,Z2,...,Zkをつくる(こういう手続きをなんていうのかね。直交化?) で,こいつらからYに対して重回帰する。いっぽう,ここが味噌なのだが,こいつらからX1,X2,...に対しても重回帰する。要するに三層のネットができて,真ん中の層(Z)から上の層(Y)と下の層(X)への矢印が延びるわけである。で,XiからYに行くすべての経路(k本)の係数の二乗和を,Xiの重要度とする。
ZからXにパスが延びる,というのは妙な感じだが,そこのところの理屈づけはない。とにかく結果をごらんあれ,Dominance Analysisと似た結果になるでしょう? でもDominance Analysisは2^k回の重回帰をかけなきゃいけないから,kが大きいとき計算できないでしょう? この方法ならkが大きくても大丈夫よ,というストーリー。
このあいだEdwards&Bagozziの論文を読んでいたら,うかつにformativeな測定モデルを組んではいけない,X1,X2,...にひとつづつ潜在変数Z1,Z2....を与え(これが真値),ZiからXiへのパスを引き,その上でZiから構成概念へのパスを引きなさい,そうすればXiの誤差がモデルに組み込めるでしょう,という話があった。この論文のモデルはその話に似ていると思う。この著者にとってZiはただの道具的な変数に過ぎないんだろうけど,もっと積極的に意味づけられないものだろうか。まあどうでもいいけどさ。
思うに相対的重要度などというものは,ピュアな統計学者なら見向きもしない不純な概念なのだろうと思う。今回いろいろ調べていて偶然みつけたのだが,Kruskal&Majorsの相対的重要度レビュー論文に対して,Ehrenbergという人がこんなコメントを寄せている。"I think, however, that they have missed an important factor, which is that only unsophisticated people try to make such assessments." そうかunsophisticated peopleか,と笑ってしまった。
確かに,この人が書いているとおり,"As soon as the relationships in question come to be better understood [...], the discussion turns, I think, to modelling the processes and their possible causal mechanisms as such, rather than their relative 'importance.'" なのである。因果的身分が異なる変数群を一緒にし,さあどれが重要か,と問うのはナンセンスなのだ。
しかしその一方で,(たとえば)顧客満足度を左右する特性がk個ある,特性間の関係についてはどうでもいい,注力すべきなのはどれなんだ!という切実なニーズに,全く応えないわけにもいかない。このギャップを埋めるためには,まず相対的重要度が必要とされる状況を概念的に整理し,分類しておいたほうがいいんじゃないかと思うのだが,うーん,難しくて手に負えない。
2007年6月15日 (金)
Jarvis, C.B., MacKenzie, S.B., & Podsakoff, P.M. (2003) A critical review of construct indicators and measurement model misspecification in marketing and consumer research. Journal of Consumer Research, 30, 199-218.
測定モデルにおいて,指標をformativeだとみなすかreflectiveだとみなすかを正しく定めることはとても大事だ。本論文では[測定モデルの2つのタイプ,その概念的区別] (略)
- 決定に際しての概念的基準を示します
- マーケティング分野で測定モデルを誤って指定している例をレビューします
- 誤って指定するとどんな目にあうのかシミュレーションしてみます
- formativeなモデリングの際のアドバイスを示します
[formative指標モデルとreflective指標モデルを区別する基準]どれかに答えられなかったり,答えが矛盾していたりするのは,構成概念がうまく定義できていないからだ。
- 概念的にいって,指標と構成概念の間の因果関係はどちら向きか
- 指標は入れ替え可能か(formative指標はほかの指標と入れ替えられない)
- 指標は共変するはずか(reflective指標は共変するはず)
- 各指標の因果的先件と帰結は指標間で同一か (reflective指標なら同一)
[多次元的な構成概念]
マーケティング分野での構成概念は抽象度が高く,そのため多次元的であることが多い。これを二次因子モデルで指定する場合,一次因子が{reflective/formative}×二次因子が{reflective/formative}の4通りがありうる。(それぞれについての実例を紹介。略)
[マーケティング文献のレビュー]
J. Consumer Res., J. Marketing, J. Marketing Res., Marketing Sci.の4誌の1977年以降の論文178本から,構成概念1192個を取り出し,どのようにモデル化されているか,本当はどのようにモデル化すべきだったか,の2点を調べた。68%が正しくreflective, 28%が誤ってreflective, 3%が正しくformative, 1%が誤ってformativeであった。(正しくformativeなモデルの実例を紹介。略)
[モデルの誤指定はどのくらい深刻な問題か?]
formativeな構成概念を含んだモデルから共分散行列をつくり,当該の構成概念をreflectiveだとみなしたモデルで分析する,というモンテカルロ・シミュレーションを行った。モデルが間違っていると,構成概念間のパラメータ推定にとても大きなバイアスが生じた。しかもモデルを誤指定しているということは適合度指標からはわからなかった。
[formativeなモデルをつくるときのお勧め][結論] (略)
- モデルを同定可能にするコツ: reflective指標を2つ付け加えるのがお勧め。例: 顧客満足なら全体的満足度や好意度を付け加えるとよかろう。
- 外生変数間相関のモデル化: SEMではふつう外生変数間の共分散を自由推定する。これをformative指標モデルにそのままあてはめると,formativeな指標は外生変数なので,仮説のない共分散が無数に生まれてしまう。それらを0に固定するのも筋が通らないし,すべて推定するとモデルの倹約性が失われる。対策:モデルに少しづつ追加して,適合度指標の変化を見ると良い。ないしRNFIやRPNFIのような指標をつかうと良い。
formative/reflective論文の第二弾。マーケティング分野向けの啓蒙論文という感じで,Edwards & Bagozziを読んだ直後だからあまり得るところがなかったが,formativeなモデルをどうやって同定可能にするか,という話は役に立った。悩んでるのは俺だけじゃないのね。
過去論文を集計するくだりでこんな話が出てきた。一般に,心理学的構成概念はreflectiveにするのが自然で,いっぽう経営上の構成概念(業務の成果とか)はformativeにするのが自然であることが多い由。なるほど,なんとなくわかるような気がするけど,たとえばお店の顧客満足のような心理的概念であっても,もし指標が「レジの前の列が短い」「店内が清潔だ」というような項目だったら,それはやっぱしformativeにモデル化すべきだろう。やっぱし結局は,概念と指標の性質によるとしかいいようがないと思う。
2007年6月 6日 (水)
Edwards, J. R. & Bagozzi, R.P. (2000) On the nature and direction of relationships between constructs and measures. Psychological Methods, 5, 2, 155-174.
ある指標(measure)がreflectiveかformativeかを決めるための一般的原則について論じる。
[構成概念とはなにか,指標とはなにか] (略)
[構成概念-指標間関係の因果方向]
科学哲学の分野で受け入れられている,因果性を確立する際の4つの基準に沿って考えると[構成概念-指標間関係のモデル]
- 弁別性: 構成概念と指標は弁別できなければならない。たとえば,操作的に定義された知能は構成概念になりえない。
- 連関性: 構成概念と指標は共変しなければならない。評価の方法には以下がある:(a)指標間の共変動によって推論する(必要条件を与えるが十分条件を与えてはくれない),(b)頭の中で実験する。どちらも決め手にはならない。
reflectiveな指標の場合,構成概念と指標の間の関係は,モデルがどうであれ変わらない。しかしformativeな指標の場合,構成概念は指標の関数であると同時に,モデルのなかのなにかの従属変数を予測する合成変数でもあるから,その従属変数がなにかによって,構成概念と指標の関係も変わってくる。というわけで,構成概念の意味はあいまいになる。- 時間的先行性: 構成概念における変化が先か,指標における変化が先か。評価の方法としては:(a)原因側を制御する実験を行う,(b)頭のなかで実験する。
後者の場合,結論は指標の定義そのものによって決まる。たとえば,態度→項目提示→反応と考えることもできるし,項目提示→態度→反応と考えることもできる。
Heise(1972)は,SESという構成概念が結果側で,教育・所得などの指標が原因側だ,と論じている。筋は通っているが,たとえば通学年数を教育そのものとみなしているわけで,これは社会経済的現象についてのある種の操作主義である。いっぽう,通学年数が教育のあとに生じ,測定誤差を伴っていると考えれば,これらの指標はそれぞれに対応する構成概念のreflectiveな指標であり,SESはこれらの構成概念の結果である,ということになる。- 対抗する因果的説明の除去: この基準を満たすのが一番難しい。一般的な処方箋はない。ここではライバルとなる説明を同定する方法について考える。(a)準実験のときに妥当性を損なうような脅威について考える。たとえば i)history。原因と結果のあいだに,統制されていない媒介変数があること。ii)instrumentation。原因と結果の間にあるとみなされている関係が,実はデータ収集手法によって引き起こされていること(nuisance factorとか)。(b)頭のなかで実験する。
6個の基本的モデルを考えることができる。(同定可能なモデルかどうかはこの際どうでもよろしい)以上を整理すると
- direct reflective model: (指標 x_i) = (因子負荷 λ_i)×(構成概念 ξ) + (誤差δ_i)。テスト理論,因子分析,などなどはこのモデル。
- direct formative model: (構成概念 η) = Σ(係数 γ_i × x_i) + (誤差ζ)。使い道としては:(a)観察変数の合計を表す潜在変数をつくるとき。ζを含めないことも多い(主成分分析,正準相関分析,PLSなど)。(b)いくつかの変数の効果を要約するブロック変数をつくるとき。(b)潜在変数の実験的制御の効果をあらわすとき。例, 睡眠剥奪(formative指標)で疲労(構成概念)を制御し,別の変数で操作チェックする(reflective指標)。
- indirect reflective model: reflectiveモデルなのだが,指標と構成概念のあいだをいくつかの潜在変数が媒介していて,それらの変数にもそれぞれ誤差が刺さっているモデル。
- indirect formative model: formativeモデルなのだが,指標と構成概念のあいだをいくつかの潜在変数が媒介していて,それらの変数にもそれぞれ誤差が刺さっているモデル。
- spurious model: まずいくつかの潜在変数があって(相関もあるかも),それらが構成概念の原因でもありまた指標の原因でもあるモデル。仮に指標の誤差が0ならば,direct formative モデルになる。
- unanalyzed model: そのほかいろいろ:(a)構成概念も指標も外生(ただ相関だけがある), (b)指標は外生で,それと相関のある潜在変数があって,それが構成概念の原因, (c)指標は外生で,ほかのなにかの指標と相関していて,そいつらが構成概念のreflectiveな指標, (d)構成概念が外生で,別の潜在変数と相関があり,指標はそいつのformativeな指標。
[適用事例]
- reflectiveな指標が構成概念の原因をあらわしている→spurious
- reflectiveな指標が構成概念の本質的な属性をあらわしている→direct reflective
- reflectiveな指標が構成概念の結果を表している→indirect reflective
- formativeな指標が構成概念の原因を表している→indirect formative
- formativeな指標が構成概念の本質的な属性をあらわしている→direct formative
- formativeな指標が構成概念の結果を表している→unanalyzed
[要約と含意]
- ライフ・ストレス。SRRS(社会再適応評価尺度)はライフストレスのreflectiveな指標であるともformativeな指標であるともいわれている。上記基準を適用すれば,弁別性はある,連関性はある,時間的先行性は怪しい(ライフストレスを引き起こすライフイベントよりは後だが,ライフイベントによって生じる生活パターンの変化より前かもしれないから),対抗説明がありうる(ライフイベントがSRRS得点とライフストレスの原因である)。個々のライフイベントを共通原因とするspurious modelが正しかろう。
- 組織コミットメント。広く用いられている指標OCQは一次元尺度であると捉えられており,内的整合性で信頼性を評価するのが通例である(つまりdirect reflective modelである)。しかし項目のなかにはコミットメントの原因のreflectiveな指標もあれば,コミットメントの結果のreflectiveな指標もある。spurious modelとindirect reflectiveモデルの混ざったのが正しかろう。
- 社会的相互作用。Doney&Cannon(1997)の指標はformativeな指標であるとされている。しかし各項目はイベントの有無について尋ねているので,構成概念のほうが時間的に先行している。さらにそれらのイベントには会話と会合がある。二つの下位構成概念についてのdirect reflectiveモデルが正しかろう。
本稿のガイドラインをつかい,かつ構成概念-指標間関係についての補助理論を充実させることをお勧めします。
本稿の原則を適用することによる主な副産物としては:
- direct formative modelの多くの例は,実はspurious modelにしたほうがよい。モデルが同定できなくなるのならdirect reflectiveな指標を付け加えるがよかろう。
- 一般的構成概念の諸側面を記述する項目を,一般的構成概念のdirect reflectiveな指標とみなしてはいけない。
- 信頼性係数が低いからといってdirect formative modelをつくるのはやめろ。formativeかreflectiveかというのはアプリオリな概念的基準で決めるべきだ。
sem-netで紹介されていた論文。ネットで拾った。
SEMは独りで読みかじっただけなので,基本的なところについていっぱい疑問があって困ってしまう。たとえばこのあいだ,かのトヨダ先生によるAmosのセミナーに行ったらば,弟子の院生が示したすごく初歩的なモデル例のなかで,"講義後の充実感"が潜在変数,講義への満足感・理解度・目的一致度がその指標となっていた。たったこれだけのことで,いやちょっと待って,矢印の向きが逆じゃないの?むしろ理解度が高いと充実感が高くなるんじゃないの?だからこれはformative indicatorであるべきなんじゃないかしら,とすっかり混乱してしまったのである。まあ矢印の向きについて考えるのは大事なんだろうけど(Loehlinの本にもboth possibilities should be kept in mindと書いてある),こういちいち悩んでいたのでは身が持たない。場数を踏んでいない悲しさである。
会社の仕事でもSEMのモデル構築について悩むことがあったので,暇をみつけて読んでみた。「こんなデータのときにはformativeなモデルをつくるといいよ」というプラクティカルなアドバイスを期待していたのだが,そういうポストホックな発想がいかんのだ,と叱られてしまった。失礼いたしました。
どうやら「指標が潜在変数の原因側だったらformativeだ」と単純に考えるわけにもいかないようだ(うかつにformativeなモデルをつくると測定誤差がないことになってしまう)。なるほど。やっぱし勉強しなきゃなあ。
2006年11月25日 (土)
Rockhill, B., Newman, B, & Weinberg, C. (1998) Use and misuse of population attributable fractions. American Journal of Public Health. 88(1): 15–19.
[背景] 人口における疾病リスクのうち,リスク要因の因果的効果に帰属されうる割合のことを人口寄与部分(Population Attributable Fractions)という(人口寄与リスク,人口寄与リスク割合,超過部分ともいう)。この指標は<もし問題の要因への曝露を除去することができたら,一定の時間幅のあいだの疾病リスクの平均が何割減っただろうか>というかたちで定義されることが多い。<曝露の除去によって防げていたはずの症例数の割合>としても解釈できる。(ここでいうリスクとは正確には「リスクの部分」のことであるからして,よく用いられる「人口寄与リスク」という言葉は不正確である。)
[計算方法] 疾病D, リスク要因への曝露をE, 交絡要因をCとすると,人口寄与部分は
{(疾病確率)-(交絡要因の水準を通して平均した,非曝露時の疾病確率)} / (疾病確率)
={P(D) - \sum_C P(D|notC, notE) P(C) } / P(D)
となる。その推定式にはいろいろあるけど,たとえば以下。
a) {(疾病率)-(非曝露群の疾病率)}/(疾病率)
※疾病率が低ければ,{(発症率)-(非曝露群の発症率)}/(発症率) で近似できる
b) {(曝露率)×((リスク比)-1)}/{(曝露率)×((リスク比)-1)+1}
[分散的特性] 人口寄与部分は曝露カテゴリ特定な寄与割合(もしその曝露カテゴリだけが非曝露群にシフトしたら,疾病リスクが何割減るか)の合計であるといえる。曝露の定義が包括的になるほど,人口寄与部分は増える。しかし同時に,曝露群の割合が5割を越えて増えるにつれて,人口寄与部分の標準誤差は増え,正確でなくなってしまう。
[計算の誤り] (略)
[概念的問題]
- <複数のリスク要因についてそれぞれの人口寄与割合を求め,それを合計する>のはよくある誤りである。1を越えても知らないぞ。
- Seidman et al. は,10個の乳ガンリスク要因の人口寄与割合を,30-54歳女性において0.21, 55-84歳女性において0.29と推定している。ここで彼らが「たいていの乳ガンはリスク要因がない女性において起きるのだ」といっているのは間違いである。人口寄与割合は患者におけるリスク要因への曝露率ではないからだ(現に,患者のなかでリスク要因を一つでも持っている人の割合は,0.76, 0.82である)。さらに,患者の約1/4についてその原因が特定できた,というのも間違いである。人口寄与割合は,当該のリスク要因を取り除いたら患者の1/4が取り除かれていただろう,ということにすぎず,そのリスク要因によって引き起こされた患者とそれ以外の患者を区別してくれるわけではない。
- 人口寄与割合が役に立つのは,関心のあるリスク要因とエンドポイントとの間に明確な因果的関連があり,かつ曝露にたいして介入が可能だというコンセンサスがあるときである。しかし多くの場合,修正不能な属性や疾病の前臨床マーカを,リスク要因の代理変数として用いた分析が行われてしまっている。乳ガンに対する結婚の人口寄与割合だとかなんとか。
- 公衆衛生における介入方略の優先順位をつける際には,曝露-非曝露のカットオフポイントは現実的観点から定義しなければならない。たいていの症例は,平均的なリスク要因の持ち主から生まれている。慢性病についての人口寄与割合は,"曝露"の定義をよほど緩くしないと高くならないし,そうすると,誰も彼もを非曝露群にシフトさせないといけないという話になってしまう。
- 人口寄与割合を,リスク要因によって"説明"された患者の割合だと述べると,混乱を招く。"説明"をそのような意味で用いるなら,「15歳以上であること」を乳ガンのリスク要因だとみなせば,すべての患者はこの要因で"説明"できることになってしまう。
いわゆるPAR%の誤用についての短いコメント。仕事の都合で読んだ。あれこれ探したところ,population attributable riskよりもpopulation attributable fractionのほうが検索にひっかかりやすい。へー。
リスク要因の代理変数についてPARを求めるのは誤用だ,というのは納得だが(抑うつと肥満に対するSESのPARだなんて,調べてどうすんじゃと思うわね,確かに),じゃあそういうときは何を使えば良いのだろうか。単にリスク比を使えということだろうか。知識がないのでわからないぜ。
2006年11月 6日 (月)
Tomarken, A.J. & Waller, N.G. (2005) Structural equation modeling: Strengths, Limitations, and Misconceptions. Annual Review of Clinical Psychology, 1, pp.31-65.
SEMの使い方レビュー。
この論文はfprでみかけて,今年の春先に読み始めたのだが,直後の転職のどたばたで中断してしていた。いったん途中でやめるとどうにも気が乗らなくなり,ずっと鞄に放り込みっぱなしだったのを,このたび無理やり読みおえた。論文の中身とはなんの関係もないが,やれやれ,ようやく一区切りついたという気分である。
2006年8月31日 (木)
Carroll, J.D., Green, P.E. (1995) Psychonomic methods in marketing analysis: Part I., Conjoint analysis. Journal of Marketing Research. 32(4), 385-391.
コンジョイント分析の概説。P. Greenの著作アーカイブで入手。仕事の都合で読んだ。
2006年1月30日 (月)
Vandenberg, R.J. & Lance, C. (2000) A Review and Synthesis of the Measurement Invariance Literature: Suggestions, Practices, and Recommendations for Organizational Research. Organizational Research Methods, 3(1), 4-70.
測定不変性についての文献(方法論と実用例)を集めて,どういう段取りを取っているかを整理したレビュー。普通のCFAの分野に絞られていて,知りたかったこと(カテゴリカルSEMの話やIRTとの関係)は載っていなかったのだが,知識の整理になったのでよしとしよう。
こういう長い論文は,去年までだったら二の足を踏んでいたところだが,最近はなぜか気軽に読める。きっと真剣な関心を持っていないからだろう。
Crawford, J.R., Garthwaite, P.H., Howell, D.C., & Gray, C.D. (2004) Inferential methods for comparing a single case with a control sample: modified t-tests versus Mycroft et al.'s (2002) modified ANOVA. Cognitive Neuropsychology, 21(7), 750-755.
先日Iくんにもらって読んだ論文を批判した論文。Google Scholar で見つけた。便利な世の中になったものである。
論点は,(1)Mycroftの帰無仮説はおかしい,(2)患者群の母集団なるものの分布の形状が統制群と同じで分散だけ大きいと仮定するのは変だ,(3)実用性がない(患者群の分散なるものは見当がつかないし検定力も落ちる),(4)それに引き替え我々の手法のなんと柔軟なことか。
「ひどい論文だけど,まあココロザシは誉めてやるよ」と云わんばかりのコテンパンぶりで,なんだかコワイ。
先日俺が真剣に考えたことがことごとく網羅されている。最初はちょっと嬉しかったけど(同志よ!なんて思ってしまった),よく考えたらこんなに虚しいことはない(向こうは俺のことを同志だと思ってくれるわけじゃない)。なにやってんだかなあ。
2006年1月20日 (金)
Mycroft, R.H., Mitchell, D.C., & Kay, J. (2002). An evaluation of statistical procedures for comparing an individual performance with that of a group of controls. Cognitive Neuropsychology, 19(4), 291-299.
ひょんなことからIくんが送ってくれた(感謝!)。
ケース・コントロール研究でケースがN=1のときは,まずコントロール群の分布から母平均と母分散を推定し,それらを使ってケースの値を標準化し,それがN(0,1)の両側5%に落ちるかどうか調べたり,あるいはコントロールの分散だけを使ってANOVAをやったりするのが普通である。しかし,ケース群の真の被験者間変動は,実はコントロール群の被験者間変動よりはるかに大きいことが多い。そんなときはType Iエラーが大きくなってしまうので困る。そこでこのたび,モンテカルロ法で適切なF臨界値を求めました。という論文。
ケース群のほうが標本分散が大きいから困ったねどうしようか,という話ではなくて,ケースの値がほんとに1個しかない(繰り返しがない)ときにコントロールとどうやって比較するかという話である。そこのところでちょっと戸惑ったけど,でも問題意識ははっきりしているし説明は丁寧だし,わかりやすい論文だと思う。提案している方法は,要するに検定力を削ってαを無理矢理保つという話だと思うけど,こっちの業界ではきっと検定力なんて気にならないんだろう。
それでもなお,この論文からはなんだか奇妙な印象を受ける。ケースはヤマダさんだけですというタイプのケース・コントロール研究は,「ヤマダさんは(コントロール群に代表される)健常者の母集団からのサンプルだ」というH0を棄却しようとするのが普通だ。だからこそ,コントロール群の分布から推定した母集団パラメータを使ってケースの値を標準化してみたり,コントロールの分散だけを使ってANOVAをやったってみたりするのである。著者はそういう分析について,ケース群の被験者間変動の大きさを無視していると批判するけれども,そういう研究はそもそもケース群というものを考えていないのだ。
N=1ということは,ケース群の分布についての実証的な証拠が手元に無いんだから,あくまでヤマダさんについてのH0を立てるのが,なんというか,自然であろう。もちろん研究の関心はヤマダさんその人にあるのではなく,ヤマダさんに代表されるナントカ患者の一般的性質にあるのだけれど,ケースから得た知見をナントカ障害へと一般化する推論は実質科学的なレベルの問題だ,というのが,常識的な考え方なんじゃないかと思う。
ところがこの論文では,ヤマダさんからナントカ障害への一般化を統計的推論の道具立てに繰り込んでしまい,「(ヤマダさんに代表される)患者の母平均は,(コントロール群に代表される)健常者の母平均と同じだ」というH0を設定する。それはそれで一つの考え方だと思うけれど,そういう考え方が必要になるのはいったいどういう問題状況なのか,うまくイメージできない。いいじゃん,ヤマダさんについて検定してれば。
さらにいえば,臨床研究では「患者の母集団平均」なるものを問題にすることそのものが無意味な場合も少なくないと思う。この点はちょっと自分の中で整理できていないんだけど,たとえば「高血圧患者の血圧の平均」ってなんだろう? 普通の人より高い,ちょっと高い人もいればすごく高い人もいる,としか云いようがないと思う。
まあいいや,俺にわからんだけで,「ケースの母集団分布」について検討するのが必要かつ有意義であるような問題状況が,きっとどこかにあるのだろう。次のハードルは,その母集団分布について正規性を仮定しなければならないという点だ。さらに,ケースのσがコントロールのσの何倍くらいなのかがわからないと,この論文の手法は使えない。ケースはN=1なのに,どうやって見当をつけるんだろう?
きっとどこかで役に立つんだろうけど,でもいったいどこで役に立つのか想像がつかない。そういう意味で面白い論文だった。
2006年1月15日 (日)
Seltzer, M.H., Frank, K.A., & Bryk, A.S. (1994). The metric matters: The sensitivity of conclusions about growth in student achevement to choice of metric. Educational Evaluation and Policy Analysis, 16(1), 41-49.
著者に送ってもらった(ありがたきかな)。データ解析の論文を読むのはもう止めようと思うのだが(今度こそ縁が切れるかもしれん),そんなわけでこれは大急ぎで読了。
みなさん学力変化を調べるときにGEをつかっていませんか。GEスコアの群平均の変化は宿命的に時間線形になるわけでよろしくないですよ。個人ベースのLGMであってもミスリーディングな結果を呼びますよ。ちゃんとIRTつかいなさい。という主旨。
恥ずかしながらよく知らなかったのだが,GE(grade equivalent)スコアというのは,5年生第7ヶ月目月末の集団の得点平均が60点だとしたら,60点のことを5.7と呼ぶ,というもの(学期だけみるので,1年は10ヶ月)。ってことは,5年生向けのテストでも他学年のサンプルをとっておかねばならんということかね。
主旨自体は当たり前なんだけど,GEを使ったせいで生じる誤解の具体例が面白い(Iowa Test of Basic Skillsで実例を示している)。たとえば,群平均の成長曲線のまわりで個人差がラッパ型になったりする。なんだかもっともらしく解釈しちゃいそうだけど(「学力格差が増大しています」とか),これはGEを使ったせいで起きたartifactなのである。なるほど。
身近な問題に当てはめると,学力変化を捉える際にテストの標準化得点(偏差値)の推移を見ててもだめだなあ,というのは日々考えることだし,現場の人も感じていることだと思う。とはいえ,IRTで等化するのはなかなかままならない(テスト項目を使い捨てる日本の教育評価にもそれなりの事情と美点があると思うので,そこを批判しても仕方がない)。なかなか難しい問題である。それでも,その難しい問題に取り組まなきゃいけないよなあ,と思うのである(その努力を放棄したところに残るのは精神主義だけだと思うから)。標準化得点でできる分析はどこまでか,その限界をはっきりさせたい。
思うに,この論文で指摘されているGEの問題点は,時間に対する変化量を時点間で比較できない(時間関数が構築できない)ということだ。だったら,LGM的なアプローチを捨て,時間経過を定量的に捉えるのをやめちゃって,たとえば反復測定SEMで時点ごとに変化量を推定するのであれば,GEなり標準化得点なりを分析してもかまわないのだろうか。あるいはLGMであっても,時間経過を推定しちゃえばいいのか。うーん,俺の能力を超える問題だなあ。
2005年12月26日 (月)
Curran, P.J., and Bollen, K.A. The best of both worlds: Combining autoregressive and latent curve models. in Collins, L.M. and Sayer, A. (eds.) New methods for the analysis of change (pp.107-135). APA.
「Collins&Sayerひとり読書会」第三弾。
LGMに一次の自己回帰を組み込むという話。二変量LGMで成長因子間に相関があることがわかっても、どっちの変量が原因側かはわからないが、クロスラグ(なんて訳すのだろうか)を調べればそれがわかる。云々。
成長因子間の相関とクロスラグの両方をモデルに入れても、識別可能なモデルは組めるらしい。ふうん、そういうものか。
NLSYデータで実演してくれているのがありがたい(綺麗な分析例とはお世辞にもいえないんだけど、そこがまた良い)。これは役に立ちそうだ。プログラム例があればもっと助かるんだけどな。
2005年12月24日 (土)
McArdle, J.J. and Hamagami, F. (2001) Latent difference score structural models for linear dynamic analyses with imcomplete longitudinal data. in Collins, L.M. and Sayer, A. (eds.) New methods for the analysis of change (pp.139-175). APA.
「Collins&Sayerひとり読書会」第一弾。通勤電車と昼休みと勤務時間だけで一冊読み終えようというのがポイントである。
latent difference score analysisの紹介。基本的なアイデアは: T時点の個人成長曲線 Y_0, Y_1, ..., Y_Tについて、それはその裏にある潜在曲線 y_0, y_1, ..., y_Tにホワイトノイズが乗ったものだ、と考える。で、このy_tについてのモデルを考えるんじゃなくて、さらに「隣り合う2時点間の差」を表す潜在変数Δy_1, Δy_2, ..., Δy_Tを考える。y_tにはy_{t-1}からのパスとΔy_tからのパスが刺さるわけだ。このΔy_tについてモデルを組む。要するに、普通のLGMより層がひとつ増えているような感じだ。ふうん。
NLSYデータを使った分析例が載っていたが(プログラム例はなし)、そこは飛ばして読了。そのせいか、この手法のメリットがまだよく理解できていないのだが、まあいいや、あとで考えよう。
Graham, J.W., Taylor, B.J., and Cumsille, P.E. (2001) Planned missing-data designs in analysis of change. in Collins, L.M. and Sayer, A. (eds.) New methods for the analysis of change (pp.335-353). APA.
「Collins&Sayerひとり読書会」第二弾。
不完全データの話ってどうにも関心が持てない(新手法のおかげで新発見できるわけじゃないからだろうな)。この章は優先順位が低かったのだが、missing by designつきの時系列データをどう扱うのか調べる必要があって、急遽繰り上げて読んだ。
想像とは異なり、どういうデザインならパワーが落ちないかをシミュレーションしましたという話であった。分析手法はAllison(1987)とMuthen et al.(1987,Psychometrika)に従った由。Psychometrikaの論文なんて読みたくないよ。。。
2005年12月 6日 (火)
Nagin, D.S. (2002) Overview of a semi-parametric, group-based approach for analyzing trajectories of development. Proceedings of Statistics Canada Symposium 2002: Modelling survey data for social and economic research.
Webで拾った。論文でさえないのだけれど,せっかく目を通したので。
Ferrer, E. and Nesselroade, J.R. (2003) Modeling Affective Processes in Dyadic Relations via Dynamic Factor Analysis. Emotion, 3(4), 344-360.
ネットで拾った。動的因子分析を使いましたという主旨の論文。ということは,感情研究方面でもそんなにポピュラーな手法じゃないってことだろうか。
対象は夫婦1組,データは二人が半年にわたって毎晩回答した気分評定。ポジ感情とネガ感情の因子がある(2人×2因子で4本の時系列曲線があるようなものだ)。ラグ付きの構造があると考えて,(1)ラグ2まで考えれば十分ということを示す。(2)モデルを比較したところ,前日までの旦那の気分が女房に影響するというモデルの適合度が良い。(3)交差妥当化の真似事のようなことをして確認。
SEMのモデル比較が決め手になっている研究を見ると,なんだかキツネにつままれたような気がしてしまう。どうせ俺が不勉強なだけなんだろうけどさ。
時系列変化が非定常な場合には別の手法を使えとのこと。ちょっとがっくりだけど,読むべき文献がわかったので良しとしよう。
block-toeplitz行列をつくる方法がわからなくて困る。豊田本(「応用編」)はSAS/IMLをつかっているので駄目。未確認だがWood&Brown(1994PB)もそうらしい(semnetのログに、Woodさんの「欲しけりゃやるよ」という投稿があった)。MATLABにもtoeplitzという関数があるようだが、やはり処理系がない。こないだ読んだHershbergerはFortranのプログラムを書いた由であった。このFerrerさんもavailable upon requestだと書いている。
2005年11月16日 (水)
Nagin, D.S. (1999) Analyzing Developmental Trajectories: A Semiparametric, Group-Based Approach. Psychological Methods, 4(2), 139-157.
ここしばらくの間、昼飯時にだらだらめくっていたのだが,きりがないので読み終えたことにしておく。いわゆる成長曲線モデルとは発想がちょっとちがうようだ。
2005年11月15日 (火)
Hershberger, S.L. (1998) "Dynamic Factor Analysis." in Marcoulides, A. (ed.), Modern Methods for Business Research. LEA.
動的因子分析の紹介。仕事で読んだ。ざっとめくっただけだけど,読んだことにしちゃおう。
この本は私費で衝動買いしてしまったのである。元をとらねばならん。
2005年6月24日 (金)
Fidler, F., Thomason, N., Cumming, G., Finch, S., Leeman, J. (2004). Editors can lead researchers to confidence intervals, but can't make them think. Psychological Science, 15(2), 119-126.
かつてKenneth Rothmanという疫学の有名な先生が,American J. Public Healthという雑誌の副エディターになったとき,担当した投稿論文すべてに対して「仮説検定についての記述を削るか,さもなくば他の雑誌に出せ」と命じた。そこで掲載論文を調べてみると,たしかにその4年間はp値の使用が激減しているが,Rothmanが辞めるとすぐに元に戻っている。いっぽう信頼区間の掲載はこの時期から定着しているものの,結果の考察には用いられていない節がある。心理学に対する教訓:「検定よりも信頼区間を使いましょう」という決まり文句に安住するのはもうやめて,どうすればみんなが信頼区間を使うようになるのかを考えるべきだ ---という内容。
うんうんそうだよねえ,と楽しく読んだ。解析手法方面に強い人(嫌な言い方をすれば,統計マニアの人)は,仮説検定論の問題点を好んで主張するけど,特に代替案があるわけではなかったりすることも多くて,単に批判が好きなだけと違うか?というような感じを受けることがままある。まあどうでもいいけど。
Loftus(旦那のほう)は,Memory&Cognitionのエディターになったとき,信頼区間を書いてくれと投稿者に頼んでも埒があかないので,自分でいちいち計算してやったそうだ。ははは。
こういうメタレベルな研究は読んでいてとても楽しい。きっと性にあうのだろう。
この論文の後で,信頼区間は検定のかわりにならないというコメントも載ったようだ。CIは群内の分布を記述するためには便利だが,群間の差について推論するなら効果量のほうが便利だ,という趣旨らしい。ふうん。
2005年5月23日 (月)
Muthen, B. (2004). Latent variable analysis: Growth mixture modeling and related techniques for longitudinal data. in Kaplan, D. (ed.) "The SAGE Handbook of Quantitative Methodology for the Social Sciences." pp. 345-368.
Mplusのページから。一般成長混合モデルについてのユーザ向け解説。非常にわかりやすく,目の覚める思いであった。PROC TRAJがなにをしておるのかということが,Jones,et.al. ではなくてこれを読んでようやくわかった次第だ。もうトヨダヒデキの本読むのが嫌になってしまった(失礼な...)。Muthenさんステキ,ついていきますです。
2005年5月18日 (水)
Moon, S.M., Illingworth, A.J. (2005) Exploring the dynamic nature of procrastination: A latent growth curve analysis of academic procrastination. Personality and Individual Differences, 38, 297-309.
いわゆるギリギリ・ボーイズ&ガールズについての研究。締め切りまでの課題遂行の推移は双曲線みたいになりました、曲線の形には個人差はありませんでした。つまり特性論的アプローチは怪しいです。云々。
どこか忘れたが,ネットで拾った論文。そもそも、こんな問題が研究されているということ自体が新鮮で面白かったんだけど(procrastinationってなんて訳すんだろう?)、課題状況が人工的に過ぎるような気がした。まあどうでもいいけどさ。
縦断データ分析の手法としては、(1)潜在成長モデルをいくつかつくってあてはまりを比較したら二次式の勝ち、(2)曲線の一次と二次の係数(SEMでいえばこれが潜在変数)のばらつきが小さいから曲線の形には個人差がない、という理屈。ほかにも外生変数をいれたりしてるけど、パス図がないのでわかりにくい。ちょっとしょぼい感じの論文であった。
どうも腑に落ちないんだけど,潜在曲線の係数の分散が小さかったら,曲線の形状の個人差が小さいことになるのか? SEMの枠組みでいえば,「因子分析をやったらある因子の得点の分散が小さかったです,だからその特性の個人差は小さいです」という主張をしているようなもんなんじゃないか,と妙な気分なのだが,潜在成長モデルでは潜在変数から伸びるパス係数が定数になってるから、普通のSEMとは事情が違うのかも知らん。うーんよくわからん。大学ならまわりの人に相談できるんだけどな。
2005年5月17日 (火)
Carrig, M.M., Wirth, R.J., & Curran, P.J. (2004) A SAS Macro for Estimating and Visualizing Individual Growth Curves. Structural Equation Modeling, 11(1), 132-149.
掲載誌のサンプル号から(著者のページにもあった)。ひとりひとりの成長曲線をグラフにするSASのマクロを作りましたという話。あーそーですか。
2005年5月16日 (月)
Muthen, B. & Muthen, L.K. (2000) Integrating Person-Centered and Variable-Centered Analyses: Growth Mixture Modeling With Latent Trajectory Classes. Alcoholism: Clinical and Experimental Research, 24(6), 882-891.
Mplusのページから。潜在クラス分析,潜在transition分析,潜在クラス成長分析,成長混合モデル,一般成長混合モデルについて紹介した啓蒙論文。タイトルがちょっと大上段なのは,どうやら雑誌の特集テーマとあわせたかららしく,内容はとてもわかりやすい。収穫であった。もっとも,これを読んでも自分で分析できるようになるわけではない。Mplusを買いやがれ,ということだろうな。
Jones, B.L., Nagin, D.S., & Roeder, K. (2001) A SAS Procedure Based on Mixture Models for Estimating Developmental Trajectories. Sociological Methods & Research, 29(3), 374-393.
著者のページから。PROC TRAJというのをつくったからつかってね,という論文。Muthenの論文でいえば LCGMにあたるのだろうか。数理の論文はからきし読めないんだけど,こんなふうに全く理屈抜きだと,それはそれで不安になる。
2005年4月30日 (土)
Borsboom, Mellenbergh, & van Heerden (2004). The Concept of Validity. Psychological Review, 111(4), 1061-1071.
忠実度と帯域幅のジレンマについて一言でうまく説明できないかと,ネットを検索していてみつけた論文。著者のページから。火曜日だったかの昼休みに,川縁の公園で読み始めて,なんだかおかしくてくつくつと笑いながらめくったのだが,内容が面白いせいなのか,久しぶりに英語の論文を読むのが変な気分だったからなのか,区別がつかない。わからんところは飛ばして読了。今後は論文など滅多に読まなくなるだろうし,本と一緒に記録することにしよう。
妥当性というのは実在とデータの因果関係の問題なんであって,相関でそれが示せると思ってる連中や法則ネットワークの中での意味だとか解釈だとかを持ち出す連中はみなアホだ,アホアホだ。という主旨。クリアーですねえ。
もともと妥当性という概念自体についてよく知らなかったし,構成概念妥当性というのがそんなに広い概念だということもよくわかっていなかった手合いなので,ふうんわかりやすいなあ,という感想しか持てない。研究者に対する示唆としては,測定対象と得点のあいだの因果的モデルを作るべし,ということなのだが,実験研究というのは元来そうしたものなので(ラフな反応時間研究が疑いのまなざしで見られる所以である),あまり違和感がない。きっとテスト方面の人にとっては論争的な論文なんだろうなあ。
測定についてめっさ強い実在論の立場をとっているところ,哲学的にはちょっとナイーブなんじゃないかしらと疑問なのだが,その辺の議論は面倒で読み飛ばしてしまったから,なんともいえない。
(そういえば,「心理テストはウソでした」を読んでいたとき,YGの結果を因子分析しても12因子にはならないからYGには妥当性がない,という論法があって,それはいかがなものかと思ったものだ。まず因子的妥当性がそんなに大事なものなのかどうかがわからないし,ここでは12因子を想定する根拠がポイントなのだから,その想定の下でつくった質問紙で因子的妥当性が示せるかどうかはもはやどうでもよいのではないか。その辺,この論文の過激な言い回しにも共感できる。)