2014年2月28日 (金)
たとえば、消費者を集めてきて2グループに分け、片方のグループにだけある商品の広告かなにか(A)を見せたのち、全員にその商品を買いたいかどうかを尋ねたら、買いたいと答えた人の割合は、見せてない群では10%, 見せた群では20%でした。で、同じ商品について、別の時期に別の広告かなにか(B)で実験したら、見せてない群では30% (なにか事情があって上がったんでしょうね)、見せた群では45%でした。
さあ、どちらの広告が効果があったでしょうか? 何の因果か、私は日頃こういうことばっかり考えて細々と暮らしている。
ひとつの答え方は、Aは10% vs. 20%で10%の上昇、Bは30% vs. 45%で15%の上昇、だからBのほうが効果があった、というものである。いわゆる「リスク差」に注目した考え方だ。
もうひとつの答え方は、Aは10%が20%になったんだから2.0倍、Bは30%が45%になったんだから1.5倍、だからAのほうが効果があった、というものである。「リスク比」に注目した考え方だ。
もしかすると、ややこしいことを考える人がいて、Aは (0.2/0.8) / (0.1/0.9) = 2.25, Bは (0.45/0.55) / (0.3/0.7) = 1.91, だからAのほうが効果があった、というようなことを言い出すかもしれない。「オッズ比」に注目した考え方である。
仕事とはいえ、毎日毎日こんな細かいことをちまちまと考えて一生を終えるのか... と、哀しい気持ちになる人もいるかもしれない。そういう人は私の心の友です。心の友というのは概して役に立たないものだ。
Walter, S.D. (2000) Choice of effect measure for epidemiological data. J. Clinical Epidemiology, 53, 931-939.
そんなこんなで、頭を整理したくて読んだ。つくづく思うんだけど、二値のアウトカムに対する因果的効果を定量化したい、原因変数と共変量は明確だ、という場面では、疫学の道具立ての豊かさにはもう絶対にかなわない。さらに、医学関係者はなにしろ人数が多いので、優れた解説にも事欠かない。読まなきゃ損である。と、景気をつけて...
リスク差とかリスク比とかオッズ比とかの効果指標についてレビューします、という論文。
2つの群におけるイベント生起率を$P_1, P_2$とする。とりあえず、$P_1$を処置群、$P_2$を統制群としておく。良くつかわれる効果指標は:
- リスク差 $RD = P_2 - P_1$
- リスク比 $RR = P_1 / P_2$
- 相対リスク減少 $RRR = (P_2 - P_1) / P_2$
- オッズ比 $OR = (P_1 / (1-P_1)) / (P_2 / (1-P_2))$
- 治療必要数 $NNT = 1/ (P_2 - P_1)$
云うまでもなく、$RRR=1-RR, NNT=1/RD$である。
RRとORが全然ちがう指標である点に注意。ORの批判者たちはそこを見逃している(暗黙のうちにRRを基準にして考えている)。
効果指標に求められる特性のそれぞれについて、RD, RR, ORを比べてみよう。
- 単純であること。RDとRRが該当。ORはわかりにくい。
- 対称的であること(成功と失敗を入れ替えても影響されないこと)。RDとORが該当。
- それが一定である時、生起率は0と1のあいだであること。ORのみが該当(たとえば、RD=0.1, P_2 < 0.1だったらP_1は負になってしまう)。
- 不偏推定が可能であること。RDが該当。
- 小サンプルでも効率的に推定できること。ORが該当。
- 生物学的モデルに基づいていること。すべて該当。(RD, RRはポワソンモデルと整合する。ORは、2つの正規分布の下でカットポイントを決めて判別したとき、カットポイントを問わずほぼ一定になる)。
ついでにいえば、ORは事前オッズに掛ければ事後オッズになるし、2x2クロス表の超幾何分布のパラメータだし、多元クロス表の分析の基盤だし、後向き研究でも前向き研究でもクロスセクショナル研究でも推定できるし...(と、贔屓の引き倒し気味の説明が並んでいる)。
そのほか、RD, RR, ORのそれぞれを固定したままP_2を動かすとP_1はどうなるか(P_2が極端でない限りどの指標もたいして変わらない)、実データ例において層によって値が変わらないのは3つの指標のうちどれだったか(どれも一定ではなかった)、といったデモンストレーションが紹介されている。省略。
考察。
RD, RR, ORのどれを使うべきかはアプリオリには決められない。手元のデータに照らし、ベースライン・リスク(P_2)が変わっても変動しない指標を選ぶのがよいでしょう。まあ単一の研究じゃなかなか決められないと思うけどね。階層混合モデルで検証すればいいんじゃないですか。(←面倒なことを軽く云うねえ、とちょっと笑ってしまった。実例としてThomas(1981, Biometrics)というのが挙げられている。要旨を読むと、どうやら生存時間モデルで任意の関数形について尤度を出しますというような話らしい。そんなんよう読みませんわ)
統計的データ解析とリスク・コミュニケーションは分けて考えましょう。後者は分析のあとで考えればよい。たとえば、分析はOR, コミュニケーションはRR、というように使い分ければいいんじゃないですか。
云々。
著者は「RRの観点からORをけなすな」とずいぶんお怒りだけど、その背後には、医学関係者は因果的効果をRRで捉えるのに慣れていて、ORはケース・コントロール研究における(rare disease assumptionの下での)RRの近似として用いられてきた、といういきさつがあるのだろうと思う。
この話に限らず、一般に「どういう指標が良いか」という議論になったときには、(1)ユーザの受け取り方に注目する論点、(2)データの発生メカニズムに注目する論点、(3)指標の統計的性質に注目する論点、の3つが入り乱れるように思う。私は心の中でひそかに、(1)を右翼、(2)を左翼、(3)を小役人と呼んでいる。この分類でいうと、この著者は右翼的な論点を切り離し、小役人的な論点では決着がつかないと主張する左翼で、でも「イベントの生起メカニズムについて実質科学的に熟考しなさい」というようなラディカル左翼ではなく、「安定しているはずの時に安定している指標を選びなさい」というデータ寄りの視点に重きをおく、ということだと思う。実際には判断が難しいという点では五十歩百歩だと思うけど。
この論文で一番面白かったのは、解析上の良し悪しとコミュニケーション上の良し悪しは別の問題だ、というくだり。なるほど一理あると思う。実際には、分析と報告とを綺麗に分けるのが難しいこともあるけれど、考え方としては正しい。ロスマンだったかしら、RRは臨床家の発想で、RDは公衆衛生の発想だ... というようなことを書いていて、感心したことがあったのだけど、そういうのも、きっとコミュニケーション上の問題だということになるのだろう。
最後に紹介されていたけど、医者が効果指標をどう受け取るかという研究があって、RRRで示すと効果は大きめに受け取られるのだそうだ。へぇー。
論文:データ解析(-2014) - 読了: Walter (2000) リスク比 vs リスク差 vs オッズ比
2014年2月27日 (木)
桑島健一 (2002) 新製品開発研究の変遷. 赤門マネジメント・レビュー, 1(6).
なぜなのか全然思い出せないんだけど、PDFを持っていたので、整理の都合と称して目を通した。
えーっと... 新製品開発研究には経済学ベースのやつと組織論ベースのやつがあって、後者をレビューします、という論文。
いわく、研究アプローチからみると3期に整理できます:
- グランド・アプローチ。60年代後半から。成功例・失敗例を分析する。イノベーションの成功要因とはなにか、とか。
- フォーカス・アプローチ。70年代後半から。特性の側面に焦点を絞る。その典型は、開発組織のコミュニケーションに注目した研究である由。技術者集団のなかには内外の情報のハブになるような技術者「ゲートキーパー」がいるんだそうだ。へー。それから von Hippelらの、イノベーションの源泉はどこにあるのか、という研究。
- プロセス・アプローチ。80年代後半から。製品開発のプロセスに焦点を当てる。クラーク&藤本「製品開発力」という本があるけど、あれが超有名な研究なのだそうだ。へー。
で、90年代以降に台頭したアプローチとして、
- 製品・産業特性アプローチ。個別産業に注目して、そこでの効果的な製品開発パターンを示す。
- マルチプロジェクト・アプローチ。複数のプロジェクトの効果的管理を明らかにする。
問題解決アプローチ。開発を問題解決と捉えて、有効な問題解決パターンを探る。 - 組織能力アプローチ。開発パフォーマンスを支える組織能力・資源とその蓄積過程をあきらかにする。もともと経営戦略論の分野で組織の能力についての研究があって、そこから来ている由。
というわけで、各アプローチの代表的な研究が紹介されている。
全くもって知識のない分野の話なので、興味本位でフガフガと楽しく読み終えた。
なんでも、「競争優位の源泉の源泉」という研究があるんだそうだ。たとえば製薬企業では「サイエンス・ドリブン」という呼ばれる手法が競争優位の源泉になるんだそうで、でもその手法の採用がうまくいく企業とそうでない企業がある、その差はどこから生まれてくるのか? というような研究らしい。なにが強みになるのかという話じゃなくて、その強みを生み出すものは何かという話なのであろう。へー、面白いなあ、いろんなことを考える人がいるものだ。Cockburn,et al.(2000)というのが挙げられている。
論文:マーケティング - 読了: 桑島 (2002) 新製品開発研究の変遷
Barratt, P. (2007) Structural equation modelling: Adjudging model fit. Personality and Individual Differences. 42, 815-824.
この雑誌のこの号はSEMについての特集号で、編集委員の問題提起に対して9人の専門家がコメントする、という構成であった。たまたま入手したまま放置していたのだけど、このたびファイルを整理していて、問題提起の要旨を読んでみたら、これが妙に面白くて... PDFをずるずるとスクロールして本文も読み終えてしまった。こんなことしている場合じゃないんだけどな。
SEMでは、データに対するモデルの不適合度を調べるためにカイ二乗検定を行う。これはかの悪名高きNHSTであって(みんな大好きな「検定」のこと)、本来は帰無仮説を支持することはできないのだが(つまり、モデルがデータに適合していることを示す証拠にはならないが)、その目的で使われている。サンプルサイズが大きくなればちょっとした不適合でも有意になってしまう、という問題点がある。
これに対して、カイ二乗検定統計量をサンプルサイズや変数の数や自由度などで調整した適合度指標をつくろうという考え方もある。そういうのは距離とか相関係数みたいなもので、読み方がむずかしい。Bentlerさんたちは読み方のゴールデン・ルールをつくろうとしていて、Hu, Li, & Bentler (1999, SEM) がその「聖書」となっている(RMSEAは0.05以下じゃなきゃ、というような話ですね)。しかあし! 最近の研究はそういう閾値の有用性を疑問視している(挙げられているのは: Beauducel & Wittmann(2005, SEM), Fan & Sivo(2005, SEM); Marsh, Hau, & Wen(2004, SEM); Yuan(2005, Multivariate Behav. Res.))。そもそも、そうした適合度指標の使われ方も、NHST的な二択ツールに堕落しているではないか。
科学の他の領域であれば、モデルの適合度は説明・予測の良さの観点から評価される。交差妥当化とか、情報量基準とか。SEMの世界の問題は、モデルが「因果メカニズムを近似している」というときの「近似」ということばの意味を誰も知らないという点にある。RMSEA=0.08のモデルを受け入れたらなにが困るのか、説明できますか? 適合度は予測の正確さではないのに、みんなそう勘違いしている。
項目反応理論をごらんなさい。同じ潜在変数モデリングでも、あれは測定志向のよりしんどい世界なのに(in the more demanding measurement-oriented area of LV), 「近似的に適合」(approximate fit)なんていう概念は存在すらしません。適合するかしないかしないかどっちかなんです(←いや先生、それとこれとは...)。ANOVAをごらんなさい、DIFをごらんなさい。approximate mean difference とかapproximate biasとか、聞いたことありますか? それがあなた、マーケティングとか組織心理学とか個人差研究なんかだと、急にapproximate fit が最重要議題になっちゃうんです。論理的とはいえませんね。
とはいえ、SEM自体は有用なツールである。使用にあたっては以下の点を推奨する。
- カイ二乗検定を必ず報告すること。「サンプルサイズが大きすぎるから有意になっちゃうんだ」なんていう寝言は10000ケースくらい集めてから言え。
- 十分なサンプルサイズを得ること。母集団がよほど小さい場合やよほど均質な場合はともかく、200以下のSEMの論文なんてリジェクトします。あなたたちに荷が重いことは重々わかっているからあまり言いたくないんだけど(ほんとにこう書いてある)、Muthen & Muthen (2002, SEM)を読んでモンテカルロ法で検定力を調べなさい。
- カイ二乗検定で棄却されちゃったら、(a)まずは、あなたが使った推定法(ML法とか)の前提が正しいかどうかチェックしなさい。多変量正規性とか。(b) そのチェックに通ったら、モデルをそのまま報告してその意義を論じなさい。(c) ないし、残差行列を調べてモデルを改善していきなさい。
- カイ二乗検定の結果を無視するなら、まずその根拠を述べなさい。適合度指標の「ゴールデン・ルール」とか「誰々がこういっている」基準は許しません。本当云うと、私は適合度指標なんてみんな禁止したい。その上で、(a) もしモデルの結果を定量的に評価できるならば、交差妥当化で予測の正確性を示し、情報量基準でモデルの倹約性を示しなさい。(b) CFAのような結果のないモデルの場合は、残差行列の分析によってカイ二乗検定を無視する理由を示すか、なんらかの外的基準を探しなさい。Reise, Widaman & Pugh (1993, Psych. Bul.)はCFAモデルの評価には理論や主観的判断が説得力が大事だといっているが、そんなのはでたらめです。
いやー、楽しくなっちゃってどんどんメモしちゃったけど、原文にはもっとキツイことが書いてあります。結局のところ、SEMユーザはモデル構築が大変な作業だということを理解する気がないんだよ、なあんて。ははははは。
著者が全力で批判している適合度指標とは、GFIとかCFIとかRMSEAとかのことで、BICやAICは原理的にはオッケーなのであろう。解釈上のゴールデン・ルールもないしね。
この論文にコメントしている9人は、Bentler (ははは), Goffin, Hayduk et al., Markland, Miles & Shevlin, Millsap, Mulaik, Steiger. 読んでないけど、いずれもかなり否定的な模様。元論文の話の進め方が雑なぶん、論点が多岐にわたりそうで (適合度指標の是非, ゴールデン・ルールの是非、NHST批判, カイ二乗検定の是非、モデル構築に実質科学的推論がどこまで必要か、云々...)、どうにも面倒くさそうだ。よほど時間ができたら、ということで...
論文:データ解析(-2014) - 読了: Barrett (2007) 私はSEMの適合度指標を禁止したい
2014年2月25日 (火)
Gelman, A. (2007) Struggles with survey weighting and regression modeling. Statistical Science. 22(2), 153-164. (with commentaries)
調査ウェイティング(確率ウェイティング)に関する論文。これまでに三回ほどトライし、そのたびに途中で挫折した、いわくつきの難敵。このたび細かくメモを取りながら読んで、ようやく読了。疲れた。
Gelman先生いわく。
調査ウェイティング、それはゴミ屋敷だ("Survey weighting is a mess")。単純な平均や割合の推定を別にすれば、ウェイトをどう使えばいいのかはっきりしないことが多い。平均の標準誤差さえややこしい。魅力的な代替案として、ウェイティングのかわりに回帰モデリングをするという手があるが、膨大な交互作用をどう扱うかによって結果はどうにでも変わってしまう。本論文は、標本と母集団の間の差を調整するひとつの戦略として、事後層別と階層回帰の併用を提案する。
通常、モデルに基づく推測というものは、データ収集時のデザインが「無視可能」だと暗黙のうちに想定している。つまり、回帰の文脈からいえば、標本抽出なり無回答なりに影響するすべての変数が含まれているという想定であり、標本抽出の文脈でいえば、事後層別セルのなかで抽出確率が等しいという想定である。
ここで、ウェイティングと事後層別を統一的に扱う枠組みを導入しておこう。
まず事後層別について。$X$が離散的だとして、その可能なカテゴリを事後層別セルとよび、$j$ 番目のセルの母集団サイズを$N_j$, 標本サイズを$n_j$とする。どの事後層別セルでもデータは単純無作為抽出 (SRS) だと考える。標本サイズの割り当て方はこの話とは無関係である (古典的な層別抽出も事後層別の一種と考えるわけだ)。$N_j$ は既知だとしよう (未知な場合も多いが、その推定の話は脇に置いておく)。
任意の変数の母平均
$\theta = (\sum N_j \theta_j) / (\sum N_j)$
の推定値は
$\hat\theta^{PS} = (\sum N_j \hat\theta_j) / (\sum N_j) $
である。
次にウェイティングについて。
個体ウェイトを $w_i$ として、
$\bar{y} = (\sum w_i y_i) / (\sum w_i)$
ここでややこしいのは、事後層別でないウェイティングがあるという点だ。たとえば、電話調査で世帯当たり電話回線数の逆数をウェイトにするような場合がそれだ(ウェイト値はデータと無関係に決まる)。でも、こういう固定ウェイトを使っていると、世帯当たり電話回線数と無回答の間に関係があったときにバイアスが生じる。本論文ではそういうのもみんな事後層別に組み込んだ場合を考える(つまり、固定ウェイトを使わず、世帯当たり電話回線数で事後層別する場合について考える)。
さて。
サーヴェイ・データからの母平均の推定のためにウェイトつき平均を用いるのは標準的だが、回帰のような複雑な分析の場合にどうすべきかは明確でない(※レビューとして以下が挙げられている: DuMouchel & Duncan, 1983 JASA; Kish, 1992; Pfeffermann ,1993 Int.Stat.Rev.)。
抽出確率が$X$に依存しており、$y$は$X$と$z$に依存しているとしよう。$y$の$z$への回帰を正しく推定するためには、$y$を$X$と$z$に回帰すればよい。ところが$z$も$X$と関係しているかもしれない。とすると、交互作用項をいれないといけないかもしれない。
たとえば、標本における男女の割合が母集団における割合に一致させてある調査を考えよう。$y$を収入の対数、$z$を身長とする。
まず、収入の身長への回帰係数に関心がある場合。我々はかつて以下の推定式を得た(※$male$ってのは男性である時に1, 女性である時に0となる変数):
$y = 8.4 + 0.017 z - 0.079 male + 0.007 z \times male + error$
身長$z$が与えられた時、年収の対数の期待値は
$E(y | z) = 8.4 + 0.017 z - 0.079 E(male|身長=z) + 0.007 z \times E(male|身長=z)$
今度は、白人と非白人のあいだの年収の平均的な違いに関心がある場合。推定された回帰式は
$y = 9.5 - 0.02 white + 0.20 male + 0.41 white \times male + error$
年収の対数の期待値の差は
$E(y | white = 1) - E(y | white = 0)$
$= -0.02 + 0.20 {(E(male|white=1) - E(male|white=0)} + 0.41 E(male|white=1)$
このように、交互作用項をいれたが最後、$z$なり$white$なりの係数だけみているわけにはいかないのである。(←長い説明だったわりには単純な話だ... それともなにか見落としているのだろうか?)
いよいよ本題。
New York City Social Indicators Surveyを例に挙げよう。「ニューヨークの成人は健康な状態にあると思う」という回答の割合に注目する。電話回線数、家族構成、エスニシティ、年齢、教育の分布が母集団に合うようにウェイティングして集計すると、1999年の割合は75%, 2001年の割合は78%。ちょっと増えているようだ。では、どのくらい増えているのか。ふたつの答えがある。
- 単純に差をとる。差は3.4%。
- 2年分のローデータを縦に積む。1999年データで0, 2001年データで1となるダミー変数をつける。で、この変数、ならびにウェイティングに用いた変数群 (電話線の数, 家族構成, ...) を独立変数にした回帰式を推定する。年度ダミー変数の係数は6.6%。
どちらが正しいのか? この例に限って言えば、諸事情により前者のほうが正しいと思う。でも一般には後者の方法のほうが好まれるだろう。以下では事後層別の下で正しい答えを与えてくれて、より複雑な推定対象にもスムーズに一般化できるアプローチについて考えよう。
まず、古典的なモデル。
- もっとも単純な考え方は完全な事後層別である。つまり、セル推定値 $\hat\theta_j$ としてセル平均 $\bar{y}_j$ を使って
$\displaystyle \hat\theta^{PS} = \frac{\sum N_j \bar{y}_j}{\sum N_j}$
これは、すべての事後層化セルを表すインジケータを含めた回帰だとみることができる。 - 全然ウェイティングしないという考え方もある。これは、定数項のみの回帰だと考えることができる。
- この2つの中間地点にあるのが、層別変数群をいれるが交互作用項はいれない回帰である。
三番目の路線について。層別変数がk個あり、そのデータ行列がXであるとしよう。回帰モデルは
$y \sim N(X \beta, \sigma^2_y I) $
$\hat\beta = (X' X)^{-1} X' y $
J個の事後層化セルの母集団サイズのベクトルを $N^{POP}$, 層別変数の行列を $X^{POP}$とする。セル平均の推定値は $X^{POP} \hat\beta$ だ。では母平均の推定値はどうなるか。それはセル平均の推定値の加重平均であるから
$\displaystyle \hat\theta^{PS} = \frac{1}{N} \sum N_j (X^{POP} \hat\beta)$
$\hat\beta$を代入して
$\displaystyle \hat\theta^{PS} = \frac{1}{N} (N^{POP})' X^{POP} (X'X)^{-1} X' y$
これを $\displaystyle \hat\theta^{POP} = \frac{1}{n} \sum w_i y_i$ と書きなおそう。$w$ は
$\displaystyle w = (\frac{n}{N} (N^{POP})' X^{POP} (X'X)^{-1} X') '$
$w$の合計は $n$ になる。つまり、これもウェイティングだと捉えることができる。なお、$w$はデータとモデルに依存しているが$y$には依存していない点に注意。(←おおおー。なるほど...)
次に、著者が提案する階層モデル。セル平均 $\hat\theta_j$ を階層モデルで推定する。モデルは
$y \sim N(X \beta, \Sigma_y)$
$\beta$の事前分布は
$\beta \sim N(0, \Sigma_\beta)$
とすると (...中略...) とまあこのように、母平均の推定値は、これこれの式で求めた $w$ によってウェイティングした集計値になる。この方法なら、層別変数間の交互作用項もがんがん叩き込める。
ここで $w$ は $y$ の分布にも依存している点に注意 ($y$の層内分散と層間分散に依存する由)。従って、注目している変数が変われば $w$ も変わる。(←なるほど...)
考察。
もともとウェイティングには次の欠点がある。(1)回帰係数のような複雑な推定対象に対してどうウェイティングすればいいのかわからない。(2)標準誤差の推定が困難。(3)ウェイト値をつくるのが大変。層別変数を選んだり、交互作用をどこまでいれるかきめたり、セルをプールしたりウェイト値を切り詰めたり。
いっぽうモデリング路線ににも欠点がある。ちょっとした調査でも、層別変数をいれたモデルはえらく複雑になる。
本論文で提案したような、信頼がおけてかつ簡単な統合的アプローチの開発が求められている。云々。
いやー、疲れた。
もともとこの論文を読もうとしていたのは、平均や割合のウェイティングと、もっと複雑な統計量のウェイティングを統一的に扱う枠組みに関心があったからであった。そうした具体的な展開はなかったので、その点では期待通りではなかったけれど、勉強になったので良しとしよう。特に、回帰モデルによる共変量調整とウェイティングによる調整の関係を整理するところが大変勉強になった。これまで誤解していた点に気が付いた。
この論文、5人の研究者によるコメントと返答がついているのだが(Bell & Cohen, Breidt & Opsomer, Little, Lohr, Pfeffermann)、力尽きたのでパラパラめくっただけ。返答のほうにはこんなことが書いてあった: 私はウェイティング路線やモデリング路線に対していささか悲観的すぎたかもしれない。優秀なリサーチャーなら適切なウェイトを決められるかもしれないし、標準誤差だってジャックナイフ法とかでうまく求められるかもしれませんわね。またモデリングの際にはブートストラップ法などが助けになるかもしれませんわね。云々。
2022/08/13 追記: 再読し、メモを取り直しました。
論文:データ解析(-2014) - 読了: Gelman (2007) ウェイティングと回帰モデリングを巡る悪戦苦闘
2014年2月24日 (月)
Reise, S.P., Widaman, K.F., Pugh, R.H. (1993) Confirmatory factor analysis and item response theory: Two approacehs for exploring measurement invariance. Psychological Bulletin, 114(3), 552-566.
測定不変性の検討方法についての論文。
えーと、まかり間違ってこのブログに目を留められた奇特な方のためにご紹介いたしますと、たとえば、同じ調査を日本と中国でやりました。調査票の翻訳には十分気を配ったんですけど、果たして回答を比較しちゃっていいものなのでしょうか? 日本ではこの項目への回答が対象者の××という特性の程度をあらわしていると考えられているのですが、中国でもそうなんでしょうか?... というようなのが、測定不変性(measurement invariance)という問題である。市場調査に関わる方であれば、これがものすごく深刻な話題であることをご理解いただけると思います。
その割には、測定不変性の実証的検討について関心を持つ実務家は、不思議に少ない、というか、恥ずかしながらお目にかかったことがない(以前お世話になっていた教育測定の会社は別にして)。もしかすると、なにか言霊信仰のようなものがあるのかもしれない。「測定不変性」とひとたび口に出すだけで、その深刻さが現実となり、異なる集団の間で調査結果を比較できなくなり、商売あがったり、というような。
まあいいや。測定不変性を検討する際の二大流派、CFA(確認的因子分析)とIRT(項目反応理論)のそれぞれについて、その使い方を示します、という論文であった。えー? 2パラメータIRTはカテゴリカルCFAと同じことでしょ、そんな細かいことを... と思って放っておいた論文なのだが、ふと見たら、いつのまにか「必ず読むこと」というタグが付いている。なぜ・いつ付けたんだか、全然記憶にない。困るなあ、こういうの...
CFAといっても、カテゴリカルCFAがIRTと等しいというような話ではなくて、あくまで線形なCFAの話なのであった。
まずCFA。$n$個の項目への反応のベクトル $X$ を次のようにモデル化する:
$X = \Lambda \xi + \delta$
$\xi$は$r$個の潜在変数得点のベクトル、$\Lambda$はサイズ$n \times r$の負荷行列である。途中はしょりまして、標本共分散行列を$S$として
$S \sim \hat{\Lambda} \hat{\Phi} \hat{\Lambda}' + \hat{\Psi}$
$\Phi$は潜在変数の共分散行列、\Psiは誤差の共分散行列である。多群に拡張して
$S_g \sim \hat{\Lambda}_g \hat{\Phi}_g \hat{\Lambda}'_g + \hat{\Psi}_g$
この文脈における測定不変性は、$\Lambda_g$がどこまで群間で等しいか、という問題になる。
実例。1因子5項目(5件法リッカート)の不安尺度。中国とアメリカの標本を比較。カイ二乗検定で$\hat{\Lambda}_g$ 全体の等値制約を棄却。修正指標で部分測定不変モデルを作る手順を示している。この頃はこういうチュートリアルがまだ少なかったのであろう。眠いので省略。適合度指標はカイ二乗のほかにTLI, noncentrality index, RMSEAを使っている。
次、IRT。5件法なのでSamejimaモデルを使う(懐かしい...)。潜在変数 $\theta$の下で 反応 $x$ がカテゴリ $k$ に落ちる確率は、
$P(x = k | \theta) = P*(j-1) - P*(j)$
$P*$ は項目反応関数で、j番目の閾値を上回る確率は
$P*(j) = 1 / (1 + exp[-a (\theta - b_j) ])$
識別性$a$, 困難度$b$の意味についての懇切丁寧な説明があって(省略)... IRTの文脈では、測定不変性とは各項目の$a, b_1, b_2, b_3, b_4$が群間で等しいかという問題である(DIFって奴ですね)。適合度の指標としては -2*対数尤度を使う。MULTILOGの出力ではこれを$G^2$という由。また、個人レベルでperson-fit統計量を調べる。項目反応関数の下でのある対象者の反応の尤度を標準化した値を $Z_l$ 統計量と呼び、person-fitの下で$N(0,1)$に従うのだそうだ。へぇー。
というわけで、実例に突入。ところで、多群CFAならば、識別のためにどこかの群の因子分散を1に固定したり、どこかの項目の因子負荷に等値制約をかけたりするけど、多群IRTではどうやるのか。著者いわく、こういう話は計量心理学の外側ではあまり紹介されないので、ゆっくりご説明しましょう。ちょっとそこに座んなさい。(←とは書いてないけど)
「各群の$\theta$の分散を1にする」作戦はもちろん使えない(パラメータ$a, b$が比較できなくなる)。「どこかの項目のパラメータを群間等値にする」作戦もある。この哀れな生贄をアンカー・テストという。でも、どの項目を生贄にするかをどうやって決めるのか。
そこで次の作戦を採る。USと中国の対象者をたて積みにし、USの対象者は項目1~5に、中国の対象者は項目6~10に回答したのだ、と考える(他の項目への回答は欠損になる)。USブロックの$\theta$の分布を平均0, 分散1に固定する。中国ブロックの$\theta$の平均は自由推定、分散は適当な値に固定する。これをもってベースライン・モデル、すなわち群間等値制約のないモデルとみなす。云々。うっわー、めんどくさいー。
そんなこんなで、手間暇かけて部分測定不変モデルを構築する手順を示している。
考察。
- CFAでは潜在変数と反応の線形な関係が仮定されている。IRTではそうではない。もっとも、これから非線形的な因子分析モデルの研究が進むだろう。
- 潜在変数の推定には、測定不変じゃない項目でも有用だが、潜在変数の分布を比較するためには測定不変な項目がいくつか必要である。これはCFAでもIRTでもかわらない。
- CFAのほうがモデルの指定が楽。段階反応IRTで多群分析をやろうと思ったらMULTILOGが必要で、使い方が難しい。(←この論文の当時の話でありましょう)
- IRTの適合度指標はCFAほどリッチじゃない。とかなんとか。
なんで2013年になってこんな論文を読んでんだか、と面倒になってきて、途中から読み飛ばしてしまった。思うにこの時代には、「測定不変でない項目は分析からまるごと除外しなきゃいけない」というような通念があって、それがこの論文のひとつの仮想敵だったのかもしれない。よくわかんないけど。
ま、いいや。person-fit についての知識が足りない、というのがこの度の教訓であった。
論文:データ解析(-2014) - 読了: Reise, Widaman, Pugh (1993) 測定不変性の検討:CFA vs IRT
革新幻想の戦後史
[a]
竹内 洋 / 中央公論新社 / 2011-10-22
著者自身の知的遍歴と思い出話を織り交ぜながら、戦後の論壇を語る、という... 偉い人にしか許されないタイプの本であった。
鯰絵――民俗的想像力の世界 (岩波文庫)
[a]
C.アウエハント / 岩波書店 / 2013-06-15
安政の大地震の後に流行した「鯰絵」についての古典的研究にして日本民俗学の名著、らしいんだけど、正直なところほとんど理解できなかった。構造人類学ってんですかね、なんだかわけのわからない図が出てくる。
それよりも、図版のなかにあった鯰絵の一枚が衝撃的で、ずっとその絵のことばかり考えていた。「切腹鯰」と呼ばれる鯰絵。巨大な鯰が、地震の責任をとって腹を切っている。その腹からは大判小判があふれ出している。千両箱を持った大勢の人々がそれを取り囲んでいる。死者たちの影もそれを見守っている。当時の人々は、どんな思いでこの絵を求めたのだろうか...
原発敗戦 危機のリーダーシップとは (文春新書)
[a]
船橋 洋一 / 文藝春秋 / 2014-02-20
小林信彦 萩本欽一 ふたりの笑タイム 名喜劇人たちの横顔・素顔・舞台裏
[a]
小林 信彦,萩本 欽一 / 集英社 / 2014-01-24
小林信彦さんによる萩本欽一の聞き書きかと思ったら、そうではなくて、萩本欽一さん企画による小林信彦の聞き書きであった。
もう一度 天気待ち
[a]
野上 照代 / 草思社 / 2014-01-22
野上照代さんが黒澤について語ったエッセイ集「天気待ち」の復刊。旧著でも読んでいたのだが、かなりの増補があった。
ノンフィクション(2011-) - 読了:「鯰絵」「原発敗戦」「ふたりの笑タイム」「もう一度天気待ち」
尼僧の告白―テーリーガーター (岩波文庫 青 327-2)
[a]
/ 岩波書店 / 1982-04-16
初期仏教の経典「テーリーガーター」の翻訳。
往生要集を読む (講談社学術文庫)
[a]
中村 元 / 講談社 / 2013-10-10
哲学・思想(2011-) - 読了:「尼僧の告白」「往生要集を読む」
ブッダ (第3巻) (潮ビジュアル文庫)
[a]
手塚 治虫 / 潮出版社 / 1992-12-01
ブッダ (第4巻) (潮ビジュアル文庫)
[a]
手塚 治虫 / 潮出版社 / 1992-12-01
めしばな刑事タチバナ12: ファミレス ナウ&ゼン (トクマコミックス)
[a]
坂戸佐兵衛,旅井とり / 徳間書店 / 2014-02-04
事件記者トトコ! 2巻 (ビームコミックス)
[a]
丸山薫 / KADOKAWA/エンターブレイン / 2014-02-15
ヴィンランド・サガ(14) (アフタヌーンKC)
[a]
幸村 誠 / 講談社 / 2014-02-21
トラップホール 3 (Feelコミックス)
[a]
ねむようこ / 祥伝社 / 2014-02-08
面白いマンガではあるのだが、主人公の29歳女性が出会った男たちとくにゃくにゃと寝ちゃうのが、もういやでいやで... 読むにはかなりの忍耐が必要であった。
中国嫁日記(三)
[a]
井上 純一 / KADOKAWA/エンターブレイン / 2014-02-14
おいピータン!!(14) (ワイドKC Kiss)
[a]
伊藤 理佐 / 講談社 / 2014-02-13
コミックス(2011-) - 読了:「ブッダ」「めしばな刑事タチバナ」「ヴィンランド・サガ」「事件記者トトコ!」「トラップ・ホール」「中国嫁日記」「おいピータン!!」
2014年2月21日 (金)
Kieser, A., & Leiner, L. (2009) Why the rigour-relevance gap in management research is unbridgeable. J. Management Studies. 46(3), 516-533.
調べものをしていて偶然みつけた論文。いろいろあって疲れたので、気分転換に目を通した。掲載誌は経営学の雑誌だろうと思うが、インパクト・ファクターが3.8って、これってかなり有名な雑誌なんじゃないかしらん。
えーっと... 経営学においてはかねてよりrigour-relevance gapが問題視されており(科学的厳密性と実務的有用性の二兎を追えない、という意味であろう)、雑誌の特集号にもなっているし本も論文集も出ている、のだそうです。このギャップは言い回しやスタイルのちがいだけじゃなくて、問題を定義し取り組む際の論理のちがいでもある。で、このギャップを憂う研究者たちは、実践から問いを立てなさいとか、実務家と協同しなさいとか、そういう提案をする。彼らはたいてい理論的基盤というものを持っていない。アホどもめ。(←そうは書いてないけど、まあそういう趣旨)
ルーマンのシステム理論の観点から考えよう。近代社会における専門化したシステムの特徴、それはオートポイエティックであるということだ(で、でたぁ...)。それは高度に自律的なシステムであり、その構成要素はヒトでもなければ行為でもない、コミュニケーションである。それらは他のシステムには移せない。ある実務家が、科学雑誌の論文を読み、理解できたと思ったとしよう。彼女は同僚に対して、その研究を引き合いに出してある解決策を正当化することはできるかもしれない。でもそのときには、その論文が基づく理論と方法は失われ、文脈は変わり、引用は異なる意味を持つ。彼女はその論文の科学的内容そのものを、科学というモードのなかで伝えることはできない。
社会システムは自己参照性(self-reference)と操作的閉鎖性(operative closure)を持つ。システム外部の出来事が内部に直接干渉することはない。社会システムは、その内部において可能なコミュニケーションの範囲を決める枠組みを持っている。コミュニケーションはそのシステムに特有のコードに基づく。科学システムのコード、それは真か偽かだ。経済システムのコード、それは金になるかならないかだ。(以下、科学システムと経済システムのそれぞれの描写が続く)
確かに、経営学のトップ・ジャーナルの査読者用チェックリストには「実務的有用性」がはいっている。でも書き手は、研究の結果が実務に対してこんな示唆を持ちそうです、と書くだけでよくて、ほんとに役に立ちますという証拠はいらない。つまり、(研究者が社会的に構築したところの)"実務家"がこんな示唆を得ることができるかもしれません、ということを書き、(その研究者が構築したところの)"有用性"という概念が査読者のそれと一致していればそれでよい。有用性の評価はあくまで科学システムの内部で行われている。
真/偽というコードと有用/非有用というコードの両方に基づくコミュニケーションなんて想像もつかない。優れた実務家が査読者になったりテニュア・コミッティのメンバーになったところで、厳密性からみたランク付けと有用性からみたランク付けができるだけだ。工学や医学とは事情がちがう。ああいう分野は実験ができる。実験においては真/偽というコードと機能する/機能しないというコードが一致する。
実務家と協同するタイプの研究としてはアクション・リサーチがある(創始者としてEric Tristという名前が挙がっている。恥ずかしながら知りませんでした。調べてみたら、クルト・レヴィンの弟子でタヴィストック研究所の創設者らしい)。でも彼らの論文はたいてい彼らのジャーナルに載るだけで、権威あるジャーナルには載らない。モード2はどうか (マイケル・ギボンズたちのこと)。経営学への適用例はない。だいたいあれは大学の外での知識産出と社会への拡張を目指しているだけで、真に協同的ではない。
システム理論的に言えば、研究者と実務家のいわゆる「協同研究」というのは「コンタクト・システム」、すなわち、それぞれの主システムにおけるディスコースから切り離されたディスコースをつくりだす一時的な相互作用システムだ。そこでのディスコースはその外側には伝わらない。ないし、協同研究といいつつ教育だったりコンサルティングだったりする。協同研究なんて不可能である。
科学の基本的な課題、それは現象の記述と分析である。それは研究対象であるシステムの自己記述や自己分析であってはならない。初期の経営学は、実践との距離を失ったが故に、その正当性を失う危機にさらされた。研究者と実務家の実りある関係は、研究が目的でないときのみに可能となる。必要なのは、研究の知識と実務の状況の両方がわかり、一方のシステムで起きている事柄を他方のシステムにメタファーとして伝えることができるバイリンガルである。一方のシステムは他方のシステムに、いらだちや刺激やインスピレーションを与え、それは(たまには)有益であろう。
... あははははは。
いろいろ感想はあるけど、書くのが面倒なので省略。ともあれ、きつーい書き方が面白かった。著者の先生方は、なんというかその、なにかつらいことでもあったのだろうか。
論文:その他 - 読了: Kieser & Leiner (2009) 実務家と研究者が手を組むなんて無理に決まってる
2014年2月20日 (木)
Muthen, B. (1994) Multilevel Covariance Structure Analysis. Socilogical Methods & Research, 22(3), 376-398.
仕事で階層因子分析モデルを組んでいて、混乱しちゃうことがあったので、頭を整理するために読んだ。導師Muthen, 哀れな文系ユーザ向けに、共分散構造分析(というかCFA)において階層データを正しく扱う必要性を説くの巻。導師は素人向け説明の達人であらせられるので、こういうのは読まなきゃ損である。ま、ちょっと古い論文ではあるけれど。
えーっと... まず階層CFAモデルの概説。順を追って懇切丁寧に説明しておられて、頭が下がります。
結局のところ、こういうモデル。群 $g$ に属する個人 $i$ の観察値ベクトルを y_{gi}として
$y_{gi} = \nu + \Lambda_B \eta_{Bg} +\epsilon_{Bg} +\Lambda_W \eta_{Wgi} + \epsilon_{Wgi}$
$\eta$が因子、$\Lambda$が負荷である。
で、このモデルをふつうのSEMのソフトで推定する方法を紹介。要するに、観察変数$y_1, y_2, \ldots$が潜在変数$y_{B1}, y_{B2}, \ldots$を持ち(係数は固定)、観察変数には $\eta_W$からパスが刺さり、潜在変数には $\eta_B$ からパスが刺さる、というモデルである。推定方法として、導師が提案するMUML推定量を紹介。これはFIMLの近似だが、計算が簡単である由。このへん読み飛ばしちゃったけど、まあいいや。いまでは導師自らが開発したMplusで簡単にFIML推定できてしまう。
導師お勧めの手順は以下の通り。
- まずは階層を無視してCFA。モデルの適合度はインフレを起こすけど、あたりをつけるぶんには構わない。
- 各変数について級内相関を推定する。ここでいう級内相関とは、群間の母分散を$\sigma^2_B$, 群内の母分散を$\sigma^2_W$として $\sigma^2_B / (\sigma^2_B + \sigma^2_W)$ のこと。これがいずれも 0 に近かったら、階層を気にすることはないわけだ。$\sigma^2_W$はプールした群内分散$ s^2_{PW}$で推定すればよい。いっぽう $\sigma^2_B$の推定量は、群間分散$s^2_B$じゃなくて、クラスサイズを $c$ として $(s^2_B - s^2_{PW}) / c$ になる(ああそうか、1要因のANOVAだと思えばいいのか)。ま、級内相関も、いまではMplusがさっと出してくれるけど。
- プールした群内共分散行列 $S_{PW}$について、ふつうのCFAを行う。 $S_{PW}$は群内の母共分散行列 $\Sigma_W$の推定量だから、理屈の上からいえば、それは 群間共分散行列 $\Sigma_B$ に制約をかけなかったときの階層CFAに等しいし、実際にも近いパラメータ推定値になる。サンプルサイズはN-(群の数)とすること。GLS推定でもML推定でもよろしい。
- 順番からいえば、次は群間構造の推定だが、これは結構難しい。群間共分散行列 $S_B$ は、群間の母共分散行列 $\Sigma_B$ の推定量ではなく、$c \Sigma_B + \Sigma_W$ の推定量なのだ (群内分散が大きいと群間分散も大きい)。従って $S_B$を分析するのはお勧めでない由。
- 以上を踏まえて、ちゃんとした階層CFAをやる。(なーんだ、結局やるのか)
後半は分析例。生徒の算数の成績データ(6項目)の1因子CFAで、学級を無視した分析が項目の信頼性(共通性のことであろう)を過大評価してしまうことを示している。あー、なるほど。素朴に言えば、学級の効果のせいで項目間相関がインフレを起こすわけだ。
とかなんとか。適当に読み飛ばしちゃったけど、勉強になりました。ちょっと古めの論文を読むのもそれはそれで良いかもしれない。
論文:データ解析(-2014) - 読了: Muthen (1994) 階層共分散構造分析へのご招待
2014年2月18日 (火)
流れ流れて市場調査関係の仕事をしているが、この分野には、市場にある製品に対する消費者の知覚を二次元空間の布置で表現して(「知覚マップ」などという)、製品開発やら広告やらに役立てよう、という発想がある。調査に基づき製品が布置する空間をつくっておいて、消費者に好まれている製品は西の方角にあります、この方角に新製品を投入すれば売れるでしょう、とか。現行製品はもうちょっと北に動かしたほうがいいんじゃないですか、とか。もっと図々しく、知覚マップ上の位置で上市後のシェアを説明しちゃおう、なんていう考え方もある。そういうわけで、消費者調査データの空間表現という課題は、単に多変量データの視覚化というだけにとどまらない深刻さを持っている。
そういう文脈でよく引き合いに出されるのが、現在ある外資系市場調査会社が提供しておられるPERCEPTORなるソリューションで、これは元をたどれば製品開発研究の神様 Glen Urban の論文に始まっている。なんでも、Urbanの弟子Blanchardが起こした会社がNovaction、彼はのちにこの会社を上述の会社に売った、といういきさつだそうです。
Urban, G.L. (1975) PERCEPTOR: A model for product positioning. Management Science, 21(8), 858-871.
というわけで、仕事の関係で興味をひかれ、Urbanの元論文に目を通して見た。とはいえ、もう40年近い月日が経っているから、現在PERCEPTORという名前で売られているソリューションとはほとんど関係ないだろう。ほとんど考古学的な興味である。
えーっと... まずシェアを分解する。ある新製品が獲得する長期的な市場シェアをm, ターゲット集団におけるトライアル購買率を t, トライアル購買者におけるシェアを s として
m = ts
認知・配荷の下でのトライアル確率を q, 長期的な認知率を w, 長期的な配架率を v として
t = qwv
2状態マルコフモデルを考える。ブランド番号 i を買った人が、次に j を買う確率を p_{ij}とする。世の中に、当該の新製品 1 と, そのほかすべて 2 しかないとしよう。ブランドスイッチによって購買頻度が変わったり買いたい製品がなかったりしないと仮定すると、トライアル購買者におけるシェア s はマルコフモデルの定常状態、すなわち
s = p_{21} / (1 + p_{21} - p_{11})
になる由。そうなんですか、はい、信じます。
では、どうやってqを求めるか。
製品と知覚のジョイント・スペースを考える。ブランド b の認知-未購買者からみた、ブランドbの次元 y における座標を x_{by}、理想点の座標をI_yとする。製品座標x_{by}は非計量MDSなり因子分析なり判別分析なり、どうやって求めてもいいんだけど、因子分析で求めるならば
x_{by} = \sum_a f_{ya} r_{ba}
ただし、aは属性, f_{ya}は因子得点の係数、r_{ba}は標準化した平均評定である。理想点座標 I_yのほうは、Carrol & ChangのPREFMAPなり、「理想のブランド」についての評定値の因子分析なりで求めるがよろしい。
このくだり、消費者間異質性は一切考えていないわけだけど、考えたかったら適当にグループ分けしてやんなさい、とのこと。この時代の論文なので、異質性をモデルに組み込む気はないわけだ。
で、この製品のトライアル購入確率は、理想点からの平方距離 d^2_Bの一次関数だと考える。
q = \alpha_0 + \alpha_1 d^2_B
ただし、この距離はさっきの知覚空間ではなくて、それをT_{yz}で回転した空間から求めるとのこと。すなわち、
x'_{bz} = \sum_y x_{by} T_{yz}
I'_z = \sum_y I_y T_{yz}
と回転しておいて、各次元に重み h_z をつけて
d^2_B = \sum_z h_z (x'_{bz} - I'z)^2
だそうである。回転行列 T_{yz} と重み h_z はPREFMAPで求めよ、とのこと。うーん、ここでわざわざ回転するくらいなら、最初からPREFMAPで空間をつくっておけばいいんじゃないかしらん...?
リピート購入確率 p_{11} も、同じやり方で認知-トライアルの空間を作っておいて、
p_{11} = \tilde\alpha_0 + \tilde\alpha_1 \tilde{d}^2_B
と考える。なお、p_{21}は「経験的に決定される」。つづきを読んでわかったが、直接聞いちゃうのである。
こうして新製品の長期的市場シェア m が推定される。では、そのシェアはどの競合製品からやってくるのか。
まず、想起集合に入りやすい競合製品は、その分シェアが奪われやすい。また新製品に近い奴は、その分奪われやすい。というわけで、既存ブランド b のシェアの低下 k_b は、その想起率を e_b, マップにおける新製品との距離をD^2_{bB}として
k_b = m * (e_b / D^2_{bB}) / (分子の合計)
うーん... ここでいうマップってのは、誰にとってのマップなのだろうか。トライアル購買者かなあ...
後半は実例。まず、データ収集。
6つの製品カテゴリについて、想起ブランド数、想起集合サイズ、売上の80%を占める上位ブランド数を調査。シャンプーだと、想起ブランド数30, 想起集合サイズの中央値4, 上位20ブランドで売上の80%、だったそうだ。
次に、想起集合にあるブランドについて、一対比較の類似性判断、選好判断、ブランド評価を聴取する調査。
で、インタビューでもって、obtain bipolar brand rankings on the scales generated by the semantic procedures だそうだ。よくわかんないけど、要するにSD法的なブランド評価項目群を作るんでしょうね。ここまでが準備。
いよいよベース調査。対象者に、想起集合、類似性判断、既存ブランドのsemantic scales上での評定、選好評価(恒常和法でやるらしい)、ブランド選択、を求める。
で、コンセプト・テスト(concept awareness surveyと呼んでいる)。別の対象者に、新製品の絵とコンセプト文を見せて、この新製品と既存製品についてベース調査と同内容を聴取。
最後に、いわゆる使用後評価(if the brand idea looks reasonable after the concept surveyと書いてある。どうやらコンセプト・テストの対象者とは別らしい)。新製品を実際に使用させた後、ベース調査と同内容を聴取。選択課題で新製品を選ばなかった人に、購入確率を直接評定 (これが p_{21}になる)。
推定。
さっきの説明とダブっているんだけど、著者いわく、まずは知覚の異質性を考えなきゃいけない。そこで、等質な対象者群をつくってそれぞれについて分析しなさい。方法は、非計量データのINDSCALで得たウェイトで人をクラスタリング (類似性判断の非計量MDSをやるということであろう)、評定データから得た因子得点のクラスタリング、ないしQ-type 因子分析。ううむ、時代だなあ...
知覚マップは、類似性判断の非計量MDS、ないし、行を人x認知ブランド, 列をブランド評価項目にとったデータの因子分析で求めるのがよい、両方やって比較しなさい。実例としては、たとえばカテゴリ「カナディアン・ビール」で(←それってカテゴリなのか?)、8製品、17項目の評定を求め、2因子を抽出、ヴァリマクス回転でpopular軸とstrong taste軸を得た。因子得点の平均を製品の座標にした。いっぽうMDSもやって... 云々。
で、PREFMAP。理想点モデルとベクトルモデルを試す。よくわからないんだけど、理想点モデルには3通りのオプション(Phase I, II, III)がある、云々。ビールの例では、どのやりかたでもpopular軸が選好にとって重要であった。
最後にシェアのためのパラメータの推定。ブランドをケース、選択率を従属変数にして回帰する。マップ自体は市場の平均的知覚であり、実際には個々人の想起集合が異なるので、なんか掛けたり割ったり工夫しているけど、まあいいや、省略。
最後に、実際のシェアとの比較。だいたい当たった由。
いやー、細かいところはよく理解できなかったし、いずれにせよ仕事の足しにはならないけれど、時代のちがいが感じられて面白かった。
なにしろ話が素朴すぎて、これじゃ学術論文なんだか実務家向けガイダンスなんだかわからない。こんな論文は、いまMarketing Science誌をめくっても絶対載っていない(現代の論文は、よく言えば、非常に高度に洗練されている)。マーケティング・サイエンス黎明期の息吹を感じますね。この頃はきっと面白かっただろうなあ。
PREFMAPの細かい話が説明もなく引き合いに出されて、よく理解できなかったのだけど、おそらく当時においては常識的な知識だったのだろう。関係者も少なく、ソフトも少なく、みんなが同じソフトを使っていたのかもしれない。
特に関心をひかれたのは、ブランド評定が人xブランドx項目の三相データになっているのを、人xブランドを行、項目を列にして縦積みしなさい、とはっきり書いているところ。Srinivasan, et al. (1989)いうところの total analysis, Dillon, et al.(1985) いうところの extended data matrix アプローチである。いまどきこういう縦積みを推奨する専門家はいないんじゃないかと思うが、マーケティング・リサーチの実務ではですね、これが今でも広く、ひろーく使われているように思うのです。ああいうの、UrbanさんやHauserさんが源流じゃないかと思っているのだけれど、よくわからない。因子分析の歴史ということでいえば、50年代にはすでにOsgoodらが三相データを散々分析していたはずだが、あれも縦積みしていたのだろうか。
ブランドの項目評定の因子分析と類似性評定のMDSを比較して一致することを確認すべし、なんてアドバイスも、初めて聞いた(どっちでもいいから良いほうを使いなさいという話ではなく、手続きとして比較が推奨されているのである)。それとこれとは全然別物だろうと思うんだけど。多変量解析手法ユーザのこういうスタンスも、案外、時代とともにどんどん移り変わっていくものなのかもしれない。
論文:マーケティング - 読了:Urban (1975) 製品ポジショニングの最新鋭モデル PERCEPTOR
2014年2月16日 (日)
Mplus 7.1に搭載された多群因子分析のための新機能が、魅力的なんだけどちょっとわかりにくいので、自分のための備忘録としてメモをとった。誰かの役に立たないとも限らないからブログに載せておく。きっとどこか間違えていると思うので、ほんとにお使いになる方はマニュアルをごらんください。
この新機能 「MODEL=」は、「GROUPING=」か「KNOWNCLASS=」をつかった多群モデルで、測定不変性についてのカイ二乗検定を自動的にやってくれるというもの。従来は「DIFFTEST=」を使ったりなんだり、非常に面倒だった。
「MODEL=」が使えるのはCFAかESEMのモデル。BY文は一回しか使えない(一次因子しか定義できない)。部分測定不変性は扱えない。変数のタイプは以下に限られる。
- 連続変数で、ML推定かベイズ推定
- センサード変数で、WLS推定かML推定
- 二値ないし順序カテゴリカル変数で、WLS推定かML推定かベイズ推定
- カウント変数で、ML推定
つまり、inflatedな変数(日本語ではなんて訳すのかしらん... 「ゼロ過剰モデル」っていうときの「過剰」ですね)、名義変数、連続時間生存変数、負の二項分布の変数、は扱えない。
「MODEL=」は値として、CONFIGURAL, METRIC, SCALARの並びをとる。たとえば「MODEL = CONFIGURAL METRIC SCALAR;」という風に指定する。
さて、「MODEL=」を指定すると正確にはどんなモデルが構築されるのか、という点だが、これが結構ややこしい...
以下、因子分散の指定を、どこかの項目の因子負荷を固定するやり方で行う場合を[A]、どこかの群の因子分散を固定するやり方で行う場合を[B]と略記する。なお、Mplusが勝手に [B]を適用するとき、「GROUPING=」を使っている場合は最初の群、「KNOWNCLASS=」を使っている場合は最後の群が選ばれる。
- 連続変数、センサード変数、カウント変数の場合。これはまあ想像通りで、
- CONFIGURAL: 因子負荷、切片、残差分散は群間で自由。因子平均は全群で0に固定。
- METRIC: 因子負荷は群間で等値。切片と残差分散は群間で自由。因子平均は全群で0に固定。
- SCALAR: 因子負荷と切片は群間で等値。残差分散は群間で自由。因子平均はある群で0に固定, 他の群は自由。
- さあ、徐々にややこしくなって参ります。二値変数、WLS推定の場合。なお、以下にスケール・ファクタとあるのはdelta法の場合、残差分散とあるのはtheta法の場合。
- CONFIGURAL: 因子負荷、閾値は群間で自由。スケール・ファクタor残差分散は全群で1に固定。因子平均は全群で0に固定。
- METRIC: 指定できない。
- SCALAR: 因子負荷と閾値は群間で等値。スケール・ファクタor残差分散はある群で1, 他の群で自由。因子平均はある群で0, 他の群で自由。
- 二値変数、ML推定の場合。METRICが指定できる。なぜなら、残差分散がどの群でも1であると暗黙のうちに指定されているから(そ、そうなんですか)。
- CONFIGURAL: 因子負荷、閾値は群間で自由。因子平均は全群で0に固定。
- METRIC: 因子負荷は群間で等値、閾値は群間で自由、因子平均は全群で0に固定。
- SCALAR: 因子負荷と閾値は群間で等値。因子平均はある群で0, 他の群で自由。
- 順序カテゴリカル変数、WLS推定の場合。なお、以下のいずれかの場合、METRIC は指定できない: (1)クロス・ローディングがある場合。(2)[B]路線。(3)ESEM。なお、以下にスケール・ファクタとあるのはdelta法の場合、残差分散とあるのはtheta法の場合。
- CONFIGURAL: 因子負荷、閾値は群間で自由。スケール・ファクタor残差分散は全群で1に固定。因子平均は全群で0に固定。因子分散は、[A]ならば群間で自由、[B]ならばある群を除き自由。
- METRIC: 因子負荷は群間で等値。スケール・ファクタor残差分散はある群で1, 他の群で自由。因子平均はある群で0, 他の群で自由(←ここ、つい勘違いしそうですね)。各項目の最初の閾値が群間で等値。2番目以降の閾値は、[A]のために選ばれた項目のみ群間で等値。因子分散は群間で自由。なんでこんな指定になるのかは、Millsapの測定不変性の本を読めとのこと。いやーん。
- SCALAR: 因子負荷と閾値は群間で等値。スケール・ファクタor残差分散はある群で1, 他の群で自由。因子平均はある群で0, 他の群で自由。因子分散は、[A]ならば群間で自由、[B]ならばある群を除き自由。
- 順序カテゴリカル変数、ML推定の場合。
- CONFIGURAL: 因子負荷、閾値は群間で自由。因子平均は全群で0に固定。
- METRIC: 因子負荷は群間で等値。閾値は群間で自由。因子平均は全群で0に固定。因子平均はある群で0, 他の群で自由。
- SCALAR: 因子負荷と閾値は群間で等値。因子平均はある群で0, 他の群で自由。
あれ? 二値や順序カテゴリカル変数でベイズ推定したらどうなるんだろうか。今度試しにやってみよう。
雑記:データ解析 - Mplus 7.1 で多群因子分析をやるときの魅惑の新機能 MODELオプションについて
2014年2月14日 (金)
Behar, R., Grima, P., Marco-Almagro, L. (2013) Twenty-five analogies for explaining statistical concepts. American Statistician, 67(1), 44-48.
昼飯のついでに読んだ記事。統計学を教えるとき、ちょっと気の利いたたとえ話なんかがあると、講義も面白くなり出席者も目を覚まそうというものですよね、そこで入門講義に便利なアナロジーをまとめてみました、という内容。American Statisticianという雑誌にはTeacher's Cornerというページがあって、ときどきこういうのが載る。適当に意訳しながらメモしておくと...
- 氷山。海面上の一角しか見えないけど、実は巨大である。統計学も同じこと。メディアに出てくるスポーツやらなんやらの統計ばっかりじゃないんですよ。
- 指名手配の似顔絵。あの絵を描く担当者は、あいまいな情報のなかから鍵になる要素を選び出して形にする術を知っている。データの分析も同じこと。データ全体をうまく記述する指標を選びましょう。
- 火星人の身長。その平均が50インチだったとして、さあ地球人より背が高いでしょうか、低いでしょうか。実は大多数は80インチ以上だったりするかもしれないですよね。平均だけでは不十分ですよ。
- 平均のことだけ考えているとひどい目にあうかもしれないよ、というジョーク集。台所で頭をオーブンに足を冷蔵庫に突っ込めば、体全体でみたら適温ですよ、などなど、いまいち笑えない冗談が4つ紹介されている。
- シーソー。大人と子供が両側に座ってバランスを取りたかったら、大人はずっと中心寄りに座らないといけないですよね。ドットプロットもこれと同じ。平均で支えられているシーソーのようなものです。
- 火星人のバスケット・チーム。火星人の身長が、平均55インチ、SD8インチの正規分布に従うとしましょう。地球人と試合したら勝つのはどっち? 地球人の選手が身長80インチくらいあったとしても(すなわち、地球人の身長が平均68インチ、SDが3インチの正規分布に従うとして、平均+3SD以上だったとしても)、もし火星人が平均+4SD以上の選手を送り出して来たら、きっと負けちゃいますね。(←このたとえ話、一体なにが面白いのかわからない...別に正規分布に従っていなくてもその通りですよね...)
- 高速道路のクルマの速度。速度制限サインの効き目を調べるために、通過する自動車の速度を測定しました。平均はだいたい時速50マイルでした。ところが10マイルで走る車が一台、90マイルで走る車が一台ありました。前者はきっとトラクターだからどうでもよい、問題は後者ですよね。異常値というのもそういうもので、値だけでは決められないのです。
- 音楽の種類。知っている人が聴いたら「あ、ボレロだ」とわかるけど、知らない人が聴いたらボレロもサルサもルンバも区別がないですよね。確率変数というのもそのようなものです。知らない人にとってはどれも似たようなものだけど、統計学の知識があれば、正規分布とか二項分布といった区別がつくのです。
- 完全な球体。地球は完全な球体ですか? 太陽は? ビリアードの球は? 完全な球体なんてどこにも存在しませんよね。統計モデルもそういうものです。
- 1ダースの卵の重さ。そのバラツキは、1個の卵の重さを量ってそれを12倍した値のばらつきとは違いますよね? このように、同一の確率分布に従うk個のランダムな値を合計したものは、1つの値をk倍したものとは異なります。
- 的(まと)。推定量が不偏であるということは、弾が的の中心のまわりに当たるということ、推定量の分散が小さいということは、弾がまとまった場所に当たるということです。不偏であることが常に最良とは限りません。
- 裁判。裁判の目的は、被告が無実だということの論証ではなく、無実だという仮説と矛盾する証拠があるかどうかし調べることです。証拠がないなら有罪にはなりませんが、被告の潔白が証明されたわけではありません。帰無仮説も同じことです。
- 指の本数。有意水準5%というのは、ただのキリのよい数字です。私たちの手に指が6本あったら、きっと6%になっていたでしょう。
- 傘を忘れることと、見通しのきかない山道で反対車線を走ること。降水確率が10%の日、家に傘を忘れたら取りに戻りますか? 戻らないでしょう? 見通しのきかない山道で、対向車が来る確率が低いからといって、反対車線を走りますか? 走らないでしょう? 全ての決定において誤りの確率を揃えようとするのはおかしいです。
- X線写真。お医者さんはX線写真を見るとき、健康な人のX線写真を思い浮かべ、それと比較します。これが基準分布です。幸運にも、既知の確率分布が基準分布のとき、検定統計量のある値がそれに合致している程度を定量化することができます。これがp値です。
- 双眼鏡の倍率。サンプルサイズとはそのようなものです。
- 100回のうち95回、本当のことをいう人。信頼区間とはそのようなものです。
- 正しい推定を出力するコンピュータの数。コンピュータ・ルームで各学生に正規乱数列を与えて、たとえば50%信頼区間を計算させます。で、真の平均を伝え、自分が求めた信頼区間のなかにそれが入っていた学生に挙手させると、だいたい5割くらいの学生が手を挙げるでしょう。
- スープを味見するスプーン。スープの味見は小さじで十分。鍋が大きくても関係ありません。サンプルサイズと母集団とはそのようなものです。
- 鍋をよくかき混ぜること。味見の際に大事なのはそれです。標本は無作為でなければなりません。
- 川の深さ。川を歩いて渡るとしましょう。どこかに足がつかない箇所があるとわかったら、その他の場所の水深を調べても仕方がありません。このように、サンプルサイズを増やすことが推定値の有用性を高めるとは限りません。
- 血液検査。血液型を調べる場合、たった一滴の血液で十分です。どの血液の一滴を調べても同じだからです。このように、パラメータの推定に必要なサンプルサイズは、母集団における変動の大きさによって決まります。
- 消防士の数と火災被害。集まった消防士の数が多い火事ほど被害も大きいでしょうが、そこに因果関係はありません。このように、相関と因果は異なります。
- 試験のためのコンサルタント。あなたはいま試験を受けなければなりません。出題範囲には100個の事柄が含まれていて、あなたはどれも知りません(←すごい状況だ)。そこで、友達を二人連れて行くことを許可します。どんな友達を連れて行きますか? まず一人目は、たくさんの事柄を知っている友達を選びましょう。では二人目は? 2番目に物知りな友達じゃなくて、1番目の友達が知らないことを知っている友達を選ぶのがよいでしょう。回帰における変数選択とはそのようなものです。
- ゴミを捨てるとき。大事なものを捨ててしまわないよう注意しましょう。残差もそれと同じ。大事な情報が含まれていないかどうか注意しましょう。
25個もあるなら、少しはこみいった話も出てくるかと思ったのだが、案外に入門も入門レベルな話題ばかりであった。統計学を教えているピンからキリまでのいろんな人に、「講義用の必殺のジョークをひとつ教えてください」という郵送調査をやったら、いろいろ面白かろう。
論文:データ解析(-2014) - 読了:Behar, Grima, & Marco-Almagro (2013) 統計学を教えるための25のたとえ話
2014年2月12日 (水)
国際メディア情報戦 (講談社現代新書)
[a]
高木 徹 / 講談社 / 2014-01-17
ノンフィクション(2011-) - 読了:「国際メディア情報戦」
明治維新の遺産 (講談社学術文庫)
[a]
テツオ・ナジタ / 講談社 / 2013-08-09
アメリカの日本思想史研究者テツオ・ナジタによる、79年の本。徳川時代から太平洋戦争までの日本の政治思想を、「維新主義」と「官僚的合理主義」のせめぎ合いとして捉え直す、という内容であった。
すごく難しい本しか書かない学者だと思っていたので、こういう一般向けの本を書いているとは知らなかった。それでも十分難しかったけどさ。
何が社会的に構成されるのか
[a]
イアン・ハッキング / 岩波書店 / 2006-12-22
よく考えてみると読んでなかった敷居の高い本に思い切ってチャレンジする「実をいうと読んでなかった」シリーズ、M.ウェーバーに続く第二弾。高名な哲学者ハッキングの本だという怖れがあって、買ってはみたものの本棚で眠っていたのである。
いざ手に取ってみたら、もともとカジュアルな書き方らしいし、(残念ながら)抄訳だし、訳文はくだけすぎじゃないかというくらいだし... さっさと読んでおけば良かった。
いわゆる社会構成主義、そして「○○は社会的に構成されたものだ」というときの社会的構成という概念そのものについて検討・解体するという内容。後半では、自然科学、精神医学、児童虐待をめぐる議論における構成主義的主張を取り上げる。
自然科学に関していえば、社会構成主義の主要なテーゼは次の3つだそうだ。
- 偶然性。例、「クォークという概念の出現は不可避ではなく、そんな概念なしの物理学だってあり得た」。
- 唯名論。わかりにくいけど、反-実在論というような意味ではなくて、世界の存在のありかたは我々の理解を超えており、我々の理解した構造など世界に属するものではない、という立場のこと。
- 安定性の外的な説明。科学的信念の安定性についての説明を、科学外の要因(たとえば社会的要因とか)に求める立場。
もっとも、社会構成主義にはこの3つの「係争点」についての主張だけでなく、反権威主義とか倫理的主張とかも含まれているし、3つの係争点におけるそれぞれの論者の立場もさまざまである由。ハッキングさんいわく、ご自身は3つの係争点に対して、5件法評定で2, 4, 3という立ち位置だそうです。ははは。
鎌倉仏教 (ちくま学芸文庫)
[a]
佐藤 弘夫 / 筑摩書房 / 2014-01-08
哲学・思想(2011-) - 読了:「何が社会的に構成されるのか」「鎌倉仏教」
最近読んだコミックス。
昭和元禄落語心中(5) (KCx(ITAN))
[a]
雲田 はるこ / 講談社 / 2014-02-07
昭和の名人と呼ばれる老落語家に調子の良い若者が弟子入りする、というエピソードから、一気に落語家の青春期の長い長い回想に飛んで... という構成。実に素晴らしい。題名の「落語心中」って、そういう意味だったのか。。。
文豪ストレイドッグス -1 (カドカワコミックス・エース)
[a]
春河35 / 角川書店 / 2013-04-03
文豪ストレイドッグス (2) (カドカワコミックス・エース)
[a]
春河35 / 角川書店 / 2013-08-02
B級アクションなんだけど、登場人物の名前がみな明治大正の文学者たちだというところが味噌である(主人公は「中島敦」、敵のボスは「芥川」)。各人が必殺技を持っていて、たとえば仲間の一人・ツンデレ美女の「与謝野晶子」が「君死に給う事勿れ」と唱えると、死にそうな奴も治癒しちゃうのである。くだらなくてステキ。
そういうことならば、「梶井基次郎」が出てきてあっちこっちにレモン型の時限爆弾を仕掛けたら面白かろう、などと考えていたら、2巻でホントに登場し、その役柄はレモン爆弾を投げつける殺人鬼であった。やれやれ。
チェイサー 1 (ビッグコミックス)
[a]
コージィ 城倉 / 小学館 / 2013-09-30
恩讐の彼方に
[a]
二階堂 正宏 / 新潮社 / 2013-12-19
おかあさんの扉3 三歳児デヴュー!! (オレンジページムック)
[a]
伊藤 理佐 / オレンジページ / 2014-02-01
コミックス(2011-) - 読了:「おかあさんの扉」「文豪ストレイドッグス」「恩讐の彼方に」「昭和元禄落語心中」「チェイサー」
2014年2月11日 (火)
Toomet, O., Henningsen, A. (2008) Sample selection models in R: Package sampleSelection. Journal of Statistical Software, 27(7).
Heckman型の標本選択の下での回帰モデルを推定するRパッケージ sampleSelection の紹介。実際にはJSSの論文ではなく、その改訂版であるvignetteを読んだ。ま、めくっただけだけど。
二段階推定と最尤推定の両方に対応。そのほか、Tobit-5という、(標本選択じゃなくて)結果変数が2つの潜在変数のあいだで切り替わるモデルも推定できる由。ふーん。
論文:データ解析(-2014) - 読了: Toomet & Henningsen (2008) sampleSelectionパッケージ
Puhani, P.A. (2002) The Heckman correction for sample selection and its critique. Journal of Economic Survey, 14(1), 53-68.
先に目を通したBushway, Johnson, Slocum (2007) で何度も引用されていた論文。面白そうなので目を通した。
まず、Heckmanの二段階推定についての簡にして要を得た説明(計量経済学の和書など読んでないで、まずこれを読めばよかった...)。次に、批判者の論点を紹介。
批判その一、Two-part model。Heckmanは選択バイアスの下で観察される従属変数 $y_1$を
$y^*_1 = x'_1 \beta_1 + u_1$
$y_1 = y^*_1 if y^*_2 > 0$
$\ldots$
という風にモデル化したわけだが(個体を表す添字 $i$ を略記)、そうじゃなくて最初から
$y^*_1 | y^*_2 = x'_1 \beta_1 + u_1$
$y_1 = y^*_1 if y^*_2 > 0$
$\ldots$
という風に考える。こういう考え方をTwo-part model(TPM)という。著者いわく、TPMを支持する意見はさらに3つに分かれる。
- TPMは$y^*_1$の条件付き期待値についてのモデルだ。我々が関心を持っているのはそれでしょ?
- TPMはHeckmanと同じく、選択の過程をモデル化しており、違いは分布の想定だけだ。TPMでは$y^*_1$のunconditionalな残差分布として混合分布を想定していることになるのだ。
- Heckmanのモデルの$x'_1$も、TPMでの$x'_1$も、まあ似たようなもんじゃないですか、という実に荒っぽいご意見。
批判その二。Heckmanの方法では、上のモデルに加えて
$y^*_2 = x'_2 \beta_2 + u_2$
というモデルを立て、ここから逆ミルズ比を求め、従属変数が観察されているサブサンプルのOLS回帰式に放り込む。でも、$x_2$ が$x_1$と異なる変数を含んでいない限り (exclusion restrictionsって奴ですね)、逆ミルズ比は$x_1$と高い相関を持ち、従ってマルチコが生じる。
批判その三。$u_1$と$u_2$について二変量正規分布を想定するのは強すぎる。セミ・パラないしノン・パラな方法を使うべし。
さて、Heckmanの二段階推定(ないし、FIMLによる一発推定)と、サブサンプルのOLSを比較したモンテカルロ・シミュレーション研究がすでにたくさんある由。それらの結果を表にしてまとめましたのでご覧ください、というのがこの論文のメインディッシュ。著者のまとめによれば、とにかくexclusion restrictionsを与えよう、それが無理なら、単にサブサンプルでOLS推定したほうがいいんじゃない? とのこと。
プラクティカルなアドバイスに関しては、この後に出たBushwayらのレビューのほうが詳しいんだけど、説明がわかりやすくて、勉強になりましたです。
論文:データ解析(-2014) - 読了: Puhani (2002) ヘックマンの二段階推定とその批判
勤務先の仕事の関係で、延々と続くデータの前処理を心を無にして片付けながら、ひょっとしたらこの話ってHeckmanじゃない?という疑念が心に浮かぶのを、いやいやそんなことはない、とあわてて打ち消した。いよいよ分析に入ってみると、誰がどうみてもHeckman。どこからどう考えてもHeckman。いやいや!固定観念に縛られてはならないぞ、適切に変数変換すればいいんじゃないか、実はトービット変数だと捉えられないか、欠損のあるSEMの枠組みで行けないか、潜在混合回帰ではどうか、いっそ回帰から離れてみてはどうか、この際データ解析をやめちゃえば...と、散々頭を捻ったが、どんなにごまかしてみても、絵に描いたようなHeckmanとしかいいようがない。計量経済学の教科書に出てくる、回帰モデルにおける選択バイアスの修正(「Heckmanの二段階推定」、またの名をヘキット)を、そっくりそのまま実場面に移したような状況である。嗚呼...
つまらない言い訳だけど、心理学出身者はあんな手法は習わないし使わない。さらにいえば、ふだん使わない手法に手を出すのは、加齢とともにだんだん億劫になってくるのである。
Bushway, S., Johnson, B.D, Slocum, L.A. (2007) Is the magic still there? The use of the Heckman two-step correction for selection bias in criminology. Journal of Quantitative Criminology, 23(2), 151-178.
というわけで、計量経済学の教科書を引っ張り出して付け焼き刃の勉強を済ませ、そのついでに読んでみた論文。人文社会系研究者(すなわち、数学がすごく得意とはいえない人たち)向けの啓蒙的レビューだなんて、誂えたような塩梅である。
なんでも、犯罪の研究ではHeckmanの二段階推定を使うことがすごく多いのだそうだ。なんで?と疑問符で一杯になったが、読み進めてみると、この分野ではたとえば懲役刑の年数を従属変数にした回帰モデルを組んだりするらしい。なるほど、懲役刑になったケースだけを取り出して調べていると、選択バイアスを受けるわけだ。
で、著者らいわく、犯罪研究におけるHeckmanの手法の適用は誤用に満ちている。その例:
- Heckmanの方法では、従属変数が観察されるかどうかを説明するプロビット回帰と、観察された従属変数の値を説明する線形回帰モデルの二本を推定するんだけど、前者のモデルでプロビットじゃなくてロジットを使ってしまっている。(←正直、そんな細かいことを...と思っちゃいました。すいません)
- 二値の従属変数に対してHeckmanの二段階推定を使ってしまっている。(それは確かにやばそうですね)
- Heckmanの方法では、二本目の線形回帰モデルに一本目のモデルから求めた変数を入れるんだけど(逆ミルズ比。要するに観察されるかどうかのハザード比みたいなものだと思う)、そのかわりに観察される確率をいれちゃっている。
- 標準誤差の算出の仕方を間違えている。ちゃんとしたソフトを使いなさい。
その他、二段階推定だけじゃなくて最尤法(FIML)も使いなさい、できるかぎり「プロビット回帰モデルのほうにだけいれる独立変数」を用意しなさい(exclusion restrictionsというそうだ。むしろそれがなくても解が得られるというところがマジカルである)、選択バイアスの大きさを評価する指標があるから使いなさい、云々という仰せでありました。
こういう方法論レビューって、たいてい「統計ソフトのアウトプットを盲目的に使うのはやめなさい」というアドバイスが含まれるものだが、このレビューではむしろ「ちゃんと統計ソフト使って計算しなさい」というアドバイスになっているところが面白い。犯罪を研究している人だって統計ソフトは使うだろうから、おそらくソフトの種類の問題であろう。
論文:データ解析(-2014) - 読了: Bushway, Johnson, Slocum (2007) 魔法じゃないのよヘキットは