読書日記: 2016年6月アーカイブ

« 2016年5月 | メイン | 2016年7月 »

2016年6月27日 (月)

Smith, T.W. (2003) Developing comparable questions in cross-national surveys. in Harkness, J.A., van de Vijver, F.J.R., Mohler, P.P. (eds.) "Cross-Cultural Survey Methods", Wiley.
　先に読んだHarkness, et.al (2010)で引用されていた文献。多国間調査の調査票をどうやって国間で比較可能にするかという話。ざーっと目を通しただけだけど、いやー、ほんとに眠かった...

　前半は設問のワーディングとかの話で、せめて3設問の多重指標にしておいたほうがいいよとか、尺度項目の尺度をどうするかとか。後半は回答に影響する諸要因の話で、社会的望ましさ、yea-saying、極端反応、"no opinion"とDK、中間反応、選択肢の順序の効果、設問の順序の効果、調査モードの効果。最後に調査票作成の手順の話がまとめられていた。正直、眠すぎて目が活字をつつつーっと滑っていくような感じ。
　
　まあいいや。前半の尺度項目の話のみメモ。どうやって国際比較するか。
　まず、ノンバーバル・スケール(段階に言葉が付与されていないスケール)のほうが国際比較しやすいという説があるけど、(1)数値的尺度は回答が難しいことが多い。(2)数値的尺度であれ回答にお国柄は出る。(3)たいていの社会にはラッキーナンバーやアンラッキーナンバーがある。(4)どのみちスケールの意味は言葉で説明しないといけない(like-dislikeですよ、とか)。数字の振り方で回答が変わってくる。以上、視覚的スケールでも同じこと。
　いっそ2件法で訊いちゃえ説について。もちろん、回答の比較は難しい(たとえばguilty-not guiltyだって国によって定義が全然ちがう)。それに精度が失われる。
　回答をキャリブレーションしましょう説について。3つの路線がある：(1)項目をランキングさせる。精度が失われる。(2)各項目を10~21件法で直接評定。こんだけ多くしときゃ間隔尺度になるだろうという発想である。(3)マグニチュード測定する。訊くのも答えるのも難しい。というわけで(2)が一般的。[どうもよくわからない。(2)は結局、国ごとに回答データをなんらか標準化して分布を揃えるという話なの？それとも生の回答をそのまま比較するの？それに、10~21件法尺度なら間隔尺度扱いできるけどそれ以下だとだめ、っていうのはほんとなの？大昔のJacobyの実験を信じれば、7件法だろうが21件法だろうが個人レベルでの使用段階数は大差ないんじゃない？]

　。。。だめだ、今日は何を読んでも頭に入らない日みたいだ。あきらめよう。

論文：調査方法論 - 読了：Smith (2003) 多国間調査で国間比較可能な調査設問を作る方法

Harkness, J.A., Edwards, B., Hansen, S.E., Miller, D.R., Villar, A. (2010) Designing questionnaires for multipopulation research. in Harkess, J.A., et al. (eds.) "Survey Methods in Multinational, Multiregional, and Multicultural Contexts." Wiley.
　マルチ・カントリー調査のような多母集団調査の調査票設計についての概説。仕事の足しになるかと思って読んだ。眠かった。

1. イントロダクション
　多母集団について使用するよう注意深く設計したinstrumentのことをcomparative instrumentsと呼ぶ[以下、もう面倒なのでinstrumentを調査票と訳す]。多くの多母集団比較研究で使われている調査票はcomparativeな調査票ではなく、どこかの国の調査票を単に訳したものだけど。
　[...以下、ちゃんと比較可能な調査票を作っておかないとあとで困るよね的な話が続く。省略]
　[先行研究概観。省略]

2. 比較研究者にとっての難題
　結果を多母集団間で比較したいリサーチャーが直面する諸問題を6つに整理しよう。
　その1、基本的な設問デザインの原理。一般に、設問は(1)行動・事実、(2)心的状態・態度、(3)知識・能力、(4)回顧、に分けられる。それぞれにおいて社会的望ましさとか回答スタイルといったさまざまな問題への対処が必要になる。比較研究では設問の比較可能性が大きな問題となる。好まれる形式は研究領域によって異なる... [本節、まとまりがなくてなにがいいたいのかさっぱり]
　その2、サプリメントをつけたりデザインの手続きを変えたりすべき時をどうやって知るか。スケールの段階数を国によって変えるべきか、とか。
　その3、ガイダンスをどうやって手に入れるか。文化的知識を持ちそれをうまく生かせる人が必要になる。
　その4、フレームワークとチームをどうやってつくるか。(次節)
　その5、品質保証と監視のフレームワークをどうやってつくるか。
　その6、比較可能性をどうやって確立するか。設問をできるかぎり標準化すべしという立場と、それよか各国へのアダプテーションが大事だという立場がある。

3. 調査票設計の専門家とチーム
　[この節、いま関心ないので省略。どのみち1pくらいのざっくりした内容である]

4. 調査票設計の基礎
　調査票設計の基礎的な考慮事項における比較可能性の問題について整理しよう。
　その1、概念を設問に落とし込む際の問題。比較可能性とアダプテーションについて考える際には、理論的概念、潜在的構成概念、顕在的指標、設問、の4つを分けて考えるべし[←おお、なるほど。これはいい話を聞いた]。
　その2、設問は回答可能か。たとえば、中国では対象者の子供についての設問はすぐに一人っ子政策と結びつけて捉えられてしまい、脅威的な設問になってしまう。
　その3、知覚された意味は意図した意味か。
　その4、モードの問題。国によって調査モードやミックス・モードの設計を変えなきゃいけないとか。

5. 調査票設計の鍵となる決定
　その1、共通性の捉え方。潜在構成概念は共通、指標も共通、設問も共通、と考えるか。それとも、潜在構成概念は共通だけど指標や設問は共通とは限らないと考えるか。[後述される、ASQとADQのことであろう]
　その2、設問のオリジン。既存の設問の再利用、改変、(レアだけど)新しい設問の作成、のいずれの戦略をとるか。
　その3、文化的インプットの程度とタイミング。QoL関連の文献では、sequential(文化について考えるのは翻訳する段になってから)、parallel(初期段階で地域専門家に入ってもらう)、simultaneous(最初から最後まで文化について考慮し続ける)、の3つのアプローチがあるといわれている。なお優劣ははっきりしない。
　
6. 主要な比較設計モデル
　比較可能な調査票の設計には、ASQ, ADQ, 併用、の３つのアプローチがあるといわれている。
　その1、ask-the-same-question (ASQ)。共通の設問を目指す。もっとも常識的なアプローチだが、設問の具体性が下がりやすい。翻訳手続きの困難さも高い。ついついどこかの国の調査票をソースにし、それをただ翻訳してしまうことが多い(本来は「親」調査票を多文化的につくるべき)。
　その2、ASQとデセンタリングの併用。まず言語Aで調査票をつくる。これをBに翻訳。これをもとにB用の調査票をつくる。それをAに翻訳、もとの調査票と並べて、共通するように手直しする。文化的具体性が欠けてしまう、３地域以上あるとすごく大変、といった欠点がある。
　その3、ask-different-question (ADQ)。構成概念だけ共通にし、指標・設問は国別に作る。翻訳はいらないし、国ごとに適切な調査票をつくれるし、いいことづくめだが、結果を比較したいリサーチャーはさすがにびびる。
　その4、ASQとASQの併用。これはeticとemicと呼ばれることが多い(用語の正確な意味は人や分野によって違うけど)。[ごちゃごちゃ書いているけど省略]

7. 設計におけるいくつかの特別な側面
　その1、回答オプションをどうするか。選択肢の数とか、強制選択にするかとか、オープンエンドとクローズドエンドのどっちがいいかとか、レーティングとランキングとか、ラベル全部つけるべきかとか... 概観はSmith (2003, in "Cross-Cultural Survey Method")を見よ。[いくつか事例が挙げられている。つまらんので省略]。研究が足りない分野である。
　その2、技術的な具現化。レイアウトとか、調査員の手引きとか。[いま関心ないのでパス]
　その3、事実に関する設問や、ソシオ・デモグラフィックな設問。タバコについての調査で使うブランド・リストを国別に用意するとか。
　その4、ビニエット。すなわち、仮説的な状況や個人のこと。自己評価反応のアンカリングやプリテストに使われている。ビニエットをASQでつくるかADQでつくるかという問題が生じる。仮説的人物の名前のつけ方にも気を配らないといけない。
　
8. 設計の適切性のプリテスト
[3pにわたりあれこれ書いてあったけど略。要するに、みんなちゃんとプリテストしようよ、という話]

9. 設計のこれから
[略]
　
　。。。概説すぎてあんまり面白くないし、内容にダブりがあってちょっと読みにくい章だったのだが(すいません)、4節冒頭の、concept - construct - indicator - question という区別は勉強になった。たしかに、調査の国間比較の議論ではこの4レベルが頻繁にごっちゃになる。項目のindicatorとしての適切さについて疑問を呈したら、questionの翻訳品質に難癖をつけていると勘違いされてリサーチャーに逆切れされたり。indicatorに部分測定変動を許容した多母集団CFAモデルを組んだら、国によって異なるconstructをモデル化していると捉えられてしまったり(5節冒頭の話題だ)。議論が始まる前に、4段階の図を壁に貼っておくといいかもしれない。

論文：調査方法論 - 読了：Harkness, Edwards, Hansen, Miller, Villar (2010) 多母集団調査の調査票設計

Leibovici, L. (2001) Effect of remote, retroactive intercessory prayer on outcomes in patients with bloodstream infection: Randomised controlled trial. BMJ, 323, 1450-1451.
　過去の事柄について祈ることの、過去に対する効果を示した論文。どこかで話題にされているのをみかけて、飯のついでに読んだ。論文といってもたった2頁です。

　時間は線形に流れると我々は感じ、この感覚に我々は縛られている。しかし神がそれに縛られているかどうかは定かでない。我々はこのような仮定に依存しないランダム化統制試験を行いました。
　ある大学病院の1990-1996年の血流感染の患者3393名を対象とする。実験は2000年に行った[←ここ、笑うところ]。患者を無作為に統制群と介入群に分け、ある祈祷者に介入群のファーストネームのリストを渡し、グループ全体の健康と回復を祈ってもらった。模擬介入は設定しなかった[←ポカンとしたんだけど、プラセボ群を作らなかったということの定番の言い回しなのかな。あとでじわじわと可笑しさが。この実験におけるプラセボってなんだ]
　結果。死亡率は介入群で低かったが有意差なし。入院期間と発熱期間が、介入群で有意に短かった。Wilcoxonの順位和検定で、それぞれp=0.01, p=0.04。なお、いろんなリスク要因について比較したけど、群間で差なし。
　考察。本研究はそもそもデザイン上、絶対に二重盲検であることが保障されている[←ここもちょっと笑った]。残念ながら患者のインフォームド・コンセントは得られなかったけれど。遡った祈りはコスト的にみて効率の良い介入であり、おそらくは副作用もないだろうから、臨床的適用を検討すべきだろう。今後の研究によるメカニズムの解明が望まれる。云々。

　...いま検索したら、この論文の内容を紹介し著者はバカじゃないかとお怒りの方がいらしたが、掲載されたのはBMJのクリスマス号。年末恒例のお楽しみとして、こういう半分ジョークの論文が多数掲載される号である。私が記憶しているのは、老人の歩行速度と死亡率の関係を分析し、死神に追いつかれないために必要な速度を割り出す、という奴。
　この論文は結構な反響を呼んだらしく、2003年のクリスマス号に素粒子物理学の観点からの考察(!)が、2004年のクリスマス号に牧師と物理学者による「おまいらたいがいにせえよ」的批判が載ったらしい。どちらも読んでませんけど。
　というわけで、読む人によってさまざまな感興を持つであろう論文である。どうやら、他人が遡って祈ること(retroactive intercessory prayer)について超心理学的な観点から大真面目に取り組んでいる人たちもいるらしく、そういう文脈で真剣に引用されちゃうこともあるらしい。私はp値を実質科学的推論に繋げることの難しさの一事例として捉えたんですけど、どうなんでしょうね。

　そういや、イギリスの分析哲学者の有名な論文で、部族の若者たちが狩りに出かけている間、酋長が無事の帰りを祈って踊り続ける、スケジュール上若者たちがもし死んでいるならばとっくに死んでいる段階になっても、帰ってくるまでは踊り続ける、それはなぜか... という話があったと思う。すでに確定している過去の出来事について祈ってしまうという気持ちは、ごく素直なものだろう。人の心の不思議のひとつだ。

論文：データ解析(2015-) - 読了: Leibovici (2001) 過去についての祈りが過去に及ぼす効果

2016年6月25日 (土)

　二値の従属変数に対して線形回帰をかけて何が悪い、という論文。
　実のところこういう論文を探していたのであった。だって、説明変数が生起確率そのものと線形な関係を持つという実質的知見がある状況だって、ありうるじゃないですか。そんなときにロジスティック回帰やプロビット回帰を掛けるのっておかしいじゃないですか。本来、モデルは世界についての我々の信念に整合させるべきじゃあぁりませんか。人はッ！自らの信じる道を進むべきだッ！ ...まあ美しい建前ですけど。
　というわけで読み始めてみたら、思っていたのとはちょっと違う内容で... 途中で頭のなかがハテナマークでいっぱいになり、途中から適当に読み飛ばしてしまった。

Hellevik, O. (2009) Linear versus logistic regression when the dependent variable is a dichotomy. Quality & Quantity, 43, 59-74.
　二値の従属変数に対して線形回帰すると、予測値が0-1の外側に出てしまう。確かに。でもそれの何が悪い。そんなことが起きるのは独立変数群の値が極端なときだけだ。そんなときは予測値を理論的な最小値・最大値に丸めてしまえばよい。回帰の目的が予測でなくて因果的な分解なのであれば、予測値が0-1の外側に出ても別に困らない。むしろ、直接効果と間接効果と疑似効果の和が二変量連関に一致しているぶん、線形回帰のほうがよいくらいである。
　二値の従属変数に対して線形回帰すると、分散等質性(homoscedasticity)の想定が破られる。それは回帰係数自体に影響しないがその不確実性の推定に影響する。確かに。じゃあ実験してみよう。同じデータに対してロジスティック回帰と線形回帰を行い、係数のp値を並べてみる。ごらん、結果はほぼ同じだ。
　[ここからリスク差とリスク比とオッズ比がいろんな場面でどうちがってくるという説明が延々つづく。結局ロジスティック回帰をいろいろとディスっているみたいなのだが、話のポイントがいまいちつかめない]
　というわけで、予測ではなくて因果的分析のために回帰分析を使うのならば、ロジスティック回帰じゃなくて線形回帰のほうがおすすめだ。

　。。。きちんと読んでないのにこんなことを書くのは良くないんだけど、正直、容易に納得しがたい話だ。
　拝察するに、議論のポイントは次の通りであろう。二値の従属変数に対する線形回帰は、(1)予測値が0-1の外に出るけど別に困らない、(2)誤差分散に異質性が生じるけど実害はない、(3)むしろわかりやすくていいじゃん。
　(3)に関していえば、解析の良し悪しとコミュニケーションの良し悪しってのは本来別のものだ(Walterさんの受け売り)。それに、著者も触れているようにロジスティック回帰と線形回帰では交互作用の捉え方がちがってくるけど、どっちがよいかは一概にいえないわけで(VanderWeeleさんの受け売り)、ロジスティック回帰が因果分析に適さないのだといわれても、きっとそうなんだろう、先生の分野では... という感想しか持てない。
　結局、クリティカルな論点は(2)じゃないかと思う。でも、もっと広範なシミュレーションをすれば、誤差分散の異質性が係数の標準誤差の推定を大きく歪める場合も出現するほうに、100ペリカくらいなら賭けてもいい...
　うーん、この論文、プロの意見を聞いてみたいものだ。どうなんすか、これ。

論文：データ解析(2015-) - 読了：Hellevik (2009) 二値の従属変数に対してロジスティック回帰とかじゃなくて線形回帰をやって、いったい何が悪いんだよ

2016年6月23日 (木)

　週末に学会の大会を聴講しに行った空き時間で読んだ奴。自分が発表しない学会というのは気楽なものである。

King, G., Tomz, M., Wittenberg, J. (2000) Making the most of statistical analysis: Improving interpretation and presentation. Amerian Journal of Political Science, 44(2), 341-355.
　社会科学者よ、統計学的な分析結果を人に伝えるときはこういう風にしなさい、という啓蒙論文。Google様によれば被引用回数3241。すげえ。
　あ、第一著者のKingって、名著と名高い「社会科学のリサーチ・デザイン」の著者だ... ちゃんと読んでませんけど。

　冒頭に挙げられている良い伝え方の例：「ほかの点がすべて同一であれば、教育年数が１年増えると、年収は平均して1500ドル(±約500ドル)増えるでしょう」。悪い伝え方の例：「教育の係数は有意水準0.05で統計的に有意でした」。
　ポイントは次の３つ。(1)標準的な統計モデルから、関心の対象となる新しい量を抽出すること。(2)その量の不確実性を評価すること。(3)統計的訓練を受けていなくてもわかる結果に変換すること。
　以上を実現するための有力な武器がシミュレーションである。

　統計モデルの非常に一般的なクラス、すなわち
　$Y_i \sim f(\theta_i, \alpha)$
　$\theta_i = g(X_i, \beta)$
を考える。一本目は統計モデルの確率的コンポーネントで、従属変数$Y_i$が確率密度$f(\theta_i, \alpha)$からのランダムドローとして生成されている。確率密度関数の特性はオブザベーションによって変動するかもしれないし($\theta_i$)、一定かもしれない($\alpha$)。二本目はモデルのシステマティックなコンポーネントで、$\theta_i$がどう変動するかを示している。$g(\cdot, \cdot)$はリンク関数と呼ばれることが多い。
　このクラスのメンバーであるなんらかのモデルを考える。たとえば線形正規回帰モデルなら
　$Y_i \sim N(\mu_i, \sigma^2)$
　$\mu_i = X_i \beta$
ロジットモデルなら
　$Y_i \sim Bernoulli(\pi_i)$
　$\pi_i = \frac{1}{1+\exp(-X_i \beta)}$
ですわね。まあとにかく、なんらかのモデルをつくり、結果が得られた、としましょう。

　ここからが本題である。モデルから得られた結果をどうやって解釈するか。
　多くの研究者は$\hat\alpha$, $\hat\beta$の符号と「統計的有意性」しかみない。でもそれらはふつう、研究の動機となっている実質的問題と間接的にしか関連してない。実質的な関心が直接に持たれるような量を提示すべきだ。
　また、つぎの2つの不確実性を無視してはならない。(1)推定の不確実性。$\beta$と$\alpha$は完全にはわからない。(2)根本的な不確実性。仮に$\beta$と$\alpha$が完全にわかったとしても$Y$には不確実性が残る。

　そこでだ。諸君、シミュレーションしたまえ。
　シミュレーションとは、サーベイ・サンプリングの理屈を使って複雑な数学的計算を近似することだ。たとえば確率分布$P(y)$の平均を計算するために、$E(Y) = \int^{\infty}_{-\infty} y P(y) dy$を求めるんじゃなくて、$P(y)$から$M$個の値をドローしてきて平均するわけである。$M$を増やせば正確になる。

　まずはパラメータのシミュレーション。手順は次の通り。

(1)$\alpha$, $\beta$の点推定値とその分散共分散行列を求める。通常のソフトで出力できる(たぶん最尤法で)。以下、$\hat\beta$と$\hat\alpha$を縦積みしたベクトルを$\hat\gamma$、その共分散行列を$\hat{V}(\hat\gamma)$とする。
(2)多変量正規分布$N(\hat\gamma, \hat{V}(\hat\gamma))$からベクトルを一本ドローする。これを$\tilde\gamma$とする。

(2)を$M$回繰り返す。たとえば1000回とか。

　次に、予測値のシミュレーション。手順は次の通り。

(1)どんな予測値が得たいのかを決め、説明変数の値を決める。このベクトルを$X_c$としよう。
(2)ある$\tilde\gamma$をつかって、$\tilde\theta_c = g(X_c, \tilde\beta)$を算出する。
(3)前項の$\tilde\gamma$を使い、$f(\tilde\theta_c, \tilde\alpha)$から値をひとつドローする。これを$\tilde{Y}_c$とする。

(2)と(3)を$M$回繰り返す。

　必要ならば、従属変数の期待値についてもシミュレーションするがよい。なお、正確に言うと「従属変数の期待値」と「従属変数の予測値の平均」とはちがうのだが、非線形性がシビアでないかぎり両者はだいたい近くなる。
　従属変数の期待値のシミュレーションと、予測値のシミュレーションとはちがうぞ。後者には二種類の不確実性がはいっているが、前者には推定の不確実性しか入っていない。たとえば選挙結果の予測とか為替レートの予測という場面では後者が大事だが、特定の説明変数の平均的な効果に関心がある場合には前者が大事かも。
　手順は次の通り。

(1)説明変数の値$X_c$を決める。
(2)ある$\tilde\gamma$をつかって、$\tilde\theta_c = g(X_c, \tilde\beta)$を算出する。
(3)前項の$\tilde\gamma$を使い、$f(\tilde\theta_c, \tilde\alpha)$から値をm回ドローして平均する。これが$\tilde{E}(Y_c)$。$m$を大きくすることで根本的な不確実性を取り除くことができる。

(2)と(3)を$M$回繰り返す。このとき、$M$と$m$は十分に大きくすること。なお、線形正規モデルやロジットモデルでは$E(Y_c)=\theta_c$なので$\tilde\theta_c$をそのまま使えばよろしい。

　第一階差のシミュレーション。第一階差とは、2つの期待値の差のこと。上の手順の(1)で、$X_c$を2つ用意する($X_s, X_e$としよう)。で、(5)で$\tilde{E}(Y_s)$ と$\tilde{E}(Y_e)$の差を求める。これを繰り返して平均する。
　ところで、たとえば順序プロビットモデルで$P(Y=3)$を求めるというような場合には、期待値を推定するアルゴリズムをちょっと修正しなければならない[←??? なんでだろう...]。そんなときは僕らが作ったCLARIFYというソフトを使うといいよ。

　本論文で紹介したのとはちょっと別なアプローチとして以下がある。

完全にベイジアンな手法。本論文のように中心極限定理に頼って正規分布に基づく漸近解をもとめるんじゃなくてMCMCでやる。でも収束の判定が難しい。CRARIFYに載っているよ。
ブートストラッピング。使いやすくて強力。でもある種の量($Y$の最大値とか)については推定値が歪む。CRARIFYに載っているよ。
シミュレーションじゃなくて、デルタ法。これは確率変数の非線形関数を近似するあるツールを使う方法で... 非線形関数$g(X_c, \beta)$をテイラー展開して...[読んでもよくわからんのでパス]。計算が難しいし、結局は近似なので、あんまし使われていない。

まとめると、シミュレーションは便利だ。分析的な解がないときにも正確な結果が得られる。教育上も良い。ある研究者は「それでも分析的手法を教えるべきだ」という理由を挙げることができた人に5000ドルをあげると宣言しているが、この賞金を受け取った人はまだいない[ははは。Simonという人だそうだ]。ま、一番いいのは両方教えることだけどね。

　シミュレーションの際のコツ。

シミュレーションにはパラメータ推定量のSEだけじゃなくて、完全な分散行列$\hat{V}(\hat{\gamma})$が必要である。ちゃんと出力するよう、ソフトを設定しなければならない。
MVNからドローするときいくつかのパラメータを除外しちゃうひとがいるけど($\beta$と$\alpha$のどちらかだけとか)、これはよくある間違い。時間はかかるかもしれないけど、必ず全部ドローすること。
モデルによっては、$\gamma$の要素が直交していて、ソフトが別々の分散行列を出してくることがある。ちゃんと並べてブロック対角行列をつくること。めんどくさいようでも、とにかく$\hat{V}(\hat{\gamma})$を構成しちゃったほうが間違いがない。
有限標本で多変量正規近似が維持されるようにするためには、$\gamma$の要素を再パラメータ化しなければならない。正規分布の場合のように、すべてのパラメータに制約がかかってなくて論理的にシンメトリックであれば話は別だが、そうでない限りパラメータは再パラメータ化する必要がある。たとえば、$\sigma^2$のような分散パラメータはゼロより大きくないといけないので、$\sigma^2=\exp(\eta)$というような表現をつかって再パラメータ化するとよい。で、$\gamma$の要素の一つが$\eta$だと考える。こうすると$\gamma$はMVNに従うから$\eta$は$-\infty$と$+\infty$の間の値をとる。で、あとで$\hat\sigma^2 = \exp(\hat\eta)$を求め直すわけである。相関$\rho$だったら、FisherのZ変換$\rho=(\exp(2\eta)-1)/(\exp(2\eta)+1)$を使う。確率$\pi$だったら、ロジスティック変換$\pi = [1+\exp(-\eta)]^{-1}$を使う。
実をいうと、いつもいつも$Y$をシミュレートしないといけないわけではない。たとえばロジットモデルだったら、$\tilde{E}(Y)$を求めるためには$\tilde\pi$を求めれば十分なわけで、わざわざ二値の$Y$をドローする必要はない。でも、よくわかんないなと思ったら、とにかく$Y$をシミュレートすること。

　後半は事例。線形回帰、ロジットモデル、時系列クロスセクショナルモデル、多項ロジットモデル、打ち切りのあるワイブル回帰モデルについて例を挙げている。最初のふたつだけ読んだ。メモは省略するけど、正直、前半の説明よか事例のほうがはるかにわかりやすいよ... 最初っから事例を使って説明してくれればいいのに...

　結局、仕事の役には立たなかったんだけど、勉強になりました。特に、「2種類の不確実性」という言い方が勉強になった。以前、若い友人たちと新宿のカフェで応答曲面モデルの勉強会をやったとき、回帰モデルから得られる、ある条件下での期待値の信頼区間と、その条件下での予測の信頼区間とは全然ちがう問題なのよという話になり、私の説明が下手なせいであんまし納得してもらえなかったんだけど、そうだよな、こういうことなんだよな。
　いっぽう、素朴な疑問でこっぱずかしいが、こうやってパラメータについて無理やりMVNを仮定するんじゃなくて、全部ブートストラップ法でいいんじゃない？というモヤモヤ感がある。
　また、この論文はあるモデルから得られる結果をどうやってわかりやすく伝えるかという話けど、モデルの不確実性(変数選択やリンク関数選択の不確実性)をも考慮して、一連のモデルからなる集合から得られる結果について伝えるときに、こういうシミュレーションによる方法をうまく使えないもんかなあ、という疑問もある。

論文：データ解析(2015-) - 読了：King, Tomz, & Wittenberg (2000) 統計モデルから得られる知見について人々にわかりやすく伝えるためのシミュレーションの手引き

Aguilera, A.M., Escabias, M., Valderrama, M.J. (2006) Using principal components for estimating logistic regression with high-dimensional multicollinear data. Computational Statistics & Data Analysis, 50, 1905-1924.
　主成分回帰(説明変数をいったん主成分に縮約してから回帰する)をロジスティック回帰でやりました、という論文。仕事の都合で目を通したんだけど、途中で眠くなってしまい、ろくろく読んでない。
　回帰の説明変数とする主成分は、ふつうは上位から順に拾うけど、条件付き尤度比で検定しながら前向き選択する手もある、とのこと。そこまでこだわるならPLS回帰にすればいいじゃんと思ったが、シミュレーションしてみると少ない要素数で成績が良い、PLS回帰と比べても優れている、とかなんとか。

論文：データ解析(2015-) - 読了：Aguilera, et al. (2006) ロジスティック主成分回帰

2016年6月14日 (火)

　広告の世界ではよくリーチ(到達率)とフリケンシー(平均接触回数)という言葉が使われているけれど、よく考えてみたら物事そんなに単純なものなの？平均回数なんてどうでもよくない？ ... と、データを分析している途中で急に不思議に思い始めて、試しに論文を適当に選んで読んでみた。
　広告の話には疎いし、雰囲気が華やかすぎて近づきたくないんだけど、仕事とあらばそうも言ってられない。その辺の本で勉強したほうが早いのかもしれないけど、正直なところ、美しく整理された教科書を読んでいるより、書き手の主張が前に出ている論文を読んでいるほうがなんぼか楽しい。

Cannon, H.M., Leckenby, J.D., Abernethy, A. (2002) Beyond effective frequency: Evaluating media schedules using frequency value plannning. Journal of Advertising Research, 42(6), 33-46.
　googleによれば被引用回数48件という風情ある論文。ネットでPDFファイルを見つけたんだけど、スキャンが悪くて読みにくく、仕方なく2011年のワーキング・ペーパーを読んだ。たぶん中身は同じだと思う。

1. イントロダクション
　平均的なオーディエンス・メンバーをある広告メッセージに対して有効的に接触(effectively expose)させるために必要なビークル接触数の平均を有効フリケンシーと呼ぶ。また、特定のターゲット集団のうち上記のレベルで接触した人の人数(ないし割合)を有効リーチと呼ぶ。
　[えーと、仮に部屋のテレビからCMが3回流れてきたとき、そのときに限りブランド名の記銘が生じるとして、有効フリケンシーは3、有効リーチは「3回以上見た人」の人数だ]

　有効リーチと有効フリケンシーに基づいたメディア・プランニングを有効フリケンシー・プランニング(EFP)と呼ぼう。
　EFPは広告業界に広く普及している。しかし、考え方が単純すぎるだろうという批判もある。有効フリケンシーという考え方が正しいならば、広告の効果はビークル接触に対してある閾値を持つわけで、広告反応曲線はS字型になるはずだけど、実際には反応曲線はconcaveになることが知られているではないか。
　これに対し、本論文はフリケンシー・バリュー・プランニング(FVP)を提唱いたします。

2. パラドクスのルーツ
　EFPのような誤った考え方がなぜ普及してしまったのか。理由は3つある。
　その１、リーチと平均フリケンシーという伝統的な概念に対する不満。
　歴史をさかのぼろう。昔々、プランナーは広告プランニングのためにメディアにウェイトをつけていた。60年代初頭、定量的メディア分析の諸概念がはいってきて、リーチとフリケンシーの推定が重要な関心事となった。コンピュータの登場により、平均フリケンシーじゃなくてフリケンシーの分布が注目されるようになった。80年代初頭の広告研究はフリケンシー分布で溢れている。
　代理店のなかには洗練されたプランニング・システムを構築したところもある[Foote, Cone and Belding Communicationsという名前が挙げられている。現在はFCBという社名、Interpublic傘下である由]。しかし多くの代理店は、比較的に低レベルなスタッフにも使いこなせるようなシンプルなルールを求めた。「３回以上のリーチが必要だ」というような。それでもまあ、単純なリーチと平均フリケンシーに頼っているよりは、ずいぶんましである。
　というわけで、有効フリケンシーはメディアプランニングに欠かせない概念となった。おかしいのはわかっているけど、いまさら止められない。
　その２、表面的妥当性。
　コミュニケーションにはなんらかの閾値があるだろうという考え方は、理論家にも受け入れられやすいし、素人の直感にも合う。Krugman(1972, J.Ad.Res.)はこういっている。1回目の接触での消費者の反応は"What is it?", 2回目は"What of it?"、だから3回の接触が必要なのだ、と。なんでビークルに物理的に3回接触する必要があるのか、よく考えてみると全然説明になっていないけど。ともあれ、マジック・ナンバー「３回」は広告業界のスタンダードになってしまった。
　その３、かつての研究結果。Ackoff&Emshoff(1975)によるバドワイザーの研究とか[←恥ずかしながら存じませんでしたが、そういう古典的研究があるのだそうだ]、Naples(1979, 書籍)とか。

3. フリケンシー・バリュー・プランニング
　かつて我々はEFPに代わる枠組みとして最適フリケンシー・プランニング(OFP)というのを提案している(Cannon & Riordan, 1994 J.Ad.Res.)。個々の接触回数に値を割り当てておき、スケジュール案ごとに値の合計を求め、それが最大となるスケジュールを選ぼうという話である。このたびご提案するFVPはその改善版である。

　えーと、まず(a)マーケティング・コミュニケーション戦略を決めます。(b)メディア・オブジェクティブとゴールを決めます。DAGMARに従い、ブランド認知だとか実購買だとか、なんらかの消費者反応に注目するわけです。(c)予算制約の決定。外部的に与えられることも多いけど、ほんとは(b)と相互作用するし、ほんとは以下のFVP分析の結果に応じて見直さないといけない。
　ここからがFVP分析。(d)スケジュール案をつくる。(e)接触頻度分布を推定。(f)広告反応曲線の推定。(g)フリケンシー・バリューの算出。

　(e)所与のスケジュール案の下での広告接触頻度分布の推定について。
　定量的メディア・プランニングにおけるもっとも顕著な発展の一つは、頻度分布を推定するための数理モデルの構築であった。それらのモデルは、ある人があるメディア・ビークルに接触する確率(opportunities to see, OTS)の推定値に基づいている。しかし、それらのモデルが広告接触には適用できないと考える理由はない。単に、メディア・ビークルをメディウムではなく実際の広告として狭く定義するだけでよい。従って、(雑誌への接触確率ではなく)雑誌の特定のページへの接触確率が頻度分布モデルの入力となる。得られる結果は、ターゲット集団のうち何パーセントが、その実際の広告に1回接触するか、2回接触するか、...を示す分布である。
　先行研究によれば、分布の推定のためのもっとも実用的なツールはおそらくsequential aggregation法である。この方法は理論的基礎、正確さ、計算速度のあいだでうまくバランスをとっている(Rice & Leckenby, 1986 J.Ad.Res.)。[...]
　sequential aggregationモデルにもいろいろあるが、そのなかでも単純かつパワフルなアプローチにMSAD (Morgenzstern Sequential Aggregation Distribution) がある。この方法はMorgenzsternのリーチ方程式に基づいている。雑誌・テレビのスケジュールに関してはとても正確なモデルであることがわかっている。[...ここでMSADの説明があるが、いまいちわからんので省略。接触頻度分布は母比率が変動する二項分布だからベータ二項分布で表現すりゃいいじゃんと思ったのだが、調べてみたところ、ベータ二項分布ではちょっと問題があって、いろいろ修正案があって、その一つがMSADなのだそうだ。ふーん]
　既に述べたように、任意の頻度分布モデルはOTSデータだけでなく広告接触についても適用できる。従って、広告接触の頻度分布の構築は、ビークル接触の頻度分布の構築と異なる固有な問題を持っているわけではない。問題は、モデルの入力として必要な広告接触確率をどうやって推定するかである。この一般的問題に関しては膨大な文献があるが、必要な推定値を得るための実用的なガイダンスはきわめて少ない。[...]
　[...ビークル接触確率に頼ってちゃだめだという説教が一段落あって...]
　必要な推定値を得る基礎的な方法が2つある。
　ひとつはノーミングである。[...] 広告接触とビークル接触の比についての実証研究に基づき、ビークル接触データを修正するファクターを構築する。たとえば、もしあるテレビ番組が視聴率10.0を持っており、過去の研究から類似の番組における広告への視聴者の接触率が50%であると示唆されているならば、広告接触の予測を5.0とする。

TV視聴者の観察研究によれば、視聴者の視線が画面に向けられている時間は、平均して番組の62.3%、CMの32.8%である(Krugman, Cameron & White, 1995 J.Ad.)。[...]
Abernethy(1990 CurrentIssues&Res.Ad.)のレビューによれば、TV視聴者におけるCM接触率は68%。[...]
Bearden, Headen, Klompmaker & Teel (1981 JMR): 日中のテレビに対する注意レベルについての研究をレビュー。広告接触率は番組視聴率の20%～50%。プライム・タイムの場合、注意レベルは、ステーション・ブレークでは番組視聴率の76%、番組内CMでは86%。
Roper Starch[かつて存在した調査会社。NOPワールドに買収され、さらにNOPはGfKに買収された]は、さまざまな雑誌について、読者が広告に「気づく」割合、広告をスポンサーと「結びつける」割合、「大部分を読む」割合、を提供している。[...]

　ふたつめはモデリングである。

Cannon (1982 J.Ad.Res): 雑誌接触率を、雑誌の編集環境に反映されている価値と広告それ自体に反映されている価値との類似性に基づいて推定する回帰モデルを構築[←面白そう]。これと類似したアプローチを使って、広告のサイズ、位置、カラー/白黒、などの効果を推定できるかもしれない。
Philport (1993 J.Ad.Res): 雑誌接触を推定するための諸因子について論じている。
Donthu, Cherian & Bhargava (1993 J.Ad.Res) 屋外広告における接触率を推定するための諸因子について論じている。
Gensch (1970JMR, 1973書籍) さまざまなメディアにおける接触の効率を決定する諸因子について論じている。

　(f)広告反応曲線の推定について。
　$i$回の広告接触への反応$R_i$についてモデル化する。concaveだと想定すれば
　$R_i = R_\infty (1-\exp(-a-bi))$
　S字型だと想定すれば
　$R_i = R_\infty / (1-\exp(a+bi))$
　具体例を示そう。まず上下限を決める。Foote, Cone & Belding社によれば、メッセージ認知の典型的な上限は85-95%、下限は5-35%だそうだ。なので、まずは最大値を90%、最小値を20%と定める。
　メッセージ認知に必要なフリケンシーには多様な要因が影響する。たとえば新製品だと必要なフリケンシーは高くなるだそうし、コピーがユニークであれば低くなるだろう。そこで、13個の要因を洗い出し、それらが今回のキャンペーンにあてはまるかどうか、0～1の評定値を与える。で、必要なフリケンシーが高くなる要因には+1、低くなる要因には-1を掛ける。いっぽう、13個の要因に重要性を割り振る(和が100になるように)。で、評定値に重要性を掛けて合計を求める。結果は-0.33となった。ちょっと楽観的にみてよいだろう。さっき最大値を90%と決めたけど、最大値には±5%の幅があったから、90%+0.33x5%=91.65%、最小値には±15%の幅があったから、20%+0.33x15%=24.95%ってことにしよう。
　concaveモデルを採用しよう。$b=-\log(1-R_1/R_\infty)$だ。$R_1=0.2495, R_\infty=0.9165$と仮定すれば$b$が決まる。ほら、広告反応曲線が推定できた。[←はああ?! いやコレ、ものすごい理屈だなあ...]

　(g)フリケンシー・バリューの算出について。
　(e)で求めた広告接触回数の分布と、(f)で求めた接触回数ごとに広告反応率の積和をとる。これが所与のスケジュール案の下での市場反応の推定値(Total Frequency Value, TFV)となる。
　これをGRPで割ったのがFrequency Value Per GRP(VPG)。メディア効率を示す。ここでGRPというのは通常のビークル接触のGRPじゃなくて、接触回数と広告接触回数分布の積和、つまり広告接触のGRPである。
　[ここからコストを加味した指標の話になるけど、面倒なのでパス]

4. まとめと結論
[今後の課題がいろいろ書いてあったけど、省略]

　。。。この分野についてまるきり不勉強なんだけど、(e)広告出稿スケジュールを入力とした広告接触頻度分布の推定については、長い歴史と豊富な研究があることがよーくわかった。
　同時に、(f)広告接触頻度を入力とした広告反応のモデルについては、少なくともこの論文の段階では、ろくなモデルがないということもわかった。さすがにスリー・ヒット・セオリーよりはましだけど、この係数推定はアンマリではないでしょうか。研究者のみなさん、もうちょっと頑張ってくださいな。[←超えらそう]
　いまはシングル・ソースのパネル・データがあるから、ビークル接触履歴と広告反応の関係が個人ベースでわかるわけで、広告接触履歴を潜在変数にして(f)と(g)を同時推定できると思う。そういう研究を探しているんだけど、どこかにないだろうか。きっとあるんだろうな、探し方が悪いだけで。

論文：マーケティング - 読了：Cannon, Leckenby, Abernethy (2002) 有効フリークエンシーを超えて：フリークエンシー価値によるメディア・プランニング

2016年6月10日 (金)

　仕事の都合で必要になって書いたメモなんだけど、ブログに載せておこう。

　二値変数を従属変数とする回帰モデルについて考える。よく使われているのはロジスティック回帰モデル
　$\log(\frac{\pi(x)}{1-\pi(x)}) = \beta_0 + \beta_1 x$
だけど($\pi(x)$は生起確率ね)、リンク関数はほかにもある。諸君、視野を広く持ちたまえ。

プロビットモデル。こいつの歴史は結構古い。係数が閉形式で表現できないのが欠点。標準正規分布関数を$\Phi$と書いて、
　$\Phi^{-1}[\pi(x)] = \beta_0 + \beta_1 x$
cloglogモデル。左裾が長めになる。
　$\log[-\log(1-\pi(x))] = \beta_0 + \beta_1 x$
loglogモデル。右裾が長めになる。
　$-\log[-\log(\pi(x))] = \beta_0 + \beta_1 x$
ログリンク関数を使っちゃう。疫学者に好まれる(係数がそのまま相対リスクになるから)。欠点としては、確率が1を超える、ML推定が収束しないことがある。お勧めはしないけど、もし使うんならポワソン回帰のプログラムを使うこと(Zou, 2004 Am.J.Epi. をみよ)。
　$\log(\pi(x)) = \beta_0 + \beta_1 x$
線形モデルを使っちゃう。係数はリスク差になる。確率が0-1の範囲を超えるので、あんまし使われていない。お勧めはしないけど、もし使うんなら推定の際にちょっと工夫すること[重みを付けて反復推定せよとのこと。へぇー]。
　$\pi(x) = \beta_0 + \beta_1 x$

　どういうときにどのモデルを使うといいのか？
　まず、分析の主な目的が確率の推定で、共変量の効果の推定はその次だ、という場合。こういうときは、ロジスティック回帰のかわりにプロビットやcloglogやloglogを使うのも悪くない。
　分析の目的は共変量の効果の推定なんだけど、ロジスティック回帰だとオッズ比で表現されちゃうのがいやだ、という場合には、logリンクか線形モデル。

　以上にあげた6つのモデルを比べる際には、とりあえずロジスティック回帰の確率推定値でケースを10群にわけ、適合を比べるのがよろしかろう。
　左右対称なロジットやプロビットを使うのがよいか、非対称なcloglogやloglogを使うのがよいかを調べる方法がある。Stukel検定という、共変量を追加すべきかどうかの検定手法の応用である。残念ながらこの手法が載っているソフトはないので、手でやること。
　まずロジスティック回帰をやって、ロジット推定値$\hat{g}(x)$と確率推定値$\hat{\pi}(x)$を得る。次に、次のふたつの人工的な共変量をつくる。
　$z_1 = 0.5 \times [\hat{g}(x)^2] \times I[\hat{\pi}(x) \geq 0.5]$
　$z_2 = -0.5 \times [\hat{g}(x)^2] \times I[\hat{\pi}(x) < 0.5]$
すべての確率推定値が0.5よりも右なり左なりだったら片方だけつくればよろしい。
　で、これを追加してもう一度ロジスティック回帰モデルを推定し、係数の信頼区間を求める。もし両方の信頼区間に0.165がはいったらプロビットがよろしい。もし$z_1$の信頼区間に-0.037, $z_2$の信頼区間に0.620がはいったらloglog、逆になったらcloglogがよろしい。[←へええええええ！]

　以上、Hosmer, Lemeshow, Sturdivant (2013) "Applied Logistic Regression", Third Edition, Section 10.3 より。

　このメモは、amazonから届いた箱をあけて本をパラパラ捲っているときにこの章に引き込まれ、なるほどー！cloglogやloglogという選択肢も頭に置いておこう！と感心して書いたんだけど、読み返してみて思うに、自分にとっては、cloglogやloglogを使う場面ってやはりそんなにはなさそうだ。もし係数の解釈に関心がなく単に予測したいだけで、かつロジスティック回帰の予測精度が悪かったら、きっと機械学習系の手法を試すと思う。

　いっぽう、ロジスティック回帰はもうイヤ！説明変数の効果はリスク差で示したいの！ああもう加法モデルにしちゃいたい！誰かボクをここから連れ出して！海辺の町に連れてって！と切実に思うことなら、それは頻繁にある。そういう哀れな分析者のためのガイドラインが欲しいんだけどなあ。加法モデルを使う際の注意点でもいいし、誤魔化しながらロジスティック回帰を使い続けるコツでもいいから。

雑記：データ解析 - ロジスティック回帰に飽きたときのための個人的な覚え書き

2016年6月 8日 (水)

仕事の都合で大慌てで読んだ奴。

Royston, P., Ambler, G., Sauerbrei, W. (1999) The use of fractional polynomials to model continuous risk variables in epidemiology. International Journal of Epidemiology, 28, 964-974.
　非線形的関係があるときの回帰で用いる変数変換法のひとつ、fractional polynomial についての解説。Hosmer-Lemeshowのロジスティック回帰の教科書に書いてあるらしいのだが、注文した本が届くのが待てなかったので。

　まずは一番簡単な事例の紹介。
　アウトカムはひとつ(10年間の死亡)。連続変数か順序変数のリスク因子$x$がひとつ(一日当たり喫煙本数)。$x$とアウトカムの間の関係は単調である。
　最初に思いつくのは線形モデル
　$b_0 + b_1 x$
である。さて、非線形性が疑われるので、1次のfractional polynomialを当てはめることにする。
　$b_0 + b_1 x^p$
$p$の候補として、-2, -1, -0.5, 0, 0.5, 1, 2, 3を想定する($x^0$は$\log(x)$だということにする)。もっと考えてもいいんだけど、モデルはあんまり改善しないことが多い。特に、大きな負のべき(-3とか)はいれないほうがよい。
　すべての候補を当てはめてモデルを比較する。比較の際には、$p=1$との間のデビアンスの差をカイ二乗検定して、有意に良いやつを探す。なお、事例ではあらかじめ $x$に最小増分である1を足している($\log(0)$を避けるため)。
　結果、$p=0$すなわち
　$b_0 + b_1 \log(x)$
が採用された。なお、(ここでは紹介しないけど) Hosmer-LemeshowのC統計量とかで適合度を調べておくように。また残差のプロットもみるように。
　結果の示しかた。ここでは疫学でふつう求められる用量反応の推定値を示す方法を考えよう。タバコの本数を階級にわけ、各階級の中央を参照点として、その参照点におけるORと信頼区間を表にするとわかりやすい[信頼区間の求め方を説明しているが、省略]。ついでにその階級のリスク集団と死亡者数を示すのも忘れないように。[←ああ、なるほどね... 説明変数のカットポイントを決めていくつかの水準にわけて分析した場合の表と外見を似せておくということね]

　以下、2次fractional polynomialとか、リスク因子だけじゃなくて共変量を入れる場合とか(ここ、予備知識不足でちょっと理解できなかった)、他の手法との比較とか、注意点とかが懇切丁寧に説明されていた。時間がないのでメモは省略。

論文：データ解析(2015-) - 読了：Royston, Ambler, Sauerbrei (1999) fractional polynomialsによる非線形回帰への招待

2016年6月 7日 (火)

調査手法論とか経験デザインとか考えているのがなんだか嫌になっちゃって、飯のついでの息抜きに、会社のソファーでうとうとしながら読んだやつ。仕事しろよ...

Flora, D.B., Curran, P.J. (2004) An empirical evaluation of alternative methods of estimation for confirmatory factor analysis with ordinal data. Psychological Methods, 9(4), 466-491.
　順序尺度のCFAの推定方法をシミュレーションで比べました、という話。別にどうでもいいっちゃどうでもいいような話なんだけど(すいません)、リッカート尺度のCFAは仕事で頻繁に使うので、前からちょっと気になっていた話題ではあるので。
　いまみたら、鬼のように引用されている論文であった。google様的には被引用件数1342。まじか。

　以下、Muthenにならって[←ほんとにそう書いてある]、カテゴリ数$C$の順序変数$y$の背後に、潜在反応を表す連続変数$y^*$と閾値$\tau_0, \tau_1, \ldots, \tau_C$を考える。$\tau_0 = -\infty$, $\tau_C = +\infty$ね。

　まずはポリコリック相関についておさらい。$y_1$の閾値を$a_i$, $y_2$の閾値を$b_j$とする。セル$(i,j)$の観察度数を$n_{ij}$、観察割合を$P_{ij}$、確率を$\pi_{ij}$とする。
　ポリコリック相関の算出には、ふつうOlsson(1979)の2段階手続きが用いられる。以下、$y^*_1$と$y^*_2$が2変量正規分布に従うと仮定する。
　第1段階では単変量でみて閾値を推定する。すなわち、周辺の観察累積割合を$P_{i.}, P_{.j}$として、
　$a_i = \Phi^{-1}_1 (P_{i.})$
　$b_i = \Phi^{-1}_1 (P_{.j})$
$\Phi^{-1}_1$ってのは標準正規累積分布の逆関数。
　第2段階では、2変量の相関$\rho$をML推定する。対数尤度は
　$l = \log K + \sum\sum n_{ij} \log \pi_{ij}$
$pi_{ij}$から$\rho$を逆算できる [式は省略]。

　さて、ポリコリック相関行列をそのまま使ってML推定するSEMはよろしくない。それでもたいてい一致推定量は得られるのだが[←あ、そうなの？]、検定統計量とSEが歪む。
　一般的なのはWLS推定量を使う方法。上で求めたポリコリック相関のベクトルを$s$、モデルから出てくるベクトルを$\sigma(\theta)$として、
　$F_{WLS} = [s - \sigma(\theta)]' W^{-1} [s - \sigma(\theta)]$
ここで重み$W$は正定値行列で、ポリコリック相関の分散共分散から求める(頭が混乱してくるね...)。まあとにかくこいつから漸近的に有効なパラメータ推定量が得られることがわかっている。観察変数の分布を特定していないので、漸近的分布自由(ADF)推定量とも呼ばれる。
　エレガントなんだけど、問題点が二つ。(1)もともとの2変量正規性が破られていたらどうなるかがわかっていない。(2)変数の数が多いと$W$が正定値行列でなくなる。Joreskogさんは、変数の数を$k$として、データサイズが最低$(k+1)(k+2)/2$ないと困ると云っている由。
　
　そこで登場したのが、MuthenのロバストWLS推定量[MplusでいうところのWLSMVね]。
　その理屈は... [なんか疲れてきちゃったので省略。要するに、$W$の逆行列を求めないですむようにちょっとズルするのである]

　。。。さて、$y^*$のペアの間の2変量正規性が破られていたらどうなるか、シミュレーションで調べましょう、というのがこの論文の主旨である。
　なんか疲れてきちゃったので、委細すっとばして要点のみメモ。

　以下を操作する。

連続潜在反応分布、5水準。ひとつはMVNで、残り四つは尖度と歪度を動かして作る。[読み飛ばしたんだと思うけど、どうやって作ったんだろう？独自因子の分布は正規のままで、因子得点の尖度と歪度をいじっているってことかしらん]
カテゴリ数、2水準。2と5。閾値は動かさない。[よくわからんが、たぶん全項目で同じ閾値にしているんだろうな]
真のモデル、4水準。1因子5指標、1因子10指標、2因子各5指標で因子間相関あり、2因子10指標で因子間相関あり。負荷はぜーんぶ0.7、独自性はぜーんぶ0.51、因子間相関は0.3。
サンプルサイズ。4水準。100, 200, 500, 1000。

　結果がいろいろ書いてあったんだけど... すいません、根気が尽きたので、パラパラ捲って済ませてしまいました。まあ結論としてはこういうことである由。

潜在反応変数が多少非正規でも、CFAモデルの推定はわりかしロバスト。
でもWLS推定ではカイ二乗値が高め、パラメータのSEが低めになる。ロバストWLSならそれほどでもない。
非正規性がすごくきついと、クロス表にちっちゃなセルができちゃうのでやばい。

　というわけで、ユーザ諸君に告ぐ。潜在変数の正規性という仮定についてはCFAは比較的にロバスト。推定量はロバストWLSがおすすめ。でもまあ、モデルの指定が正しければの話だけどな。はっはっは、グッドラック！[←とは書いてないけど]

　いやー、途中からもう眠くて眠くて... ある段落を読んでいると、途中から内容が小説に代わってしまったりするのである(もちろん夢をみているのだ)。困るなあ。
　疑問点が2つ。(1)推定はMplusでやっているけど、いまでもMplusはこの論文で説明されている手順でポリコリック相関を求めているのかしらん。なんかこの... もっとカッコいい方法があったりしないのかしらね...。これはMuthen導師の論文をちゃんと読めばわかりそうな話だ。(2)WLS, ロバストWLSをベイズ推定と比べるとどうなのかしらん。これもMuthen一家がやってそうだな。

論文：データ解析(2015-) - 読了：Flora & Curran (2004) カテゴリカルCFAで潜在反応変数に二変量正規性がなかったときにどうなるか、WLS推定とWLSMV推定を比べてみた

2016年6月 5日 (日)

大隅昇(2002) インターネット調査の適用可能性と限界. 行動計量学, 29(1), 20-44.
大隅昇(2006) インターネット調査の抱える課題と今後の展開. ESTRELA, 143, 2-11.

仕事の都合で再読。

論文：調査方法論 - 読了：大隅(2002, 2006) ネット調査の課題