読書日記: 2014年11月アーカイブ

« 2014年10月 | メイン | 2014年12月 »

2014年11月27日 (木)

北條雅一(2001) 学力の決定要因: 経済学の視点から. 日本労働研究雑誌, 53(9), 16-27.
　先日読んだAntonakis, et al.(2010) が強烈に2SLS推しだったので、実際に2SLSを使っている研究を見てみたいものだと思い、とりあえず見つけたもの。中等教育における学力の規定因についての実証研究である。
　そうそう。10年ほど前、ちょっとした趣味で調べたことがあるのだけれど、学級サイズが学力に及ぼす効果って、意外にもはっきりしてないのである。社会的決定にエビデンスは大事だけど、エビデンスがいつも手に入るわけじゃない、という例のひとつでろう。

　教育の生産関数分析(学力を規定する諸要因についての実証分析)は1966年アメリカのColeman報告がはしり。レビューにHanushek(1997, Edu.Eval.Policy Anal.)というのがある。研究が多いのは学級サイズの効果だが、結果はまちまち。操作変数法を使った因果分析はAngrist&Levy(1999,Q.J.Econ)が最初だそうで、海外でも案外歴史が浅いようだ。国内では2000年代後半以降。
　この論文の著者はTIMSS(国際数学理科教育動向調査)を使った生産関数推定なんかをやっているそうで、この論文もTIMSS1999,2007の日本データを使っている。中二、公立校のみ。TIMSSの標本設計は学校-学級の層化二段抽出、学級の数は学校あたり1～2、抽出した学級の子どもは全員調べる。

　以下のモデルを推定する。学校$s$の学級$c$の生徒$i$の数学ないし理科の標準化得点$A$について、
$A_{isc} = X_{isc} \beta + \alpha Z_{sc} + \varepsilon_{isc}$
説明変数ベクトル$X$は以下を含む。個人レベルでは、性別、生まれ月、家庭の蔵書数、所有物、父母の最終学歴。学級レベルでは、教師性別、修士号有無、教職年数。学校レベルでは、生徒数、都市規模、「経済的に恵まれない生徒の比率」(←具体的にはなんのことだろう？)、習熟度別授業実施有無。で、$Z$はその教科の学級規模。
　本命は$\alpha$の推定なんだけど、あいにく学級規模$Z$には内生性がある。そこで操作変数法の登場である。法律では学級あたり生徒数は40人を標準にすることになっているので、学年生徒数を$E$、整数に丸める関数をintとして、学級規模サイズの予測値は
$Z^p_{sc} = \frac{E}{int[(E-1)/40] +1}$
これを実際の学級規模$Z_{sc}$の操作変数として2SLS推定。

　1999データと2007データそれぞれについて、数学と理科の成績を説明。家庭変数の係数がより強くなっている由。残念ながら、やっぱし、そうなんですね。
　学級規模の効果は有意でなかった。しかし著者は引き下がらず、個人変数と習熟度別授業実施有無の交互作用を片っ端から投入して再推定。あんまりきれいな結果じゃないけど、習熟度別授業をやると家庭環境の効きが弱くなる由。

　感想:

操作変数がひとつだから、これだと丁度識別モデルだと思うんだけど...それでいいのか...
習熟度別授業有無も内生性があるのでは？注によれば、実施有無を説明するプロビット回帰でどの説明変数も有意でなかったそうだが、それは内生性がないことに証拠になるだろうか...
データの構造からいって階層モデルにするのが筋だと思うんだけど...「誤差項の学校内の相関に頑健な標準誤差」を推定したとあるが、これは具体的には何を指しているのか。不勉強でわからないぜ。

ま、専門家のなさったことだから、これで大丈夫なのだろう。

論文：データ解析(-2014) - 読了：北條(2001) 子どもの学力のモデルを2SLSで推定

　巷には殺伐とした話が溢れているが、マーケティング分野における「殺伐とした用語」ナンバーワン、それは「顧客生涯価値」だと思う。こないだスタバでおっさんが若者に「マーケティングは愛だ」と熱く語っていて閉口したが、ああいう人に一度訊いてみたいものだ、顧客にとってのサービスや製品の価値ではなく、「企業にとっての顧客の価値」を問う人の、どこにどのような愛があるというのか、と...

Jain, D. & Singh, S.S. (2002) Consumer lifetime value research: A review and future directions. Journal of Interactive Marketing, 16 (2), 34-46.
　サツバツ上等！東京砂漠オッケー！というわけで読んでみたもの。仕事の足しになるかと思って。

　著者曰く...
　顧客生涯価値(CLV)の研究には主な方向が３つある。(1)個々の顧客ないし顧客セグメントのCLVを算出するモデル。(2)顧客ベース分析。将来の取引を予測する。(3)経営上の意思決定支援。企業利益に対するロイヤルティプログラムの効果とか。

　まずはCLV算出モデルについて。以下の4種類に分けられる。

基本構造モデル。時期$i$においてある顧客から得られる収入を$R_i$, それにかかる総費用を$C_i$、顧客の寿命を$n$として、
　$CLV = \sum_i^n \frac{R_i - C_i}{(1-d)^{i-0.5}}$
　これは会計でいう正味現在価値に基づく考え方で、現顧客のことしか考えず、過去のことは考えず(従って顧客獲得費用のことは考えず)、購買が確率的に生じることも考えない。詳しくはBerger & Nasr(1998, J.Interactive Mktg.)を見よ。
顧客移動モデル。Dwyer(1997, 書籍)という人のモデルで、顧客をalways-a-shareとlost-for-goodの二群に分ける。前者は複数ベンダーと取引する顧客、後者はあるベンダーに長期的なコミットメントを持つ顧客。後者については基本構造モデルのようなのを用いる。いっぽう前者については、購買リーセンシで購買行動を予測するモデルを立てる。つまり、時期とリーセンシのマトリクスを書き、ある時期が終わったら、購入者は次の時期のリーセンシ1のセルに動かし、非購入者は次の時期、次のリーセンシのセルに動かすわけだ。それぞれのセルについて購入見込みが推定できる。[こういう分析、やったことがあるけど、意外に歴史は浅いんだなあ...]
最適資源配分モデル。Blatberg&Deighton(1996,HBR)による。これは顧客獲得のコストまで考慮にいれている。えーと、見込み客ひとりにかける支出$A$と、その結果としての獲得率$a$の間に次の関係を考える:
　$a = (天井)[1-exp(-k_1 A)]$
$k_1$は指数関数の形状のパラメータ。顧客維持に関しても同様に、
　$r = (天井)[1-exp(-k_2 R)]$
個々の顧客から得られる年あたり販売利益を$m$として、ある見込み客から得られる初年度の利益は$am - A$、ある現顧客から得られる各年度の利益は$r (m-(R/r))$。[←なんで$rm-R$って書かないのかしらん、このいけず]
　これを顧客寿命を通して足し上げ、現在価値へと割り引いて、顧客価値を算出する。これを最大化する$A$と$R$の配分を求めればよろしい。
顧客関係モデル。マルコフ連鎖モデルを用いる[ああ、そりゃ当然思いつくわね...]。Pfeifer&Carraway(2000, HBR), Rust, Zeithaml, & Lemon(2000, 書籍)をみよ。

　顧客ベース分析のモデル。以下の2つに分けられる。

パレート/NBDモデル。Schmittlein, Morrison, & Colombo(1987, Mgmt Sci)。ある顧客がアクティブである確率を、トライアル購買からの時間と前回購買からの時間の関数としてモデル化する[数式は省略。なかで超幾何関数をつかっている。どうも誤字があるような気がするぞ]。これをCLV算出のインプットとして用いることができる。なお、暗黙に定常性を想定しているせいで、取引履歴が2年以上だとうまくいかない。
パレート/NBCモデルの拡張版。Reinartz & Kumar (2000, J.Mktg)による。購入される製品のタイプ、数量、タイミングが売り手からみてさっぱりわからない状況へと拡張したモデル[何言ってんだかよくわからん...]。Reinartzさんたちはこのモデルを使って、CLVについての通念に反するいろんな知見を得ている。顧客寿命と収益性の関係は案外弱いとか、長期顧客からの収益は次第に増えるとはいえないとか、長期顧客には販促費がかからないとはいえないとか、長期顧客は高価格でも買ってくれるとはいえないとか[←面白いなあ]。すごく複雑なモデルなので、実務で使うのは難しい。

　意思決定支援のための規範的モデル。

顧客エクイティモデル。Blattberg&Thomas(2000, unpub)。えーっと、潜在顧客セグメントごとに、初回購入者からの利益から顧客獲得費用を引いて彼らから得られるであろう将来の売上による利益を割引率で割った奴を足し、合計するモデル[数式省略。それほど複雑そうではない]。
CLVに基づく動的プライシングモデル。Blattberg&Thomas(1997, unpub)。[めんどくさくなってきたのでパス]

　これからの研究の方向。

CLVのモデルについて：(1)簡単なモデルは顧客セグメントを考慮していないし、複雑なモデルは超複雑だ。簡単かつ柔軟なモデルが必要だ。(2)妥当性の研究が不足している。(3)ライクフェルド先生がいっているような「長期顧客こそが利益の源泉」といった通念は、Reinartzらの研究で片っ端から否定されてるわけで、もっと調べないといけない。(4)デモグラとか製品使用実態とかも使いましょう。(5)顧客側の視点が足りない。購入動機とか、スイッチングコストとか。(6)顧客獲得コストを考えてないモデルが多い。(7)購買を確率的に捉えていないモデルが多い。(8)購買履歴からCLVを予測する精度の向上が必要。ベイジアンアプローチが有望ではないか。
意思決定支援モデルについて: (1)とにかく研究が少ない。(2)マーケティング投資のROIまで測れるモデルが作れるだろう。(3)顧客の収益性の規定要因とか、顧客の収益性の分布の規定要因とか、顧客の収益性の測定方法とか、そういうのを計画立案モデルに組み込んでいくことが必要だ。(4)顧客獲得と顧客維持への資源配分についての研究が必要。
ロイヤルティ・プログラムについて: (1)長期顧客にほんとに価値があるのか、どうもよくわかんなくなってきてるわけで、ロイヤルティ・プログラムを別のマーケティング活動と比較する研究が必要だ。(2)ロイヤルティ・プログラムといってもいろいろあるわけで(結局値引きしている奴とか、そうでない奴とか)、違いを調べる必要がある。(3)満足とか信頼とかがロイヤルティに及ぼす効果を調べる必要がある[←そういう研究って顧客満足の分野で山ほどあるんじゃなかろうか。CLVの研究と結びついてないってことかなあ]。

Reinartz & Kumar (2000)って、なにやってんだかさっぱりわからんが、面白そうだなあ。いつか読んでみよう。(と思うだけで、実際には読まないけど)

論文：マーケティング - 読了：Jain & Singh (2002) 顧客生涯価値研究レビュー

Zenobia, B., Weber, C., Daim, T. (2009) Artificial markets: A review and assessment of a new venue for innovation research. Technovation, 29, 338-350.
　技術イノベーションの研究における、エージェント・ベースの市場シミュレーションについてのレビュー。全然知らない分野なので、メモを取りつつ真面目に読んだ。

1. イントロダクション
　人工市場(AM)はエージェント・ベースの社会シミュレーション(ABSS)のひとつで、消費者や企業を表すエージェントを相互作用させる。主な特徴として以下が挙げられる。なお、本論文では主に消費者エージェントに焦点をあてる。

エージェントは消費者、企業、その他の組織を表す。それらはローカルな行動規則(これをagent speficicationという)に従って相互作用する。
以下の点において多様である。(1)抽象的か、現実に近いか。(2)相互作用のメカニズム。(3)エージェントの異質性。(4)偶然性の役割。(5)時間的・空間的スコープ。(6)エージェントの認知的複雑性。
典型的パラメータ: 地理的特性(人口密度, 家庭か職場か店頭か, etc.)、デモグラフィクス(年齢, 性別, 収入, etc.)、エージェント(社会的つながり、模倣性、受容の初期状態, etc.)
強み: 市場の複数の変数を同時に表現できる(消費者心理とか社会的ネットワークとか製品特徴とか競合環境とか流通チャネルとかマーケティング戦略とか)、複雑な市場行動について、統制された"what if"な実験を行うことができる
機会: 普及予測, イノベーションのダイナミクスを調べる, 教育とインサイト[←?], 政策フォーサイト、massively parrallel market analysis、新製品・サービスのプロファイリング、ボラタリティの高い新市場におけるビジネスモデルの評価
弱み: specification, カリブレーション、分析、publication, 再現において未解決の問題がある
脅威: 初期条件への敏感性, 可塑性

2. AM研究の近年の発展
　Epstein & Axtell(1996, 書籍)のSugarscapeモデルが嚆矢。たいていの研究は過去5年以内。3年前から急増した。経済学、マーケティング、地理学での研究が多い。初期のAMとしては:

Consumatモデル(Jagar, 2000, unpub)。独占市場におけるロックイン行動とか、エコ製品の初期障壁とかのシミュレーション。
ESPモデル(Kottonau et al., 2000, Conf)。カーシェアリングの普及のシミュレーション。
CUBESモデル(Ben Said et al., 2002, Conf)。携帯電話の競争のシミュレーション。
Project FAIR(Deffuant et al., 2005、Am.J.Soc.)。いろんなイノベーションの普及のシミュレーション。

3. SWOT分析
　強み。もともと技術の受容・普及の予測においては、変数とリンケージを数学的な式なりシミュレーションコードなりで内生的に特徴づける説明モデルが用いられてきた。このクラスに属するモデルが、AMやシステムダイナミクスモデルである。AMとシステムダイナミクスモデルは、個体の行動が単純なときは似た結果に至るが、複雑になると異なる結果に至る。さて話をAMの強みに戻すと... [BASSモデルの話がひとしきりあって...] AMは消費者心理のような複数の変数を同時に表現できる。
　機会。技術イノベーション研究における有望な応用としては以下が挙げられる。

市場予測。
市場ダイナミクスの研究。独占とか、キャズムとか、ニッチ市場の出現とか。
massively parrallel market analysis. [よくわからんので全訳] 「AMはマッシブな市場データセットから有益な情報を検索しフィルタリングし統合するのに有益であろう。こうした応用においては、変数とパラメータを表すエージェントが、データセットのレコードからなるランドスケープをさまよう。エージェントは関心が持たれている行動をとったとき餌を与えられ、十分な栄養を得られないときに死ぬ。エージェントは相互作用して、高次交互作用項を表す子世代を育てる。こうして、AMを使って未来の市場行動を予測する変数と交互作用項のpopulationを自然に選ぶことができる。この結果をつかってSEMのモデルを組むこともできる。このアプローチは、これまでは見つかっていなかった変数間関係を同定するのに便利だろう。ただし、データへのモデルの過適合、ならびにきちんとした理論的基盤にもおづく測定モデルの構築に注意を払う必要がある」
これはまだ思弁的な話だけど、イノベーション・マイニング。サーチ・アルゴリズム、シナリオ分析、伝統的な市場受容性調査と組み合わせて、未充足ニーズを満たすイノベーションをマイニングできるのではないか。
ビジネス戦略のゲーミング。組織を表すエージェントにいろんなビジネスモデルをプログラムして、市場淘汰をシミュレーションする。

弱み。5つの分野に分けて述べる。

specification. 単純さと現実性のバランスをとるのが難しい。3つのアプローチがある。(1)アドホック・アプローチ。消費者行動とかのモデルに基づき、抽象度の高いルールをつくる。で、マクロなレベルでみた市場行動を現実と比べる。個々のエージェントの行動には注目しない。(2)「理論が最初」アプローチ。行動を説明する特定のフレームワーク(たとえばEngle-Blackwell-Miniardモデル)に基づき、エージェントのルールをつくる。[...製品受容についての具体的な話がひとしきりあって...] よくできたフレームワークはそうそうない、というのが欠点。(3)「理論はあとまわし」アプローチ。ケーススタディとかグラウんデッド・セオリーとかエスノグラフィーとか、とにかくなんらかの定性的な手法でもって消費者の経験を深く理解し、エージェントをつくる。例としてAndrews, et al. (2005, 論文集)がある。方法論はないわ、時間はかかるわで、いまんとこマイノリティ。
calibration. たとえばエージェントが態度を持っていたとして、その分布をどうやって現実に近づけるか、という話。大抵よいデータがない。質問紙とかコンジョイント分析のような伝統的マーケティング手法が有益。
analysis. AMシミュレーションは超複雑。どうやってバリデーションするのか、研究が全然足りない。
publication. どうやって要約・説明すればいいのかがわからない。[なんか細かい話なのでパス]
replication. 再現の試みは少ないし、やったとしてもうまくいかないことが多い。[←ははは]

脅威。

初期条件への敏感性。[でもいつも敏感ってわけじゃないと思うのよね、というような思弁的な話がダラダラ書いてある。パス]
plasticity. すなわち、人間の意思決定は文脈に敏感だ。[完全には解決できない問題だけどいろいろと頑張ろうよ、というようなとりとめのないことが書いてある。パス]

4. 結論と推奨事項

単純さと厳密さのバランスをとろう。
重要なのにちゃんと検討されないまま用いられている概念を再検討しよう。「イノベーション」「テクノロジー」「決定」「受容」「市場」「環境」など。
顧客の声を消費者エージェント・モデルに組み込もう。
エージェントの決定ルールは質問紙の項目に落とし込めるようにしよう。キャリブレーションやバリデーションが楽になるから。
消費者エージェントの閉じたアーキテクチャではなく、その先に目をむけよう。消費者エージェントのspecificationを要素に分解し、それぞれについてバリデーションとか再利用とかができるようにしよう。
安定的なくぼみ[basin]を探せ。つまり、環境の中のあまり変化しない側面をみつけろ。
AMを他の手法と組み合わせてtriangulationせよ。

はあ、そうですか... 研究例についてよく知らないので、いまいちピンとこない話が多かった。まあいいや、次に行こう。

論文：マーケティング - 読了：Zenobia, Weber, & Daim (2009) エージェント・ベース・シミュレーションによる技術イノベーション研究レビュー

2014年11月26日 (水)

川口俊明(2011) 教育学における混合研究法の可能性. 教育学研究, 78(4), 386-397.
　ちょっと関心を惹かれて目を通したもの。

　量的調査と質的調査を統合するアプローチは、昔はマルチメソッドなどといわれたが、最近は混合研究法(mixed research)という用語が定着している。2003年に最初のハンドブックが出ている(Tashakkori&TeddlieのSAGE Handbook。2010年に第二版が出ている)。日本の教育学では中村高康という方が有名(東大比教社)。その他、実践例として吉川徹「学歴社会のローカル・トラック」や本田由紀「家庭教育の隘路」なども挙げられている。そうか、いわれてみれば。。。
　なにを混合研究法と呼ぶのか、意見は一致していない。Morse & Neihaus (2009)という本では、中心的手法と補助的手法が組み合わされていればよくて、たとえば参与観察のあとでインタビューをやってもやっぱり混合研究なのだそうだ。
　そもそも定量と定性ではものの見方が違う、というのは誰でも思いつく見方だが(こういうことを方法論サイドから規範的に主張する人が多くてちょっとうんざりしている。あれは一種の既得権益擁護だと思いますよ)、実際Creswell & Clark (訳書出てるやつ)は、研究が依拠するパラダイムを{ポスト実証主義,構築主義,参加型,プラグマティズム}に整理し、混合研究法はプラグマティズムと親和的だと述べている。いっぽう、思想に関わらず定性と定量の区別そのものが馬鹿馬鹿しいという人もいる(Gorardという人、SAGE Handbook所収。読んでみたいなあ)。

　で、ここからが面白かったんだけど... 混合研究法の分野では自分の研究デザインを記号で表記するんだそうだ。たとえば「学歴社会のローカル・トラック」は、最初に高校生の質問紙をやって次にインタビューやっているので「QUAN→qual」と書く(メインが定量、次に補助的に定性をやっているから)。「家庭教育の隘路」はどっちが本命ともどっちが先とも云い難いので「QUAL+QUAN」。ははは。馬鹿馬鹿しいようにみえるけど、こういう明示化はきっと大事なんでしょうね。
　著者曰く、本田の研究は量的研究と質的研究が結論の段階まで統合されていない、すなわち混合研究法としてはそれほどよい調査デザインではない、とのこと。ご本人が混合研究法「を」やりたかったのかどうかは、また別の話だと思うけれど。
　後半は著者の研究の紹介。

論文：調査方法論 - 読了：川口 (2011) mixed research in 日本の教育学

2014年11月22日 (土)

Antonakis, J., Bendahan, S., Jacquart, P., Lalive, R. (2010) On making causal claims: A review and recommendations. The Leadership Quarterly. 21, 1086-1120.
　社会科学の実証研究における因果推論についての長大なレビュー。数年前に途中で挫折した奴である。プリントアウトの束をめくると、前半には熱心な書き込みが多いのに、中盤ではなにやら変な生き物とかの落書きが増え、突如として誰かの電話番号がメモしてあって、そこから先には書き込みがない。そうそう、大手町の商業施設のカフェで読んでいて(なぜか思い出せないが)、お取引様から携帯に電話がかかってきて、受け答えしていたら「お客様、店内でお電話はおやめください」と叱られたのだ。云いたいことはわかるが、あのときは困った。
　このたび最初からメモを取って読み直した。いやー、大変だった。これなら本一冊読んだ方がまだ楽だ。

イントロ
　本論文の目的：

推定量についての因果的解釈は、どんなデザインのとき、またどんな推定方法の下で可能なのかを示す。
因果的主張をフィールドで検証するための方法をレビューする。
リーダーシップ研究における因果的主張の方法論的厳密性について棚おろし[take stock]する。

1. 因果性とはなにか
　いまここで関心があるのは、因果性についての哲学的基礎づけとかじゃなくて、how to measure the effect of a cause である。
　Kenny["Correlation and Causality", 1979. Baron&KennyのKennyであろう]によれば、因果的効果の測定のためには、(a)xはyに時間的に先行し、(b)xはyと相関し、(c)xとyの関連性が他の原因で説明できない、ことが必要である。
　(a)については、yからxへのフィードバックがあるかもしれないこと、あくまで必要条件であって十分条件でないことに注意。(b)は統計的な信頼性の問題。(c)はどっちかというとデザインや分析上の問題で、xの内生性という問題が関連してくる。
　この論文で主に扱うのは(a)と(c)。

1.1 反事実的な議論
　実験によって操作 x が結果 y と相関したとしよう。処置群のひとがもし統制群だったら、その人の y は統制群の y になっていたはずか？[if the individuals who recieved the treatment had in fact not received it, what would we observe on y for those individuals? Or, if the individuals who did not receive the treatment had in fact received it, what would we have observed on y?] この反事実的な問いにイエスと答えられない場合(理論的な交換可能性がないとき)、因果効果の一致推定量を得るためにはセレクションのモデル化が必要になる。

2. ランダム化フィールド実験
　因果推論のゴールド・スタンダードはランダム化デザインだ。なぜか？
　二値の独立変数 x, 連続変数の共変量 z, 結果 y について、
　$y_i = \beta_0 + \beta_1 x_i + \beta_2 z_i + e_i$
というANCOVAモデルを考えよう。係数のOLS推定における重要な想定は、潜在変数 e が x と無相関であるということ、つまり x の外生性である。もし外生性がなかったら x と y のあいだの関連性を調べるのは完全に無意味である。外生性を保証してくれるのがランダム化だ。言い換えると、OLSはセレクションがランダム割り付けによってなされていると想定している。

3. なぜ推定値の一致性が失われるのか
　x に内生性が生じ、推定値が一致性を失う事情は多々ある。Shadish-Cook-Campbell本はこれを「内的妥当性」への脅威と呼んだ。
　主要な５つの脅威は: 変数の無視、セレクションの無視、同時性、測定誤差、共通手法分散。さらに、統計的推論への脅威(標準誤差の妥当性の問題)と、同時方程式におけるモデルの誤指定をあわせて、計7個。順に説明していこう。

3.1 変数の無視
1) 説明変数の無視
　リーダーシップ(y)をEQ(x)が予測するかという問題を調べたい。EQはIQ(z)と相関しているし、IQはリーダーシップを予測する。正しいモデルは
　$y_i = \beta_0 + \beta_1 x_i + \beta_2 z_i + e_i$
ところがうっかりこういうモデルを推定しちゃったとしよう。
　$y_i = \phi_0 + \phi_1 x_i + v_i$
いま
　$z_i = \gamma_1 x_1 + u_1$
としよう。代入して
　$y_i = \beta_0 + (\beta_1 + \beta_2 \gamma_1) x_i + (\beta_2 u_i + e_i)$
つまり、傾き$\phi_1$は zとx の相関($\gamma_1$) 次第でどうにでもなってしまう。
　というわけで、予測子は足りないよりも入れすぎるほうがましである。要らない予測子を入れると効率性は下がるけど(標準誤差が上がる)、一致性のためなら安いものだ。
　なお、残差にモデル化されていない線形性があるかどうかを調べるためのRESETテスト(regression-error-specification test)というのがあるから使うように。

2) 固定効果の無視
　階層パネルデータについて考えよう。50個の企業がある。各企業に10人のリーダーがいる。リーダーのパフォーマンスをy, IQをxとする。正しいモデルが次のモデルだとしよう:
　$y_{ij} = \beta_0 + \beta_1 x_{ij} + \sum_{k=2}^{50} \beta_k D_{kj} + e_{ij}$
ここで$D$は企業を表すダミー変数。企業によってIQはちがうだろうし、企業によってリーダーシップは違うだろうから、こうやって企業の固定効果をモデルにいれないと、$\beta_1$の推定値は一致性を失う。$x_{ij}$が$e_{ij}$に関して外生的であってもだめ。

3) 推定量についての仮定と合わないランダム効果を使う
　[ちょっと意味がわからない箇所があり、ほとんど全訳してしまった]

　モデル構築者が、レベル2(=企業レベル)の変数が y を予測するかどうかを決定したい場合、そのモデルはランダム効果推定量によって推定できる。ランダム効果推定量を用いれば、企業の間の切片のランダムな変動が許容される。マルチレベルモデリングの用語では、このモデルは「結果としての切片」と呼ばれている。
　ランダム効果推定量は、企業の間の切片の異質性を固定効果によって明示的に推定するのではなく、リーダーのレベルでの y の差異(切片)を、企業の母集団から抽出された企業の間のランダムな効果として捉える。ここでランダム効果は、予測子とも撹乱項とも無相関であると仮定され、また各企業において一定であり、互いに独立に分布すると仮定される。これらの仮定に合致していないとき、推定値は一致性を失い、変数を無視したときと同じようにバイアスが生じる。
　ランダム効果推定量を使う前に、ランダム効果が存在するかどうかをテストしなければならない。モデルをGLS推定した場合にはBreusch & Paganのラグランジュ乗数検定を、最尤推定したときはランダム効果の尤度比検定を用いる。後者は自由度1のカイ二乗検定で、有意な時にはランダム効果モデルが支持される。ここでは詳しくは触れないが、ランダム効果モデルの直接的な拡張として、群間での傾きの変動を許容するランダム係数モデルがある。ここで重要なのは、そういうモデルを使う前に、ランダム係数モデルとランダム効果モデルを比べる尤度比検定を行うことである。有意な時のみ、すなわち傾きが一定だという仮定が棄却されたときのみ、ランダム係数推定量を使うべきだ。
　さて、ランダム効果推定量の利点(であると同時にアキレス腱)は、以下の定式化により、レベル2の変数(たとえば企業サイズ)を予測子に含めることができるという点である。
　$y_{ij} = \beta_0 + \beta_1 x_{ij} + \sum_k^q \gamma_k z_{kj} + e_{ij} + u_j$
この式では、q個の予測子を含め、固定効果を取り除き、企業によって決まる誤差成分 u_j を含めている。
　ランダム効果推定量は固定効果推定量より効率的である。なぜなら前者は推定されたパラメータの分散を最小化するようにデザインされているからだ(おおざっぱにいえば、企業のダミー変数を入れたときより独立変数の数が減っている)。しかし、想像に難くないことだが、固定効果推定量のような一致性がないかもしれないという深刻な代償を伴っている。すなわち、u がレベル1の予測子と相関しているかもしれない。
　推定量が一致性を持つかどうかを調べるために、いわゆる"Hausman検定"を用いることができる。この検定は、ランダム効果モデルが維持できるかどうかを確かめるためには死活的に重要なのだが、計量経済学以外の分野ではあまり用いられていない。
　Hausman検定が行っているのは、基本的には、固定効果推定量によるレベル1の推定値を、ランダム効果推定量による推定値と比較することである。もし推定値が有意に異なっていたら、ランダム効果推定量には一致性がなく、固定効果推定量を用いなければならない。u_jが予測子と相関しているせいで一致性が失われているにちがいないからである。ランダム効果推定量による推定値を信じてはならない。我々のライト・モチーフは「効率性より一致性が強い」である。
　[...] なお、パラメータが複数あるときはSargen-Hansen検定というのもある。どちらもStataに入っている(我々のお勧めソフトである)。[...]
　固定効果の無視という問題を回避し、かつレベル2の変数を含める方法として、すべてのレベル1共変量のクラスタ平均を含めるという手がある。クラスタ平均を予測子に含めてもいいし、レベル1共変量からひいてしまってもいい。固定効果を含めたのと同じく、レベル1パラメータの一致推定が可能になる。つまり、Hausman検定が有意である場合、クラスタ平均が u_j と相関しないとすれば、レベル1パラメータの一致推定値を得る方法として次の2つの式が使えるわけだ。
　$y_{ij} = \beta_0 + \beta_1 x_{ij} + \beta_2 \bar{x}_j + \sum_k \gamma_k z_{kj} + e_{ij} + u_j$
　$y_{ij} = \delta_0 + \delta_1 (x_{ij} - \bar{x}_j) + \sum_k \phi_k z_{kj} + w_{ij} + g_j$
　2つの式で、クラスタ平均の係数の解釈は異なる。上の式では係数はbetween効果とwithin効果の差を示し、下の式では係数はbetween効果を示している[←ここの意味がよくわからない...]。しかしどちらにしても、$\beta_1$と$\delta_1$には一致性がある。
　レベル2の変数が内生的だったら、このクラスタ平均のトリックは役に立たない。しかし、レベル2の共変量の外生的分散を調べることで、一致推定値を手に入れる方法がいくつか存在する。

4) セレクションの無視
　$y_i = \beta_0 + \beta_1 x_i + \beta_2 z_i + e_i$
というモデルで、$x_i$ がランダム割り付けになっておらず、
　$x^*_i = \gamma_0 + \sum_k^q \gamma_k z_{kj} + u_i$
が正の時に$x = 1$になるという場合を考えよう。$u$ と $e$ の相関$\rho_{e,u}$が0でないとき、$x$と$e$が相関してしまう。
　大丈夫、解決策はある。セレクションを明示的にモデル化すればいいのだ。yが処置群でしか観察できなくても大丈夫。Heckmanはこれでノーベル経済学賞をもらったんだよ！ [←ほんとにこう書いてある、感嘆符つきで]
　よく似た問題としてセンサード標本がある。センサードとは、研究への参加においてセレクションがかかっていること。この場合もセレクションをモデル化すること。センサード回帰とか、トランケーテッド回帰とか、いろいろある。

3.2 同時性(Simultaneity)
上司が部下に対して罰を与えるかどうかを $x$, 部下のパフォーマンスを$y$とする。
　$y_i = \beta_0 + \beta_1 x_i + e_i$
とモデルを組んだ。しかし実は上司のスタイルは部下のパフォーマンスの関数で
　$x_i = \gamma_1 y_i + u_j$
だとしよう。$y$が$e$と相関してしまう。

3.3 測定誤差
正しいモデルが
　$y_i = \beta_0 + \beta_1 x^*_i + e_i$
なのだけど、$x^*$が観察できず、かわりに
　$x_i = x^*_i + u_i$
だけが観察できるとしよう。代入すると
　$y_i = \beta_0 + \beta_1 x_i + (e_i - \beta_1 u_i)$
というわけで、$\beta_1$には一致性がない。このように、測定誤差も変数の無視(ここでは$u$の無視)という問題として捉えられる。[←なるほど、そりゃそうだ]
　解決策はすごく簡単で、xの残差分散を (1-信頼性)x分散に固定してやればよい。信頼性の推定値が必要になるが、検査再検査信頼性とか、クロンバックのアルファとかを使う手もあるし、理論的に推測してもいい。推定はStataなりMplusなりを使えば簡単だ。

3.4 共通ソース分散、共通手法分散
ソース(たとえば評定者)やデータ収集手法が共通であるせいで、$y$と$x$の両方が$q$に依存していること。これはすごく深刻な話だ。Spector(2006, Org.Res.Method)は共通手法分散の問題を都市伝説と呼んでいるが、全く同意できない。[←うわー、面白い。そんな意見があるのか。これは読みたいなあ]
　共通手法分散のせいで係数はバイアスを受けるが、そのバイアスはプラスかもしれないし、意外なことにマイナスかもしれない。これはPodsakoffらのレビュー(2003, J.App.Psy.)でも指摘されていた点なのだが、その理由をきちんと説明しているものが見当たらない。以下で説明しよう。
　なお、xとyを別ソース・別時点で測定するという手もあって、それはまあ間違ってはいないけど、サンプルサイズが小さくなる。
　潜在共通因子をモデルにいれて説明するというやり方があって、Podsakoffらはこれを回避策のひとつとして示唆しているのだが[←そうなの？確認しなきゃ]、われわれはこの手法を使うべきでないと考える。以下の架空例を読め。

　いま、リーダーのスタイルを表す因子として「課題志向的リーダーシップの高さ」$\Xi_1$と「対人志向的リーダーシップの高さ」$\Xi_2$があるとしよう。で、実は「組織のリスクの程度」という測定されていない共通原因があって、これが$\Xi_1$に係数0.57で効き、$\Xi_2$に係数-0.57で効いている、としよう。リスクが高い場面では課題志向的リーダーシップが高まり対人志向的リーダーシップが低くなるわけだ。共通原因を制御したら因子間相関は0だということにしておく。
　各因子をそれぞれを4つの指標で測っている。真の負荷はすべて0.96だとしよう。さらに、指標がタウ等価であること(=負荷が全部同じであること)をモデラーが知っているとしよう。サンプルサイズ10000。仮に共通原因変数が観測されていたら、モデルの適合度は文句なしに高い。因子間相関は 0 と推定される。
　さて、共通原因変数の存在に気づいていないとしよう。このときもモデルの適合度は文句なしに高い。負荷はすべて0.96。しかし因子間相関は -0.32となる。このように、負のバイアスがかかることだってあるわけだ。
　今度は、共通原因変数の存在にうすうす気づき、潜在変数を投入したとしよう。8指標がこの潜在変数に直接の負荷を持ち、係数は各4指標内で等値だと制約する。結果: やはり適合度は完璧なまま。$\Xi_1$への負荷は0.38, $\Xi_2$への負荷は0.87に下がり、因子間相関は0.19になってしまう。[←ちょ、ちょっと待って... ここで共通原因からの真のパスは$\Xi_1$, $\Xi_2$に刺さってんでしょう？なのになぜx1-x8にパスを刺すの？これは「共通原因をあらわす潜在変数を投入してもバイアスが消えない」という話じゃなくて、「共通原因をあらわす潜在変数を投入してもモデルを誤指定してたらアウト」というあたりまえの話になってないですか？]

　整理しよう。評定者$i$がリーダー$j$(50名)について、そのなんらかのスタイル$x$とリーダーシップ$y$を評価している。あいにく両方の評定値に共通バイアス q が効いているとしよう。
　$y^*_{ij} = \beta_0 + \beta_1 x^*_{ij} + \sum_{k=2}^{50} \beta_k D_{jk} + e_{ij}$
　$y_{ij} = y^*_{ij} + \gamma_y q_{ij}$
　$x_{ij} = x^*_{ij} + \gamma_x q_{ij}$
代入して整理すると
　$y_{ij} = \beta_0 + \beta_1 x_{ij} + \sum_{k=2}^{50} \beta_k D_{jk} + (e_{ij} - \beta_1 \gamma_x q_{ij} + \gamma_y q_{ij})$
というわけで、$\beta_1$は一致性を失う。
　解決策は？ $q$を測定できれば話は簡単だが、まず無理だろう。我々はこう提案したい。我々の知る限りこれは世界初の提案だ。2SLSを使え！ ...あとで説明しよう。

3.5 推論の一致性
　ここまでの話とはちょっとちがって、標準誤差に一致性がない、という話。テクニカルな話題なので手短に述べよう。
　回帰残差はiidでない場合について考える(Stataなら簡単にチェックできる)。まず、残差に等分散性がないとき、係数は一致推定量だけど標準誤差が一致性を失う。この場合は、Huber-White標準誤差(サンドイッチ標準誤差、ロバスト標準誤差ともいう)をつかわねばならない。クラスタを持つデータの場合も、標準誤差の推定に特別な方法を使わなければならない。

(本文29頁のうち、ここまでで13頁。死ぬー)

4. 因果性を推論するための諸手法
大きく分けて、統計的調整と準実験がある。

4.1 統計的調整
わかってる共変量は全部入れろ。傾向スコアを使うのもいいぞ。

4.2 準実験
1)同時方程式モデル
　まずは二段階最小二乗法 (2SLS)について説明しよう。経済学者以外はほとんど使っていない。まことに由々しきことだ。
　話を簡単にするために、$x$が連続変数の場合について考えよう。ボス$i$が、部下のリーダー一名について、その行動$x$とリーダーシップ$y$を評定する。統制変数は$c$個ある(リーダーの年齢とか)。あいにく$x$と$y$には共通ソース分散$q$が存在する。
　$y_i = \beta_0 + \beta_1 x_i + \sum_{k=1}^{c} \gamma_k f_{ik} + (e_{ij} - \beta_1 \gamma_x q_{ij} + \gamma_y q_{ij})$
　さてここで、$x$を強く予測し、$x$を通じてのみ$y$と関連し、そして$(e_{ij} - \beta_1 \gamma_x q_{ij} + \gamma_y q_{ij})$と関連していない$z$がみつかったとしよう。こういうのを道具変数という。たとえば、リーダーのIQがそれだとする。さらにもうひとつ、評定者とリーダーの距離$d$があって、これもリーダーシップに効いているとしよう。[←あれれ？よくわかんなくなってきたけど... まあいいや、とにかく道具変数が２つ手に入っているという話であろう]
　これらを用いて$x$を予測する。これを第一段階の方程式という。ここでのポイントは、$c$個の統制変数を全部使うこと。
　$x_i = \gamma_0 + \gamma_1 z_i + gamma_2 d_i + \sum_{k=1}^{c} \gamma_k f_{ik} + u_i$
　この式で推定した $\hat{x}$を用いて、$y$を予測する。これが第二段階の方程式。
　$y_i = \lambda_0 + \lambda_1 \hat{x}_i + \sum_{k=1}^{c} \theta_k f_{ik} + e_i$
　こうして$\beta_1$の一致推定が手に入る。実際にはStataのようなソフトを使うように。
　この手法のポイントは、$u$と$e$の相関を推定しているという点である。相関の有無はHausman内生性検定(Durbin-Wu-Hausman内生性検定)で検討できる。内生変数がひとつだったら、これは$u$と$e$の相関を推定するモデルとしないモデルを比べる自由度1のカイ二乗検定であり、SEMのソフトでも可能である。
　心理学者がよくやる間違いは、$u$と$e$の相関を推定せずに同時方程式を推定しちゃうことだ。たとえばBaron&Kenny(1986)がそうだ [←おっとぉ... 喧嘩売り始めたね]。ああいうやりかたでメディエータをテストしている論文はたいてい間違っている。
　2SLS推定は、いきなりSEMのソフトで最尤推定したり、3段階最小二乗法のような完全情報推定量を使うよりも安全だ。

1-1)同時方程式モデルにおける適合度の検討
[ここ、理解できずほぼ全訳してしまった]

上の例ではモデルの真実性[veracity]と道具変数の適切性をテストすることができる。たとえば、Stataのivreg2モジュールをつかって、道具変数が「強力」かどうかを検討することができる。同時に、メディエータの数よりも多くの道具変数があるとき、方程式のシステムを過剰同定する[overidentifying. なんかネガティブな語感があるので困るけど、識別性があるってことね]制約がありうるかについてテストすることも重要である。これは、示唆されているモデルと実際のモデルとの間に乖離が存在するかどうかを決めるテストである。本質的には、これらのテストが検討しているのは道具変数が$y$方程式の残差と相関しているかどうかである。読者にはすでに明白であろうが、この望ましくない状況を引き起こすのはモデルの誤指定である。それは推定値がバイアスを受けていること、よって解釈不能であることを意味する。従って、推定値について解釈する前にモデルを適合させなければならない。
　上の例で方程式は過剰同定されていた(すなわち、内生的な予測子の数よりもひとつ多くの道具変数を得ていた)。従って自由度1のカイ二乗適合度検定が可能であった。もし道具変数がひとつだけだったら、モデルは丁度識別となってしまい、適合度検定はできないところだった(ただしHausman内生性検定はできる)。回帰モデルの文脈は、これらの適合度検定は、カイ二乗検定、Sargan検定, Hansen-Sargan検定、J検定と呼ばれている。これらはSEMソフトで普通使われているML推定の文脈における、カイ二乗適合度検定との直接的な類比物である。この検定でp値が有意になるということは、モデルが適合していないこと(つまりデータがモデルを棄却していること)を意味する。心理学・管理科学でこの検定は良く知られているが、しかししばしば無視されている。興味深いことに経済学者は適合度検定に注意を払う。もし有意だったら、モデルはよくないですね、で話が終わりになる(モデルの修正ないしよりよい道具変数の発見が必須になる)。経済学者はRMSEAやTLIのような近似的な適合度指標を使わない。これらの指標は、既知の分布による統計的検定ではなかったり、(RMSEAのように)カットオフ値が恣意的だったりする。
　ある種の社会科学の領域では、大きな標本ではわずかな乖離でも検出されてしまい検定のp値は常に有意になってしまうだろうという理由によって、カイ二乗適合度検定にパスしていないモデルを受け入れてしまうのがあたりまえになっている。しかし経済学以外の研究者の中にも、このやりかたに深刻な疑問を投げかける人々が現れている。もしモデルの指定が正しければ、たとえ標本サイズが非常に大きくてもカイ二乗検定は棄却されないはずだ。カイ二乗検定は、ランダムな変動を踏まえ、偶然に起因するある程度の乖離を「許容する」検定である。また、カイ二乗検定は他のさまざまな近似的適合度指標と比べ、誤指定されたモデルの検出力が最も高い検定である。研究者はカイ二乗適合度検定に注意を払い、棄却されたモデルがさも受容可能であるかのように報告するのをやめるべきだ。
　最後に、研究対象とする標本は因果的に等質でなければならない。因果的に等質な標本は無限ではない(従って、標本の大きさには限界が存在する)。多群モデル(モデレータ・モデル)であれ、MIMICモデルであれ、母集団における異質性の源を突き止めそれを制御することで、適合度を改善できるだろう。

1-2) PLS問題
PLSは使うな。あれは飽和モデルならOLSと同じだし、そうでない場合、適合性が検定できないから推定値がバイアスを受けていてもわからない。OLS, 2SLSや共分散ベースのSEMよりも良い、なんていうのは嘘で、収束しないことだってあるのだ。PLSユーザは「SEMは理論検証に優れ、いっぽうPLSはモデル構築初期の予測に優れている」というマントラを唱えるが、おまえらはSEMや2SLSじゃ予測ができないとぬかすのか。モデルを検証したいとは思いませんだなんて、自分ら頭おかしいんちゃうか。Hwang et al.(2010, JMR)のシミュレーション研究によれば、PLSのパフォーマンスはSEMより悪いんじゃコラ。分布の仮定がいらんとか小サンプルでもいけるとか抜かしよるが、そんなん2SLSかてそうなんじゃボケ[←とは書いてないけど、まあ大体そういう内容]

1-3) 道具変数の発見
　リーダーシップ研究における道具変数の例: クロスセクショナル研究や縦断研究なら、年齢とか性別とかホルモンとか外見とかリーダーからの地理的距離とか。時間とか、特定のイベントによるショックとか。法とか文化要因とか。パネルデータなら、リーダーの固定効果とか、クラスタ平均とか。
　とにかく大事なのは、e と相関しない変数であることだ。頑張って探して、過剰識別の検定にかけろ。

1-4) 共通手法分散の問題を2SLSで解く

例1. 2SLSを使った例。
前述の議論は理論的なものだったので、読者は2SLS推定量で因果的推定値を復元できるということを内心疑っているかもしれない[←よくおわかりで]。そこで、強い共通手法分散効果がある既知の構造からデータを生成してみよう。いま、内生的独立変数$x$, 従属変数$y$, ふたつの完全に測定された外生変数$m$と$n$、共通ソース効果$q$がある。データを生成する真のモデルは以下の通り。$e$と$u$は正規分布に従い互いに独立だとする。
　$x = \alpha_0 + q + 0.8m + 0.8n + e$
　$y = \beta_0 + q - 0.2x + u$
サイズ10000のデータを生成した。相関行列と単純統計量を示す[略]。これらの要約データをSEMのソフトに入れればML推定で以下と同じ推定値が出せる。
　$y$が$x$に単純に回帰しているOLSモデルを推定してみよう。回帰係数の推定値は+0.11, あきらかに誤っている。真の値(-0.2)はこれより212.82%も低い！これこそが、$x$ に内生性を与えている式を無視したときの共通手法変数の悪影響である。すでに述べたように、バイアスを受けているOLS係数は、高すぎるかもしれないし、低すぎるかもしれないし、符号が異なるかもしれないし、有意でないかもしれない。共通手法分散は都市伝説どころではない。そんな意見そのものが声高な伝説なのだ。
　このモデルの推定値、ならびに2本のOLS方程式に基づく既知モデルの推定値を示す[略]。後者では、内生変数の分散のソースが説明されているので、撹乱項の相関はなくて良い[←???]。正しい推定値(-0.2)が得られている。しかし共通原因 $q$はふつう直接に測定できないから、このモデルは実世界では推定できないだろう。
　この問題の解決のためにかんたんに利用できる唯一の方法は、道具変数を用いたモデル化である。2SLS推定量によって、$m$と$n$に由来する分散の外生的ソースについて比べ、真の推定値を復元する。これらの外生変数は$q$とは相関しないし(従って$q$のないモデルにおいて$e$と相関しない)、ランダムに変動する$u$とも相関しない。それらは$x$と強く関連し、$x$を通じてのみ$y$に影響する。結果を示す[略]。$q$をモデルに入れていなくても2SLS推定量は関心ある推定値を正確に復元している(-0.20)。ただし、信頼区間は若干広い。すでに述べたように、効率性が減るという代償を支払わなければならない。2方程式モデルの場合、強力な道具変数があれば、2SLS推定量は3SLS、反復3SLS、ML, LIML推定量と類似した推定値を与える。
　2SLS推定量の安定性を示すために、このデータ構造についてのモンテカルロ・シミュレーションを行った。1000回のシミュレーションで、平均は-0.20、95%信頼区間は-0.200から-0.199であった。Sarganの過剰識別カイ二乗検定では、道具変数は妥当であった(p=0.30。シミュレーションもこの知見を支持した。pの平均は0.32)。
　さて、このモデルを管理科学・応用心理学における標準的アプローチで推定していたらどうなっていたか。つまり、推定量がなんｔであれ、撹乱項間を無相関にしていたらどうなっていたか。このとき推定値は誤ったものになる(すなわち0.11、実際これはOLS推定量による推定値と同じである)。撹乱項間の相関を推定しないと、$x$と$y$の両方を予測する「共通ショック」は、モデルにおいて測定されておらず説明もされず、存在しないことになる。これはあまりに強すぎる仮定であり、こうした媒介モデルの文脈では誤っている。
例2. MLを使った例。
さきほどの例から、さらに次のことがわかる。共通ソース/手法の効果を明示的にモデル化しないと、真のパラメータ推定値は復元できない(たとえば手法因子をモデル化しようとしてもだめである。なぜなら手法因子が変数にどのように影響しているのかがわからないからである)[←ここの文意がわからない。原文: The previous demonstraion should now explain further that if the effect of a common source/method is not explicitly modeld, true parameter estimates cannot be recovered (e.g., by attempting to model a mehod factor, because how the method factor affects the variable is unknown to the researcher.)] 従って、この問題を制御する統計的方法として擁護できるのは、すでに示したように、道具変数を使う方法である。同じ手続きを、完全なSEMモデルへと拡張できる。3.4節と似た特徴づけに従い、簡単な例を示そう。社長のリーダーシップの実効性を従属変数$y$とし、それが2つの独立変数を持つとする。すべての指標は社長の行動について限定的な知識しか持たない投票者から得たものである。共通原因(たとえば社長への感情、ないし他のなんらかの共通原因メカニズム)があり、かつ共通原因と無相関な道具変数$z1, z2$がある(道具変数によるセレクションはないものとする)。$z1$は社長のIQ, $z2$は社長の神経症傾向で、相関はないものとする。$\Xi_1$は変革型リーダーシップ、$\Xi_2$は交流型リーダーシップであるとしよう。部下の中に社長が好きな人が多いほど、社長をカリスマ的だとみなす人が増え、社長を交流型だとみなす人が減る、しかしこれらのリーダーシップ・スタイルは社長のIQやパーソナリティの影響も受ける、というわけである。リーダーの個人差は外生的であり(遺伝子で決まっており)、他の因子とは独立に変動するものとする。
　正しいモデル[共通原因も道具変数も測定変数として入っているモデル]を示す。完璧に適合している[...]。共通原因を外したモデルでも、撹乱項に相関を入れている限り、正しいパラメータ推定値が得られる[...]。道具変数を外して共通原因をいれたモデルでも正しい推定値が得られる。しかし両方外したモデルは、適合しているのに推定値が誤っている。この例が示しているのは、道具変数によって内生変数からバイアスを取り除くことができるということであり、同時に、モデルを正しく指定しているということが絶対的に重要だということである。なお、潜在共通因子をモデル化することによって正しい因果効果を復元しようとしてみたが、ヘイウッド解が得られてしまい、推定のためにyの分散を制約せざるを得なくなった。モデルの適合度は高かったが推定値は誤っていた。
　以上の例示は、共通手法問題の解決、そして媒介モデルの正しい推定に新しい方向を提供していると考える。また、モデルを指定する際には統計的検定だけでなく理論に依拠しなければならないということ、一致推定値を得るために分散の外生的なソースをモデル化しなければならないこと、を示すことができたと思う。

4.3 回帰不連続モデル(RDD)
　[共通手法分散の話で力尽きたので、ここからは簡単に...]
　ランダム化実験では処置のセレクションがランダムなのに対し、RDDではセレクションが特定のカットオフで決まる。カットオフの閾値は明示的に観察されておりモデル化されている。カットオフ変数はプリテストないしなんらかの連続変数で、yとは相関していてもいなくてもよい。
　RDDが一致推定値を与えることができるのは、群のセレクションが回帰方程式のなかに含まれている明示的に測定された基準に基づいており、撹乱項が群と相関する情報を持っていないからである。RDDの利点は数多い。政策の効率性を検証するためのフィールド状況で比較的に容易に実現できる。
　[RDDのデモ。略]

4.4 差の差モデル
　心理学でいうところのuntreated control group design with pre- and post-test。[モデルの説明。略] このモデルのポイントは、条件(処置群, 統制群)と時間(プリ, ポスト)の交互作用が外生的だという点である。つまり、群間差は安定的でなければならず、処理のタイミングは外生的でなければならない。[架空例。略]

4.5 セレクション・モデル(ヘックマン・モデル)
　ヘックマン型の２ステップ・セレクションモデル。treatment effects modelともいう。まず群への参加をプロビット回帰し、次に処置の効果を推定する奴。その変種に、ヘックマンの２ステップモデルがある(一方の群だけ従属変数が観察されている奴)。[架空例。略]

4.6 その他の準実験デザイン
Cook-Campbell本(1979)とShadish-Cook-Campbell本(2002)を読むように。[←あれってCook-Campbell本の改訂新版だと思ってた...]

5&6. 管理科学・応用心理学における因果的推論の頑健性レビュー
リーダーシップの非実験研究の論文110本を集め、14個の基準についてコーディング[よくやるよ...]。少なく見ても66%の論文が、妥当性への脅威に正しく対処していない。特に、測定誤差、誤差の不等分散性、共通手法分散が深刻。

7. 考察
　博士課程の教育に問題があるんじゃなかろうか。また、統計ソフト任せな分析やカンタンすぎる参考書のせいで「プッシュボタン統計学」症候群が蔓延しているのではなかろうか。[ここでひとしきりSPSSとAmosの悪口。StataとかSASとかRとかMplusとかLISRELとかEQSを使えよ、とのこと]

　因果分析の十戒：

変数の無視によるバイアスを避けるために、適切なコントロール変数を含めること。もし適切なコントロール変数が同定できない、ないし測定できない場合は、パネルデータを手に入れ、分散の外生的ソース(道具変数)を用いて効果の一致推定値を求めよ。
パネルデータを使うときは必ず固定効果を含めよ。ダミー変数を使ってもいいし、レベル1変数のクラスタ平均を使ってもいい。ランダム効果モデルを推定する際には、かならずその推定量が固定効果に関して一致性を持つことをHausman検定で確認すること。
独立変数の外生性を確認すること。それがなんらかの理由で内生的である場合は、道具変数を手に入れろ。
処置が無作為割付されていないとき、処置群のメンバーかどうかが内生的な時、標本に代表性がないときは、適切なセレクションモデル、ないし他の手法(差の差, 傾向スコア)を用いて群間の推定値を修正すること。
同時方程式モデルの場合は、過剰識別性検定(カイ二乗適合度検定)を用いてモデルが維持できるかどうかを決めること。過剰識別性検定に失敗したモデルの推定値は信用できないので解釈してはいけない。
独立変数が測定誤差を伴っている場合は、errors-in-variableを使って推定するか、道具変数を使って(もちろん2SLSモデルの文脈で適切に測定された変数でなければならない)測定バイアスを修正せよ。
共通手法バイアスを避けること。もし避けようがない場合には(2SLSモデルの文脈でいう)道具変数を使って一致推定値を得ること。
推論の一致性を確保するため[←パラメータ推定じゃなくてその標準誤差の一致性のことね]、残差がiidであるかどうかを調べることお。iidであることがわからない限り、ロバスト分散推定量をデフォルトにすること。パネルデータの場合はクラスタに対してロバストな分散推定量を使うか、group-specificな予測子を使うこと。
媒介モデルにおいては、内生的かもしれない予測子の撹乱項は相関させること。そしてHausman検定でメディエータが内生的かどうか調べること。
完全情報推定量(ML)を使うのは、推定値が2SLS推定量と変わらないときだけにせよ。PLSは使うな。

ついでにいうと、もっとモンテカルロ分析を使うべきだ[推定量の安定性が得られるサンプルサイズをモンテカルロシミュレーションで確認しろ、っていう意味かな]。

8. 結論
理論、分析、測定は正しく整合していなければならぬ、でないと実証的ゼリーの上に理論的摩天楼を立てる羽目になる。

感想:

いやー、強烈に2SLS推し！であることに驚いた。なんだかよく知らないけど、計量経済学の教科書だけに出てくる、古い手法だという印象があったのだ(それゆえにこれまでノーマークであった)。この2SLSラヴっぷり、他の専門家からみてどうなんだろうなあ。よくわからないけど、ま、勉強する良い機会をもらったと考えよう。
共通手法分散の問題で、潜在変数として手法因子を入れる方法はなぜダメなのか、いまいち理解できなかった... 直感的にダメだろうという気もするし、ダメならダメで納得するのだけれど、ダメである理由が知りたい。
回帰不連続デザインでプリテストのスコアが測定誤差を持っている場合のくだり、どうも腑に落ちない。プリテストの真値が従属変数と正の相関を持っているとして、プリテストのスコアが閾値より下だった人を処置群、上だった人を統制群に割り付けたとき、もしプリテストのスコアに測定誤差があったら、平均への回帰が生じ、処置効果の推定量は正方向のバイアスを受けそうなものだ。著者によれば、それはプリテストスコアの偏回帰係数で吸収され、処置効果の推定値には影響しないとのことなのだが... うむむむ。やはりこういうレビューだけではなくて、きちんと勉強しないといけないな。

論文：データ解析(-2014) - 読了：Antonakis, Bendahan, Jacquart, & Lalive (2010) 無作為化実験できないあなたのための因果推論ガイド

2014年11月19日 (水)

Kreuzbauer, R., Malter, A. (2005) Embodied cognition and new product design: Changing product form to influence brand categorization. Journal of Product Innovation Management. 22, 165-176.
　ちょっと用事があって目を通した論文。

　デザインはブランドにとって大事だ。なぜか。(1)魅力的な製品デザインはブランド評価を上げる。(2)そもそもデザインというのは、製品とブランドのカテゴリ化を促進し消費者の信念を形成するための主要な武器だ。
　本論文はさらに次の点を主張する。(3)デザインは、人が製品とどのように物理的に相互作用できるかを伝達する。消費者は環境の物理的な諸特徴から、行為のタイプがアフォードされているのを知覚しているのであり、製品・ブランドのアフォーダンスが、製品の知覚やブランドのカテゴリ化において重要な役割を果たしている。だから製品デザイン要素を通じてブランドのカテゴリ化を変えることができる。
　この提案の背後にあるのがembodied cognitionである[ここでGrenberg(1997BBS), Glenberg et al.(2003BBS)を挙げている]。この理論によれば、知識・思考は環境との相互作用から生じる。知覚から行為まで、あらゆる認知活動はすべて環境との相互作用であり、みんな同じ原理を共有しているのだ。

　ブランド拡張の研究によれば、親ブランドと拡張ブランドが同一のカテゴリのメンバーだと知覚されたとき、両者は「適合」する。でも認知科学者いわく、カテゴリってのは文脈依存なものだし[Barsolou(いろいろ), Cohen&Basu(1987JCR), Ratneshwar et al.(1991JMR)]、メンバーが増えればカテゴリ知識も変わる。
　物理的なモノのカテゴリ・メンバーシップは主に形で決まるといわれている[Barsalou(1992,"Cognitive Psychology")]。ってことは、新製品は既存製品と形が似ているときにそのブランドのファミリーとして受け入れられやすくなるのではなかろうか[Block(1995,J.Mktg), これ面白そう]。

　視覚的デザイン属性がブランド認知やカテゴリ化に影響するかどうか、従来のブランド研究では説明できない。なぜなら従来、ブランド知識は連想的意味ネットワークであると考えられており、その意味内容は抽象的であってモダリティを欠いているからだ[←ずいぶん荒っぽいご批判のような気がするけど...エピソード記憶の意義を無視する人はいないだろうに]。いっぽうembodied cognitionの理論によれば[ここで挙げているのは、Barsolou(1999BBS, PSSを提唱した論文), Edelman(1992, "Bright Air, Brilliant Fire"), Grenberg(1997BBS), Zaltman(1997JMR)]、ブランド知識が意味ネットワークとして表象されているわけがない。モノと状況の意味ってのはそれらと身体との相互作用に基づいているのだ。だからそのブランドのアフォーダンスを理解することが大事なのである。
　ここで役立つのがBarsolouのPSS(知覚シンボルシステム)理論である。いわく、知覚シンボルとはモノを知覚したときに生じる神経活動の記録であり、モーダルなシンボルであって、フレームとして組織化されている。それは全体論的なものではなくて要素的なものだ。たとえばバイクのデザインは、記憶において「バイク全体」として保持されているのではなく、ドアとかフェンダーといった知覚シンボルからなるフレームとして保持されている。フレームは(属性ー値)のセットからなる構造であり、構造的不変性を持っていて(椅子の背中は絶対にシートより上、とか)、属性の値は互いに相関している(丈夫な靴は高い、とか)。認知システムがシミュレーションを行うことができるのはフレームのおかげだ(クルマのフレームのおかげで、たとえば新しいデザインをつくったりすることができる)。

　実験。バイクに詳しい人に集まってもらい、バイクのキー・デザイン要素を表す(属性－値)のセットを決めた。たとえば「エクゾーストパイプの形」というのが属性で、まっすぐな形やまがった形が値である。６個の属性、各属性につき値が2水準、これでバイクのデザインをだいたい表せる。各属性の２つの値はそれぞれオフロードっぽいやつとシティバイクっぽいやつである。[写真を見てもさっぱりわからん。まあ信じるしかなさそうだ]
　仮説1. あるカテゴリを示す値を多く含むデザインは、そのカテゴリのメンバーであると知覚される。
　仮説2. アフォーダンスと関係ない属性を加えても、メンバーシップはかわらない。
　属性を操作してバイクのシルエットを4枚つくった。A.タイヤはシティバイクでフェンダーはオフロード。C.両方オフロード。D.両方シティバイク。B. Dと同じだが色が違う。被験者は学生43名、ひとりに4刺激を提示し、それぞれについてオフロードかシティバイクかを両極7件法で評定させた。
　結果。D, A, C&Bの順にシティバイクだと評定された(仮説1を支持)。BとCには差がなかった(仮説2を支持)。

　。。。この論文のなにが衝撃的かといって、風呂敷が広い割に、実験が息を呑むくらいにチャチである点だが(単に「オフロードバイクっぽい形のバイクはオフロードバイクだと評定されました」という話ではないですか)、きっとこの業界の慣習かなにかで、形だけでもデータを取らないといけないとか、なにかそういうヨンドコロない事情があるのだろう。実験のくだりはみなかったことにしたい。
　えーと、前半の理屈の部分はとても興味深く読んだ。"embodied cognition"というのは認知科学における一種の流行語であったかと思うのだが、この概念のもともとの面白さは、「クールに心的表象を操作しているだけのようにみえる認知活動が、実は身体と深く結びついているのよ、いやー意外だよね」という点にあったのではないかと思う。いっぽう、探してみるとマーケティング分野でもたまにembodied cognitionという言葉が使われているようなのだが、そこではこのようなニュアンスが失われ、単にsensoryとかperceptualというような意味で用いられている模様で、うむむむむ、と思っていた。やっぱしこういう視点もあるのね、よかった。
　著者らの主張に照らしていえば、モノの形のちがいであっても身体的相互作用において意味を持たないちがいはカテゴリ化に効かないはずだ(奥さんのほうのTverskyの80年代の研究にそういうのがあったと思う)。また、身体動作の心的シミュレーションを促進したり抑制したりする実験手続きもありそうなものだ。いろいろ面白い実験ができるだろうに。
　話の筋からいえば、なにもBarsalouのPSSという難しい概念を用いなくてもよかったのではないかと思うのだが、それはこの論文のコアの主張に限ればの話で、著者らは認知的アーキテクチャまで含めたビジョンを提示したかったのだろう。

　考察で触れられていた面白い話。新製品デザインのプロセスにおいて身体化された制約をイメージすることでデザインの魅力が増す、というような研究があるらしい。Dahl et al.(1999JMR)。この路線の話、ひょっとしたら面白いかも...

論文：マーケティング - 読了：Kreuzbauer & Malter (2005) 身体化された認知と新製品開発

長沢伸也, 大津真一 (2010) 経験価値モジュール(SEM)の再考. 早稲田国際経営研究, 41, 69-77.
　これもちょっと用事があって読んだのだけれど、話がいきなり意外な方向に向かうところがあって(あくまで私にとって意外だというだけだが)、とても面白かった。

　「経験価値」っていう有名な概念があるけど、「経験が価値を提供する」のであって、経験そのものは価値じゃない[←納得！]。シュミットのいう経験とは、スキナーいうところのprivate eventsだ[なぜここでスキナーが...]。
　経験はどうやって引き起こされるか。シュミットは経験を生む刺激の戦術要素をExperience Provider(ExPro)と呼んだ。たとえば「コミュニケーション」「製品」「コブランディング」「人間」というようなのがExProである。また、Brakusという人がギブソン流の説明を行っていて[in "Handbook on Brand and Experience management", 2008. $182か...]、いわく、ExProが経験をアフォードする由。
　マーケターができるのはExProの管理だ。いっぽうシュミットが言う戦略的経験モジュール(SEM)ってのは経験のモジュール、つまりマーケターの「狙い」のほうだ。云々。
　... なるほどねー。勉強になりました。

論文：マーケティング - 読了：長沢・大津 (2010) 経験価値とはなんのことか

大津真一, 長沢伸也 (2011) 消費者の行動経験による差異化戦略: 身体性認知(Embodied Cognition)と行動的経験価値. 早稲田国際経営研究, 42, 145-152
　ちょっと用事があって読んだ。第一著者の修論かしらん？

　シュミット「経験価値マーケティング」に出てくる、消費者の経験価値を５つのモジュールに分けて理解するという話があるけど(Sense, Feel, Think, Act, Relate)、そのうちAct、すなわち行動的な経験価値を提供するためにはどうすればいいか。
　シュミットはこれをギブソンに由来する「身体性認知」概念から導いている。そういうわけで、行動的経験価値を「消費活動の中で消費者自身の行動と行動に伴って生じた生理的・心理的活動」と再定義しましょう。
　その構築のためには製品側にアフォーダンスをデザインすることが大事だ。[←真正のギブソニアンが聞いたら怒り出しそうだが... かつてD.ノーマンが考えたようなperceived affordanceのことを仰っているのだろう]
　その方法としては、製品・サービス自体をうまくデザインするやり方と、消費活動の際の状況をうまくデザインするやり方があるだろう。後者はつまり非常識・非日常的な特別な状況をつくるということだ[←そ、そうかなあ... うむむ]。あえてaccessibilityを下げるってのはどうだろうか。云々。

論文：マーケティング - 読了：大津・長沢 (2011) 行動的経験価値をどうやって構築するか

村山航 (2012) 妥当性：概念の歴史的変遷と心理測定学的観点からの考察. 教育心理学年報, 51, 118-130.
　ちょっと用事があって目を通した。かなり前に(前の前の勤務先の頃)、テスト学会のイベントで、著者による妥当性についての講演を拝聴したことがあって、大変勉強になったのだが、たぶんあの講演の論文化だと思う。
　いくつかメモ：

妥当性のtrinitarian view (「妥当性には基準関連妥当性、構成概念妥当性、内容的妥当性の３つの側面があります」説)への対抗として、Messickの「妥当性ってのは構成概念妥当性だ」説が出てきたのだが、この観点からいえば、たとえば測定結果が他の集団に一般化できるかというような側面も構成概念妥当性のひとつなわけで、つまり信頼性も妥当性の証拠のひとつになる。
いわゆる帯域幅-忠実度ジレンマに直面して、「多少信頼性が低くなっても幅広く項目を集めようぜ」ということがあるけど(あるある)、因子分析モデルに照らして考えるとおかしい。だって独自性を除去して共通分散だけみるわけだから。この手続きが悪いってわけじゃないけど、それを正当化するロジックを考えるのが難しいのである(←うむむむ...??? そうなのか...)。かんたんな解決策はないけど、構成概念は事前にできるだけ明確に定義しておいた方がいい。
たいていの調査項目はメトリックがarbitraryで、構成概念と回答がどう対応してるのかはっきりしない(「満足だ」と「やや満足だ」がどうちがうのか誰にもわからない、という話である)。ってことは、たとえば交互作用がみつかってもそれは特性曲線のせいかもしれんわけである。こうした尺度の不定性の問題も妥当性のひとつの側面である(←あー、なるほど...)

Borsboomさんという、Messick流の構成概念妥当性概念をきつーく批判している人がいるけど(この人、なかなか面白いのだ)、2009年のSEM誌に"Educationnal Measurement" 4th ed. の書評という形で批判を書いているらしい。ちょっと読んでみたい。いや、待て、その後に出た著書が積んだままになっているような気が...

論文：データ解析(-2014) - 読了：村山 (2012) 妥当性研究レビュー

LaBarbera, P.A., Mazursky, D. (1983) A longitudinal assessment of consumer satisfaction/dissatisfaction: The dynamic aspects of the cognitive process. Journal of Marketing Research, 20(4), 393-404.
　顧客満足(CS)の生成とその効果を、複数回の購買にわたって縦断で調べた研究。いまなんでこんなの読んでんだかわかんないんだけど、かなり前に途中で忙しくなって中断したままになってた奴で、整理がつかないので、仕方なく。

　CS研究の先達Oliverさんいわく、満足ってのはexposure前後の(たとえば購入前後の)態度変容のメディエータである、と。では、その満足ってのはどうやって決まるか。80年代、Oliverさんは心理学の順応水準理論でもって満足を説明しようと提案した。過去の経験が順応水準を形成しているというわけである。(←順応水準!! なんとまあ、懐かしい... 私が学部生のときでさえ、いまなんでこんな勉強をせねばならんのかと思った話題だ。古色蒼然、なんていったら叱られちゃうかしらん)
　満足を説明する別の枠組みとしては比較水準理論がある(←Thibaud & Kelley. 社会的交換理論ってやつね。またもや古い話を...)。満足は結果と比較水準の乖離から発生し、比較水準を修正する、というわけである。

　(以下、怪しげな数式風表記が頻出して頭が痛くなってくるのだが...)
Oliverさんなり、Howard&Shethモデルなりに基づいていえば、時点 t における態度水準を ATT_t, 消費における満足の水準を SAT, 再購入意向を I_t として、
　I_t = f(I_{t-1}, SAT, ATT_t)
である。しかしSATとATTが区別できるかどうかについては諸説あるので、ここではもっと単純に、次のように考えよう。購買行動を表すカテゴリ変数をP_tとして、パス図は
　I_{t-1} → P_t → SAT → I_t → P_{t+1}
つまり
　P_{t+1} = f(I_t, SAT, P_t, I_{t-1})
意図の変化は満足の関数で、満足は事前の意図の関数なので
　I_t = g_1 (I_{t-1}, SAT)
　SAT = g_2 (I_{t-1})
ブランドのリピート購買者を P_{t+1} = RP, スイッチ者をP_{t+1} = SWとする。前者のほうが再購入意向も満足も高かろう、よって
　\bar{I}_t | RP > \bar{I}_t | SW
　\bar{SAT}_t | RP > \bar{SAT}_t | SW
　\bar{I}_t | RP > \bar{I}_t | SW
再購入意図はRPで高くなりSWで低くなるだろう、よって
　\bar{I} | RP > \bar{I}_{t-1} | RP
　\bar{I} | SW > \bar{I}_{t-1} | SW
再購入意図の差はどんどん開くだろう、よって
　(\bar{I}_t | RP) - (\bar{I}_t | SW) > (\bar{I}_{t-1} | RP) - (\bar{I}_{t-1} | SW)

　消費者を電話でリクルートし、５か月間にわたって隔週で調査を掛ける。当然どんどん脱落していくわけで、180名からはじめて最後まで残ったのは87名。各調査では、ティッシュ、コーヒー、洗剤など日雑24カテゴリのうち3つについて、現使用ブランドとか満足とか再購入意向とかを訊いた。うちマーガリン、コーヒー、トイレットペーパー、ペーパータオル、マカロニについて分析。同一カテゴリを２期連続で購入した2568ケースを分析する(←ヒトは無視するのか... 荒っぽい手口だ...)。
　結果。ブランドスイッチ者よりもリピート購買者のほうが、再購入意向、満足、一期前の再購入意向が高い。再購入意図はリピート購買者で上がりブランドスイッチ者で下がる(果てしなく t 検定を繰り返しておられる...昔はよかったねえ)。で、カテゴリごとにパスモデルを組んだり、なんだり...。
　ほか、満足が購買に効くかといった分析をやっているけど、嫌になっちゃったのでパス。
　考察。満足は意図や行動の変化のメディエータになっている。云々。

　いやー、つくづく体質に合わないタイプの研究であった。とにかく仮説の立て方が気色悪くて、途中でついていけなくなった。せっかくのパネルデータなのに、なぜretrospectiveな仮説(結果で原因を条件づけた仮説)を立てるのだろうか。素直に、「満足度が高いとリピート購買確率は上がるか」と云う風に問えばいいじゃん？行動が違う群を一緒にするわけにはいかない、という発想なのかもしれないけど...
　そんなこんなで、読んだとは到底言い難いのだが、すいません、ご縁がなかったということで。

論文：マーケティング - 読了：LaBarbera & Mazursky (1983) 顧客満足の縦断研究

2014年11月14日 (金)

　季節はめぐり、寒い冬が近づいているが、「ウェイトバックした集計表の検定」についてどなたかにご説明する、という機会も周期的にめぐってくる。というのは、私はたまたま市場調査に関連するお仕事で細々と暮らしており、市場調査の世界では消費者にアンケート調査かなんかをやることが多く、それを集計するときに「ウェイトバック」することが多く(すなわち、抽出確率が均等でない標本に基づき、確率ウェイティングによって母集団特性を推定することが多く)、しかし市販の教科書にはこの種の話題はあまり触れられておらず、皆さんもっと有益な話題を語るのに忙しく、こういう金にならない話についてお答えする暇人は少なく、日は昇り、また沈み、時移る... という事情がある。
　この話題、あまりに定期的にめぐってくるので、「そんな検定、お使いの統計ソフトではたぶんできませんよ」という点と、「そもそもウェイトバックなんてしないほうがいいかもしれませんよ」という点については、かつてこのブログでくどくどと説明した。各界でご活躍の優秀な皆様が、どうか必要なタイミングで、これらの記事をみつけてくださいますように。図々しいけれど、ひとりでも多くの関係者の方に読んでいただければ幸いである。

　さて、このたびまた同じご説明を行っていて、ふと思ったんだけど、確率ウェイティングの下で二群の割合の差を検定する手法って、なぜあんなにたくさんあるのだろうか？これがですね、案外たくさんあるのですよ。私の知る限り、大きく分けてカイ二乗検定のRao-Scott修正という方向とワルド検定という方向があり、それぞれにおいていくつものバージョンがある。なにがどう違うのか、実に面妖な話である。個々の手法についての説明ではなく、手法を比較したレビューのようなものはないかしらん？

Scott, A. (2007) Rao-Scott corrections and their impact. Proceedings of the Section on Survey Research Methods, American Statistical Association, 3514–3518.
　というわけでwebを探していて目に留まった、「Rao-Scott修正」のScottさんご自身による文章。えーっと、2007年のアメリカ統計学会Joint Statistical MeetingsではRao先生の古稀をお祝いする招待セッションが開かれ、そこでScottさんが講演したようで、その要旨である。ほんとはレビュー論文を探すべきなのだろうけれど、すいません、そこまで本気じゃないんです。
　
　ええと、Rao&Scott(1981JASA, 1984Annals of Stat.)はもう四半世紀も前のことだね、あの頃僕らは誰々や誰々と一緒に研究したよね、みんな若かったよね、というような思い出話があって...

　セル数$T$の多元クロス表の、セル$t$の母比率を$\pi_t$とし、まとめてベクトルで$\pi$と表す。$\mu_t = log(\pi_t)$ として、次の対数線形モデルを考える(そうそう、Rao&Scott(1984)って、意外にもいきなり対数線形モデルから始まるんですよ...)。
　$\mu = u(\theta) e + X \theta$
$\theta$は長さ$p$のパラメータ・ベクトル。$e$は長さ$T$のベクトルで要素は$1$。$u(\theta)$は定数で、$\pi_t$の合計が$1$になるように調整している。Xは$T$行$p$列の係数行列で、そのランクは$p < T-1$、$X^T e = 0$。これをモデル1と呼ぼう。
　ベクトル$\theta$をふたつにわけ、上の$T-k$個を$\theta_1$, 下の$k$個を$\theta_2$とする。同様に$X$も $X = (X_1, X_2)$と分割する。で、下位モデル
　$\mu = u_1 (\theta_1) e + X_1 \theta_1$
を考える。これをモデル2と呼ぼう。モデル2の適合度を調べれば、帰無仮説$H_0: \theta_2 = 0$について検定したことになる。典型的には、モデル2はクロス表の行と列が独立だというモデルである。
　モデル1による$\pi_t$の最尤推定量を$\hat{\pi_t}$とする。単純無作為抽出であれば、標本比率$\hat{p}$について$X^T \hat{\pi} = X^T \hat{p}$である。モデル2による最尤推定量を$\hat{\pi}^*_t$とする。ピアソンのカイ二乗統計量は
　$X^2_P = n \sum_t \frac{ (\hat{\pi}_t - \hat{\pi}^*_t)^2}{\hat{\pi}^*_t}$
尤度比統計量は
　$G^2 = 2n \sum_t \hat{\pi}_t log(\frac{\hat{\pi}_t}{\hat{\pi}^*_t})$
どちらも帰無仮説のもとでカイ二乗分布に漸近的に従う。

　さて。標本抽出デザインが複雑なとき、なにが起きるか。
　母比率の推定量$\hat{p}$は、もはや標本比率でなく、もっと複雑ななにかである。期待できるのはせいぜい、$\hat{p}$が$\pi$の一致推定量になっていること、中心極限定理が成立してくれること、くらいである。$\sqrt{n} (\hat{p} - \pi)$が平均0の$T$変量正規分布に従うとし、その共分散行列を$V_p$としよう。
　Rao&Scott(1981, 1984)で僕らは、$X^2_P$と$G^2$が帰無分布の下で、$\sum_i^k \delta_i Z^2_i$と同じ分布に従うことを示した。ここで$Z \sim N(0,1)$。$\delta_1, \ldots, \delta_k$は「一般化デザイン効果」と呼ばれていて... (求め方は省略)。というわけで、理屈からいえば、仮に$V_p$の推定値が手に入るなら、「一般化デザイン効果」の推定値が手に入り、帰無分布の下での$X^2_P$ないし$G^2$の分布が手に入り、検定できるわけである。

　理屈はわかった。具体的にはどうしたらいいのか。
　一般化デザイン効果の推定値の平均 $\bar{\delta} = \sum_1^k \hat{\delta_i}$を求める。で、サンプルサイズをこれで割って、いわゆる等価サンプルサイズ $\tilde{n} = n / \bar{\delta}$を求める。検定統計量$X^2_p$ないし$G^2$の式のなかの$n$を、この$\tilde{n}$で置き換えて修正しよう。これがRao-Scott修正である。
　こうして得た$X^2_{RS}$ないし$G^2_{RS}$の、帰無仮説の下での分布をどうやって近似するか。３つのやりかたがある。
　ひとつめ、単に自由度$k$のカイ二乗分布で近似する。これを一次のRS修正という。
　ふたつめ、自由度 $k/c$のカイ二乗分布に$c$を掛ける。ただし、$c=\sum \delta^2_i / (k \bar{\delta}^2)$。これを二次のRS修正という。
　みっつめ。どうにかして$\hat{V}_p$を手に入れる。たとえば$Cov(\hat{p})$を使う。で、そのランクを$\nu$とする。通常、$\nu$は(PSUの数)-(層の数)である。で、自由度$(k/c, \nu k / c)$のF分布に$k$を掛ける。何言ってんだかわかんないけど、とにかくそうなるんだそうである。
　最後のやつが一番正確なのだが、あいにく$\hat{V}_p$は手に入らないことが多い。いっぽう一般化デザイン効果の平均値$\bar{\delta}$だけなら、セル比率と周辺比率の標準誤差から算出できる。なので一次のRS修正が使われることが多い(←なるほどー)。

　RS修正の発表以後、一次のRS修正を改善しようという試みが多数行われてきたが、たいしたインパクトはなかった。RS修正の対抗馬はほかにいっぱいあったのだが("the Wald, Fay's Jackknife, and Bonferroni inequalities"と書いてある。最後のBonferroni法ってなんのことだろう...)、RS修正のわかりやすさには勝てない。
　Rao&Scott(1981, 1984)の引用件数の推移をみてみよう(←さすがは統計学者、loess回帰しているぞ)。意図に反し、社会科学系ではあんまり使われていない。SPSSがRS修正の機能を積んでないからかなあ。(←そうなの？ Complex Samplesパッケージには積んであるのかと思ってた。それともあのパッケージはユーザが少ないのかな)
　ところで、一次のRS修正には、忘却されつつあるもうひとつの可能性(Scott & Rao, 1981)があった。ちょっとPRさせてください。たとえば、地域で層別した調査とか、多国間調査とか。あるいは、同一母集団に対する異なる調査とか、agreement between interviewers based on Mahalanobis’ interpenetrating subsamplesとか(←最後のやつがよくわからない。独立に抽出した二標本間でマッチングをかけるような状況だろうか)。そういう場面で、等質性を検定したいこと、あるよね？そんなときにも一次のRS修正が使えるのだ... 云々。
　最後に、いろんな方面への拡張を紹介。ロジスティック回帰とか一般化線形モデルとか、ドメイン平均の検定とか。

　私のような素人にも親しみやすい紹介であった。ほんとはワルド検定との比較について知りたかったんだけど、まあいいや。

論文：データ解析(-2014) - 読了：Scott(2007) 調査ウェイティングの下でのカイ二乗検定のRao-Scott修正について振り返る

永田靖(1998) 多重比較法の実際. 応用統計学, 27(2), 93-108.
　多重比較についての教科書の定番、永田・吉田「統計的多重比較法の基礎」(1997)の出版後、そのフォローアップとして書かれた啓蒙論文。実務家からの10個の質問への回答という形で、非常にわかりやすく書かれている。大変勉強になる。
　今日twitterで呟いている方がいたおかげで、はじめて知った... いやー、これはもっともっと早く読んでおくべきであった。

論文：データ解析(-2014) - 読了：永田(1998) 「統計的多重比較法の基礎」をめぐる１０個の質疑応答

2014年11月10日 (月)

　ふとしたきっかけで、市場調査会社に勤める若い友人から、こんな質問を受けた。細部を剥ぎ取って簡単にいえば、「探索的因子分析で得た因子得点を調べてみたら、varimax回転なのに因子得点は直交してないし、分散が1でもないんですけど...」。アカデミックなトレーニングを全く受けていないのに、この疑問である。弊社の同僚の話は内輪褒めになるからやめるけど、彼女といい、私の前職の調査会社の同僚たちといい、若い人はほんとに優秀で困ってしまう。大変失礼な言い方ですが、わたくし10年くらい前まで、市場調査会社の人ってのは、黒澤明「生きる」の市役所の窓口の人みたいな感じの、肘のところに黒い布巻いて、青焼きにむっつりとペンをいれたり、チャートの軸の目盛のラベルをピンセットで貼ったりしている人たちだと思ってました。実際には違いますよ、最近ではチャートは電子計算機で描きますし、リサーチャーはアクティブかつ優秀ですよ、少なくとも若い人は。
　で、彼女には「因子分析モデルが正しければ漸近的にそうなるってことなんじゃない？そいで因子分析モデルなんてたいがい間違ってんだから、大いにずれててもしょうがないんじゃない？」という意味の返事をしたんだけど、本日別件の一仕事を終えてぼんやり夕空を眺めていたら、ふいに、ワタシ嘘ついちゃったんじゃないか、と。。。

DiStefano, C., Zhu, M., Mindrila, D. (2009) Understanding and using factor score: Considerations for the applied researcher. Practical Assessment, Research, & Evaluation. 14(20).
　ネットで見つけた論文。掲載誌はよくわからないオープンジャーナルで、ためらったのだけど、第一著者は本当にUSCの助教授らしいし(教育研究)、google scholar様的には被引用度数がかなり多いので、まあ大丈夫だろう、と。
　ええと、Psycinfoで探して数えたら、因子得点を使っている2000年代の229件の研究のうち、54%は探索的因子分析(EFA), 19%は確認的因子分析(CFA), 28%は不明だそうである。うーん、EFAが多いんだかそうでもないんだか、よくわかんないな。
　著者らいわく、EFAでの因子得点の算出の方法にはnon-refinedとrefinedがある。前者は、負荷の高い項目を選んで生データを平均するとか、そういうローテクなやつ。標本に対して安定的である。後者はいわゆる因子得点で、メジャーな方法として、回帰法、Bartlett法、Anderson-Rubin法がある。どう違うかと申しますと... (これ院生時代に習ったっけ？たぶん習って忘れているのであろう)

　ひとつめ、回帰法。発想としては、観察データから因子得点を予測する重回帰式を組む。因子数をm, 変数の数をnとする。ある個体について、標準化した観察ベクトルを$Z$(サイズ$1 \times n$)、回帰係数行列を$B$($n \times m$)として、因子得点は$F = ZB$。さて、この回帰係数行列$B$は、観察変数の相関行列を$R$、因子負荷行列を$A$、因子間相関行列を$\Phi$として、$B = R^{-1} A \Phi$とする。
　この手続きは因子得点の推定値の妥当性を最大化することを目的にしていて(つまり、推定された因子得点と真の因子得点との相関を最大化することを目的にしていて)、因子得点の不偏推定にはなっていない。平均は0, 分散はその因子の全項目に対するSMCになる (あ、そうだ！そうでした！)。直交回転であっても因子得点の推定値は因子間で直交しない。

　ふたつめ、Bartlett法。発想としては、独自因子を無視し、観察値と因子負荷から共通因子を再現しようとする。因子得点の分散を表す対角行列の逆行列を$U^{-2}$として、$F = Z U^{-2} A (A' U^{-2} A)^{-1}$。むむむ、なぜこうなるんだろう？いずれきちんと勉強しよう。
　この手続きは、真の因子得点の不偏推定を提供する。妥当性も、最大ではないけど高い。さらに、直交回転の場合、他の因子の真の因子得点とは相関しないという特徴がある由。ただし、因子得点の推定値が因子間で直交するわけではない(そ、そうだったのか...)。平均は0, 分散はSMC。

　みっつめ、Anderson-Rubin法。計算式は省略するけど(ちょっとややこしい)、これはBartlett法を修正したもので、平均は0, 分散は1, 直交回転なら推定された因子得点同士も無相関、という... 実に出来の良い子である。妥当性もそこそこ高いのだそうである。ただし、因子得点は不偏推定にはなっていない。また、直交回転のときに無相関になるのはあくまで推定された得点同士であり、ある因子についての推定された因子得点と他の因子の真の因子得点が無相関になるわけではない。

　まとめると、妥当性は回帰法が最大、Bartlettが高、A&Rがそこそこ。直交回転の場合、ある因子の推定された得点が他の因子と無相関になるのはBartlett法、他の因子の推定された得点と無相関になるのはA&R。真の因子得点の不偏推定になっているのはBartlett。

　最後に、著者のみなさまからのアドバイス。(1)因子得点は因子抽出手法や回転手法に対して敏感である。まずはEFAが受容できるかどうかを考え、しかる後に使うように。(2)そもそも因子分析ってのは解が不定であるということを肝に銘じるように。このへん、解の不定性の深刻さについて調べる方法について紹介されているのだが、Grice(2001, Psych. Methods)の素人向け簡略紹介らしいので、本家を読むことにしよう。(3)データの質。元データの分布、因子得点の分布をちゃんと見るように。(4)CFAを使え。

　というわけで、EFAの因子得点に対するわたくしの理解が浅かったことがあきらかになった(なんとなくA&R法の挙動を前提にしてしまっていた)。仕事に害を及ぼす嘘ではなかったが、彼女に今度会ったら謝らないといけないな... その頃はもう覚えてないかもしれないけど。優秀な人は私と違って忙しいのだ。

論文：データ解析(-2014) - 読了：DiStefano, Zhu, Mindrila (2009) おまえら因子得点の求め方わかってんのか

2014年11月 6日 (木)

Hox, J.J., de Leeuw, E.D., Brinkhuis, M.J.S. (2010) Analysis models for comparative surveys. Harkness, J.A. et al. (eds.) Survey Methods in Multinational, Multiregional, and Multicultural Contexts. Chapter 21. John Wiley & Sons.
　先日買った論文集から。別にいま読まなくてもいいんだけど、高い本を買ったモトを取らねばならぬがゆえに...
　多国間調査に関するこの分厚い論文集の、分析のパートの各論のひとつ。著者らはユトレヒト大の人らしい。

　冒頭でいわく、多国間比較調査には主に３つの統計的課題がある。その１、測定不変性。その２、ある国においてみられる個人レベルの関係性が他の国でもみられるか。その３、国レベルで安定的な関係性がみられるか。
　これらの課題に対する武器は、まずは多群SEMである(IRTを含む)。でも国数が多くなると大変。次の武器は、国の効果を固定効果から変量効果に変えちまうこと、すなわちマルチレベル化である。20ヶ国もあれば国レベルでもモデリングが可能になる(←シミュレーション研究をやった由。Maas & Hox, 2005)。さらに最近では潜在クラスモデル(LCM)という手もある。
　というわけで、本章では多群SEM, MSEM(マルチレベルSEM), LCMを紹介し比較します。

　まずはSEMの説明。パス図で丸は潜在変数だよ、なんてところからはじめて、２頁で駆け足のSEM入門。いったい想定読者は誰なんだ。
　で、多群SEMにおけるfunctional(factorial)/metric/scalar equivalenceの説明。残念ながら用語が統一されていないんだよね、云々。
　次、MSEMの説明。一番ポピュラーなのは単変量の階層回帰で... これをMSEMに拡張できて... 云々。パス図はMuthen一派風に、レベルを点線で分け、下のレベルのランダム係数は黒丸、という描き方をしている。
　次、LCMの説明。まず局所独立性とかの駆け足説明があって... 著者らがいわんとしているLCMとは、要するに因子負荷が潜在クラスによって異なるようなCFAのことで、著者らも途中でそう呼んでいるけど、潜在クラスSEMって呼ぶほうがわかりやすいかも。

　簡単なシミュレーションの紹介。データ生成モデルを4指標1因子CFAとし、ある指標の負荷を半分の国でこっそり変えたり変えなかったりする。MVNな誤差を乗せて、国あたりn=1500, 国の数を20, 30, 40と動かす。metric equivalentな1因子CFAを推定したとき、パラメータ推定はどうなるか。
　結果。データ生成モデルがmetric equivalentだったら、多群SEM, マルチレベルSEM, 1クラスLCAのいずれもうまくいく。ただし、国数が20だとMSEMでSEが過大評価される(悲観的な方向にバイアスがかかる)。いっぽう、データが実はmetric equivalentでなかったら、それに気づくのは難しい。多群SEMのみカイ二乗検定で引っかかるけど(サンプルサイズがでかいからさ、と無視されるでしょうね、普通)、適合度は下がんない。みなさい、大域的適合度を過信してはいかんですよ、とのこと。まぁね、そうかもね。でもこの実験だと、ひとつの指標の負荷だけが+0.5から+0.3にすり替えられているだけだから、まあしょうがないかな...

　実データへの適用例。ESS(European Social Survey)、22ヶ国のデータ、約4万人。「宗教への関与」4項目を使う(11件法と7件法が混在)。先行研究では、部分測定不変な1因子モデルがあてはまるといわれている由。３つの方法それぞれで試す。面倒になってきたし、なにより眠いもので適当に読み飛ばした。まあそれぞれ長短あるよね、という話である。
　最後にソフトウェア。Mplus最強！GLLAMM最強！との仰せでありました。GLLAMMってのはStataのパッケージ。

　どのレベルの読者を想定しているのかよくわからない文章だったのだが、まぁ、後半の実データ分析例は、自分で分析してて困ったときに心の支えになるかも。ならないかも。
　最後にちらっと触れられているけど、たとえばLCMをマルチレベル化したっていいわけで、SEMの枠組みでの多国間調査データ分析には、他にももっといろんな可能性があると思う。

論文：データ解析(-2014) - 読了：Hox, de Leeuw, Brinkhuis (2010) 国と国とを比較する方法を比較しよう (多群SEM vs. マルチレベルSEM vs. 潜在クラスモデル)