elsur.jpn.org >

« 2016年8月 | メイン | 2016年10月 »

2016年9月18日 (日)

Weir, C.J., Lees, K.R. (2003) Comparison of stratification and adaptive methods for treatment allocation in an acute stroke clinical trial. Statistics in Medicine, 22, 705-726.
 臨床試験での処理割当についての論文。仕事の都合で読んだ。

 多施設臨床試験での割り付けは、予後因子で層別した上でパーミュテッド・ブロックを使うのが標準的な方法である(ブロックサイズはランダムにする。次の人の割り付けを予測できないようにするため)。しかし、予後因子の数が増えると層の数が爆発する。そこで提案されているのが適応的層別化、具体的には最小化法。
 本研究ではacute stroke後のglucoseコントロールについての臨床試験のデータを使い、層別パーミュテッド・ブロックと適応的層別化を比較する。

 適応的層別化とはなにか。
 2群への割り付けを考える(activeとcontrolとする)。まず、所与の予後因子について群間のインバランスのレベルを測る方法を決める(当該水準の人数のSDなり分散なりを使うことが多い)。新患者が来たら、その人の各予後因子の水準について、その人をactiveに割り付けた場合のインバランスと、controlに割り付けた場合のインバランスを測る。で、なんらかの方法で、すべての予後因子を通じた全体的インバランスを求める(単に合計するとか) 。その際、重要な予後因子を重視すべく重みを決めることもある。最後に全体的なインバランスが小さいほうの群にその人を割り付ける確率を、なんらかのやり方で決める(オリジナルの最小化法では確率1)。
 このやり方では、予後因子の周辺分布をバランスさせるだけであって、組み合わせはバランスさせない。そこが層別パーミュテッド・ブロックとちがうところ。[←というか、層別ランダム化のアプローチの場合、予後因子のすべての組み合わせを層にせざるを得ない、という云い方のほうがしっくりきますけどね]

 というわけで、本研究の課題。適応的層別化において、

 データ。実データを使うというのが売り。
 UKグラスゴーの西部診療所・急性脳卒中治療室は、地域における局所神経障害の突然発症者のうち、 血管と無関係な原因で生じた場合を除くすべての患者を扱う。このデータベースから12個の変数を抽出した:{年齢、plasma glucose level on admission, 卒中の分類、delay to trial enrolment from stroke onset, 卒中のタイプ、resolution time、coma scale on admission、性別、症状の左右(ないし両側)、presence of atrial fibrillation, 血圧}。
 変数間関係のグラフィカル・モデルを組み、MS-DOS上のBUGS ver. 0.3で患者データをGibbsサンプリング[←!]、10万人のデータをつくる。さらに、アウトカム(卒中に影響された脳組織の量)をシミュレーションで生成した。

 割り付けシミュレーション。
 試験当たりの患者数を1000人とする(実際のサイズに近い由)。100試行。
 インバランスレベルはこうやって測る。予後因子の水準$j$の処理$k$における人数を$X_{kj}$としたとき、
 $q_j = X_{1j} / (X_{1j} + X_{2j})$
とする[当該水準の人数のうち群jに割り当てられた割合ってことね]。で、インバランスを
 $100 \times max \{|q_i - q_j|\}, \ \ i \neq j$
と定義する。年齢など4因子についての最終的なインバランスを測る。

 シミュレーションで以下を動かす。 [この論文のシミュレーションは、いろんな要因を直交配列で動かす純粋なシミュレーションではなく、 最小化法の手続きを決める場面で、過去の類似データを使ったシミュレーションでパラメータを一つ一つ決めていくときにどうするか、その手順を例示している感じであった]

 考察。もっとサンプルサイズが小さいときについては別途検討の必要がある。処理効果に個人差がある場合についても要検討。事後分析をANCOVAでやらないと保守的になるという知見は要注目だ。
 なお、これは線形モデルで分析するときの話で、ロジスティック回帰や比例ハザードモデルをつかうときは層別ランダム化のほうが良いだろう[←ええええ? なぜ? 理由が書いてない。Begg & Kalish(1984, Biometrics)というのが引用されている]

論文:データ解析(2015-) - 読了:Weir & Lees (2003) 臨床試験における処理の割り付けに最小化法を使うとなにがどうなるかシミュレーションしてみました

2016年9月17日 (土)

ウォレンドルフ, M., アポストローバ=ブロッサム, E. (2001) マーケティング・リサーチは創造性の源とはならない. Diamondハーバード・ビジネス・レビュー, 2001年6月号, 138-140.

 題名に惹かれ、原稿の役に立つかと思って取り寄せたんだけど...

  たった3ページの短い記事。恥を忍んで申し上げるけれど、私にはよく理解できない内容であった。冒頭部でいきなり「ポストモダン時代の消費行動には『衝動』的な面があり、ある意味、境界なく融合された自我の発露といえる」と言われて... えっ??? はい? ??

 理解できた範囲で言うとこういう内容。
 コマールとメラミドという画家が「国民の選択展」というプロジェクトをやった。これは各国の消費者に「何を描いてほしいか」等々とリサーチし、その結果に基づいてアートを制作するという企画であった。その目標は、マーケティング調査の結果に基づいて描かれた芸術作品に疑問を喚起することであった。
 「我々は、ポストモダンの文化産業への批評を通じて、個人的な体験と芸術的な創造性に関する洞察から、マーケティング・リサーチから出された数字の信憑性に異議を捉えられるはずだ」。

 賛否以前の問題として、著者らのいいたいことがつかめない。文章の脈絡がわからないのだ。本文と題名との整合性も乏しい(たぶん編集の方も題名をつけるのに困惑したのだろう)。これはなにかもっと長い文章から切り取ったものなのだろうか? まさか、翻訳が絶望的にまずいとか?

 それにしても、この記事、いろいろ謎が多い。
 記事の末尾に、「参考文献」としてギー・ドゥボール「スペクタクルの社会」、ならびにポストモダンマーケティング関係らしき文献が何本か挙げられているが、本文との対応がなく、なぜこれらが参考文献なのかわからない。もっと長い文章を切り詰めているんじゃないかと疑う所以である。
 日本人の方の論文で、この著者らの記事が本家HBRの同年同月号に載っているかのように引用しているのをみつけたが、HBRのデータベースを調べてみてもそんな記事は見当たらない。これは本家HBRからの転載記事ではないようなのだ。上記論文の著者の方は、ついついこの記事の英語原文を読んだかのように引用してしまったのではないかと思う。
 著者らは実在する。第一著者はたしかにアリゾナ大学の教授だ。CVをみると、2001年に"Post-modern Production and Consumption of Art"という記事がダイヤモンドHBRに日本語で掲載された、という記載があり、この記事と頁が一致する。元となる英語記事についての記載はない。
 CVによれば、著者らは2000年のACR年次大会で"The Role of Marketing Research in Consumer-Market Relationships: A case study of `The People’s Choice’ exhibit by Komar and Melamid"という発表を行っている。題名からして、たぶんこの発表がこの記事の基なのだろう。残念ながらACRのproceedingには載っておらず、内容は確認できない。

論文:マーケティング - 読了:ウォレンドルフ, アポストローバ=ブロッサム (2001) マーケティング・リサーチは創造性の源とはならない(という主旨なのかどうかよくわからない)

小阪玄次郎, 上智大学小阪ゼミナール (2014) 市場調査業界: ネットリサーチの登場と新旧企業の攻防. 一橋ビジネスレビュー, 114-129.

 目次に「ビジネス・ケース」って書いてあるから、そういう趣旨の記事なのだと思う。
 マクロミル、インテージ、クロス・マーケティングの比較。わたくし、たまったま市場調査の会社に拾って頂いたけど、もともとなんの関心もなかったもので、業界事情にはきわめて疎い。へー、あの会社ってそうなんだー、などと感心しながら読みました。
 マーケティングのケーススタディって案外批評性がないものなのね?なんてちらっと思っちゃったんだけど、末尾の注釈で、学生さんたちが講義の一環で書いたものだと知り、急に暖かい気持ちに。いやあ、立派だなあ。

論文:マーケティング - 読了:小阪 et al. (2014) 市場調査業界

2016年9月15日 (木)

Gibson, L.D. (2001) What's wrong with conjoint analysis? Marketing Research, 13 (4), 16-19.

 朝野先生のコンジョイント分析レビューで引用されていたので、ついでにディスプレイ上でざっと読んでみた。著者は自営の実務家だそうだ。掲載誌は米のマーケティングの団体が実務家向けに発行している機関誌で、ときどきこういう極論のコラムも載る模様。
 せっかくなので口語調でメモ。

 はっきりいわせてもらえば、コンジョイント分析って使えない。
 その理由を以下に示そう。

 なによりまず、属性や水準の数が多いとき役に立たない。これが最大の欠点。
 さらにいえば、何度も質問するから調査目的が対象者にわかってしまう。だから対象者は自意識過剰になっちゃって、価格を軽視したりしはじめる。これも欠点。

 改善案もあるって? 知ってますよ。
 改善案は大きく分けて2つある。ひとつめは、自己申告型の質問を併用するハイブリッドモデル。でもあれっておかしくない? そもそも、自己申告はあてにならない、トレードオフ型の質問をしなきゃだめだ、っていうのがコンジョイント分析の出発点でしょ? 自己申告でもいいですってんならなんでコンジョイント分析にこだわらないといけないの? 筋が通らないじゃない。
 ふたつめは、実験デザインと数理モデルをもっと複雑にしていく方向。そのおかげで、個々の対象者の個々の水準の価値を推測できるようになった。でも、「属性・水準が多すぎるとだめ」問題は解決できてない。

 結局、コンジョイント分析では、最初に誰かが「大事な」属性・水準を選ぶしかない。でもそれ、誰がどうやって選ぶの? どの属性・水準が大事かを決められる人がいるんなら、コンジョイント分析なんていらないじゃないですか。
 コンジョイント分析のためにはちゃんと選んでくれる顧客も選ばなきゃいけない。たとえば、特定のブランドに深くコミットしている人はそのブランドの選択肢ばかり選ぶので、選択シミュレーションの役に立たない。でも、どんな顧客を選んで実験するのか、実験の前にどうやったらわかるの?

 コンジョイント分析は属性と水準の重要性を測定するわけだけど、重要性とブランド選択とはちがうものだ。だとえば、新車にとって信頼性がおけることはとても重要だけど、新車というものは信頼できるものだから、信頼性は新車の選択に影響をもたらさない。
 さらにいえば、コンジョイント分析では、調査者が選んだ属性と水準の重要性が過大評価されてしまう。

 コンジョイント分析では、すべての対象者がいろんなブランドの属性・水準を客観的に把握すると仮定している。たいていの場合、これは現実的な仮定じゃない。人間の選択ってのは主観的な知覚に基づいていて、それは個人的な価値と相互作用している。知覚と現実と関係は一対一じゃない。
 それに引き替え、自己申告型(self-explicated)の選択モデリングは個人のブランド知覚に容易に対応できる。[←著者はself-explicatedという言葉を、選択時の属性知覚と部分効用を自己申告させるという意味で用いている]

 限られた属性・水準と非現実的なモデルに依拠するコンジョイント分析のせいで、嗚呼、どれだけの収益機会が失われてきたことか。
 レストランでは喫煙者より非喫煙者のほうが席を長く待たないといけないことがある。そのことについてのネガティブな知覚の重要性をあきらかにしたコンジョイント分析が、これまでにあっただろうか?
 コンジョイント分析では、属性の組み合わせに基づく戦略の収益性も見逃される。複雑な交互作用を扱えないからだ。
 潜在的に重要な属性を含めるのも難しい。チューインガムの属性として「歯を白くする」を含めることができるのは自己申告型の手法だけだ。
 コンジョイント分析では顧客の知覚を測っていないから、誤った知覚を訂正することもできない。

 それに引き替え、自己申告型選択モデリングの妥当性を示す証拠は蓄積されている。Green & Srinivasan (1990) のレビューをみよ。Srinivasan先生ってのはね!AMAの賞を貰った偉い先生なんだよ!
 Marder(1999, CanadianJ.Mktg.Res.)はSUMMという自己申告型モデルを作っている。このモデルでのシミュレーションと、実際の選択実験の結果と比べると、なんと相関0.88なんだよ!
 自己申告型のモデルは単純で優秀。クライアント様の収益機会発見をお手伝いするためには、やっぱり自己申告型モデルだよ!!

 。。。あー、いるいる!いるよね、こういうこと言う人!
 と一人で盛り上がりながら楽しく読了。市場調査に関わる(おそらくベテランの)方々がいかにも言いそうなコンジョイント分析批判を集めてきて、鍋でとろーりと煮詰めました、という感じの内容である。あまり論理的ではないけれど、読みやすく刺激的な内容であった。
 ご主張への賛否は、ま、読み手に任されている問題であろう。私は内容のうち1割くらいが著者ご自身の概念的混乱、残り九割はただの言いがかりだと思ったし、わけのわかんない理屈で褒められた自己申告型手法のほうもいい迷惑だろうと心配したが、この手のご意見とどうやって向き合うかを考える機会が得られるという意味で、勉強になる文章であった。こういう極論が、酒場での放言を超え、ちゃんと活字になっているという点が素晴らしいですね。

論文:マーケティング - 読了:Gibson(2001) コンジョイント分析をディスり倒す

朝野熙彦(2004) コンジョイント分析の定義と適用をめぐる論争点. 経営と制度, 1, 1-24.

 都立大時代の朝野先生による紀要論文。意外に入手が難しく、国会図書館関西館に複写依頼した。丁寧にコピーしてくださって、ほんと、ありがたいです。

 コンジョイント分析黎明期の原理的議論が大変興味深い。勉強になりました。10年以上前の論文なので、パラメータ推定の話はいまとはかなりちがうんだけど(現在の主流はたとえ効用の消費者間異質性に関心がなくてもHBモデルを組むやりかただろう)、その辺は他でも勉強できるわけだし。

 いくつかメモ:

 付録にはなんと、いくつかの古典的コンジョイント分析モデルの推定方法について、詳細な解説がついている。60年代のクラスカルの単調回帰とか。

論文:調査方法論 - 読了:朝野(2004) コンジョイント分析の歴史を辿る

2016年9月13日 (火)

de Jong, M.G., Steenkamp, J.E.M., Fox, J.P., Baumgartner, H. (2008) Using item response theory to measure extreme response style in marketing research: A global investigation. Journal of Marketing Research, 45(1), 104-115.

 回答スタイルの文化差の実証研究。調査の評定尺度の両端に回答する傾向(extreme response style, ERS)に注目する。
 前に回答スタイル研究のレビュー記事を書いた時に、集めたけど結局紹介しなかった論文。このたび思うところあってきちんと目を通してみた。
 この論文の見どころはなんといっても、ERSを定量化するための精緻な統計モデルにある。さあいでよIRT! その謎な専門用語で人々を煙に巻くがよい!

 えーっと、まずは先行研究概観。
 以下、ある尺度において観察されたスコア$X$を、真のスコア$T$、体系的エラー$S$、ランダムエラー$E$にわけて
 $X_i = T_i + S_i + E_i$
とする。$i$は個人を表す添え字。$S$のソースのひとつがERSである。
 個人のERSとはなにか。典型的には、リッカート尺度項目で両端につけた項目の数と考えられる。項目を$k$とし、両端につけたことを表すダミー変数を$EXTR_{ik}$として
 $\hat{ERS}_i = \sum_k EXTR_{ik}$
ERSの定量化にあたって「両端しかみない」というこの戦略を、本研究でも踏襲する。理由その1、そうしている人が多いから。理由その2、acquiescence回答と操作的に区別するため。

 個人のERSをどうやって測定するか。路線は2つある。
 その1、ERS測定専用の項目セットをいれる。Greenleaf (1992 POQ)というのがある。でも欠点が多い:

その2、実質的な構成概念を図るべく設計された項目からERSの指標を出す。この方法の欠点:

 おまたせしました、ここから提案モデルです。

 まずは2パラメータ正規累積IRTモデルを考えます。$\Psi(\cdot)$を標準正規CDFとして、
 $P(EXTR_{ik} = 1 | ERS_i, a_k, b_k) = \Psi[a_k (ERS_i - b_k)]$
これを項目特性曲線といいます。$a_k$を弁別力、$b_k$を識別度といいます。[IRTになじみがない人向けの説明がひとくさり。略]

 さあ、ここからが本番。モデルを拡張する。

 ここまでを整理しよう。

 ついでに、ERSについての構造モデルも組む[先生、そこまでやらんでも...]。
 個人レベル共変量を$X_{1ij} \ldots X_{Qij}$、国レベル共変量を$W_{1ij} \ldots W_{Sij}$として、
 $ERS_{ij} = \beta_{0j} + \beta_{1j} X_{1ij} + \ldots + \beta_{Qj} X_{Qij} + \eta_{ij}$
 $\beta_{qj} = \gamma_{q0} + \gamma_{q1} W_{1qj} + \ldots + \gamma_{qS} W_{Sqj}$
 $\eta_{ij} = N(0, \sigma^2)$
 $[u_{0j}, \ldots, u_{Qj}]^t \sim N(0, T)$

 やれやれ。これを階層ベイズモデルとしてMCMCで解こうってわけです。
 なお、無事$ERS_{ij}$が推定できたら、項目回答を修正することもできる。やり方はPodsakoff et al.(2003 J.App.Psych.)をみよ。

 シミュレーション。[略]

 実データへの適用。
 GfKさんとTNSさんが行った26ヶ国調査のデータを使います。国あたりサンプルサイズは335~1181、トータルで12506。
 設問は19問プラス2項目、全項目数は100。すべて5件法。個人レベル共変量は年齢、性別、教育(高低の2水準にする)。
 モデル選択。項目パラメータの変動ありなし、テストレットありなし、で4モデルを組んでベイズファクターで比較したら、両方入れたモデルがよかった。
 結果。項目パラメータは大きく変動していた。やっぱ単純なERS指標ではいかんということである。さらに項目パラメータは国によってもちがっていた。云々。
 ERSの規定因はなにか。国レベル共変量として、個人主義、不確実性回避、男性性、権力距離なんかをいれてみたら、個人主義、不確実性回避、男性性の高い国でERSが高かった。云々。

 論文の最後ではERSを説明するモデルを検討しているけど、それよかERSの国別平均のチャートのほうが面白い。とびきり高いのがロシア。低いのが台湾、タイ、そして中国。日本は世界平均よりちょっとしたくらい。うーん、Chen, Lee, Stevenson(1995)によれば日本と台湾はMPRが高く(ERSと逆)、また私の周囲では中国本土はやたらERSが高いというのが定説になってるんだけど、この論文の結果はちょっとちがうわけね。やっぱり、回答スタイルの傾向を個別の観察報告から一般化するのは難しい...

 いやー、しっかし、読んでいて楽しい論文だ。要するに「ある対象者が両端につけた項目数を数えよう、それが多い人は『極端につけやすい人』だ」という素朴なアイデアを、階層ベイズIRTモデルでもってどんどん精緻化していくわけなんだけど、その精緻化の仕方に筋が通っていて無理がないように思う。
 回答スタイルはERS以外にもいろいろあるわけなので、Allenby兄貴たちのモデルみたいに、二値IRTじゃなくて段階反応モデルを考えたほうが、枠組みとしては一般性がある。でも、実はAllenby兄貴たちのモデルでも、推定の都合上、閾値のあいだに結構恣意的な制約を掛けているようなので、要するに、実用上どちらがいいかは場合によるだろうと思う。
 これ、どうにかしてMplusで推定できないものだろうか...

論文:データ解析(2015-) - 読了: de Jong, Steenkamp, Fox, Baumgartner (2008) 世界各国の人々の「調査でX件法の両端にマルをつけたがる傾向」

2016年9月12日 (月)

Wyss, R., Ellis, A.R., Brookhart, M.A., Girman, C.J., Func, M.J., LoCasale, R., Sturmer, T. (2014) The role of prediction modeling in propensity score estimation: A evaluation of logistic regression, bCART, and the Covariate-Balancing Propensity Score. American Journal of Epidemiology, 180(6), 645-655.

 難しい話にはあまり関わらないように努力しているのだが、先日うっかり間違えて、Imai & Ratkovic(2014)の共変量バランシング傾向スコア(CBPS)というのを読んじゃったので、これ試した人いるのかな... と思って手に取った論文。ちょっとした現実逃避であります。

 いわく。
 最近では、傾向スコアの推定に際して、処理割付の予測ではなく、共変量のインバランスを最小化することに焦点を当てるアプローチが提案されている。そのひとつがCBPS。ほかにGraham et al.(2012 Rev.Econ.Stud), Hainmueller (2012 Polit.Anal.)というのがある。
 CPBSは、処理割付を予測するロジスティック回帰モデルのMLEのかわりに、処理割付予測と共変量バランシングの両方を同時に最適化する。すでにRで実装されている。薬剤疫学の文脈に適応した研究はみあたらない。
 本論文ではCBPS、ロジスティック回帰、bCART(ブーステッドCART)を比較する。

 処理変数(二値)を$T_i$、共変量のセットを$X_i$、傾向スコアの関数形式を$(1+\exp(-X_i \beta))^{-1}$とする。[以下、入力が面倒なので、$PS(X_i, \beta)=(1+\exp(-X_i \beta))^{-1}$と略記する]
 CPBSの共変量バランシングとは次の通り。リサーチャーが$X_i$の関数$\tilde{X}_i$を決めたとして(典型的には$\tilde{X}_i=X_i$)、
 $\frac{1}{N} \sum_i^N \left(\frac{T_i}{PS(X_i,\beta)} - \frac{1-T_i}{1-PS(X_i,\beta)} \right) \tilde{X}_i = 0$

 シミュレーション。
 共変量$X_1, \ldots, X_{10}$を考える。うち1,3,5,6,8,9が二値、残り4つが標準正規。
 $X_1, \ldots, X_7$から二値の処理変数を生成する。次の7種類。

  • 線形・非加法。7変数の線形和。
  • 弱い非線形。$X_2$を$X_2+X_2^2$にすり替える。
  • 非線形。$X_2, X_4, X_7$をそれぞれ$X_2+X_2^2, \ldots$にすり替える。
  • 弱い非加法。$X_1$を$0.5 X_1 X_3$にすり替える。同様のすり替えを計4項で行う。
  • 弱い非線形&弱い非加法。
  • 非加法。弱い非線形と同様のすり替えをあちこちで行って、交互作用項が10個あるモデルをつくる。
  • 非線形&非加法。
  • アウトカムの生成モデルは固定。10個の共変量の線形和から、$0.4T$を引いた値とする。
     以上の生成モデルの係数は、先行研究のをそのまま使った。
     シミュレーション。全10変数をロジスティック回帰、bCART、CBPSに投入し、傾向スコアを推定。bCARTはRのtwangパッケージを使った。[←twangって、恥ずかしながら初耳...。パッケージ名は中国人の姓とかじゃなくて、Toolkit for Weighting and Analysis of Nonequivalent Groupsだそうだ。ふつうのブーステッドCARTじゃなくて、傾向スコアに特化した奴なのかな]
     傾向スコアをウェイトにした$Y$の$T$へのWLS回帰を行い、平均処理効果を求めた。ウェイティングはSMRというのとIPWの二種類。とかなんとか...

     結果。CBPSは良いっぽい。[すんません、読んでないっす]

     考察。
     先行研究では、傾向スコアモデルの予測性能を変数選択で改善しても、交絡のコントロールが改善するとは限らない、ということが示されてきた。本研究では、同じ共変量セットでコントロールした傾向スコアモデルでも、処理割付の予測の改善と交絡コントロールのあいだに強い対応がないということが示された。[あ、なるほど...これ、そういう視点の研究ともいえるのか...]
     CBPSは良さそうです。ま、いつもCBPSが勝つとは限らないでしょうけどね。複数のやりかたでやってチェックするのがいいんじゃないすか。
     云々。

    論文:データ解析(2015-) - 読了:Wyss et al.(2014) 共変量バランシング傾向スコアを使ってみた

    2016年9月 8日 (木)

    Tu, D., Shalay, K., Pater, J. (2000) Adjustment of treatment effect for covariates in clinical trials: Statistical and regulatory issues. Drug Information Journal, 34, 511-523.
     臨床試験における共変量調整についてのレビュー論文。仕事の都合とはいえ、我ながら地味なことを調べておるものだ...

     デザイン時点での調整(事前調整)について。
     まずは層別無作為化。少数の共変量にしか対応できないのが欠点。多施設試験で施設を共変量にしたいときとかに困る。
     動的割付。よく使われるのは最小化法。その統計的効率性についての研究はまだ不十分。
     ここで我々のシミュレーションをご紹介しよう。[...結構長い。省略。共変量の事後調整にはMHカイ二乗検定をつかっている]

     事後調整について。
     事前調整をやっている場合でも、やはり事後調整は必要だ... [研究紹介。省略]
     やりかた。(1)層ごとに差をだして重みづけ。もしアウトカムが率ならMH検定である。(2)モデルを組む。ロジスティック回帰とかCox比例ハザードとか。blockingしているときには正しいpermutation分散を求めよという指摘もある(Lachin, Matts, Wei, 1988 Control.Clin.Trial)。
     調整する共変量は事前に決めとかないといけない(事後に決めてよいとなると結果が操作できることになるから)。
     [そのほか、もし比例ハザード性がなかったらどうすんだ、共変量調整後カプランマイヤー曲線ってどうやって描くんだ、といった話が続く。興味深いけど、いま関心ないのでパス]
     事例紹介。[パス]

     。。。臨床試験の話は参考になるんだけど、自分の仕事とは距離がありすぎて飽きる面もある。もうちょい別の文脈の論文も探しているんだけど...

    論文:データ解析(2015-) - 読了:Tu, Shalay, Pater (2000) 臨床試験における共変量調整

    Imai, K., Ratkovic, M. (2014) Covariate balancing propensity score. Journal of the Royal Statistical Society, B., 76(1), 243-263.
     なにかの気の迷いで手に取った論文。新しい傾向スコアをご提案しますというもの。

     観察単位を$i$, 二値の処理変数を$T_i$、事前に既知な共変量の長さ$K$の列ベクトルを$X_i$とする。
     傾向スコアとは、$X_i$の下で処理を受ける条件付き確率$P(T_i = 1 | X_i = x)$である。
     処理状態$t \in \{0,1\}$の下での潜在的アウトカムを$Y_i(t)$としよう。処理変数に無視可能性があったら、すなわち
     $\{Y_i(0), Y_i(1) \} \mathop{\perp\!\!\perp} T_i | X_i$
    であるならば、処理変数は真の傾向スコア$\pi(X_i)$の下でもやはり無視可能である。すなわち
     $\{Y_i(0), Y_i(1) \}\mathop{\perp\!\!\perp} T_i | \pi(X_i)$
    というわけで、共変量$X_i$を全部条件づけなくても、傾向スコアを条件づけるだけで、処理効果を不偏推定できるわけである。ステキ。

     さて、傾向スコアをどうやって求めるか。ふつうはパラメトリックなモデルを考えるわね。たとえばロジスティック回帰で
     $\displaystyle \pi_\beta (X_i) = \frac{\exp(X_i^t \beta)}{1+\exp(X_i^t \beta)}$
    とかね。$\beta$は最尤法で推定したりなんかしてね。
     問題は、傾向スコアのモデルを誤指定してたらどうなるんだ、という点である。ノンパラなモデルを組むという方向性もあるが、共変量の次元数が大きいときは大変である。
     
     そこで共変量バランシング傾向スコア (CBPS)をご提案します。
     上の傾向スコアのモデルは、傾向スコアで処理変数を予測するというモデルである。そうじゃなくて、傾向スコアで共変量をバランシングすることを考える。つまり、傾向スコアの逆数でウェイティングして、
     $\displaystyle E \left( \frac{T_i \tilde{X}_i}{\pi_\beta (X_i)} - \frac{(1-T_i) \tilde{X}_i}{1-\pi_\beta (X_i)} \right) = 0$
    となるような傾向スコアを目指すわけである。ここで$\tilde{X}_i$とは$X_i$の関数で、リサーチャーが好きに決めるんだけど、たとえば$\tilde{X}_i = X_i$とすれば各共変量の一次積率がバランスされる。
     ところで、従来の傾向スコアの最尤推定量をごにょごにょするとわかるのだが、従来の傾向スコアは、この定式化で$\tilde{X}_i = \pi'_\beta(X_i)$とした場合に相当する。処理変数を強く予測する共変量を重視しているわけである。
     オリジナルの傾向スコアと同様、アウトカムは全然みてないという点にご注目。[←傾向スコアの改善案のなかにはアウトカムデータを使う奴があるのだそうだ。へー]
     また、とにかく共変量をバランシングさせることを考えているわけで、無視可能性の想定は要らないという点にご注目。仮に未知の交絡因子があっても、とにかく既知の共変量だけはバランスできる(処理効果の推定値は歪むけど)。
     
     傾向スコアの推定について。もし共変量バランシングだけだと丁度識別、従来のモデルからでてくる条件と併用すると過識別になる。さてどうやって推定するかといいますと...
     [...難しくて理解できないが、まあ要するに、どっちにしても推定量が作れるんだってさ。へー]
     なお、過識別モデルの場合にはモデルの指定が正しいかどうか検定できるので嬉しい。

     関連手法との関係。[いろいろ書いてあるけど、難しいのでパス]

     シミュレーション。
     共変量は4つ、MVNに従う。真のアウトカムモデルは線形回帰で、処理群のアウトカム平均は定数だけ高い。真の傾向スコアモデルはロジスティック回帰で、0.5の確率で処理群に落ちる。で、共変量がそれぞれ非線形に変換してある。うーん、このイケズ。
     従来手法(共変量でロジスティック回帰する傾向スコアモデル。実は誤指定である)、提案手法(従来手法と併用しないタイプ、するタイプ)、真の傾向スコアモデル、の4つで傾向スコアを出す。で、HT, IPW, WLS, DRという4種類のウェイティング推定量を試す。[←えええ。そんなに種類があるんだ... 知らなかったよ...]
     結果。提案手法がよかった由。[なんかいろいろ議論しているけど、難しそうなのでパス]

     今後の拡張。処理が3水準以上のときどうするか。標本に代表性がないときどうするか。
     云々。

     。。。えーっと...告白しますとですね...観察じゃなくて実験で、対象者を条件に割り付けるときに、単純無作為化に頼らずもっと積極的に、たくさんの共変量をうまいことバランシングさせましょう、って話なのかなと思って読んだのである。タイトルだけ見て、えっ、割付の最適化に傾向スコアを使うの?! それってわけわかんないけどすごそう!とぬか喜びしたのである。ごめんなさい、ごめんなさい。
     ま、自分なりに勉強になったので、よしとしよう。えーと、提案手法はRのCBPSというパッケージになっているそうだ。

    論文:データ解析(2015-) - 読了:Imai & Ratkovic (2014) 共変量バランシング傾向スコア

    Schmittlein, D.C., Cooper, L.G., Morrison, D.G. (1993) Truth in concentration in the land of (80/20) laws. Marketing Science, 12(2), 167-183.
      別にいま読まなくてもいいんだけど、 ちょっと思うところあって目を通した。
     たとえば、ある製品の売上を調べてみたら、上位20%の顧客が売上の80%を占めてました!なんていうことがあるけど、よくよく考えてみるとその意味するところは結構難しい、「上位20%セグメント」が売上の80%を占めているといえるかどうかはわからないよ、という論文。
     自分なりにひとことでまとめちゃうと、要するに、有限期間において観察された購入量には誤差が乗っているのを忘れなさんな、というのがポイントであろう。

     次のようにモデル化しよう。あるカテゴリなり製品なりについて、世帯$i$の購入速度を$\lambda_i$とする。長さ$t$の観察期間中の購入量$X_i$はポワソン分布に従うと考えて
     $P_p(X_i = x | \lambda_i) = \frac{(\lambda_i t )^x}{x!} \exp (-\lambda_i t), \ \ x=0,1,2,\ldots$
    購入率の異質性を形状$r$, 尺度$1/\alpha$のガンマ分布で表すことにして
     $g(\lambda | r; \alpha) = \frac{\alpha^r}{\Gamma(r)} \lambda^{r-1} \exp(-\alpha \lambda)$
    これを累積すると、
     $P_{NBD} (X = x) = \int^1_0 P_p(X = x | \lambda) g(\lambda | r; \alpha) d \lambda$
     $= \frac{\Gamma(r+x)}{x!\Gamma(r)} \left( \frac{\alpha}{\alpha+t} \right)^r \left( \frac{t}{\alpha+t} \right)^x$
    という負の二項分布(NBD)になる。 売上の上位顧客への「観察された」集中はこの式で生成されている、でも「真の」集中は$\lambda$の分布の関数だ。

     ここで、ローレンツ曲線をつかった説明をお送りしよう。
     ローレンツ曲線$L(p)$とは、第$p$パーセンタイルまでの世帯の購入量が全購入量に占める割合だ。80/20法則とは、観察された購入量で書いたローレンツ曲線$L_x(p)$が$L_x(0.8)=0.2$であることに対応する。
     観察された購入量じゃなくて、真の購入率$\lambda$のローレンツ曲線$L_\lambda(p)$について考えよう。 $\lambda$の分布$g$のCDFを$G$として
     $L_\lambda(p) = \frac{1}{E[\lambda]} \int_0^{G^{-1}(p)} \lambda g(\lambda) d\lambda$
    となる。[えええ? この式の導出、ちょっと頭が追いつかないんだけど... まあ信じることにしよう...]
     さて、$g$がガンマ分布だとして、代入して展開していくと、結局こうなる:
     $L_\lambda(p) = F(F^{-1}(p|r, 1)|r+1, 1)$
    ここで$F(p | r, \alpha)$はガンマ分布のCDF。[導出過程は理解できませんでしたが、信じます]
     この式から次のことがわかる。
     真のローレンツ曲線$L_\lambda(p)$は、もとのガンマ分布の形状パラメータ$r$だけに依存する(尺度パラメータには依存しない)。$r$は$\lambda$の集中の指標になっている。$r$が大きいと集中度は小さい。
     観察されたローレンツ曲線$L_x(p)$は常に真の曲線$L_\lambda(p)$の下に位置する。で、$t$が大きくなるにつれ$L_x(p)$は$L_\lambda(p)$に接近していく、つまり、集中度が下がる。

     話を戻して...モデルを手直しします。

     というわけで、手直ししたモデルをいろんなデータに当てはめて真の集中度を推定する。観察の結果、概して、

     というわけで...
     実務家のみなさん。表側に浸透度、表頭に集中度を取った戦略マトリクスを書くことがあるじゃないですか。低浸透・低集中な市場では認知とトライアル拡大が大事だ、高浸透・高集中市場では熾烈な価格競争が起きやすい、低浸透・高集中市場ではニッチを狙うかマスを狙うか考えろ、高浸透・低集中市場では配荷とサポートを手厚くせよ、みたいな。我々のモデルを使えば、浸透度を$q$、集中度を$r$で表せるですよ。違うカテゴリでもちゃんと比較できるですよ。云々。

     うーーーーん。。。。
     正直、違うカテゴリの間で購買量の分布の形状(というか、ローレンツ曲線)を比較したいと思ったことが一度もないので、わざわざモデルを組んだありがたみが全然わかんないんだけど、それは私の視野が狭いからで、役に立つという人もいるのだろう。

     それはともかく、頭の体操としてとても面白かった。なるほどねえ。仮に全世帯の消費速度が同一でも、観察期間中の購入量にはばらつきが生じるから、縦断的には平均への回帰が起きるし、横断的にいえばローレンツ曲線は45度線にならず、常に下方向に歪む。つまり、顧客の購入量の分布は、ある観察期間についてみるとパレート法則に従っていても、ほんとはそんなには上位層に集中してないかもしれないわけで、ちょっと均して捉えないといけないわけだ。
     この論文は顧客の異質性についての論文だけど、これってきっと商品の異質性についてもいえることだろう。ある期において商品の売上が商品間ですごくばらついていても、次の期では平均への回帰が起きうる。いっけんロングテールな商売のようにみえても、実は思ったほどじゃないかもしれないわけだ。

    論文:データ解析(2015-) - 読了:Schmittlein, Cooper, & Morrison (1993) 「80:20の法則」の神話

    2016年9月 7日 (水)

    Fabrigar, L.R., Wegener, D.T, MacCallum, R.C., Strahan, E.J. (1999) Evaluating the use of exploratory factor analysis in psychological research. Psychological Methods, 4(3), 272-299.
     心理学における探索的因子分析(EFA)の使われ方について批評する内容。ホットな話題とはいいにくいが、仕事の役に立つかもと思って目を通した。仕事ってのはですね、実に地味地味しいものなのですよ。そんなことないですか。

     中身は無視して概要だけメモしておく。いや、眠くて参った。

     前半は方法論的諸問題の整理。
     その1、研究デザイン。項目をうまく集めること、標本をうまく集めることが大事だ、云々。
     その2、EFAが適切か。PCA, CFAとの比較。
     その3、適合手続きの選択。ML法, 主因子法の特徴。
     その4、因子数の選択。少なすぎる・多すぎることの弊害、カイザー基準とかスクリー基準とか平行分析とか適合度指標とか。
     その5、回転法。単純構造、直交と斜交のちがい、など。

     後半は事例による説明。すんません、読んでないです。

     最後に、JPSPならびにJ.App.Psych.誌上でEFAを使ってる論文を集めて集計。半分近くがvarimaxを使ってましたとか。ま、この辺は時代によるのでは...。

     まとめ。EFAの使われ方は概してなっとらん。その理由のひとつは、EFAについてのユーザ向け解説やトレーニングの不足であろう。また、前例に従うという悪しき伝統のせいでもある。簡単なソフトが普及しちゃった割には機能が貧弱だ、という理由もある。精進せえ。云々。

     。。。正直、体調のせいでもう眠くて眠くて、何度も意識を失った。でも、おまえらEFAでデータ縮約してんじゃねえよとか、主因子法にもそれはそれでいいところがあるんだとか、実際に手を動かす人にとってとても役に立つ内容であったのではないかと思う。日頃みようみまねで因子分析しているけど、これでいいのかいまいち不安だって人、こういうのをきちんと読むといいんじゃないすか。わたしゃきちんと読んでないけど。どうもすいません。

     気になった点をメモ。事例のところで、適合度としてRMSEAのほかにECVI(expected cross-validation index)というのが用いられている。これ使ったことないなあ。LISRELやPROC CALISで出るらしい。Mplusではどうすんのかなと思ったら、tech5の出力から手計算できる、というようなことがMplusの掲示板に書いてあった。MacCallum, et al.(1994 MBR)というのをみるといいらしい。 ふーん。

    論文:データ解析(2015-) - 読了:Fabrigar, et al. (1999) おまえらの探索的因子分析はまるでなってない、もっと精進しろ

    狩野裕(1998) 不適解の原因と処理:探索的因子分析. 大阪大学人間科学部紀要, 24, 303-327.

     前から読もうとストックしてあった奴。都合で急遽目を通した。

     探索的因子分析では不適解が出ることがある。不適解とは、SPSSとかが「共通性が1を超えました」などと木で鼻をくくったようなメッセージを出してくること、すなわち、独自因子の分散のなかに0以下の値が出現すること。Heywoodケースってやつですね。
     因子分析のモデルからいえば、独自因子分散$\Phi_i$の母数空間は$0 \leq \Phi_i \leq \sigma_{ii}$だ($\sigma_{ii}$は観測変数の分散)。でも最適化問題としては$\Phi_i \leq 0$を許しているから、こういうことが起きるわけである。

     不適解が起きる理由は、大きく4つある。

     A. 標本変動。推定量が運悪く上記の制約の外側に出ちゃうことは、そりゃありうる。いうなれば良性の不適解である。
     不適解の原因が標本変動だと判断するためにはどうしたらよいか。上記の制約を気にせずに推定したとき、(1)反復は収束するし、(2)推定値は初期値やアルゴリズムを問わず安定しているし、(3)独自因子分散のSEはほぼ同じ大きさになり、(4)その信頼区間は0を含み、(5)基準化残差は大体同じになる、ってんなら、それは標本変動のせいだとみてよろしかろう。[基準化残差ってのは、式は省略するけど、えーっと、要するに標本分散行列からモデルで説明できる分を引いて基準化したやつね]
     もし原因が標本変動だと判断されたならどうするか。不適解であろうがなかろうが、独自因子分散の信頼区間が0を含むようなモデルは採択すんな、という意見もある(Bagozzi & Yi, 1991 JCR)。いっぽう、その場合は独自因子分散を0に固定した解をつかっちゃってよい、その項目のパラメータはともかく、ほかのところはわりかしうまく推定できているはずだから(Gerbing & Anderson, 1987 MBR)...という意見もある。

     B. 識別性。因子モデルの識別のためには因子負荷行列の各列に非ゼロ要素が3つ以上ないといけないが、そうなっていない場合。細かく分けると、(B1)非ゼロ要素が1つしかない場合。それって独自因子じゃん、要は因子数が多すぎるんじゃん、という話。(B2)2つしかない場合。このときは、因子数を減らすと適合が悪くなってカイ二乗検定でひっかかるわ、さりとて減らさないと不適解だわ、という八方ふさがりに陥る。
     どう判断するか。まず収束しにくくなりますわね。推定値は当該の1or2項目について不安定になる。独自因子分散のSEは当該の1or2項目ででかくなり、しかし信頼区間が0を含むとは限らない。このように、 さっきのチェックリストのうち(1)(2)(3)(4)にひっかかるはずである。 ついでにいうと、B2の場合は因子数を一つ減らして残差独立性をLM検定すると有意になるはず。
     対処。B1の場合、因子数を減らす。そのモデルの適合が悪く棄却されちゃう場合は、標本サイズが大きすぎると捉えて、 カイ二乗検定をあきらめGFIやCFIをみるか、多変量正規性の仮定が崩れていると捉えてADF推定するか。B2の場合は、独自因子の共分散を推定するか、因子負荷なり独自因子分散なりに等値制約を置くか。[←うーむ、どこまでもSEM的な解決策だ... SPSSとかでEFAやっている人は困るだろうな]

     C. 因子モデル不適合。これにはいろんなパターンがあるんだけど、整理されていない。典型的には次の2つのケースが挙げられる。
     (C1)独自分散の真値が負。5つのチェック項目のうち(4)だけに引っかかる。項目を削るしかない。
     (C2)モデルに合わない変数がはいっている。その変数を突き止めて削るしかない。

     D. 上記以外いろいろ。たとえば外れ値とか。

     後半は事例。メモは省略。

     考察。「本稿では探索的因子分析における不適解の原因と処理について議論してきたわけであるが、率直な意見として、かなりテクニカルだと言わざるを得ない」と、せっかく読んできた読者の膝を後ろからカックンさせるようなセリフに続いて、EFAじゃなくてもっと別の主成分モデルっぽいのを考えたほうがいいんじゃないかという話。独自因子分散を考えるんだけど、それを標本分散に比例させちゃう(つまり信頼性を固定する)モデル、とか。

     。。。大変勉強になりましたです。
     もし他の方がこの論文と同じ趣旨の解説を書いたら、B1では「その項目を削れ」、B2では「その2項目を併合せよ」、という案に触れるだろうな、と思う。実際、EFAにおける不適解についての解説は、対処法として真っ先に「共通性が高すぎる項目を削る」「併合する」を挙げることが多いと思う。この辺の書き方の違いは、著者の先生のお立場の反映なのだろう。
     たしかに、ああいう機械的なアドバイスってどうなの、と思うことあるんですよね。項目選択ってのはなによりも大事なもので、リサーチャーが死ぬほど頭を捻って選んでる(はず)なんだから、たかが不適解くらいでそうそう簡単にいじれないよ、と。ま、この辺は分析の文脈にもよる。

    論文:データ解析(2015-) - 読了:狩野(1998) 探索的因子分析の不適解はなぜ起きるか、どう対処するか

    « 2016年8月 | メイン | 2016年10月 »

    rebuilt: 2020年11月16日 22:40
    validate this page