elsur.jpn.org >

« 読了:Domingos(2012) 機械学習について知っておきたい12の事実 | メイン | メモ:スポーツ・スポンサー契約がもたらす価値をどうやって推定するか:マッチング理論の巻 »

2016年1月10日 (日)

Ronkko, M., McIntosh, C.N., & Antonakis, J. (2015) On the Adoption of Partial Least Squares in Psychological Research: Caveat Emptor. Personality and Individual Differences, 87, 76-84.

 構造方程式モデリング(SEM)の研究者が集うメーリングリストSEM-NETを眺めていて気が付いた論文。なにより驚いたのは第2著者の名前。Cameron McIntosh!! Cameronさんじゃありませんか!!
 SEM-NETを読んでいる人なら知っていると思うけど、世界中の有象無象が送りつける、統計モデルにまつわるありとあらゆる質問に対し、適切な参考文献リストを一瞬にして返信する謎の人物、それがCameronさんであった。その速度と博識は人間業をはるかに超え、Cameronとはどこかの研究所の奥深くの人工知能なんじゃないか、ないし脊髄から光ファイバーがgoogleのデータセンターに伸びている人なんじゃないかと思っていたのである(日本語だからと思って云いたい放題ですね、すいません)。数年前にぷつりと行方を晦ましていたのだが、お元気であったか!というか、Camって実在する人物だったのね!(すいません)
 あまりの衝撃に、researchgateのdraftを読んだ。夜中にディスプレイで 。なにやってんだ、この忙しいときに...

 SEMのバリエーションであるPLS-SEM(偏最小二乗法SEM)を批判する論文。PLS-SEMは回帰の文脈でつかうPLS回帰とはちょっと違ってて... まあとにかく、SEMの推定手法のひとつである。日本語の資料はほとんどみかけないが、マーケティングの分野では結構メジャーではないかと思う。ある方がまとめたマーケティング分野でよく引用される論文Top20の第1位はPLS-SEMのレビューだったし、顧客満足の分野で有名な米顧客満足指標(ACSI)のモデルはたしかPLS-SEMに基づいていたはずだ。私も仕事で使ったことがあります、すいません。
 PLS-SEMに対する批判というのは珍しくなくて、情報科学系のジャーナルでも熾烈な罵倒と反論が交わされているのを見かけたことがある。第三著者のAntonakisさんもかつてPLSを痛烈に批判していた。この論文の主たる仮想敵はWillaby et al (2015, 同誌) という論文で、心理学での個人差研究におけるPLS-SEMのレビューらしい。

 著者ら曰く。
 そもそもPLS-SEMはSEMじゃない[←そうきたか...。以後、著者らは執拗に、PLSウェイティング・システムという言葉を使うが、面倒なのでPLS-SEMと略記する]。古典的な最尤法ベースのSEMの背後には統一的な統計理論がある。PLSアプローチはわけわからない手順の寄せ集めにすぎない。PLS-SEMは、指標を加重和として合計し、その合成変数を使ったOLS回帰でパス係数を推定しているだけだ。そんなのSEMとはいわん。
 PLS-SEMは多重指標の潜在変数モデルの推定に有用か。まずこう問うべきだ。(1)潜在変数のあるSEMを、潜在変数を合成変数で近似して推定するのは良いアイデアですかね? (2)その合成変数を求めるために最良の方法はなんですかね?
 (1)について。どうみても答えはノーだ。なぜなら、合成変数は指標の測定誤差を継承する。そのせいでPLS-SEMには一致性がないし(真値への漸近的収束がない)、不偏性もない。一致性がないというのは特に深刻だ。かのグレンジャー先生はこう言っている。nが無限大になっても正しくならないようなものを使うな、と。
 (2)について。PLSのウェイトは「最適」だと人はいう。しかしなにをもって最適というのかがはっきりしない。Fornellたちは予測の最大化をもって最適と呼び、Chinたちは信頼性の最大化をもって最適化と呼ぶ。この2つは全然ちがうぞ。さらに、指標の合成の方法はほかにもある。回帰法の因子得点ウェイト、これは合成変数の信頼性の期待値を最大化する。相関保存法の因子得点ウェイト、これは因子相関を維持する[←相関保存法ってなんのことだろう、Bartlett法のことだろうか]。主成分ウェイト、これは指標の分散説明率を最大化する。これらと比べ、PLSはどういう点で優れているというのか? それどころか、PLSがつくる合成変数は信頼性が単純合計よりも低いという報告があるくらいだ。ついでにいうと、標本における信頼性を最大化するという観点では、理想的ウェイトでさえも単純合計と変わらないといわれている。[←へー。Bobko et al.(2008 ORM), Cohen et al.(2003, 書籍), Cohen (1990, Am.Psychologist), McDonald (1996 MBR), Raju et al.(1999 App.Psych.Measurement)というのが挙げられている。院生の頃だったか、因子得点をこねくり回している人に「単純合計のほうがましだよ」と言い放つ人を見たことがあって、一理あると思ったんだけど、実証研究もあったとは]
 [ここでWillabyらのデータの再分析。省略]
 PLS合成変数間の相関は不偏でない。測定誤差間の相関によってインフレを起こす。この”capitalization on chance"について、Ringleたちは「悪いことばかりじゃない、変数自体の測定誤差で合成変数間相関はデフレを起こすからトントンだ」というが、インフレとデフレが釣り合う証拠がどこにある。後者は希釈化補正なり変数誤差モデルなりで対処すべき問題だ。

 モデル検証について。
 PLS-SEMは丁度識別な回帰の組み合わせなので過識別テストはできない。もともとモデル検証というマインドセットがないのだ。
 これに対してPLS派はヒューリスティクスに頼る。信頼性指標とAVEを比べるとか、R二乗ベースの適合度指標をみるとか。前者の問題点は、PLS-SEMの因子負荷は正方向に偏るので、信頼性とAVEも偏るという点。後者の問題点は、R二乗じゃモデルの適合度はわからないという点。適合と予測とは別の問題だ。さらに、不一致な推定量だって高いR二乗を持つことがある。
 Ringleたちは最近新たな指標を提案している。これはよくみるとPLSアルゴリズムとは全然関係なくて、単に指標の相関行列から出している。発想は悪くないけど、ふつうのSEMの弁別的妥当性検証の手順より優れているかどうかは今後の課題だ。
 [ここでWillabyらのデータの再分析。省略]

 パラメータの検定について。
 PLS派はブートストラップでSEを出して t 検定する。でもPLS推定値の標本分布は非正規だから t 分布は使えないはずだ。ブートストラップ信頼区間は決め方によって結果がかわってくるし、その性質についてはよくわかっていない。
 さらにややこしいのは、いわゆる「符号反転修正」だ。これはブートストラップ反復から要約を出す前に、個々のブートストラップ反復のすべてのウェイト、負荷、回帰係数の符号を調べて、必要あらば全部反転する、という手続きである[←なにそれ、そんなことしてたの?]。この手続き、ふつうのブートストラップ法では行われない。ブートストラップ反復における統計量が元の推定で使われた統計量と同じでないといけないと述べていることになるわけで、ブートストラップの基本原理に反する。この手続きはもともとWaldの考え方に由来していて、Waldさんは、指標のウェイトの符号は不定なので「多数の指標でウェイトが正になる」ように符号を選べばいいと考えていた。しかしPLS-Graphは個々の反復についてこういう風に処理していて... これには具体的にはこういう問題があって...[と、シミュレーションの紹介に突入。めんどくさいので飛ばし読み。ようするにブートストラップ信頼区間があてにならんという話ではないかと思う]

 PLSのいわゆる「長所」について。[←ようやく本丸に攻撃を開始します。待ちくたびれたぜ]

 「PLSはサンプルサイズが小さくて良い」というのは本当か。また、「PLSは非正規データでもOK」というのは本当か。
 通常の最尤法SEMは小標本や非正規データで歪む。しかし、不偏でないかもしれない推定量を、不偏ではなく一致性もない推定量に取り換える理由がどこにあるのか。「この推定量はデータについての想定が少なく、小標本でもうまくはたらきます」だなんて、統計的推定の基本原理に反している。パラメータ推定というのは、標本情報と非標本情報(想定や制約)の組み合わせから得られるものなのだ。実際、Westland (2015, "Structual Equation Models")のシミュレーション研究は、PLSのバイアスの強さとfalse positive率の高さを示している。[←この本面白そう...]
 さらに、近年のSEMでは小標本・非正規性に対処する方法が次々に開発されている。小標本ではカイ二乗統計量を修正するとか、非正規性に多変量的変換で対処するとか、検定統計量を修正するとかロバスト推定量を使うとか。PLS理論家のなかにはこの進展を踏まえ、もうPLSを使うのは時代遅れだと認めている人もいるぞ(Gafen, Rigdon, & Straub, 2011 MIS Quarterly)。

 「PLSは探索的研究に適している」というのは本当か。
 PLSだってSEMだって、想定モデルと構造モデルを事前に決めなきゃいけない点では変わらない。さらに、PLSのウェイティングは、パスでつながれた合成変数間に高い相関があることを前提としているから、つまりすごく強い理論がないといけないわけだ。理論がないんなら単純合計のほうがマシである。さらに、SEMには探索的ツールがたくさんあるぞ、修正指標とか、モデル探索の自動化とか。[←な、なにそれ?! Marcoulides & Ing(2012)というのが挙げられている。Hoyle(ed)のSEMハンドブックの章だ]

 「PLSはformative measurementモデルに適している」というのは本当か。
 残念ながら、そもそもformative measurement自体が論争の種だ。それ自体をやめちゃえという意見もあるし(Edwards, 2011 ORM; Hardin, et al., 2011 Edu.Psych.Measurement)、すくなくともそれは測定じゃないという指摘もある(Markus & Borsboom, 2013 書籍; Rhemtulla, Bork, Borsboom, 2015 Measurement)。「項目内のすべての分散に意味がある」というformative measurementの想定には、調査データ分析に関する限り無理がある。formative指標は測定誤差という概念を否定しているわけで、これは受け入れがたい。測定誤差を考慮しつつformative measurementと同じ目的を達する手法だってある。[←なんのこと? 前掲のEdwards(2011)が挙げられている]
 百歩譲ってformative modelを受け入れるとして[←ええ、そこは百歩譲ってくださいな]、PLS-SEMがこのタイプのモデルについてうまく機能するのかどうかがよくわからない。WoldもLohmollerもそんなことは主張していない。これをもともと言い出したのはFornell & Bookstein (1982)で、彼らはPLS合成変数を構築する2つの方法(Mode A, Mode B)を統計モデルの構造(reflective, formative)と混同しただけである。近年の研究は真実をあきらかにしつつある[Aquirre-Urreta & MarakasとRigdonらの論争を引用している。Info.Sys.Res., 2014]。さらに、仮に「formative 指標は因果的性質を持たない」「formative変数とは概念的に意味がある実体ではなくただの簡便な合計に過ぎない」という立場に立つとしても、PLSはその合成変数をつくるための最適な手法とはいえない(上の"capitalization on chance"のせいで)。固定したウェイトのほうがましだ(Howell, 2013 AMS Review)。

 結論。PLS-SEMは使うな。以上。
 
 。。。ダラダラとメモしたが、PLS-SEMで作った(reflective指標の)潜在変数が測定誤差を分離できてないとか、モデル検証ができないとか、その辺はPLS-SEMユーザにとっては織り込み済みの欠点ではないかと思う。人によるでしょうけど、私だったら、普通に最尤推定できるSEMモデルをわざわざPLS推定しようとは思わない。PLS-SEMの是非をめぐる議論の焦点は、なんといっても、formative指標しか持たない潜在因子を含むSEMモデルを想定し(普通のSEMだと識別困難)、全体のR二乗を最大化するパス係数を小標本でどうにか推定したい... という場合ではないか。
 だから論文のポイントは一番最後の部分で、ドキドキしながら読んだんだけど、いきなりformative指標モデルそのものについての批判から始まり、ちょっとがっくり。モデルのよしあしと推定のよしあしは別の話でしょう。前者について言えば、formative指標そのものを排斥するのはちょっと極論で、前にBaggozziさんたちが書いていたように、要するにそれは現象をどのように概念化するかということなのだと思う。肝心の後者のPLS推定批判のほうも、引用文献任せでちょっと迫力が足りない感じだ... すいません、勉強します。

 本筋と離れるけど、推定量の望ましい性質をめぐる議論について不思議に思う点があるので、メモ。
 この論文のなかで引用されているGrangerのコメントのように、線形モデルの文脈で、なによりもパラメータ推定量の一致性を重視するという立場を見かけることは多い。しばらく前にAchenのかなりユーザ寄りのモノグラフを読んだときも、そういう断言がなされていて、へええ、と思った。
 馬鹿にされるのを覚悟でいうと、それって場合によるのではなかろうか、という気がする。たとえば調査データからSEMモデルを組んで解釈しようというような局面で、推定量の漸近的性質についてはあまり関心が持てないような気がする。リッチなデータが手に入る架空の世界で正しい結果が手に入ることより、とにかく手元の標本から得られるパラメータ推定値が誤った解釈を引き起こさないことが大事なわけで、こういう場合は、どちらかというと一致性よりも有効性(最小分散不偏性)が大事だったりしないかしらん。いやまてよ、それどころか、真値に対するMSEの期待値さえ小さければ、不偏性さえどうでもよいかも?
 うーむ、ユーザにとってほんとに大事な推定量の性質って、いったいなんだろう。学生の頃にもっと勉強しておけば、こんなことでいちいち悩まなくても済んだだろうか。

論文:データ解析 - 読了: Ronkko, McIntosh, & Antonakis (2015) PLS-SEMに怒りの鉄拳を