読了: Laken, Scheel, Isager (2018) 諸君、もっと等価性検定をやれ

Lakens, D., Scheel, A.M., Isager, P.M. (2018) Equivalence Testing for Psychological Research: A Tutorial. Advances in Methods and Practices in Psychological Science. 1(2), 259-269.

　仕事の都合でごくたまに等価性検定の話が出てくることがある。消費財のマーケティングリサーチでは、たとえば原材料や製法をコスト削減しても製品知覚は変わんないことを確認したい、というような場面が典型的である。今回もちょっと似たような用事があって、話のついでにめくってみた。ときどき読まないと忘れてしまう。
　等価性検定や非劣性検定の話をマジメに勉強するならば、それはもう医学統計の教科書をあたるべきなんだけど、今回は心理学者向けの易しい啓蒙論文。週末の気分転換だからね、と自分に言い訳して…

イントロダクション
　古典的なNHST(帰無仮説有意性検定)では、「効果量0」がH0, ほかは全部H1である(両側検定の場合)。いっぽう以下のような検定もできる。0の左にΔL、右にΔUがあるとして、

最小効果検定。「効果量はΔLとΔUの内側」がH0。ほかは全部H1。
等価性検定。「効果量はΔLとΔUの外側」がH0。ほかは全部H1。
劣性検定。「効果量はΔUより大」がH0。ほかは全部H1。

　[最小効果検定と等価性検定のあいだでH0とH1が裏表になっている。つまり、通常のNHSTのH0とH1を反転した検定というのは上には含まれていないわけね]

　等価性検定では、少なくとも意味があると考えられる程度の効果量(関心ある最小効果量, SESOI)くらいには極端な効果があるという仮説を棄却する。棄却できたからといって効果がないことにはならないことに注意。SESOIに基づき等価性境界(ΔLとΔH)を決め、ΔLより大きいという片側検定とΔUより小さいという片側検定をやる(2回片側検定, TOST)。で、小さいほうの検定量(大きいほうのp値)を報告する。そのp値がαを下回ったら統計的に等価だと結論する。[2回やるからには実は検定の多重性の問題があるけど、特に調整したりはしないわけね。まあいいんだろうな]
　NHSTでは、小さな効果を検出するためには大きな標本サイズが必要になる。同様に、等価性検定ではSESOIが小さいほど大きな標本サイズが必要になる。

　本論文では等価性検定のTOST手続についてわかりやすく説明する。なお、TOSTは(αが0.05だとして)90%信頼区間が等価性境界の内側に入るかどうかを調べているのだと考えても良いし[そうそう、そういう説明のほうが多いですよね]、効果量がなんらかの臨界値を超えて0に近いかどうかを調べているのだと考えてもいいし、NHSTのp値がある閾値を超えて大きいかどうかを調べているのだと考えても良い。

SESOIの正当化
　TOST手続きでは、まずSESOI(関心ある最小効果量)を求める。SESOIは理想的にはコスト-ベネフィット分析によって決める。で、それに基づき等価性境界(ΔLとΔU)を決める。シンメトリックでなくてもよい(0から両側までの長さが違っていても良い)。

SESOIの客観的正当化
　SESOIを理論的予測から客観的に決定することもできる。たとえば、理論的予測が「こうかは識別可能だ」だったらSESOIは丁度可知差(just-noticeable difference)となる。例をいくつか挙げよう。[心理学の話になるのでメモは省略するけど、たとえば、女性の顔色が排卵周期にあわせて赤くなりそれは進化的に有利だ、という仮説についての研究が紹介されている。確かに赤くはなってたけどJND以下だったんだってさ]

SESOIの主観的正当化
　SESOIの主観的な正当化は次の3つに分けられる。

ベンチマークを使う。たとえば、標準化効果量で\(d = 0.5\)をSESOIにするとか、\(0.1\)をSESOIにするとか。こういうのは正当化として弱いのでやめておいたほうが良い。なお、Weber & Popva(2012)によるコミュニケーション研究のメタ分析では、いわゆる中程度の効果量\(d=0.5\)をSESOIにしたとき、効果量の分布の上側25%しか棄却できない。Hemphill(2003)の心理学全体でのメタ分析では33%。[うーん、大きいような、小さいような…]
先行研究に基づいて決める。
- Simonshon(2015)いわく、先行研究における検出力が33%であるような効果量をSESOIとすべし。これをsmall telescopesアプローチという。
- Kordsmeyer & Penke (2017)いわく、先行研究の平均的な効果量をSESOIとすべし。
- 先行研究のばらつきとバイアスを考えて、もっと保守的に、メタ分析で推定した効果量のまわりの信頼区間の下限をSESOIとする。
- 先行研究で有意でありえた観察効果量のうち一番小さいのを探してそれをSESOIにするという考え方もある(実際に有意だったかどうかは問わない)。もちろん、先行研究のなかには検出力についてなんにも考えてなかったり、ほんとはもっと小さい効果量に関心があったんだけど賭けに出たようなのもあるかもしれないけど。
リソースに基づいて決める。効果量は予測できないけど収集可能なデータ量はわかっているときに、そのサイズとαに基づきSESOIをこれこれと決めます、というアプローチ。
　このアプローチは概念的に検出力アプローチに近い。すなわち、検出力が95%になる効果量を決めて、伝統的なNHSTのp値が0.5を下回っていたら「その効果量と少なくとも同じくらいに極端な効果が存在する」という仮説を棄却するという考え方である。検出力アプローチは広く用いられているが、有意かつ等価な効果が存在する可能性を無視しているし、過誤率が正確に制御されていない。
　このアプローチはリソースについての問いに答えるだけで、理論的な問いに答えていない。たとえば、一連の研究で、ある仮説が常に1標本t検定によって検証されており、標本サイズが100以下であったとしよう。標本サイズ100で\(\alpha=.05\)の両側検定なら90%で検出可能な効果量は\(d=0.33\)である。さて、新しい研究で、標本サイズ100で\(\Delta_L = -0.33, \Delta_U = 0.33\)の等価性検定をやって等価だと結論できたとしよう。このことは、少なくとも先行研究が敏感であったくらいに極端な効果があるという仮説は棄却されましたということであって、理論的な問いには答えてない。しかし、今後の研究では標本サイズをもっと大きくしなければならないとはいえる。
　先行研究がない場合、その分野なりリサーチ・クエスチョンなりに特有な合理的なリソース限界に基づいて標本サイズを正当化することができる。このやり方でSESOIを決めて等価性検定する場合、それが答えようとしているリソースについての問いが興味深いかどうかは査読者が評価すべき問題である。[たとえばある病気を持つ患者20人について検定して等価性を示したとして、SESOIを理論的に決めてなかったら、この研究からわかることは「今後その仮説を検討したかったら20人以上集めろ」であり、査読者としては「は？たった20人？あの病気の患者ならもっとたくさん集められるよ、くだらねえな」といえる、ってことね]

　SESOIの主観的正当化はほかにもありうる。たとえばFDAは生物学的等価性試験の等価性境界を設定しており、個々の研究者は勝手に決められない。

生の等価性境界 vs 標準化等価性境界
　SESOIは標準化効果量で決めてもいいし生の平均差で決めてもよい。どちらがよいとはいえない。どっちにするかによって、問いが微妙に変わっていることに注意。[なるほど…]

事例

統計的に等価でなく統計的に差異もない研究。Moon & Roeder(2014)は、アジア系アメリカ人女性にアジア人アイデンティティをプライムすると数学のテストの成績があがるかどうか調べた。先行研究とは逆に、プライムすると成績が下がったが、差は有意でなかった(\(d=-0.21\), 両側t検定で\(p=.284\))。でも検出力をコントロールしてないから効果があるともないといえない。そこで、データをみるまえに次のようにSESOIを決めたとしよう: 成績をFからA+までで表すとして、正答率が6.25%ポイント上がらないと成績は上がらないから、SESOIは生のスコアで0.0625だ。等価性境界を±0.0625として片側t検定を2回やると、\(p=.241, p=.003\)となり、有意でなかった[大きいほうのp値しかみないから]。
統計的に等価で統計的な差異がない研究。[パス]
統計的に等価で統計的な差異もある研究。Hide et al.(2008)はUSの700万人の学生を通じたメタ分析で、数学のテストの成績の学年別の性差を調べている。たとえば3年生のdは0.004。彼らによれば、dが0.1以下だったらtrivialである。そこで、等価性境界を-0.01と0.01とし、多重比較をやるのでαを0.005にして等価性検定をやると、効果量はどの学年でも統計的に等価である。しかし、どの学年でも有意差はある。この例は、統計的な有意性と実務的な有意性を区別することが大事であること、等価性検定によって心理学研究における仮説検定手続きを改善できることを示している。[うーん… SESOIをどうにかして決められるんならそうでしょうけど。この研究における0.1というのをどうやって決めたのかが問題ですよね]
統計的に劣性で統計的な差異はない研究。[パス]
統計的に等価で統計的な差異はない研究。[パス]

考察
　[…中略…]
　NHSTと同様に等価性検定も、統計的推論についてのネイマン・ピアソン的視点から解釈すれば、過誤率をコントロールしつつリサーチャーのアクションを導く方法である。等価性検定とNHSTのちがいは仮説の違いであり併用できる。デフォルトで両方やるというのがお勧め。
　いちばん難しいのはSESOIの指定である。[ここから面白いので逐語訳] 一連の研究の中で、リサーチャーは徐々に大きな標本サイズの研究を行い、等価性検定によって小さな効果量を棄却し続けるのを、そんな小さな効果の可能性を調べるために時間とリソースを指すのは無駄だと思うようになるまで続けることになるかもしれない。にも関わらず、リサーチクエスチョンに対してSESOIを全く指定しないのは理論の進展を著しく損なう。等価性検定をあなたの統計ツールボックスに入れておくことで、やがてあなたは、よりよい(そしてより反証可能な)理論へと貢献できるようになるのだ。
　云々。
——————
　勉強になりましたですー。
　えーと、「NHSTと等価性検定を両方おやりなさい」とカジュアルにアドバイスしているところが面白かった。あ、SESOIを生の差で定義するのと効果量で定義するのでは仮説が少し違うんだ、というところも盲点だったな。
　メモは省略したけど、TOSTのためのRパッケージとしてTOSTERというのが紹介されていた。

　ところで… 自分の仕事の関係では、本来なら等価性検定をやるべき状況で、αを大きめにとったNHSTをやって有意でないときH0を受容するという決定ルールを採用しているケースをよく見かける。たとえば官能評価における三点識別試験がそうだ。たいていの教科書には、しれっとH0:母比率=1/9の二項検定をやれと書いてあるけれど、識別試験はH0の受容のためにやるわけで、つまり「H0が有意じゃなかったらH0を受容しなさい」ということになり、よく考えてみるとちょっと筋が通らない(古典的なNHST理解のもとでは、検定力をコントロールしない限り、H0が有意でないことはH0の受容を意味しないはずである)。そういうのほかにもあるよね、標本分布の正規性の検定とか。時々見かける、実験群と統制群の間で個人特性がちがわないという検定もそうだ。ああいうNHSTの使い方って、なにか名前はないんでしょうか。

読書日記

読んだ本を淡々と記録します

読了: Laken, Scheel, Isager (2018) 諸君、もっと等価性検定をやれ