elsur.jpn.org >

« 2016年2月 | メイン | 2016年4月 »

2016年3月31日 (木)

Morris, P.A. (1974) Decision Analysis Expert Use. Management Science, 20(9), 1233-1241.
 Clemen (1989)のレビューで、ベイジアン合意モデルの初期研究として挙げられていたもの。80年代の論文をいくらめくっても、いまいち文脈が掴めず腑に落ちないもので、思い切って遡ってみた。こんなことをしているから睡眠時間が足りなくなるのだが。
 論文冒頭には「本論文は専門家による情報を評価する論理構造を提出する研究シリーズの一本目だ」とあるのだが、続きの論文はどれなのかわからない(調べてない)。

 いわく。
 専門家についての研究には2系統ある。(1)専門家からどうやって情報を引き出すか。(2)専門家からの情報をどう使うか。前者の研究としてはたとえばデルファイ法がある。本研究は後者に焦点を当てる。
 個々の専門家がある未知の変数について確率評定を行った場合について考える。未知の変数を$x$とする。ある情報状態$\delta$における確率密度関数を$\{x | \delta\}$とする。$\delta$の下での事象$E$の確率を$\{E | \delta\}$とする。
 一般化したサメーション演算子$\int_x$を定義しておく。$x$が離散だったら$\int_x = \sum_{all \ x}$、連続だったら$\int_x = \int_{all \ x} dx$である。
 $\delta$のもとでの$x$の期待値は次のように定義できる: $\langle x | \delta \rangle = \int_x x \{x | \delta\}$。

 [なぜこんなエキゾチックな記号を使うのか... 以下のメモでは、本文中の$\{ x | d \}$のかわりに$P (x | d)$と書き、$\langle x | d \rangle$の代わりに$E(x | d)$と書く。$x$は離散だと決め打ちし、$\int_x$のかわりに$\sum_x$と書く]

 まず、専門家が一人の時。
 専門家の持つ事前分布を$P(x | e)$、意思決定者の持つ事前分布を$P(x | d)$とする。[←以下を読んでいくと、専門家は事前分布を更新しない。ただ公表するだけだ。つまり、ここでいっている事前というのは、意思決定者が専門家の情報によって自分の信念を更新する前、という意味合いだ]
 専門家からの情報をどう使うか。いま、専門家が自分の事前分布$P(x | e)$を公表したとしよう。意思決定者はベイズの定理に従って自分の確率評価を更新する。
 $P(x | P(x|e), d) = \frac{P (P(x|e) | x, d) P(x | d)}{P (P(X|e) | d)} $
 $= k P (P(x|e) | x, d) P(x | d) $

 [ここからの説明があまりに回りくどくてわかりにくいので全訳する:]

 ベイズ定理を適用する事例の多くにおいて、尤度関数は特定の確率モデルから導出されている。しかし重要なのは、尤度関数とはいつだって主観的に特徴づけられるものだという点である。直接的な確率付与で特長づけられることもあれば、適切な確率モデルを選ぶことによって特徴づけされることもあるが、どちらにしても主観的である。
 専門家の事前分布の可能な集合が、実数の可算集合でパラメータ化されているとしよう。尤度関数を評価するということは、通常の同時確率関数を特徴づけるということに等しい。この仮定によって、柔軟なモデリングが可能になり、かつ、関数を確率変数として扱うことについての詳細な数学的分析が不要になる。
 変数$x$が値$x_0$をとる、という風に考えるのと同じくらい容易に、変数$x$のある関数が値$E(x | e)$をとる、という風に考えることができる。従って、$E(x | e)$は概念的には、他のあらゆる未知の変数と同じように評価することができる。しかし、$P (P(x|e) | x, d)$は古典的な意味での「確率の確率」の特徴づけではない。それは、離散的な場合で言えば、専門家の事前分布が$P(x | e)$であるという事象の確率である。
 たとえば、$P(x | e)$の可能な値の集合が$[f_1(x), f_2(x), f_3(x), f_4(x), f_5(x)]$であるとしよう。それぞれの値は、図1に示す5つの確率分布からドローされた値である。関数$P(x|e)$が値$f_3$をとる確率は、すべての$x$について$P(x|e)$である確率である。
 尤度関数は、私たちは専門家のアドバイスに、その専門家に対する私たちのフィーリングに応じた重みをつけなければならない、という直感的概念を確認するものとなっている。実のところ、尤度関数は私たちが持っている専門家についてのモデルである。尤度関数は、フォーマルに決めてもいいし、インフォーマルに決めてもよい。この種の評価が持っているユニークな性質は、ある興味深い概念的挑戦を提出する。
 尤度関数を、専門家の信頼性についての主観的指標としてみることもできるだろう。意思決定者は$x$の真値を与えられている。もし彼が、専門家はとても有能だと感じているのなら、彼は、専門家がその大部分が真値を指し示しているような狭い確率によって返答するということに高い確率を割り当てるだろう。したがって、尤度関数は$x$に強く依存し、意思決定者の事前分布を著しく更新するだろう。もし意思決定者の専門家評価が、真値に対してinvariantであるならば、更新された分布はオリジナルの事前分布と等しいだろう。直感的にはこのことは、意思決定者のこころのなかで、専門家がその変数に対して全く反応しないということを意味している。

[なんだろう、このまわりくどさは... なぜこんな風に延々説明しないといけないのか、文脈が理解できない。私がなにかをすごく見落としているのではないかという不安が募る...]

 専門家が$N$人いる場合。
 最初の$n$人の専門家の事前分布からなる集合を次のように略記する:
 $E_n = [P(x | e_1), P(x, e_2), \cdots, P(x | e_n)]$
意思決定者の課題は事後確率$P(x | E_n, d)$の決定である:
 $P(x | E_n, d) = k P (E_n | x, d) P(x | d) $
尤度関数は条件付き確率に分解できる:
 $P(E_n | x, d) = P(P(x|e_N) | E_{N-1}, x, d) P(E_{N-1} | x, d) $
 $= \prod_i^N P(P(x|e_i) | E_{i-1}, x, d)$
事後確率に代入して
 $P(x | E_n, d) = k \prod_i^N P(P(x|e_i) | E_{i-1}, x, d) P(x | d) $
というわけで、$x$と専門家$1$から$(i-1)$までのパフォーマンスの下での専門家$i$のパフォーマンスについてどう感じるかを特徴づけるという難しい課題が生じる。
 なお、現実的ではないけれど、専門家が$x$の下で条件つき独立だと想定すると、話はぐっと簡単になる。すべての専門家$i$について、尤度関数は
 $P(P(x | e_i) | E_{i-1}, x, d) = P(P(x| e_i) | x, d)$

 専門家の経済的価値について考えてみよう。専門家を雇うかどうか自体がひとつの決定となるような場面では重要な問いである。
 不確実性の下での決定問題で、選択肢$a_1, \ldots, a_N$から一つ選ばないといけないという場面を考える。選択肢$a_i$の価値は、もし$x$が既知だったらその期待値が決まると想定し、これを$E(v | x, a_i, d)$とする。
 専門家に相談することなく決定することによって得られる価値の期待値は、最良の選択肢を選ぶことの期待値に等しい:
 $E (v | d) = \max_i \sum_x E(v | x, a_i, d) P(x | d)$
専門家に相談に乗ってもらって決定することによって得られる価値の期待値は、専門家の返事によって変わってくるので、すべての可能な返事について足しあげて:
 $E (v | C, d) = \sum_{P(x | x)} [ \max_i \sum_x E(v | x, a_i, d) P(x | P(x | e), d)] P(P(x|e) | d)$
専門家の価値は$E (v | C, d) - E(v|d)$である。

 事例。
 先に断っておくと、ある専門家による確率付与を情報とみなすということは、その専門家自身になにかを付与するということとは異なる。これは直感的にはなかなかわかりにくく、訓練が必要である。
 意思決定者はピクニックに行きたいと思っている。彼は、50%の確率で雨が降ると思っている。彼はラジオをつけて天気予報マンが喋りだすのを待っているが、そのあいだに、天気予報をどう使おうかと考えている。天気予報マンがこれからしゃべる降水確率を$p=P(R | e)$とする($R$は雨の略。降らないことは$R'$と書く)。
 彼は考える。仮にいま、誠実な千里眼の人があらわれ、「雨が降りますよ」と教えてくれたとしよう。その場合、天気予報マンは高い確率で「雨でしょう」というだろう。その確率$P(p | R, d)$はただの$p$より高い。こう仮定しよう:
 $P(p | R, d) = 3 p^2$
逆に、千里眼さんが「雨は降りませんよ」と教えてくれたとしよう。その場合、天気予報マンが「雨でしょう」という確率は低い。その確率についてこう仮定しよう:
 $P(p | R’, d) = 3 (1- p)^2$
以上で、尤度関数が定義された。これから天気予報マンがどんな$p$を口にしようが、彼は事後確率を次のように求めればよい:
 $P(R | p, d) = \frac{P(p | R, d) P(R | d)}{P(p | R, d) P(R | d) + P(p | R', d) P(R' | d)} $
尤度関数と自分の事前分布をいれると、結局こうなる:
 $P(R | p, d) = \frac{p^2}{2 p^2 - 2 p + 1}$
[力尽きたので、さらにちがう天気予報マンの予報を聞く場合は省略。さっさとピクニックに行け]

 いやあ、疲れた...
 この論文の主題は、複数の予測を結合する際にその重みをどうやって決めるかという問題ではなくて、その手前の、ヒトの意見というのはこのように用いられるべきだというベイズ流の枠組みを提供することなのであった。うむむ、遡りすぎたような気がするが...
 読んでいて思ったのだけど、もしかすると74年の段階では、ベイズの定理を使うという発想そのものが、かなりの説明を要したのではないだろうか。この論文では、専門家による事象の確率的評価と、意思決定者による専門家の情報の確率的評価とはちがうものなのだ、という記述が繰り返されている。いまならもっとサラッと書いてしまうのではないかと思う。

論文:データ解析(2015-) - 読了:Morris (1974) 専門家の意見を用いたベイジアン決定モデル

2016年3月29日 (火)

Duncan, G.T., Gorr, W.L., & Szczypula, J. (2001) Forecasting analogous time series. in Armstrong, J.S. (ed.) "Principles of Forecasting," Springer. pp 195-213.
 こんなことをセキララに書くのは恥ずかしいのだが、原稿の都合で70-80年代の予測研究におけるベイジアン・コンセンサスの研究について調べていたら、ベイジアン・プーリングやらあれやらこれやら、聞きなれない概念が山ほど出てきて、なにがどうなっているのかわからなくなり、もう大混乱してしまったのだった。
 ようやく見つけ出した、ベイジアン・プーリングに的を絞った解説。なんと、かつて大枚はたいて買ったきり本棚に鎮座していた分厚いハンドブックの中にみつかった。資料は買っておくべきだ。買った資料の目次くらいは目を通しておくべきだ。

 著者いわく。
 ベイジアン・プーリングとは、ベイジアン・シュリンケージ、経験ベイズ、スタイン推定の別名である[←えっ...? まったく同じ意味ってこたないでしょう?!]。ある時系列についての予測に、それと類比的な(analogous)他のたくさんの時系列を使う。ベイジアンVARだったら、予測したい時系列にとって他の時系列は独立変数(リード指標)だということになるが、ベイジアン・プーリングではそうじゃない。

 手順は以下の通り。

 その1、予測したい時系列(以下「ターゲット時系列」)と類比的な時系列(以下「類比時系列」)を選ぶ。手当たり次第に全部使うのはよろしくない。以下のアプローチがある。

 その2、時系列をスケーリングして、プールするデータを等質的にする。たとえば、一本ずつ標準化する(平均を引いてSDで割る)とか。

 その3、モデリング。同じspecificationの時系列モデルを2つ推定する。(1)ローカル・モデル。ターゲット時系列にあてはめる。(2)グループ・モデル。類比時系列のプールにあてはめる。
 著者らのモデル(適応的ベイジアン・プーリング, ABP)を例に挙げると、こんな感じ。

 その4、パラメータ結合。2つのモデルのパラメータを結合する。重みをシュリンケージ・ウェイトという。ウェイトは各パラメータの分散に反比例させ、和を1とする。
 たとえば、季節要素のない単変量予測についての経験ベイズ・シュリンケージは以下の通り。ターゲット時系列の推定されたレベルを$L_{it}$、傾きを$S_{it}$とする。グループ側の標本平均を$\bar{x}_t$、一期差の標本平均を$\bar{\delta}_t$とする。結合した推定値は
 $L'_{it} = u_1 L_{it} + u_2 \bar{x}_t$
 $S'_{it} = w_1 S_{it} + w_2 \bar{\delta}_t$
 ベイジアン・シュリンケージは時間定常でボラタリティが大きいモデルで用いることが多いんだけど、別に時間定常でなくてもよいことに注意。

 その5、予測。k期先の予測がほしければ、単純に$L'_{it} + k S'_{it}$を使うがよろし。[←えええ?当期のレベルと傾きを伸ばしちゃうの? ひょっとして傾きをstochasticな要素ではなく、時変のない確定的要素として捉えているのだろうか?]

 その6、予測の再調整。その2でやったスケーリングをもとに戻す。

 ベイジアン・プーリングの原則:

 。。。そんなこんなで、「かゆいところに手が届く」というより「かゆいところがいっぱい出てくる」という感じの文献であったが、ま、勉強になりましたです。

論文:データ解析(2015-) - 読了:Duncan, Gorr, & Szczypula (2001) 時系列のベイジアン・プーリング

2016年3月27日 (日)

Clemen, R.T. (1989) Combining forecasts: A review and annotated bibliography. International Journal of Forecasting, 5, 559-583.
 原稿の都合で読んだ。80年代までの予測結合の文献紹介。予測研究、心理学、統計学・管理科学の3領域にわけて過去研究を概観したのち、応用例と今後の方向について議論。本編は比較的に短いが、長大な文献解題がついている。
 面白かったところをメモ:

論文:データ解析(2015-) - 読了:Clemen (1989) 予測結合研究レビュー

2016年3月25日 (金)

van Everdingen, Y.M., Aghina, W.B., Fok, D. (2005) Forecasting cross-population innovation diffusion: A Bayesian approach. International Journal on Research in Marketing, 22, 293-308.
 要するに、クロス・カントリーのイノベーション普及モデル。
 いわく、本研究の特徴は2つ。(1)モデル。先行モデルはPutsis et al.(1997 Mktg Sci.)で、これに時変パラメータを入れるところが新しい、さらに国間でパラメータを比較できるように国の違いを吸収するパラメータを入れる(サンプル・マッチングという由)。(2)推定方法。先行研究から事前分布を持ってきて、アダプティブ・ベイジアン推定(Xie et al.(1997 JMR)のaugmentedカルマン・フィルタ)を使う。

 以下、モデルの説明と推定方法の説明、データへの適用例、先行モデルとの比較。メモは省略。 細かいところは読み飛ばしたが、雰囲気はわかったので良しとしよう。

論文:マーケティング - 読了:van Everdingen, Aghina, Fok (2005) クロス・カントリーのイノベーション普及モデル

佐藤舞, ポール・ベーコン (2015) 世論という神話: 日本はなぜ、死刑を存置するのか. The Death Penalty Project.
 死刑について内閣府調査の追っかけ調査をやった研究者がいるという話を新聞で読んで、検索してみつけたもの。いま考えている件に関係するかと思って読んでみた(関係なかったけど)。第一著者は英国在住の社会学者の方。
 死刑廃止運動の団体が出したパンフレットのようなものなので、話の方向性は目に見えているのだけれど、方法論が面白そうなので目を通した。著者らの立場としては、死刑の存廃を世論で決めるべしと主張したいわけじゃないんだけど、現に日本政府は世論による死刑支持に死刑存置の論拠をおいているわけだから、その論拠をアタックします、という内容である。

 分析するデータは:

 面白かったところのみメモ。

うーむ...調査データの集計値の絶対的な大きさでなにかを主張することの難しさを痛感した次第だが、そもそも「国民の8割以上が死刑を支持している」から死刑は廃止できないという日本政府の主張を掘り崩すことが目的なので、これで筋は通っているのだろう。むしろ、死刑のような問題に対する態度がどのように形成されているかに関心があるのだが、そっちは論文を探して読まないといけない模様。
 というわけで、著者の方々のご趣旨とは違うところに目を引かれているような気もするけど、興味深い文章であった。

論文:調査方法論 - 読了:佐藤 & ベーコン (2015) 世論という神話

Peres, R., Muller, E., Mahajan, V. (2010) Innovation diffusion and new product growth models: A critical review and research directions. International Journal on Research in Marketing, 27, 91-106.
 原稿の足しになるかと思って読んだ。

 消費者間相互作用に基づくイノベーション普及モデルのレビュー。イノベーション普及モデル全般のレビューではない。全般について知りたかったら、Mahajan et al. (2000 書籍), Meade & Islam (2006 Int.J.Forecasting), Hauser, Tellis & Griffin (2006 Mktg.Sci.), Chandrasekaran & Tellis (2007 Chap.), Krishnan & Suman (2009 Chap.)を読め、とのこと。

1. イントロダクション [メモ省略]

2. 市場内の普及

2-1. 社会ネットワークにおける普及。すでに Van den Bulte & Wuyts (2007 書籍)というレビューがある。いちばん注目されているのはインフルエンサーの影響、ついでネットワーク構造の影響。
 こうした研究のおかげで、消費者は異質だねということになり、普及モデリングも累積ベースから個人ベースにシフトしつつある。アプローチとしてはエージェント・ベース・モデリングが多い(たとえばセルラー・オートマトン)。特長: (1)個人レベルのマーケティング活動を累積レベルのパフォーマンスにつなげやすい、(2)いろんな相互依存性を区別しやすい(ネットワーク外部性の効果はこれこれだ、とか)、(3)消費者異質性をモデル化しやすい、(4)空間モデルを組みやすい。
 個人レベルモデルのパラメータと、累積レベルモデルのパラメータ(Bassモデルでいうpとq)との関係は、今後の課題。

2-2. 普及とネットワーク外部性。研究史は20年ほどあるが、ネットワーク外部性が成長にどう効くのか、いまだ合意が得られていない。(1)faxのような直接的効果と(送受信相手がいないと意味がない)、ソフトウェアのような間接的効果を分ける必要がある。(2)グローバルな外部性とローカルな外部性(知り合いが採用しているか)とを分けて考えないといけない(の注目はグローバルからローカルにシフトしている)。(3)マーケティング戦略によるちがいも考えないといけない(携帯の家族割とか)。
 先行受容者が多いことがネットワーク外部性を生んでいるのか模倣を生んでいるのか区別する研究も出てきている。

2-3. テイクオフとサドル。横に時間、縦に成長率をとったとき、古典的なBassモデルだと一山になるけど、上市後ちょっとしてから急速な伸びが始まり(テイクオフ)、いったん小さな山ができ、ちょっと落ち込んで(サドル)、今度は本格的に上昇する、という考え方が出てきている。
 テイクオフはだいたい6年後、潜在市場規模の1.7%を占めたあたりではじまるという報告もある。値引きとか製品カテゴリとか文化的諸要因(不確実性回避とか)の効果を調べた研究もある。テイクオフには相互作用は効かず、むしろ異質性で決まっていると考えられる。
 サドルはムーアのいうキャズムって奴。説明としては、(1)マクロな技術変化とか経済とかによる説明、(2)相互作用による説明(情報カスケード)、(3)異質性による説明。

2-4.技術世代。普及が終わる前に次の技術世代が出てきちゃうときどうなるかという研究。特に、世代が下ると普及が早くなるかという点が注目されている。実務的にはもちろん、理論的にも興味深い(社会システムは世代とともに受容能力が上がるかという話だから)。成長パラメータは世代を通じて一定だという研究が山ほどある一方、普及速度は全体にどんどん早くなっているという研究もある。この矛盾に対する説明として、パラメータは世代でも時代でも変わってないけどテイクオフのタイミングが時代とともに早くなっているのだという説がある。
 異質性に注目して、ある技術世代のラガードが次の技術世代のイノベータになっちゃうという説もある[←おもしれえー!]。Goldenberg & Oreg (2007 Tech.Forecasting.Soc.Change)。
 新技術世代がはいってくると何が起きるかは大変複雑。(1)市場の潜在規模は大きくなると考えられている。(2)技術世代間にカニバリが起きるかも。(3)世代をすっ飛ばして蛙飛びするユーザもいるかも。個別の研究はあるけど、統一的枠組みが必要。

3. 市場間・ブランド間の普及

3-1. 国のあいだの影響。90年代以降、研究が山ほどある。上市が遅い国のほうが普及が速くなるという研究が多い(リード・ラグ効果)。国間の影響をモデルに取り込む研究も多い。国間の影響はコミュニケーションによって生じると考えている研究もあれば、メカニズムは考えてない研究もある。今後はコミュニケーションとシグナルを分ける必要がある。個人レベルモデルが有用だろう。
 ゲーム理論で規範モデルをつくるという研究もある。

3-2. 国による成長の違い。これも研究が山ほどある。競争が激しい市場では普及が速いとか。ハイコンテクストな文化では速いとか(Takada & Jain, 1991 J.Mktg.)、多様性が大きいと遅いとか。GDPが大きい国では速いとか、所得の不平等が大きいとむしろ速いとか(Van den Bulte & Stremersch, 2004 Mktg.Sci.)。[←不平等の話、面白いけど、文化的要因と区別できるんだろうか]

3-3. 成長における競争の効果。[この項、すごく長い。ざっと目を通したところ、面白いんだけど論点が死ぬほど多い。ここだけで一本のレビューになるんじゃないかしらん。疲れたのでメモは省略]

4. 今後の方向。[ここまでの内容の総ざらえという感じで、いろんなことが書いてあって疲れるので、面白かった話のみ抜き書き。ほんとはネットワーク分析の話が一番長かったんだけど、どばっと省略]

 ... というわけで、かなり適当に読み流しちゃったけど、知りたい話が書いてないことがわかったので良しとしよう。

論文:マーケティング - 読了:Peres, Muller, & Mahajan (2010) 消費者間相互作用とイノベーション普及

2016年3月16日 (水)

Sultan, F., Farley, J.U., Lehmann, D.R. (1990) A meta-analysis of applications fo diffusion models. Journal of Marketing Research, 27(1), 70-77.
Sultan, F., Farley, J.U., Lehmann, D.R. (1996) Reflections of "A meta-analysis of applications of diffusion models." Journal of Marketing Research, 33(2), 247-249.
 原稿の都合で読んだ。前者は題名の通り、新製品・新サービスの普及モデル(具体的に言うとBassモデル)の実データ適用についてのメタ分析。この論文は学会の大きな賞をもらったのだそうで、後者は著者らによる受賞記念コメント。
 
 まず元論文のほうから。
 モデルのおさらい。いまなにかの新製品なり新サービスなりがあるとして、市場におけるその受容プロセスについて考える[←受容とは、とりあえずは初回購入のことだと考えてよいだろう]。潜在的受容者の総数を$N^*$、時点$t$における累積受容者数を$N(t)$、受容率を$g(t)$とする。普及モデルを一般化して書くと、普及の速度について
 $d N(t) / d t = g(t) [N^* - N(t)]$
というモデルである。$g(t)$の関数形はいろいろで、たとえば

これにマーケティング・ミクス変数(価格や広告)をいれて拡張したりする。

 メタ分析。50年代以降、実データにモデルを当てはめた論文が15本みつかった。事例数は合計213。$P$の平均は.03、$Q$の平均は.38だったが、分散が大きい。なお、すべて年次データを使っていた。
 全事例に以下のコードを振った。

これらを要因とし、目的変数を$P$ないし$Q$としてANOVAをやった(目的変数が$P$のときは3つめの要因は除外)。
 結果。欧州は革新係数が高い。産業・医療財は模倣係数が高い。革新係数をいれている事例は模倣係数が高い(入れたほうが正しいのだろうとのこと)。マーケティング・ミクス変数を入れてると模倣係数が低い。どっちの係数もOLSのほうがちょっと高め。云々。
 なお、このメタ分析モデルの推定自体も、OLSとWLSで比較してみたんだけど...[関心ないので読み飛ばした]

 メタ分析の結果をどうやって使うか。
 その1、普及過程の持続時間。Bassモデルにいわせれば、普及速度がピークになるまでの時間は
 $T^* = (P+Q)^{-1} \log (Q/P)$
である。本研究で使った事例の平均である$P=0.03, Q=0.38$をいれると5.3年。最小の$P,Q$をいれると80年、最大の$P,Q$をいれると1年。これは適当に選んだ例だが、普及過程に要するであろう時間の幅が広いことがわかる。[←おいおい...それはメタ分析のモデルを作らなくても、先行事例を集めた段階でわかっていたことでしょうに]

 その2、普及モデルによる予測。[←実をいうと、関心があるのはここだけだ]
 普及モデルの最重要な用途は普及初期段階における今後の普及の予測だが、よく知られているように、数時点しかないデータにモデルをあてはめるのは危険である。そこで、メタ分析の結果を事前分布としたベイズ推定を考えよう。このベイズ推定手法は、Durbinの業績に基づく、Goldberger-Theilの「混合推定」アプローチに依存している。すなわち、メタ分析から得た先行する結果を、データに基づく推定値とミックスさせ、パラメータの事後推定値を手に入れるのである。その際、2つの推定値のウェイトは、分散の逆数とする。
 Mahajan, Mason, & Srinivasan (1986)のエアコン普及データでやってみよう。メタ分析モデルによれば、米の消費財の推定値は$P=0.00, Q=0.30$。各年度について、それまでのデータを使ってP, Q を推定する。で、Zellner(1971, p.15)に従って事後パラメータを求める。計算には、the analogous matrix formula which accommodates correlation between P and Q (Leamer 1978, pp.182-186)を用いる。
 この事後パラメータは、時点数が少ないときはメタ分析のパラメータに近く、時点数が増えるとだんだんデータからの推定値に近くなっていく。

 考察。[メモ省略]

 95年のコメントの内容はこんな感じ:90年から95年までにこの論文を引用してくれた論文は22本あった。それらで扱われているテーマは、(1)普及モデルの改訂、(2)推定方法、(3)他の製品カテゴリへの拡張。これまでの研究には、成功した製品への偏り、耐久消費財への偏り、北米への偏りがみられる。旧技術の代替製品についても検討が必要。マーケティング研究においてもっとメタ分析が活用されるといいな。云々。

 メタ分析モデルを踏まえた初期予測のくだりについてメモしておく。

 。。。うーん。このGoldberger-Theilのアプローチって、カルマン・フィルタとどういう関係にあるのだろうか。直観としては、事前分布を使わずにいったんモデルをNLS推定してあとで事前分布と加重平均するのって、無駄な感じがするんだけど。また、新製品普及の初期予測に階層ベイズモデルを使う話があるけど、どっちがいいのだろうか。わからんことだらけだ...

論文:マーケティング - 読了:Sultan, Farley, Lehmann (1990, 1995) 新製品普及モデルのメタ分析

2016年3月15日 (火)

Mahajan, V., Muller, E., Bass, F.M. (1990) New Product Diffusion Models in Marketing: A Review and Directions for Research. Journal of Marketing, 53, 1-26.
 前に読んだMeade & Islam (2006)で紹介されていた、80年代のイノベーション普及モデル研究の総括。原稿の都合で仕方なくとはいえ、四半世紀前の論文に目を通すなんて、どんな好事家かと...

 内容は、(1)Bassモデルとその性質、(2)パラメータ推定をめぐる諸問題、(3)パラメータの時間変動を許容するバージョン(フレキシブル普及モデル)、(4)Bassモデルの拡張、(5)普及モデルの記述的・規範的な使用。時間がないのでほとんど読み飛ばしたけど、多岐にわたる問題を手際よく整理した名レビュー論文であった(ような気がする)。

 いま関心のある箇所のみメモ:目の前ではじまっている新製品普及についてBassモデルを推定するときどうするか。正面からのパラメータ推定は、非累積の普及曲線がピークを過ぎていないと難しいのだけれど、もうそんだけ時間が過ぎているなら、Bassモデルを推定しても予測的な使い方はできないわけで、初期の短い観察だけでなんとかならないか、という話である。

論文:マーケティング - 読了:Mahajan, Muller & Bass (1990) 新製品普及モデルレビュー in 1990

2016年3月11日 (金)

MacCallum, R.C., Edwards, M.C., Cai, L. (2012) Hopes and Cautions in Implementing Bayesian Structural Equation Modeling. Psychological Methods, 17(3), 340-345.
Rindskopf, D. (2012) Next Steps in Bayesian Structural Equation Models: Comments on, Variations of, and Extensions to Muthen and Asparouhov. Psychological Methods, 17(3), 336-339.
Muthen, B., Asparouhov, T. (2012) Rejoinder to MacCallum, Edwars, and Cai (2012) and Rindskopf (2012): Mastering a New Methods. Psychological Methods, 17(3), 346-353.

 MuthenらのベイジアンSEM(BSEM)に対してPsychological Methods誌上に載ったコメントと回答。原稿の準備で読んだ。

 ここでいっているBSEMとは、SEMへのベイジアン・アプローチそのもののことではなく、Muthen & Asparouhov (2012)が提唱した方法論のこと。CFA(確認的因子分析)モデルをML推定するのではなく、因子負荷や残差共分散といったパラメータに事前分布を与えてMCMC推定する。伝統的には因子負荷行列にエイヤッとゼロを埋めるんだけど、その代わりに情報事前分布をいれる、というのがミソ。従来のEFA(探索的因子分析)とCFAの中間くらいの使い方が想定されている。
 BSEMについては、このやり取りの後、Stromeyer et al. (2014)という批判論文も出ているが、そちらのほうにはMuthen一門がほぼコテンパンといってよい返事をしている。

 せっかくなので(なにがだ)、原文通りではなく、勝手に問答体に翻訳してメモしてみよう。
 以下, MacCallum et al. をMEC, RindskopfをR, Muthen & Asparouhovを導師と略記する。

[MEC] 導師はこうおっしゃいました。伝統的なSEMならゼロに固定したであろうパラメータに分散の小さな事前分布を与え、自由推定するパラメータに分散の大きな事前分布を与えよ。
 導師よ、そのハイパーパラメータの値はどうやって決めるのがよろしいでしょうか。これ、結果に響くんですが、とても決めにくうございます。
 事前分布の解釈は、特にパラメータが自然な制約を持っているとき(分散は非負だとか)、すごく難しくなります。
 パラメータ同士に関係がある場合もそうです。たとえば、因子が直交してるCFAでは、ある測定変数の共通因子負荷の平方和は共通性で、これに独自因子負荷を足すと全分散となり、これはデータで固定されています。つまり、因子負荷の事前分布は独自因子分散の事前分布に影響するわけです。さらに、共通性は負荷の非線形関数なので、因子負荷に対称な事前分布を与えると、独自因子の分散への影響は非対称になります。
 交差負荷に与えた事前分布が共分散に与える影響が、残差共分散に与えた事前分布のせいで変わってくる、という問題もあります。たとえば、独立クラスタ解で直交因子が$p$個ある場合を考えましょう[←おそらく、因子数$p$、因子は直交、各測定変数はそのうちひとつだけに負荷を持つという状況を指しているのだと思う]。同じ因子に負荷を持たない任意の2変数の間の共分散は0です。しかし、もしすべての交差負荷に事前分布$N(0, \sigma)$を与えると、同じ因子に負荷を持たない任意の2変数の間の共分散に、平均0, 分散$(p-1)\sigma$の事前分布を与えてしまったことになります。
 BSEMのユーザはよほど気を付けないといけないと思うのです。導師が仰るように、いろんな事前分布を試して感度分析するとか...
[導師] 間違った印象を与える質問だ。
 BSEMでは全分散はデータで固定されていない。それは事後分布を持つ推定パラメータだ。
 あるパラメータの事前分布が、他のパラメータの事前分布とデータの共分散によって決まってしまう、なんてこともない。事前分布はデータとは関係ない。
 残差共分散の事前分布の選択については、確かに検討が必要だ。もっとも、負荷のような重要なパラメータの推定にはそれほど影響しないであろう。
 
[MEC] 導師よ、MCMCに関してお伺いします。MCMCとMLでは目標が違うのではないでしょうか。
 ML推定は尤度関数を最大化するパラメータ推定値を探すのが目標で、そこに全精力が注がれます。たとえば、1因子5指標のCFAで負荷がすべて0.6だとして、尤度の観点からいえば、負荷がすべて-0.6であってもやはり良いモデルです。どちらになるかは初期値次第です。
 いっぽうMCMCは、事後分布の全体を正しく表現しようとします。上の例の場合、MCMCはきっと、事後分布に2つのmodeがあると報告するでしょう。MCMCによほど詳しいユーザでないと、事後分布の平均を点推定値としてしまいかねません。
[導師] 確かに、潜在変数モデルのMCMC推定には符号スイッチングという問題がある。負荷が小さく標準誤差が大きい、複雑なモデルで問題になる。EFAとか, bifactorモデルとか、MTMMモデルとかが危険だ。
 わがMplusは符号スイッチングを回避する再ラベリング・アルゴリズムを備えている。だから心配しなくてよろしい。

[MEC] 導師よ、MCMCを使うにはかなりの習熟と努力が必要ではないでしょうか。
 たとえば、収束の判断、バーンインの設定、MHアルゴリズムのチューニングパラメータ、間引き(thinning)の設定など、とても難しいです。複雑なモデルになるほど、ケース・バイ・ケースな側面が強くなります。
[導師] 確かにその通り。
 しかし、いくつかの問題については実用的な解決策がある(PSRによる収束判断とか)。また、これから人々は経験を積み、ソフトは改良される。かつてのSEM普及初期を思い出すがよい。EFAの因子得点でパス解析するのと比べ、SEMは難しすぎるといわれたものだ。

[MEC] 導師よ、ベイジアンのフレームワークですと、モデルの識別の問題がよりややこしくなりませんでしょうか。
 もともと識別というのは難しい問題ですが、MLなら、まだルールのようなものがあります。ベイジアンのおかげで、推定できるモデルが広がったという良い面もありますが、どんなモデルが識別不能かわかんなくなったという面もあると思います。
[導師] 識別できないモデルは収束しない。

[MEC] 導師はこうおっしゃいました。 伝統的なSEMならゼロに固定したであろうパラメータに分散の小さな事前分布を与えよ。
 導師よ、ゼロに固定していたであろうパラメータはたくさんあります。どれに分散の小さい事前分布を与えればよいのでしょうか。導師は、交差負荷に与えたり、残差相関に与えたり、全部に与えたりなさっておられますね。できますれば、すべての迷える応用研究者を導く明確な原理をお与えいただきたいのです。
[導師] 当該の研究分野が証拠構築のどの段階にあるかによる。
 初期段階で探索に焦点が当たっているならば、事前分布は無情報ないしある程度大きめにして、データに語らせないといけない。この場合はMLもベイジアンもたいしてかわらない。測定モデルについていえば、できるだけ構造を制約しないこと。EFA, ESEMが望ましい。
 証拠が蓄積されて来たら、ゼロであるはずのパラメータに分散の小さな事前分布を与えてBSEMを行う。このスペクトラムの極北が伝統的SEMだ。
 注意しないといけないのは、BSEMモデルでは、モデルの適合が良くても、ゼロに近いはずのパラメータの推定値がゼロから離れていたら、モデルを見直さないといけないということだ。

[MEC] 導師はこうおっしゃいました。 分散の小さな事前分布(情報事前分布)を与えたのに信用区間がゼロを含まなかったパラメータがあったら、分散を大きくして(無情報事前分布にして)再推定せよ。
 伝統的SEMでは、修正指標の値が大きいパラメータを探し、自由パラメータにして再推定、モデルの適合度が上がるまで繰り返す、という所業が広く行われて参りました。これは事前理論を放棄してデータにあわせているわけで、深刻な問題を引き起こしますこと、よく御存じのとおりです。
 導師よ、BSEMにおける情報事前分布から無情報事前分布への切り替え手続きも、哲学としてはこれと同じではありませんか。
 もちろん、違いはございます。伝統的方法では自由パラメータをひとつづつ増やします。修正指標が引き起こす問題の多くは、この系列的手続きによるものだと考えられておりました。いっぽう導師は、複数のパラメータを一気に無情報事前分布にせよと仰っています。この違いはわかっておりますが、やはり危険に感じるのでごさいます。モデルの妥当性に問題は生じないでしょうか。
[導師答えず]

[MEC] 導師はこうおっしゃいました。 BSEMは「母集団においてパラメータが0」という厳しい想定をより穏やかな想定に置き換えるので、その分モデル・エラーが小さくなる。
 導師よ、仰せのとおりではありますが、代償もあろうかと存じます。
 伝統的SEMでは、自由パラメータを減らすと適合度があがりました。自由パラメータが減るということは、推定誤差が減るということでもあります。
 BSEMにおいて、パラメータをゼロに固定せず事前分布を与えると、そのことによって推定誤差は増えるはずです。ひいては、安定性と一般化可能性が損なわれるかもしれません。分散を小さくしておけば大丈夫だと言い切れるのでしょうか。
[導師答えず。いい指摘だと思うんだけどな。その場その場でモンテカルロ・シミュレーションするしかないのだろうか]

[MEC] 導師よ、交差妥当化についてお伺いします。伝統的SEMでは、自由パラメータの点推定値の一般化可能性を交差妥当化によって評価できました。BSEMでは、事後分布の一般化可能性をどのように評価すればよろしいでしょうか。
[導師答えず]

[R] 導師よ、情報事前分布は交差負荷や残差共分散だけでなく、注目されるパラメータに与えてもよいのではないでしょうか。たとえば、値が大きいであろうと期待されている負荷に事前分布として$N(0.7, 0.15)$を与える、というのはいかがでしょうか。
[導師] 良い指摘である。その事例を示そう。[略]

[R] 導師よ、LISRELには負荷の上下限を制約するという機能がございます。BSEMでも、事前分布として上下限を決めた一様分布を与えるのはいかがでしょうか。もし推定値が上下限に張り付いたら、見直して再推定すればよいではありませんか。
[導師答えず]

[R] 導師よ、BSEMは bifactorモデルを容易に推定できるのでありませんか。特に、一般因子が直交していないようなモデルでも大丈夫なのではないでしょうか。
[導師] まことにその通りである。

[R] 導師よ、ハイパーパラメータを動かして感度分析するのはよいですが、研究者はいろいろ試した中で都合の良い部分だけを報告してしまうのではないでしょうか。
[導師答えず]

Rさんはほかにもいくつかネタを振っているが、導師は答えていないし、あんまりおもしろい話ではなかったので省略。

論文:データ解析(2015-) - 読了:MacCallum, Edwards, & Cai (2012); Rindskopf(2012); Muthen & Asparouhov (2012): ベイジアンSEM問答

Barnes, D.E., Bero, L.A. (1998) Why review articles on the health effects of passive smoking reach different conclusions. JAMA, 279(19).
 しばらく前に昼飯の読み物に読んだやつ。メモを取らなかったので中身忘れちゃったけど、えーっと...
 受動喫煙についてのレビュー論文を106本集めてきて片っ端から読んであれこれ評定。受動喫煙に害があるという結論に至った(74%)かどうかを説明するロジスティック回帰モデルを組んだ。効いた変数はただひとつ、著者がタバコ会社から金もらってるかどうかだった。レビュー論文でも著者の利害関係をチェックしないとね、云々。という内容だったと思う。
 笑っちゃうような話だが(笑い事ではないけれど)、論文の質の評定は説明変数として効かない、というところも面白いと思った。

論文:その他 - 読了:Barnes & Bero (1998) 受動喫煙の害についてのレビュー論文の結論は著者がたばこ会社から金をもらっているかどうかで説明できる

Buckland, S.T., Burnham, K.P., Augustin, N.H. (1997) Model selection: An integral part of inference. Biometrics, 53, 603-618.
 こないだ目を通した劉(2009)に出てきた論文。仕事の都合で、非ベイジアンのモデル平均について知りたくてざっと目を通した。

 みんな頑張ってモデル選択しているけど、選択したらそのモデルで推論しちゃっている。つまりその推論はモデルに条件づけられた推論だ。この論文では、たくさんあるモデルのどれかが真だがそれをデータで同定することなんてできっこないという見方に立ち、 統計的推論にモデル選択を統合することの重要性を示し、その方法を教えてあげよう。
 アプローチはふたつある。モデルに重みづけしてパラメータの推定値の重みづけ平均をとるのと、ブートストラップ法でモデル比較を繰り返すやりかただ。
 ... というわけで、説明が続くのだけど、時間がないのでメモは省略。前者の重みづけはベイジアンではなくて、AICとかをつかう。なぜベイジアンでないかというと、事前分布を決めるのが大変、モデルの数が多いときに大変、だからだそうだ。
 後半は事例。ポワソン回帰の変数選択で、ブートストラップ標本ごとにAICを比較するという話。動物の密度推定のための確率分布を選ぶという話。生存モデルの正解を決めといてシミュレーションした例。いずれも読み飛ばした。
 考察。ベイジアンよかこっちのほうが簡単だ。真のモデルを見つけるのなんて難しいんだからひとつのモデルに頼るのはやめよう。AICがいいかBICがいいかというのは諸説ある。云々。
 
 ちゃんと読んでないのに読了にしちゃうのは後ろめたいが。。。まあいいや、いずれ必要になったらきちんと読もう。

論文:データ解析(2015-) - 読了:Buckland, Burnham, & Augustin (1997) 非ベイジアン・モデル平均

 ここのところ、全く先の見えない煉獄のような原稿と、蟻地獄のようなデータ分析で、気息奄々というのはこういうことか、という有様である。
 もっとも、こういうことがストレートに書けるのはどちらも副業の案件だからであって(本業の話は書きにくい)、その意味では、好きなことで苦労してるんだから幸せなんだけど.... いやいや、やっぱり辛いものは辛い。シベリアとかに逃げたい。この数ヶ月で、ちょっと寿命が縮んでいるんじゃないかと思う。

Wasserstern, R.L. & Lazar, N.A. (2016) The ASA's statement on p-values: context: process, and purpose. The American Statistician.
このたびASA(米統計学会)が検定についての声明を出したのだそうで、この論文はその声明本文に、経緯を説明する序文と、検定に関する精選文献リストをつけたもの。原稿が公開されてたので、夜中の気分転換に目を通した。
 
 本文は、6つのprincipleにコメントをつける形で書かれている。 まあ声明であるからして、ごくシンプルな文章であり、冒頭で断られているように、新しい話はなにもない。
 いわく。p値とはある特定の統計モデルの下でデータの統計的要約が観察値と同じないしそれより極端になる確率である[←これが超わかりにくいのが、そもそもの元凶なんでしょうね...]。
 (1)p値が示しているのは、データが特定の統計モデルと不整合かどうかだ。
 (2)研究仮説が真である確率でもなければ、データがランダム・チャンスで作られた確率でもない。
 (3)科学的結論やビジネス・政策上の決定を、p値が閾値を超えたかどうかだけで行ってはならない。
 (4)正しい推論のためには完全な報告と透明性が必要だ[と、ここでpハッキングを批判]。
 (5)p値は効果サイズや結果の重要性の指標ではない。 [おっと、効果量の話をするのかな、と思ったけど、そういう話は一切なし。ま、教材じゃないからね]
 (6)p値はモデルなり仮説なりに対する証拠の強さについての良い指標ではない。
 検定を補完・代替するアプローチとして、これまでに、(a)信頼区間とか信用区間とか予測区間とか、(b)ベイズ流の手法とか、(c)尤度比とかベイズ・ファクターとか、(d)決定理論とかFDRとか、が提案されている[←この段落、文面つくるの揉めただろうなあ... 各論となると絶対に紛糾する話題揃いだ]。これらのアプローチもそれはそれで別の想定に依存しているわけだけど、効果のサイズとか仮説の正しさとかについて、より直接に教えてくれる、かもしれない。
 
 文献リストはきっと定評ある教科書ばかりだろうと思ったら、これがそうでもなくて、結構論争的な雰囲気の奴も載っていて、なんだかちょっと楽しい。前に読んだHoening & Heisey (2001)の標本効果量ベース検定力への批判も載っていた。なるべくいろんな分野から選んでいる感じだ。暇なときにいくつか読んでみたいのもある。

 序文の経緯説明で面白かった箇所をメモ:

 オンライン補足資料として、議論に参加した識者によるコメントが添えられている。ちゃんと読む時間も気力もないが、ディスプレイ上でいくつかめくってみた。せっかくなので口語調でメモしておくと...

Altman, N.S.: (無題)
[もっとFDRっぽく考えようよ、というような話だった。メモは省略]

Benjamin, D.J., Berge, J.O.: 「p値の単純な代替案
 素晴らしい声明ですね。でもこういう指摘は大昔からあります。世の中変わらなかったのは、検定にかわる良い代替案がなかったからです。既存の代替案は、ややこしすぎるか、頻度主義者とベイジアンのどっちかに嫌われるものでした。
 そこで私たちは新しい代替案を提案しています。ご紹介しましょう!帰無仮説の「誤った棄却に対する正しい棄却の実験前オッズ」です! [←十分ややこしいよ!]
 実験前オッズとは2つの値の積です。ひとつは帰無仮説に対する対立仮説の事前オッズ。これは非頻度主義的な考え方です。もうひとつは棄却比。これは頻度主義的な考え方で、対立仮説が真のときにそれを棄却する確率を、帰無仮説が真のときにそれを棄却する確率で割った値、すなわち、検定力とType I エラーの比です。
 [熱弁頂いている途中で申し訳ないですが、関心が薄れてきました... いつか暇になったら読みます]

Benjamini, Y.: 「p値に罪はない
 たいていの人が合意できる、よくできた声明だと思います。ベイジアンの人は(1)に合意しないかもしれないし、頻度主義の人は(6)の意味がわかんないかもしれないけど。でも、残念ながらこの声明では、私たちの間違いをp値のせいにしてしまってますね。これじゃ、ASAはp値に対して否定的なのね、で終わっちゃいます。ほんとうはほとんどの統計的ツールの使い方に問題があるのに。
 声明が挙げている代替アプローチだって、p値と同じ問題を抱えています。研究仮説の尤度比がどのくらいあればジャーナルに載るんでしょうか? 科学的発見は事後オッズが特定の閾値を超えていることに支えられないといけないんでしょうか?
 20世紀を通じてp値がこんなに成功したのは、偶然性に騙されないようにする第一防衛線を提供してくれたからです。検定に必要なモデルは他のツールよりシンプル。まともな無作為化実験なら保障されるようなモデルに基づいています。いっぽう尤度比や効果寮や信頼区間やベイジアン手法は、どれも帰無仮説だけでなく、状況についてのもっと幅広いモデルに依存しています。
 もし可能ならば、検定とともに信頼区間や効果量を使うべきです。でも、検定しか使えないような場面も少なくありません。
 声明の(4)に「完全な報告と透明性」とありますが、これだけでは不十分です。大きな問題においてはセレクションが避けられないのです。表のセレクション、モデルのセレクション、図のセレクション。推論におけるセレクションの影響について調べるために、さらなる統計的手法が必要です。[...中略。このビッグデータの時代において、みたいな話が書いてある]
 p値を排除したり、使用しないよう勧めたりするべきではないと思います。問題はp値ではなく、セレクションそのものにあるのですから。

Berry, D.A.: 「p値は世間の人々が思っているようなものではない(P-values are not what they're cracked up to be)」
 過去50年間、p値についてたくさんの批判がなされてきました。それらの批判が及ぼしたインパクトをぜんぶ合計したら、どのくらいになるかというと... ほぼゼロです。統計学者はp値を正しく定義できるけど、本当の問題が理解できていないんです。非統計家の無理解を責めることはできません。統計的有意性についての無知と誤用の広がりはひとえに我々のせいです。もっとコミュニケートしなきゃ。なんなら屋根の上から叫ばなきゃ。ASAがやっているように。
 [という感じの熱弁ののち、声明のいくつかの点を取り上げて補足。読み物として面白そうだけど、パス]

Carlin, J.B.: 「パラダイム・シフトなしの改良は可能か?
 声明を読むにつけ驚かされるのは、誤用と誤解釈に対抗するためにかくも努力が必要か、ということです。これは哲学や科学史で問題にされているんでしょうけど、科学的判断をルール・ベースの活動へとコード化しようという、逆らいがたい衝動があるんでしょうね。
 BASPみたいにp値を禁止するというのは、問題を広く認知させ議論を起こすという点では有意味なんでしょうけど、それで推論の質が高まるのかどうかはわかんないです。必要なのは、推論という課題について、私たちがある種の広い原理に同意することなのではないでしょうか。具体的に言うと、不確実性について語るための言語です。私はベイズ流の確率を受け入れるしかないと思うんですけどね。[...後略。もっと根本的なパラダイムシフトが必要だという話]

Cobb, G.: 「期待される2つの結果
 関係者のみなさん、おつかれさまでした。ASAはこれから毎年こういう声明を出すといいんじゃないでしょうか。これから教育も変えてかないといけないですね。

Gelman A.: 「 p値の問題は単なるp値の問題ではない
 まず指摘しておくと、声明の(4)のところに「どんな分析を何回やったか報告しろ」って書いてあるけど、それだけじゃ足りないのよ? ポイントは、なにをやったかじゃなくて、もしデータが違ってたらどんな分析をやってたか(what analysis would have been done had the data been different)だよ。ベテランのユーザでも、p-ハッキングをせずなにをやったかをきちんと書けばそれでOKだと誤解している人が多いよね。 ここ、文面の修正案送ったんだけどなあ。[←なるほど、序文の「揉めた話題紹介」の多重比較の箇所で、multiple potential comparisonsのpotentialがわざわざイタリックになっているのはそういう事情か]
 突き詰めていうと、問題はp値じゃなくて帰無仮説の有意性検定そのものなのよ。好きな人形を支持する証拠にするために藁人形を倒すという、 こういう反証主義のパロディみたいなことをやっている限り、問題は解決しないと見たね。信頼区間でも信用区間でもベイズ・ファクターでも交差妥当化でもその他なんでも、証拠がないところに強い証拠があるようにみせかけちゃえるもんよ、わざとかどうかは別にして。
 声明の最後の段落はいいね。デザインも理解も文脈も大事だっていうところ。俺なら測定も大事だっていうのを入れるけどね。だってさ、デザインもデータ収集も文脈に照らした解釈も大事だってみんな知っているのに、結局p値の誤用とかが起きてるわけでしょ? これはやっぱ統計教育のせいだと思うわけですよ。ひとつには、これは自分も含めてだけど、講義とか教科書とかって、データセットとモデルが天下りに降ってくるところから始まるじゃない。せいぜい、サンプルサイズはどうやって決めましょうか、なんていう話をするくらいで。測定のこと、全然教えてないよね。それにさ、統計学ってなんか錬金術みたいに教えられてるよね。偶然性を確実性に変えるのだ、なあんてさ。話をデータからはじめて、有意差が出たら成功、みたいな。綺麗な結論のついたパッケージになっちゃってるのよ。自分でいってて耳が痛いけど。
 まあそんなわけで、ASAの声明ね、いいと思いますよ、大部分はね。でも問題はもっと深刻だと思う。p値を再構築したり他の何かと置き換えたりしても解決にならない。目指すべきは、不確実性を受け入れること。変動を抱きしめること。これですよ。

Greenland, S.: 「ASAガイドライン、そして現在の教育・実践におけるナル・バイアス
 まずは声明を称賛したいと思います。でも、たくさんの対立点についての妥協案だから、どこかの部分に不満を持つ人も多いと思います。私の不満は... [声明における「帰無仮説」という言葉の使い方がおかしい、こういう用法のせいで混乱が起きている。検定のせいで効果がないという仮説だけが検討されるバイアスが生じている。実は客観的ベイジアンもこの罠に落ちていて...とかなんとか。面倒くさいのでパス]

Greenland, S., et al.「統計的検定、p値、信頼区間、検定力:誤った解釈ガイド
[これはコメントではなくて、7名の共著による、本文だけで20pに及ぶ解説。さすがに読む気力ないです]

Ioannideis, J.P.A. 「目的合致的な推論手法とは: p値を放棄/変更するか、研究を放棄/変更するか
[未読]

Johnson, V.E.: 「声明へのコメント、ならびにmarginally significant なp値について
[なんか超めんどくさそうなのでパス]

Lavine, M., Horowitz, J. : (無題)
[未読]

Lew, M.: 「推論をめぐる3つの問い、そしてp値の2つのタイプ
[面白そうだけど、未読]

Little, R.J.: (無題)
 良い声明だと思いますけど、もっと注目しないといけないのは、p値をひとつの孤立した統計的指標として使っている、ということだと思います。効果の大きさと、推定した効果がシグナルかノイズかという問題とは別で、ひとつの指標では答えられないです。信頼区間や信用区間を使ったほうがいいと思います。
 公衆衛生の学生に生物統計を教えていて思うのは、信頼区間は簡単に教えられるけど、仮説検定はすごく難しいということです。仮説検定という概念そのものがゴマカシを含んでいて(The basic artifice of hypothesis testing as a concept)、それが諸悪の根源だと思うんですよね。ASA声明のような慎重な声明で、問題が解決するのかどうか、疑問です。

Mayo, D.G.: 「誤った統計学という産湯は捨てても、エラー・コントロールという赤子は捨てるな
[未読]

Miller, A.M.:「教育に関するいくつかの含意
[未読]

Rothman, K.J.:「統計的有意性に別れを告げよう
 検定は科学的結果という市場の通貨のようなものでした。本物の通貨がそうであるように、その価値はそれ自体にはなく、その背後にある、広く受け入れられている想定や期待から生まれたものでした。検定への依存は怪しい紙幣への信頼に似ています。悪貨が良貨を駆逐してきたわけです。
 検定に依存することの根本的な問題は、まず、すべての結果を二分法的に分類してしまうことです。また、有意かどうかという二分法そのものも恣意的に決まっており、p値に比べて情報が足りません。さらにp値それ自体も、信頼区間とはちがい、効果量と推定精度がコミになっているという解釈上のハンディキャップを負っています。[←なるほど、代替として信頼区間を買っているわけだ。前にも思ったんだけど、ロスマン先生って言い方が過激な割に発想は保守的だよね]
 有意性と真の重要性の間にはとても距離があります。人々が有意性を追求し、その結果として重要な効果を無視してきたせいで、たくさんの人々が傷ついたり、亡くなったりしてきたといってよいでしょう。
 では、どうすればよいのでしょう? 統計的有意性はすでに社会システムに深く組み込まれてしまっています。でも私たちにできることはあります。統計学を学ぶ学生に、検定を使うな、推定を使えと教えるのです。それは簡単なことではありませんが、疫学では、新しいトレンドが確かに生まれています。検定ではなく信頼区間を使いって効果量と推定精度をそれぞれ把握し、有意でない結果にも証拠との価値を認めるというトレンドです。
 さらに、私たち専門家は力を合わせて、科学者、ジャーナリスト、編集者、そして世の人々を啓蒙していきましょう。統計的有意性は有害な概念であり、効果の推定のほうが有用であると。ASAの声明はこの目標には遠く及びませんが、期待できる出発点だと思います。

Senn, S.: 「p値は問題なのか?
[未読]

Stangle, D.: (無題)
 問題の責任は私たち統計教育者にもあります。これを機に、統計教育の世界でp値についての議論が起きて、ベイジアン決定理論とかについても教えるようになるといいなと思います。

Stark, P.B.: 「p値の価値
 ASAの声明の精神には同意するけど、中身には同意できない。(1)声明冒頭のp値の定義があいまい。(2)声明は「帰無仮説」と「p値の背後にある想定」を区別しているけど、帰無仮説というのはp値の背後にある想定の完全なセットのことだ。(3)代替アプローチのなかにp値と似たようなものが入っている。FDRとか。(4)仮説検定がつかわれる状況のなかには、パラメータとか「効果」といった概念がない場合もあることを見落としている[←???]。(5)頻度主義とベイズ主義の違いを無視している。
 [以下、この先生が考えるところの、p値についての解説。うーん...ASA声明の説明が気に入らないということなんだろうけど、本質的な対立点はどこなのか、そもそも本質的な対立点があるのか、私には読み取れない]

Ziliak, S.: 「ASA声明の重大性(significance)
[こういう声明っていろんな人が鵜の目鷹の目で叩くのに、書いた人えらいよね、尊敬するわ、というような話の後で、声明の逐条解説みたいなのがついている。パス]

 読んだ中では、ゲルマン先生のが面白かった。「やったことを報告するだけじゃだめだ」というのは、まあ確かにそうだ。
 それにしても... この話題って、結局のところ、ずいぶん前から話の構図が変わっていないと思う。どこまで遡れるのかわかんないけど、私が院生のころにも、おんなじように悲憤慷慨してたような気がするんですよね。専門家の方にとっては大事な話だろうけど、いちユーザとしては、正直付き合いきれないな、と思う部分もある。

論文:データ解析(2015-) - 読了:Wasserstern & Lazar (2016) p値に関するASAの声明について

2016年3月 1日 (火)

野村竜也 (2016) Human-Agent Interaction (HAI) における人の主観的評価. 人工知能, 31(2), 224-229.
最新号の人工知能誌に載っていた。お茶のお伴に読んだ(むやみに優雅に聞こえる言い回しだ...それどころではないんだけど...)。いま切羽詰まった関心はないんだけど、電子機器への態度という意味では仕事と関係する話である。

 いくつかメモ:

論文:調査方法論 - 読了:野村 (2016) ヒューマン-エージェント・インタラクションの主観的評価

« 2016年2月 | メイン | 2016年4月 »

rebuilt: 2020年11月16日 22:40
validate this page