読書日記: 読了：Morris (1974) 専門家の意見を用いたベイジアン決定モデル

« 読了：Duncan, Gorr, & Szczypula (2001) 時系列のベイジアン・プーリング | メイン | 読了：Winkler(1981) ベイジアン合意モデル (正規性仮定バージョン) »

2016年3月31日 (木)

Morris, P.A. (1974) Decision Analysis Expert Use. Management Science, 20(9), 1233-1241.
　Clemen (1989)のレビューで、ベイジアン合意モデルの初期研究として挙げられていたもの。80年代の論文をいくらめくっても、いまいち文脈が掴めず腑に落ちないもので、思い切って遡ってみた。こんなことをしているから睡眠時間が足りなくなるのだが。
　論文冒頭には「本論文は専門家による情報を評価する論理構造を提出する研究シリーズの一本目だ」とあるのだが、続きの論文はどれなのかわからない(調べてない)。

　いわく。
　専門家についての研究には2系統ある。(1)専門家からどうやって情報を引き出すか。(2)専門家からの情報をどう使うか。前者の研究としてはたとえばデルファイ法がある。本研究は後者に焦点を当てる。
　個々の専門家がある未知の変数について確率評定を行った場合について考える。未知の変数を$x$とする。ある情報状態$\delta$における確率密度関数を$\{x | \delta\}$とする。$\delta$の下での事象$E$の確率を$\{E | \delta\}$とする。
　一般化したサメーション演算子$\int_x$を定義しておく。$x$が離散だったら$\int_x = \sum_{all \ x}$、連続だったら$\int_x = \int_{all \ x} dx$である。
　$\delta$のもとでの$x$の期待値は次のように定義できる: $\langle x | \delta \rangle = \int_x x \{x | \delta\}$。

　[なぜこんなエキゾチックな記号を使うのか... 以下のメモでは、本文中の$\{ x | d \}$のかわりに$P (x | d)$と書き、$\langle x | d \rangle$の代わりに$E(x | d)$と書く。$x$は離散だと決め打ちし、$\int_x$のかわりに$\sum_x$と書く]

　まず、専門家が一人の時。
　専門家の持つ事前分布を$P(x | e)$、意思決定者の持つ事前分布を$P(x | d)$とする。[←以下を読んでいくと、専門家は事前分布を更新しない。ただ公表するだけだ。つまり、ここでいっている事前というのは、意思決定者が専門家の情報によって自分の信念を更新する前、という意味合いだ]
　専門家からの情報をどう使うか。いま、専門家が自分の事前分布$P(x | e)$を公表したとしよう。意思決定者はベイズの定理に従って自分の確率評価を更新する。
　$P(x | P(x|e), d) = \frac{P (P(x|e) | x, d) P(x | d)}{P (P(X|e) | d)} $
　$= k P (P(x|e) | x, d) P(x | d) $

　[ここからの説明があまりに回りくどくてわかりにくいので全訳する：]

　ベイズ定理を適用する事例の多くにおいて、尤度関数は特定の確率モデルから導出されている。しかし重要なのは、尤度関数とはいつだって主観的に特徴づけられるものだという点である。直接的な確率付与で特長づけられることもあれば、適切な確率モデルを選ぶことによって特徴づけされることもあるが、どちらにしても主観的である。
　専門家の事前分布の可能な集合が、実数の可算集合でパラメータ化されているとしよう。尤度関数を評価するということは、通常の同時確率関数を特徴づけるということに等しい。この仮定によって、柔軟なモデリングが可能になり、かつ、関数を確率変数として扱うことについての詳細な数学的分析が不要になる。
　変数$x$が値$x_0$をとる、という風に考えるのと同じくらい容易に、変数$x$のある関数が値$E(x | e)$をとる、という風に考えることができる。従って、$E(x | e)$は概念的には、他のあらゆる未知の変数と同じように評価することができる。しかし、$P (P(x|e) | x, d)$は古典的な意味での「確率の確率」の特徴づけではない。それは、離散的な場合で言えば、専門家の事前分布が$P(x | e)$であるという事象の確率である。
　たとえば、$P(x | e)$の可能な値の集合が$[f_1(x), f_2(x), f_3(x), f_4(x), f_5(x)]$であるとしよう。それぞれの値は、図1に示す5つの確率分布からドローされた値である。関数$P(x|e)$が値$f_3$をとる確率は、すべての$x$について$P(x|e)$である確率である。
　尤度関数は、私たちは専門家のアドバイスに、その専門家に対する私たちのフィーリングに応じた重みをつけなければならない、という直感的概念を確認するものとなっている。実のところ、尤度関数は私たちが持っている専門家についてのモデルである。尤度関数は、フォーマルに決めてもいいし、インフォーマルに決めてもよい。この種の評価が持っているユニークな性質は、ある興味深い概念的挑戦を提出する。
　尤度関数を、専門家の信頼性についての主観的指標としてみることもできるだろう。意思決定者は$x$の真値を与えられている。もし彼が、専門家はとても有能だと感じているのなら、彼は、専門家がその大部分が真値を指し示しているような狭い確率によって返答するということに高い確率を割り当てるだろう。したがって、尤度関数は$x$に強く依存し、意思決定者の事前分布を著しく更新するだろう。もし意思決定者の専門家評価が、真値に対してinvariantであるならば、更新された分布はオリジナルの事前分布と等しいだろう。直感的にはこのことは、意思決定者のこころのなかで、専門家がその変数に対して全く反応しないということを意味している。

[なんだろう、このまわりくどさは... なぜこんな風に延々説明しないといけないのか、文脈が理解できない。私がなにかをすごく見落としているのではないかという不安が募る...]

　専門家が$N$人いる場合。
　最初の$n$人の専門家の事前分布からなる集合を次のように略記する：
　$E_n = [P(x | e_1), P(x, e_2), \cdots, P(x | e_n)]$
意思決定者の課題は事後確率$P(x | E_n, d)$の決定である：
　$P(x | E_n, d) = k P (E_n | x, d) P(x | d) $
尤度関数は条件付き確率に分解できる:
　$P(E_n | x, d) = P(P(x|e_N) | E_{N-1}, x, d) P(E_{N-1} | x, d) $
　$= \prod_i^N P(P(x|e_i) | E_{i-1}, x, d)$
事後確率に代入して
　$P(x | E_n, d) = k \prod_i^N P(P(x|e_i) | E_{i-1}, x, d) P(x | d) $
というわけで、$x$と専門家$1$から$(i-1)$までのパフォーマンスの下での専門家$i$のパフォーマンスについてどう感じるかを特徴づけるという難しい課題が生じる。
　なお、現実的ではないけれど、専門家が$x$の下で条件つき独立だと想定すると、話はぐっと簡単になる。すべての専門家$i$について、尤度関数は
　$P(P(x | e_i) | E_{i-1}, x, d) = P(P(x| e_i) | x, d)$

　専門家の経済的価値について考えてみよう。専門家を雇うかどうか自体がひとつの決定となるような場面では重要な問いである。
　不確実性の下での決定問題で、選択肢$a_1, \ldots, a_N$から一つ選ばないといけないという場面を考える。選択肢$a_i$の価値は、もし$x$が既知だったらその期待値が決まると想定し、これを$E(v | x, a_i, d)$とする。
　専門家に相談することなく決定することによって得られる価値の期待値は、最良の選択肢を選ぶことの期待値に等しい：
　$E (v | d) = \max_i \sum_x E(v | x, a_i, d) P(x | d)$
専門家に相談に乗ってもらって決定することによって得られる価値の期待値は、専門家の返事によって変わってくるので、すべての可能な返事について足しあげて:
　$E (v | C, d) = \sum_{P(x | x)} [ \max_i \sum_x E(v | x, a_i, d) P(x | P(x | e), d)] P(P(x|e) | d)$
専門家の価値は$E (v | C, d) - E(v|d)$である。

　事例。
　先に断っておくと、ある専門家による確率付与を情報とみなすということは、その専門家自身になにかを付与するということとは異なる。これは直感的にはなかなかわかりにくく、訓練が必要である。
　意思決定者はピクニックに行きたいと思っている。彼は、50%の確率で雨が降ると思っている。彼はラジオをつけて天気予報マンが喋りだすのを待っているが、そのあいだに、天気予報をどう使おうかと考えている。天気予報マンがこれからしゃべる降水確率を$p=P(R | e)$とする($R$は雨の略。降らないことは$R'$と書く)。
　彼は考える。仮にいま、誠実な千里眼の人があらわれ、「雨が降りますよ」と教えてくれたとしよう。その場合、天気予報マンは高い確率で「雨でしょう」というだろう。その確率$P(p | R, d)$はただの$p$より高い。こう仮定しよう:
　$P(p | R, d) = 3 p^2$
逆に、千里眼さんが「雨は降りませんよ」と教えてくれたとしよう。その場合、天気予報マンが「雨でしょう」という確率は低い。その確率についてこう仮定しよう:
　$P(p | R’, d) = 3 (1- p)^2$
以上で、尤度関数が定義された。これから天気予報マンがどんな$p$を口にしようが、彼は事後確率を次のように求めればよい:
　$P(R | p, d) = \frac{P(p | R, d) P(R | d)}{P(p | R, d) P(R | d) + P(p | R', d) P(R' | d)} $
尤度関数と自分の事前分布をいれると、結局こうなる：
　$P(R | p, d) = \frac{p^2}{2 p^2 - 2 p + 1}$
[力尽きたので、さらにちがう天気予報マンの予報を聞く場合は省略。さっさとピクニックに行け]

　いやあ、疲れた...
　この論文の主題は、複数の予測を結合する際にその重みをどうやって決めるかという問題ではなくて、その手前の、ヒトの意見というのはこのように用いられるべきだというベイズ流の枠組みを提供することなのであった。うむむ、遡りすぎたような気がするが...
　読んでいて思ったのだけど、もしかすると74年の段階では、ベイズの定理を使うという発想そのものが、かなりの説明を要したのではないだろうか。この論文では、専門家による事象の確率的評価と、意思決定者による専門家の情報の確率的評価とはちがうものなのだ、という記述が繰り返されている。いまならもっとサラッと書いてしまうのではないかと思う。

論文：データ解析(2015-) - 読了：Morris (1974) 専門家の意見を用いたベイジアン決定モデル

読書日記

読んだ本を淡々と記録します

2016年3月31日 (木)