elsur.jpn.org >

2019年7月19日 (金)

Jin, Y., Wang, Sun, Y., Chan, D., Koehler, J. (2017) Bayesian Methods for Media Mix Modeling with Carryover and Shape Effects. Working Paper, Google.

 仕事の都合で読んだ奴。
 泣く子も黙る超巨大最先端企業Google様におかれましては、Google AIというサイトでマーケティング・ミックス・モデリングについてのいくつかのWorking Paperをご発表になられ遊ばされていらっしゃる。目を通してみたんだけど、その内容は意外にもオーソドックスな感じだ。AIとは...。

 タイトルそのまま、繰越効果と形状効果を組み込んだMMMモデルをベイズ推定しますという論文である。形状効果(shape effect)というのは、広告-売上関係が曲線的だということ(Tellis(2006)が引用されている)。

1. イントロダクション
 [たいしたこと書いてないので省略]

2. モデル
 まず繰越効果の表現から。週$t$におけるメディア$m$の支出を$x[t,m]$とする[原文では$x_{t,m}$だが読みにくいので表記を変える]。$w_m$を非負の重み関数として
 $\displaystyle adstock(x[t-L+1,m],\ldots,x[t,m];w_m, L) = \frac{\sum_{l=0}^{L-1} w_m(l) x[t-l,m]}{\sum_{l=l}^{L-1} w_m(l)}$
 [単なる$L$次直接ラグモデルである。係数を表す関数$w_m(l)$は、いまのところなにも制約してないけど、実際の係数は$L$個の合計が1になるようにするわけね。つまり売上への効果を表す係数は別に設けるわけだ]
 簡便のため$L$は全メディアで13とする。[これは実データを見て決めた由。とはいえ、特定のデータのためのモデルってわけでもないわけで、これはつまり、このモデルは3ヶ月を超える長期繰越は考慮しませんという宣言であるといえよう]
 $w_m$としてはいろんな関数が使える。

  • 幾何減衰
     $w^g_m(l; \alpha_m) = \alpha^l_m$
    ただし$0 < \alpha_m < 1$。[えーと、要はKoyckモデルだ]
  • 遅延をいれて
     $w^d_m(l; \alpha_m, \theta_m) = \alpha^{{(l-\theta_m)}^2}_m$
    ただし$0 < \alpha_m < 1, 0 \leq \theta_m \leq L-1$。$N(\theta_m, -1(2 \log \alpha_m))$と比例する。放射カーネル基底関数ともいう。
  • 負の二項分布関数[HPS本が引用されている]。

 次に形状効果の表現。薬学で使われているHill関数というのを使う。
 $\displaystyle Hill(x[t,m]; K_m, S_m) = \frac{1}{1+\left( \frac{x[t,m]}{K_m} \right)^{-S_m}}$
 $S_m > 0$を傾きと呼ぶ。$K_m > 0$は半飽和点、つまり$Hill(K_m) = 1/2$となる点である。[ちょ、ちょっと待って。要は$Y=\frac{1}{1+(x/K)^{-S}}=\frac{K^{-S}}{K^{-S} + x^{-S}}$ってことね?]
 メディアごとの係数$b_m$を掛けて整理すると
 $\beta_m Hill_m(x[t,m]) = \beta_m - \frac{K^{S_m}_m \beta_m}{x[t,m]^{S_m} + K^{S_m}_m}$
 識別が難しいので$S=1$と固定しても良い。他のアイデアとしては、ロジスティック関数とか、正規累積関数とか、単調回帰スプラインとかがありうる。

 繰越効果と形状効果を同時に表す方法は2つある。

  • まずメディア支出の時系列をadstockに変換して、次に形状の変換をする。各期のメディア支出がその累積に比べて比較的に小さい場合に向いている(形状効果は各期でははっきりしないが累積でははっきりするから)。
  • まず形状の変換をして、次にadstockに変換する。メディア支出が特定の期に固まっている場合に向いている。

 ここでは前者をとる。
 簡便のため、シナジーは考えない。

 というわけで、モデルは以下の通り。時点$t$における売上(ないし売上の対数)を$y[t]$, $c$番目の制御変数を$z[t,c]$として、
 $x^{*}[t,m] = adstock(x[t+L+1, m] \ldots x[t,m]; w_m, L)$
 $y[t] = \tau + \sum_{m=1}^M \beta_m Hill(x^{*}[t,m]; K_m, S_m) + \sum_c^C \gamma_c z[t,c] + \epsilon[t]$
 $\epsilon[t]$はホワイトノイズ。

3. 推定
 ベイズ推定です。
 モデルのパラメータのベクトルを$\Phi$, 全てのメディア変数を$X$, すべての制御変数を$Z$、反応ベクトルを$y$とする[原文ではみな太字]。もしも最尤推定だったら、対数尤度を$L(y|X, \Phi)$を最大にする$\Phi$を$\hat{\Phi}$にするところだが、ベイズ推定だから、事前分布$\pi(\Phi)$を考えて
 $p(\Phi | y, X) \propto L(y | X, Z, \Phi) \pi(\Phi)$
とし、この事後分布の中央値だかなんだかを使う。事後分布は、共役分布を使うか、ないしGibbsサンプリングとかHMCとかで推定できる。
 この研究では自前でGibbsサンプリングのコードを書いた。ついでにStanでも試したが、そっちのほうがすごく時間がかかった。
 各パラメータの事前分布は ... [概要説明。面倒くさいので省略]

4. アトリビューション・メトリクスと最適メディアミックス
 MMMモデルってのは、パラメータを推定できれば終わりってものでもない。ユーザは各チャネルの広告支出あたりリターン(ROAS)や周辺ROAS(mROAS)を知りたい。[線形モデルなら偏回帰係数がreturn/spendになるけど、ここでは非線形な関数をかましているから別途求める必要があるという話だろう]
 以下では各チャネルの支出を独立に操作できると仮定する。
 まず売上予測値の時系列を求める(対数変換してたら戻す)。次に、change periodを決めて(たとえば3か月前までの1年間とか)。その期間のあるチャネルの広告支出を0にしたときの売上予測値の時系列を求める。ふたつの時系列の差の合計を求め(change period以降についても合計する点に注意。だって繰越があるからね)、change periodの広告支出の合計で割る。これがROAS。
 いっぽうmROASとは、現支出レベルに1を足した時の売上の増大。change periodの支出を(たとえば)1%増やして売上予測値の時系列を求め、売上予測値の時系列から引き、支出合計の1%で割る。[この1%という増分をどうするかで、結果が変わってくると思うんだけどな...]
 予測値の時系列を求めかた。頻度主義的には、$\Phi$の最尤推定値をプラグインする。いっぽうベイジアン的には、$\Phi$の事後分布をプラグインしてROAS/mROASの事後分布を出す。$\Phi$の事後分布の統計量(中央値とか)をプラグインするのはお勧めしない。$\Phi$のなかにも相関があるからね。[細かいことだけど、ここもちょっとわからん。$\Phi$のなかの相関を問題にするなら、頻度主義のほうでもちょっと工夫するのが筋だろう。ベイジアン以前のKingらのアプローチだったら、ここは$\Phi$の最尤推定値とその共分散行列を推定し、多変量正規性を仮定してモンテカルロシミュレーションをやるところだと思う]

 MMMモデルによるメディアミックス最適化について。
 change period $(t_0, t_1)$の全メディア支出の予算を$C$とし、最適支出を$X^o = \{x_o[t,m], t_0 \leq t \leq t_1, 1 \leq m \leq M\}$とすると、問題は以下のように書ける。

 maximize
 $\sum_{t_0 \leq t \leq t_1+L+1} \hat{Y}[t](x[t-L+1,m], \ldots, x[t,m]; \Phi)$
 subject to
 $\sum_{t_0 \leq t \leq t_1} \sum_{1 \leq m \leq M} x[t,m] = C$

 change periodが長かったりメディアの種類が多かったりする場合、数値的に解けなくなるので、フライトパターンを固定する。たとえば毎月均等に支出するとか、過去の支出時系列に比例させるとか。
 ベイジアン的には、細かく言うと次の2つのアプローチがある。

  • 目的関数を$\Phi$の事後標本を通じた売上予測の平均にする。$\Phi$のサンプルを$J$個とってきて
     $(1/J) \sum_j \sum_{t_0 \leq t \leq t_1+L+1} \hat{Y}[t](x[t-L+1,m], \ldots, x[t,m]; \Phi_j)$
    を最大化する。
  • $\Phi$のあるサンプル$\Phi_j$について
     $\sum_{t_0 \leq t \leq t_1+L+1} \hat{Y}[t](x[t-L+1,m], \ldots, x[t,m]; \Phi_j)$
    を最大化し、得られた$X_j$をサンプルを通して平均する。

 最適ミックスの推定が安定するのは前者なのだが、後者は最適ミックスの推定の分散がわかる、つまり予算配分のモデルをどのくらい信頼してよいのかがわかる。

5. シミュレートされたデータへの適用
 架空データの分析例。2年間の週次データ。メディア支出3つと価格、計4本の時系列を生成し、ここからモデルに従って売上時系列を生成した [読み落としたのでなければ、たぶん撹乱項としてホワイトノイズを使っている。実際の市場反応分析では残差項はたいてい自己相関を持つわけで、ちょっとオプティミスティックなデータ生成である]。
 で、モデルをあてはめてパラメータを推定。最後の12週を置いておいて、その前の1年をchange periodとする。
 $\Phi$の事後分布からサンプルを取ってきて売上予測時系列、ROAS、mROASを求める。これを繰り返してROASとmROASの事後分布を求める。あらかじめ設定したHills曲線の形状によっては、かなりバイアスが出る。
 最後にchange periodのなかの8週間に焦点をあて、2つのメディアについて最適配分を求める。各週の支出は一定とする[そうだろうな、やっぱしこのくらい制約しないと、最適配分問題は解けないだろうな]。2通りの予算について、最適支出の事後分布、ならびに支出-売上期待値の関数を図示する。

 [ここのくだり、ベイジアン的なアプローチによるメディア支出最適化って難しいなあ、と考え込んだ。
 図6a2には全予算0.5の下でのメディア1の最適支出の事後分布が示されているが、3つの峰を持っている。まず横軸0.2のあたりに峰があり(実はこれが真の最適解に近い)、横軸0のあたりにもっと高い峰がある。つまり、パラメータ推定値によっては、メディア1は捨ててメディア2に全てを投じるのが最適解となるわけだ。
 なお、図6b2で示された売上期待値の関数をみたとき、支出0のあたりで売上期待値の事後分布の裾が上に伸びているかというと、これがそうでもない。おそらく「メディア2に全振りしろ」というのは、パラメータ推定値として(売上予測という観点から見て)悲観的な値がサンプリングされたときの最適解なのだと思う。
 著者ら曰く、ここでは最適化解の事後分布の分散が大きい、こういうときには最適化解を信じてはいけない、とのこと]

6. 推定の正確性に対する標本サイズのインパクト
 [前節と同じ生成モデルから生成したデータでシミュレーション。2年間データと60年間データを繰り返し生成し、パラメータの事後分布中央値の分布、ならびにHills曲線の形状の分布を調べる。実務的には2年間の週次データがあればまあ御の字だと思うんだけど(仮にもっとデータがあっても市場の変化が怖い)、シミュレーションの結果によれば、もう笑っちゃうくらいのバイアスがある。モデルや推定の細部について真剣に考えるのが馬鹿馬鹿しくなるくらい。切ないのう、切ないのう]

7. 事前分布の選択
 2年間データでシミュレーション。
 $\beta$の事前分布について。half normal(0,1), normal(0,1), uniform(0,3)を比べる。uniformは他の2つの間で大きく異なりバイアスが大きい[そりゃそうだろうな。なお、生成モデルにおける$\beta_m$の真値は順に0.8, 0.6, 0.3]。
 Hills曲線のパラメータ$K$の事前分布は...[話がややこしそうなので読み飛ばした]

8. 実データへの適用とモデル選択
 あるシャンプーのデータ、週次、2.5年間。変数は、{TV、雑誌、平面、youtube、検索}広告支出、容量あたり平均価格、ACVで重みづけた{配荷、プロモーション}、売上数量の対数。adstockを遅延つきにするかただの幾何減衰にするか、形状を$\beta Hills$にするか$S=1$と制約するか、で計4つのモデルを推定。制御変数は相関が強すぎるので、いったん配荷とプロモーションをそれぞれ価格に回帰させ、残差を使った。Stanで推定、$\hat{R}$で収束判定。BICは幾何減衰・制約ありで最小になった。
 ROAS, mROASをみると... [省略するけど、4つのモデルの間で事後分布がかなり違う。辛いのう辛いのう]
 BIC最小のモデルでTV支出割合の最適解の事後分布を得ると、支出割合0のあたりと1のあたりの2峰になった。支出割合を変えながら売上期待値の事後分布をみると、とにかく事後分布の分散が大きくて、支出割合をどうしようがたいして変わらない。こういうときは推定結果をあまり信じてはいけない。[おいおい]
 形状パラメータについてみると...[読み飛ばした]
 残差の自己相関について。パラメータのドローごとに計算して平均する[まじ? 面倒くさいなあ]。自己相関があんまり消えていない。モデルの誤指定の可能性がある。[おいおいおい]

9. 結論
 フレキシブルなMMMモデルを紹介したが、ふつうのサンプルサイズだとバイアスが大きいわけで、でかいデータを持ってくるか適切な情報事前分布を使う必要がある。後者についていうと、同一カテゴリの複数ブランドのデータをつかて階層ベイズモデルを組むとか、地域別のデータを持ってきて階層ベイズモデルを組むとか。
 云々。

 ... なんでWhite Paperなんだろうか、論文にするにはちょっと足りないのかな、などと思いながら読んでいたんだが、途中で腑に落ちた。これ、新規性を訴求する研究というより、むしろベイジアンMMMの丁寧な技術解説といった趣の文書でありました。
 HPS本の範囲外に出るようなアイデアはなかったけど、Stanコードもついていて、実務的な意味で勉強になりましたです。

 いくつか疑問点をメモしておく。

  • 著者らも言及しているけど、残差の自己相関について。売上時系列の背後には複雑なメカニズムがあるから、どんな説明変数を使ったところで、残差時系列の自己相関は消えないんじゃなかろうか。この論文では撹乱項がホワイトノイズだと仮定しているけど、むしろ、残差を観察したうえで撹乱項に自己相関をいれたほうがいいのではなかろうか...
  • 著者らによれば、メディアミックス最適解の事後分布の分散が大きいときには要注意とのこと。御説ごもっとも。しかし、データが十分であれば最適化解の事後分布は必ず単峰になり分散は小さくなるといえるだろうか? 仮にどのメディアも全く同じ関数を持っていたら、パラメータ推定量の分散がいかに小さくても、メディア支出配分の最適化解の事後分布はフラットになるはずですわね。そのときには意思決定者に「どっちに金を掛けても同じでっせ」という示唆を伝えたい。最適化解の事後分布の分散が大きかったらその結果を疑うという態度だと、本来得られるべき示唆が得られなくなるのではなかろうか。うーむ。
  • ついでにメモしておくけど、そもそもの問題として、「メディア支出の最適化解とは売上期待値を最大化する解だ」ってのは自明なのだろうか。たとえばブランドの存続を重んじて、「どんなに運が悪くてもそれなりの売上を立てるには」というような、マキシミン的な基準でみた解を最適とするってのもありなのではないか...

論文:データ解析(2018-) - 読了: Jin, Wang, Sun, Chan, Koehler (2017) これが俺らのマーケティング・ミックス・モデル (lyric by Google AI)

2019年7月16日 (火)

Kawamoto, T., Aoki, T. (2019) Democratic classification of free-format survey responses with a network-based framework. Nature Machine Intelligence, 1, 322-327.
 
 見つけた瞬間にがっくり膝から崩れ落ちた論文。この論文の提案手法、我々が開発した手法(これのpp.54-56)とすごく、ものすごーく似ているもので、感想は山ほど、ほんとに山ほどあるんだけど、とにかく内容のメモのみ記録しておく。

 まずOA回答を求める。次に、他の回答者のOAをみせて類似性を訊く。で、回答のネットワークをつくる。ノードが回答で、エッジは類似しているという回答があったかなかった。これをクラスタリングする。ある回答がどのグループに落ちたかを目的変数にした分析ができる。
 
 論文の順序と違うけど、先に分類手法の説明から。
 回答数を$N$、グループ数を$q$とし、グループのラベルを$\sigma \in \{1, \ldots, q\}$とする。グループサイズを表す長さ$q$のベクトルを$\gamma$とする。ポジティブエッジによる$q \times q$の類似度(affinity)行列を$\omega^+$, ネガティブエッジによる$q \times q$の類似度行列を$\omega^-$とする。
 以上のパラメータを持つランダム・グラフ・モデル(これを確率的ブロックモデルと呼ぶ)が生成モデル。ここからは事例生成の話。
 それぞれのノードについて、まず$\gamma$に従ってグループにランダムに割り当てる。次に、すべてのノード間のペアについてエッジを生成する。たとえばふたつのノードがあって、所属グループが1と2だったら、その間にポジティブエッジがある確率は$\omega^{+}_{12}$, ネガティブエッジがある確率は$\omega^{-}_{12}$, つながらない確率は$1-\omega^{-}_{12}-\omega^{+}_{12}$である。エッジの生成がランダムに行われると考えている点に注意。実際のデータ生成は必ずしもそうでなくていいんだけど、そうであるほうがよい[対象者に誰のOAをみせるかはランダムに決まっているほうがよいという意味であろう]。
 こうして隣接行列$A$が生成されると考える。

 尤度関数はどうなるか。
 [原文にはないけど勝手に補記する。ノード$i$の所属グループを$\sigma_i$と書く。ノード$i, j$の間にエッジがないときに1になる変数を$\delta_{A_{ij},0}$, ポジティブエッジがあるときに1になる変数を$\delta_{A_{ij}, +}$, ネガティブエッジがあるときに1になる変数を$\delta_{A_{ij}, -}$と書く。ノード$i, j$の間のノード状態$A_{ij}$の尤度関数は
 $g(A_{ij} | \omega^{+}, \omega^{-}) = \left( 1-\omega^{+}_{\sigma_i \sigma_j}-\omega^{-}_{\sigma_i \sigma_j} \right)^{\delta_{A_{ij}, 0}} \left(\omega^{+}_{\sigma_i \sigma_j} \right)^{\delta_{A_{ij}, +}} \left(\omega^{-}_{\sigma_i \sigma_j} \right)^{\delta_{A_{ij}, -}}$
従って尤度関数は...]
 $p(A, \sigma|\gamma, \omega^{+}, \omega^{-}) = \prod_{i=1}^{N} \gamma_{\sigma_i} \prod_{i < j} g(A_{ij} | \omega^{+}, \omega^{-})$

 このモデルだと、あるグループの全てのノードは等価だと考えていることになるけど、実際には人気の高低があるだろう。そこでハブ構造を持たせる(これを次数調整確率ブロックモデルという)。
 尤度関数はこうなる。ノード$i$から伸びているポジティブエッジの本数を$d^{+}_i$, ネガティブエッジの本数を$d^{-}_i$として
 $g(A_{ij} | \omega^{+}, \omega^{-}) $
 $= \left(1-d^{+}_i \omega^{+}_{\sigma_i \sigma_j} d^{-}_j - d^{+}_i \omega^{-}_{\sigma_i \sigma_j} d^{-}_i \right)^{\delta_{A_{ij}, 0}} $
 $\times \left(d^{+}_i \omega^{+}_{\sigma_i \sigma_j} d^{-}_j \right)^{\delta_{A_{ij}, +}}$
 $\times \left(d^{+}_i \omega^{-}_{\sigma_i \sigma_j} d^{-}_i \right)^{\delta_{A_{ij}}, -}$
と直せばよい。

 この尤度関数を用いて、周辺事後分布$p(\sigma_i|A,\gamma, \omega^{+}, \omega^{-})$を求めれば$\sigma_i$が推定できる。モデルパラメータは周辺尤度$\sum_{\{\sigma_i\}} p(A, \{\sigma_i\}|\gamma, \omega^{+}, \omega^{-})$を最大化すればよろしい。我々はEMアルゴリズムで推定したが、別に他の方法でもよい。
 この方法ではなくて、たとえばなんかの目的関数を最大化するような分割アルゴリズムであっても分類できるけど、この方法には利点が3つある。(1)分類の不確実性を、それぞれの回答がグループに落ちる確率として表現できる。(2)確率的ブロックモデルの性質は理論的によく知られていて、効率的なアルゴリズムがある。(3)任意の結合パターンを学習できる。たとえば、仮にネガティブエッジがdisassortativeな構造を持たなくても大丈夫。
 なお、エッジがポジティブとネガティブのほかにあっても扱える(グループの同定が難しくなるかもしれないけど)。

 本題に戻して...
 適用例その1。2016 US大統領選の前にデータを集めた。まず "#NeverHillary or #NeverTrump?" と聴取しておいてから(これはネットワークを描くときには使わない)、その理由を聴いた。ネットワーク分類のalluvial図をみると [知らなかったけど、グループ数を増やしていった時の遷移図のこと]、支持をうまく分類している。
 適用例その2、ある大学での教育学部[第二著者のご所属から拝察するに香川大教育学部かしらん]の卒業生に、あなたのキャリアは(Q1), それを選んだ理由(Q2)、学生時代のもっとも価値ある経験(Q3)を訊き、それぞれについて分析した。
 ネガティブ・エッジはかならずしも非類似性ではなさそうだった[←そうそう、そうだろうなあ... 私のデータでも類似性判断への非反応は必ずしも非類似ではなかった]
 Q1, Q2, Q3それぞれによる分類を比べると...[中略]

 考察。
 この手法は、たくさんの反応に対して扱いやすくスケーラブルなコーディングを提供する。予備調査をやってコーディングフレームを作るよりも簡単だしコードの見落としがない。NLPでもできるだろうけど領域知識が必要だ[実際に試したので付録をみよとのこと]。
 さらに、この手法は統計的にprincipledであり、(主観でも客観でもなくて)民主的である。
 今後の課題として... まず、対象者負荷とグループ同定のトレードオフ(スパースなほうが難しくなるから)。これはネットワーク理論では検出閾値の問題といわれている[へー。Decelle, et al. (2011 Phys.Rev.E), Moor (2017) というのが挙げられている]。
 次に、他の回答者の回答を読むことによるバイアスの問題。しかし、対象者がwell-informedで他者の意見について深く考えるなら、他者の意見を読ませることはむしろ利点かも知れない。
 云々。

論文:調査方法論 - 読了:Kawamoto & Aoki (2019) 自由記述の民主的分類

赤池弘次(1980) 統計的推論のパラダイムの変遷について. 統計数理研究所彙報, 27(1), p.5-12.
 勉強のつもりで読んだ奴。

 いわく、
 統計理論における客観主義と主観主義のふたつの立場が、統計理論の発展にどう影響するかを概観する。

 フィッシャーの枠組みは3段階からなる。

  • (1)specification. 分布の形$f(\cdot|\theta)$を決める。
  • (2)estimation. パラメータ推定値$\theta(x)$を得る。
  • (3)test. $f(\cdot|\theta(x))$がデータに適合しているかどうかを検定する。だめなら(1)に戻る。よければ$f(\cdot|\theta(x))$が最終結果となる。

 この図式は「すぐれた研究者の心理の動きにひとつの客観的な表現を与えようとしたものといえる」。研究者ににとって最も重要な仕事は$f(\cdot|\theta)$の範囲の決定で、ここに主観的要素がはいってくる。
 フィッシャーは、先験確率(事前確率)を使って推論することによって生まれる恣意性を避けるために、尤度概念を基礎とした理論を展開した。たしかに、尤度は客観的に理解可能な確率概念(相対頻度の極限)に基づいている。しかし、$f(\cdot|\theta)$の想定には主観が入る。つまり、フィッシャーの理論だって主観を排しているわけではない。フィッシャー自身もこの点について慎重な立場を保っていた。

 [対数尤度と熱力学的エントロピーの対応について...カイ二乗検定とは統計モデルのエントロピーの意味での適合度が想定する仮説の制約によってどれだけ下がるかを測っている... フィッシャーは情報量とエントロピーとの対応には気が付いていたが、平均対数尤度とエントロピー(の確率論的表現)との同一性に気が付いていなかった... それが奴の限界だった...云々。中略]

 フィッシャーの枠組みでは、入力はデータ$x$で出力は$f(\cdot|\theta(x))$である。分布型は(3)において決まっている。つまり、(3)でやっている検定は、実は分布型の推定を含むより一般的な推定の実現に利用されている。検定はエントロピーの意味で最適な分布型を推定しようとしていると解釈できる。
 このように、検定というのは本質的には推定である。フィッシャーはエントロピー概念を欠いていたので、検定と推定を併置してしまい、以後数十年間にわたる統計理論研究の停滞を引き起こすことになった。

 さて。
 たとえば、多くのパラメータをもつ複雑なモデルを実用化しようとすると、そのぶん標本サイズが足りなくなるので、最尤推定値を使うだけじゃなくて、尤度関数の形全体を推論のために使おうという話になる。
 $\theta$が固定されてたらモデルの尤度は$f(x|\theta)$だけど、$\theta$について先験確率$p(\theta)$が与えられてたらその事後分布は
 $p(\theta|x) = f(x|\theta) p(\theta) / p(x)$
ただし
 $p(x) = \int f(x|\theta) p(\theta) d\theta$
である。ベイジアンの立場とは、「関心のある事象を表現するに必要な$\theta$を考え、その先験分布$p(\theta)$がデータ$x$によって事後分布$p(\theta|x)$に変換されるという形でデータ$x$の与える情報は利用されるべきだというにつきる」。

 $\theta$に依存する量$h(\theta)$について、$x$の下での$h(\theta)$の期待値は
 $E_x h(\theta) = \int h(\theta) p(\theta|x) d\theta$
だが、これは尤度関数$f(x|\theta)$の全体によって決まるわけで、最尤推定値$\theta(x)$しか使わないというのは尤度関数の局所的な情報しか使ってないことになる。つまり、もし適切な先験分布$p(\theta)$が手に入るんなら(ここが難しいわけだけど)、最尤法よりベイズ法のほうが優れているわけである。
 [具体例... 中略]

 問題は先験分布の決定である。
 よくある説明は、先験分布$p(\theta)$は主観確率で$f(\cdot|\theta)$は客観確率だというものだ。で、このふたつの確率概念を客観確率に統一しようとするのが客観主義者、主観確率に統一しようとするのが主観主義者である。
 [ここで主観主義者サベジを批判、ならびに客観主義者も批判。面白いんだけど中略。イアン・ハッキング「確率の出現」を引用している。まだ読んでないけど、あれ、結構古い本だったんだなあ...]
 [先験分布は別にimproperでも構わないんだという話。これも中略]

 というわけで、主観主義も客観主義もまちがっておる。フィッシャーのいう尤度は実は結構主観的だった。サベジは$f(\cdot|\theta)$の主観性を見落としている。
 ベイズ統計の技術的な寄与は、「先験分布という極めて自然な、我々の心理的期待を良く表現する要素を統計的モデル構成の分野に積極的に導入したことである」。$f(\cdot|\theta)$と$p(\theta)$によって与えられるモデルの良さが、モデルの尤度$p(x)$によって客観的に評価される。「こうしてフィッシャー流の方法を、いくつかの$p(\theta)$の集まりによって表現されるモデルの族に対して展開していくことが容易に実現される」。
 云々。

論文:データ解析(2018-) - 読了:赤池(1980) 統計的推論のパラダイムの変遷について

2019年7月12日 (金)

 わたくし平凡なサラリーマンだもんで...時として、もう正しいことなんてどうでもいい!みんながどうやってんのか知りたい!と思うことがあるのです...(本音ダダ漏れ)

Talbot, D., Massamba, V.K. (2019) A descriptive review of variable selection methods in four epidemiologic journals: There is still room for improvement. European Journal of Epidemiology, 34(8), 725–730.

 というわけで、面白そうなので目を通したやつ。ページ数も少ないし。
 疫学の論文だけど、マーケティングのデータ解析というのは、時々びっくりするくらいに疫学に似ていることがあるように思うのです。ほら、マーケティングアクションの効果を観察データから推定するとかって、似てませんかね?

 疫学の論文において共変量の選択がどのように行われているかを調べる。
 先行研究(Walter & Tiemeier, 2009 同誌)を紹介して...
 疫学における共変量の選択手法を簡単に概観して... (因果グラフ, disjunctive cause基準, 単相関とかで選択, ステップワイズ選択, モデル投入による推定値の変化, lasso, adaptive lasso, ベイジアンモデル平均)

 Am.J.Epidemiology, Epidemiology, Euro.J.Epidemiorogy, Int.J.Epidemiologyの4誌に注目。2015年に載った論文は975本、ここから観察研究の論文292本を選んだ。追試とかRCTとかは除外。また予測を目的とする研究も除外。
 共変量選択の方法を分類すると(排他的分類ではないので合計は100%にならない)、

  • 先行知識ないし因果グラフ ... 50% (他と重複していないのだけだと40%)
  • 推定値の変化 ... 12%
  • ステップワイズ ... 5%
  • 単相関とか ... 9%
  • その他 ... 2% (ベイジアンアプローチ, モデル適合, 統計的有意性, etc.)
  • 十分に説明していない ... 37%

 考察。
 先行研究と比べると単相関による選択とステップワイズ選択が減っている。こういう手法は曝露効果を過大評価しちゃうので、喜ばしいことである。
 新しい手法を使っている論文が見当たらない。Bayesian Adjustment for Confounding (Rのbacrパッケージ)とか、Bayesian Causal Effect Estimation(BCEEパッケージ)とか、モデルフリーなアルゴリズム(CovSELパッケージ)とか。

 本研究はsystematic reviewとはいえない。また、個別の研究についてのcriticalな評価ではない(たとえば、ステップワイズ変数選択は効果を過大評価しちゃうけど、仮説生成の段階ならまあ許せるかもしれない)。

 本研究からの示唆:

  • 推定量の変化を調べるというアプローチのパフォーマンスについて、もっとシミュレーション研究が必要。
  • 研究者の教育が必要。いまだに変数を有意性で選んでいる奴がいる。また最近の手法を使っている人が少ない。そもそもデータドリブンな変数選択手法は必須じゃないし(データが大きければ全部使っちゃうのもありだ)、データドリブンに変数選択したときは、変数を選ばず全部使った時の結果も併記してほしい。
  • 変数選択についてのきちんと説明してない奴が1/3以上いる。よくないねえ。

論文:データ解析(2018-) - 読了:Talbot & Massamba (2019) 疫学者はどうやって変数を選択しているか

 先月終わったセミナーの準備の際に悩んだあれこれを、いまだ気分的に引きずっているのだが...これもそのときにとったメモ。
 うーん、やっぱり基礎教養が足りないのだと思う。辛いなあ。でも、もともと文系だし... 別に意図して選んだ仕事じゃないし... (泣き言)

 $L$をラグ演算子とする。一階差分方程式
 $(1-\phi L) y_t = w_t$
があるとき、$(1-\phi L)^{-1}$をどう定義すればよいか。
 ラグ演算子を含む方程式の操作では、$|\phi| < 1$のとき
 $[1-\phi L]^{-1} = 1+\phi L + \phi^2 L^2 \cdots$
だと定義するのが普通である。この話はあっちこっちの参考書に書いてある。しかしここでは$|\phi| < 1$という制約がつけられない場面について考えたい。

 そういう例として...
 時点$t$におけるある株の価格を$P_t$, 配当を$D_t$とする。ある投資家がこの株を$t$において買い$t+1$において売ったら、この投資家は配当から利率$D_t/P_t$を、売買差益から利率$(P_{t+1}-P_t)/P_t$を得る。リターンは
 $r_{t+1} = (P_{t+1}-P_t)/P_t + D_t/P_t$
となる。
 話をすごく単純にして、リターン$r_{t+1}$がどの時点でも一定の正の値$r$であるとしよう。
 $r = (P_{t+1}-P_t)/P_t + D_t/P_t, \ \ r > 0$   ... [リターン公式]
 両辺に$P_t$を掛けて移項すると一階の差分方程式になる。
 $P_{t+1} = (1+r)P_t - D_t$   ... [株価の差分方程式]

ところで、一階の差分方程式
 $y_t = \phi y_{t-1} + w_t$
は、元の式の右辺に$y_{t-1}, y_{t-2}, \ldots$を逐次代入して
 $y_t = \phi^{t+1} y_{-1} + \phi^t w_0 + \phi^{t-1} w_1 + \cdots + \phi w_{t-1} + w_t$
と書き換えられる。従って、株価の差分方程式は
 $P_{t+1} = (1+r)^{t+1} P_0 - (1+r)^t D_0 - (1-r)^{t-1} D_1 - \cdots - D_t$
と書き換えられる。
 配当$\{D_0, D_1, \ldots, D_t\}$と、初期株価$P_0$の両方が決まれば、株価$\{P_1, P_2, \ldots, P_{t+1}\}$も決まる。初期株価$P_0$が未知の場合には、株価は決まらない。

 ちょっと話がそれるんだけど、話をさらにものすごく単純にして、リターン$r_t$は常に$r$、配当$D_t$は常に$D$であるとしよう。
 $P_{t+1} = (1+r)^{t+1} P_0 - [(1+r)^t + (1-r)^{t-1} + \cdots + 1] D_t$
カメカッコの中身をよくみると等比数列の和になっている。等比数列の総和ってのは、えーと、$c \neq 1$のときに$\sum_{k=1}^n c^{k-1} = (1-c^n)/(1-c)$でしたね(Wikipediaをみながら書きました)。よって
 $P_{t+1} = (1+r)^{t+1} P_0 - \frac{1-(1+r)^{t+1}}{1-(1+r)} D$
分母が$r$になるので、結局こうなる。
 $P_{t+1} = (1+r)^{t+1} [P_0 - (D/r)] + (D/r)$

 ここでも、初期株価$P_0$が決まらないと株価は決まらない。

  • 初期株価が$P_0 = D/r$だったらどうなるか。第1項が消えるので、株価は常に$P_t = D/r$となる。売買差益はゼロになり、全収益は株価に対する配当の比$r = D/P$となる。
  • 初期株価が$P_0 > D/r$だったらどうなるか。投資家たちがその株に、配当を超えた価値を見出している場合である。このとき、株価$P_{t+1}$は上がり続ける。バブルみたいな感じですね。

 本題に戻して...
 話をもうちょっと現実的にする。配当$D_t$は変化する、しかし有界である、としよう。

 話をリターン公式
 $r = (P_{t+1}-P_t)/P_t + D_t/P_t \ \ r > 0$
に巻き戻す。両辺に$P_t$を掛けて移項すると
 $P_t = \frac{1}{1+r} [P_{t+1} + D_t]$
以下、$R = \frac{1}{1+r}$と略記する。
 これに
 $P_{t+1} = R [P_{t+2} + D_{t+1}]$
を代入して、さらに$P_{t+2}$を代入して...という風に、時点$T$まで前向きに逐次代入していくと、
 $P_t = R^T P_{t+T} + R^T D_{t+T-1} + R^{T-1} D_{t+T-2} + \cdots + R D_t$   ... [★]
となる。

 株価$P_t$が有界であれば、第一項は
 $\lim_{T \rightarrow \infty} R^T P_{t+T} = 0$
だし、配当$D_t$が有界であれば、第二項以降の和には極限
 $\lim_{T \rightarrow \infty} \sum_{j=0}^{T} R^{j+1} D_{t+j}$
が存在する。というわけで、株価と配当が有界であれば、株価は第二項以降の和
 $P_t = \sum_{j=0}^{\infty} R^{j+1} D_{t+j}$   ...[ファンダメンタル解]
となる。
 ここでは、初期株価$P_0$も上の式で決まるという点にご注目。$D_t=D$としても決まらなかった$P_0$だが、$D_t$が有界だと仮定すれば決まるようになるわけだ。

 ずいぶん前置きが長かったが... ここからはラグ演算子$L$をつかってやりなおす。
 リターン公式
 $r = (P_{t+1}-P_t)/P_t + D_t/P_t \ \ r > 0$
の両辺に$P_t$を掛けて移項して、一階の差分方程式をつくり
 $P_{t+1} = (1+r)P_t - D_t$
これをラグ演算子を使って書き換える。
 $[1-(1+r) L] P_{t+1} = - D_t$
以下、$\phi = 1+r$と略記する。
 さあ、$P_{t+1}$はどうなるか。ここで$\phi > 1$だという点がこの話のミソである。

 まず、ラグ演算子そのものの逆数を定義しておく。
 $L^{-1} w_t = w_{t+1}$

 まず、両辺に$-\phi^{-1} L^{-1}$をかける。左辺は
 $[-\phi^{-1} L^{-1}] [1-\phi L] P_{t+1} = [1 - \phi^{-1} L^{-1}] P_{t+1}$
右辺は
 $\phi^{-1} D_{t+1}$
となりますね。
 さらに、両辺に$1+\phi^{-1} L^{-1} + \phi^{-2} L^{-2} + \cdots +\phi^{-(T-1)} L^{-(T-1)}$を掛ける。左辺はうまいこと整理されて
 $P_{t+1} - \phi^{-T} P_{t+T+1}$
となる。右辺は
 $\phi^{-1} D_{t+1} + \phi^{-2} D_{t+2} + \cdots +\phi^{-T} D_{t+T}$
となる。つないで移項すると
 $P_{t+1} = \phi^{-T} P_{t+T+1} + \phi^{-1} D_{t+1} + \phi^{-2} D_{t+2} + \cdots +\phi^{-T} D_{t+T}$
よくよくみると、★式を1期ずらした式になっていますね。

 $r >0$で、株価$P_t$が有界であれば、$T$が十分に大きい時、左辺から移行した第1項$\phi^{-T} P_{t+T+1}$は無視できる。従って、$r >0$で$P_t$と$D_t$が有界であれば、両辺に$-\phi^{-1} L^{-1} [1+\phi^{-1} L^{-1} + \phi^{-2} L^{-2} + \cdots +\phi^{-(T-1)} L^{-(T-1)}]$を掛けるという演算子は、その極限において、演算子$[1-\phi L]$の逆数だとみることができる。

 というわけで、$(1-\phi L)$の逆数は、$|\phi| < 1$のとき
 $[1-\phi L] ^{-1} = 1 + \phi L + \phi^2 L^2 + \phi^3 L^3 + \cdots$
$|\phi| > 1$のとき
 $[1-\phi L] ^{-1} = -\phi^{-1} L^{-1} \left[ 1 + \phi^{-1} L^{-1} + \phi^{-2} L^{-2} + \cdots \right]$
と定義できる。
 ただし、いずれの場合も、$y_t$, $w_t$が有界であるという暗黙の仮定があることに注意すべし。

 ... 以上、Hamilton(1994) の2.5節からメモ。

 ううう、わからん...
 この本の2.2節には、$|\phi| < 1$のときの$(1- \phi L)$の性質についての説明があり、末尾に「$|\phi| \geq 1$のときの$[1-\phi L] ^{-1}$の性質については2.5節をみよ」と書いてある。ハミルトン先生、$|\phi| > 1$についてはわかりました。では、$|\phi| = 1$のときの$[1-\phi L] ^{-1}$はどう定義すればよろしいのでしょうか。
 愚かな私の考えるところによれば、差分方程式
 $y_{t} = y_{t-1} + w_t$
 $(1-L) y_t = w_t$
において、$w_t$が有界でも$y_t$は有界じゃないし、仮に$y_t$が有界だと仮定したところで、$w_t$が与えられても$y_t$はなお未知だから、$(1-L)^{-1}$は定義できないように思うのですが、正しいでしょうか?
 それとも、$(1-L)^{-1}$とは
 $(1-L)^{-1} w_t = y_t = y_0 + \sum_{t=1}^{t} w_t$
となる演算子、つまり「演算子の左に書いてある奴をt=1から累積して初期値を足せ」という奇妙な演算子だと考えるべきなのでありましょうか???まさかねえ...

雑記:データ解析 - 覚え書き:(1-ΦL)で割るとはどういうことか

2019年7月10日 (水)

Pattee, H. (1987) Simulations, Realizations, and Theories of Life. in Langton, C.G. (ed.) "Artificial Life: The proceedings of an interdisiplinary workshop on the synthesis and simulation of living systems."
 先日出席した研究会で「創発とはなにか」というような話題になったとき、Patteeという人を挙げておられた先生がいたので、お話伺いながらこっそり探してみたらヒットしたPDF。この論文であっているのかどうかはわからない。著者は生物学者だそうです。

 これからの人工生命研究が、過去のAI研究における哲学的議論から学ぶべき教訓はなにか、というようなエッセイ。
 整理の都合上、ざーっと目を通してみたんだけど... 創発には3つのタイプがある、(1)システムの働きについての我々の無知のせいでいま知覚されているイリュージョン、(2)いわゆる創造性、(3)生体が行う外界の測定そのもの... というようなことが書いてあって[きっと誤解してるんだと思います]、正直、途方にくれました。うーん。創造性とは何かというような話が読めるのかと思ったのに...
 そんなこんなで、残念ながら私には難しくてよくわからんかったが、まあいいや、次に行こう次に!

論文:その他 - 読了:Pattee (1988) 人工生命における創発とはなにか

高田敦史, 田中洋(2016) 自動車業界におけるラグジュアリーブランド戦略. マーケティングジャーナル, 36(3), 52-70.
 レクサスのケーススタディ。第一著者はレクサスのブランドマネジメント部長を経て独立された方で、いわばレクサスの「中の人」であろう。第二著者はいわずとしれた、ブランド論の著名な研究者。

 いわく。
 現代のラグジュアリーブランドは、プレステージを低下させることなく認知と売上を高めるという矛盾した課題を達成するため、伝統的なラグジュアリー戦略(高価格・高コスト・生産投資抑制・流通の限定)と現代的ビジネスを両立させなけばならない。Duboisという人はこれを「ラグジュアリーブランドのパラドクス」と呼んでおる。
 さてラグジュアリーブランドとは...[定義についての議論。メモは省略するけど、やっぱりKapfere & Bastien (2009)「ラグジュアリー戦略」を読むのがよさそう]
 カプフェレらの見方によれば、レクサスは機能価値を超えた神話を持っていないからラグジュアリーブランドじゃない。でもレクサスってベンツ, BMWと競合して短期間で成功しましたよね。というわけで、レクサスの位置づけについて考えます。

 1989年のUSにおける導入について。レクサスは、機能性重視の世代といわれるベビーブーマー世代の高級車購入者層をターゲットにした。高品質、キャデラック・リンカーンとベンツ・BMWの中間あたりの価格設定(ほぼ値引きなし)、ディーラーを新規募集し、サービス業のノウハウを取り入れて徹底的に指導。おかげさまで成功した。
 2005年の日本導入について。新規ディーラーというわけではなくて既存のトヨタ系販社が扱ったんだけど、店舗デザインを細かく規定しスタッフを教育、値引きなし・受注生産。

 本題に戻ると、ラグジュアリーブランドの特徴のうち、レクサスは高品質と文化(クラフトマンシップとか)はあてはまるが、あとはあんまりあてはまらない。歴史はないし希少性はないし富を象徴しているわけでもない。
 これは伝統的ラグジュアリーブランドとは異なる新しい位置づけ、いわば「スマートラグジュアリー」ではないか。その特徴は高品質とホスピタリティだ。
 云々。

論文:マーケティング - 読了:高田・田中(2016) レクサスはラグジュアリーブランドだったのか?

今井徹(2016) MMM(マーケティング・ミックス・モデル)による広告効果測定の課題および今後の展望. 品質, 46(4), 381-386.
 セミナーの準備でチェックしていて、読み損ねていた論文。著者について確認していなかったのだが、よく見たらご所属はALBERT、学会などで存じ上げている方だ...

 よく整理され、図表が豊富で、わかりやすい解説であった。いくつかメモしておくと、

  • MMMとアトリビューション分析を比べると、後者は広告接触がない状態での売上を0と仮定するので効果を過大評価し、また季節性を無視する、とのこと。そうなんですか...
  • 著者によれば、広告の残存効果を長くしたMMMモデルはover-fittingでうまくいかない、MMMでは短期的な効果だけを評価し、長期効果はパネル時系列で推定するのがひとつの解決策だ、とのこと。ここ数ヶ月にわたってHanssens-Parsons-Schultz本を頼りに、時系列モデルで長期効果をどうやって推定するかという問題を延々考えていたので、彼我のニュアンスの違いにびっくりしたが、このへんは、実務家としての実感がこもっているのだろう。

論文:マーケティング - 読了:今井(2016) マーケティングミックスモデル・レビュー

2019年7月 9日 (火)

Bookcover ビッグデータ統計解析入門 経済学部/経営学部で学ばない統計学 [a]
照井 伸彦 / 日本評論社 / 2018-12-12
著者はマーケティング・サイエンスの有名な先生。副題に「経済学部/経営学部で学ばない統計学」とある。「経済セミナー」誌での連載の書籍化である由。
 ちゃんと読んだわけじゃないけど(すいません)、今後必要な時に参照できるように、何が書いてあったかだけメモしておく。

  • 1章: イントロ。ビッグデータとはなにか、頻度主義統計学の限界、etc.
  • 2章: ベイズ統計の基本。事後分布の評価としてまず共役事後分布について説明し、モンテカルロ積分、解析的近似(変分ベイズ)についてちらっと紹介。
  • 3章: 前半はナイーブベイズによる分類。後半はベイジアン・ネットワークのかんたんな紹介。
  • 4章: 階層的クラスタリング、k-means法、アソシエーションルール、CART、バギング、ランダムフォレスト、ブースティングについて、それぞれ簡単に紹介。
  • 5章: まず線形判別の紹介。実例とともに、感度、ROC曲線、class imbalanceを紹介。ロジスティック回帰の紹介。最後に、SVMの紹介が4p(これは...はじめて読んだ人は狐につままれたような気分になるだろうな...)、計算例。
  • 6章: PCAとEFAの紹介(回転についての説明はしてないみたいだ)、主成分回帰とPLS回帰の紹介(へええ... PLS回帰の説明はこの厚さの本にしてはちょっとレアかも)、リッジ回帰とLASSO。最後の実例のところでクロスバリデーションが出てくる。
  • 7章: テキスト解析の章。まずワードクラウドを紹介。で、LDAについての説明が実習込みで9p、ここは力が入っている感じ。
  • 8章: NNの章。シグモイド関数とsoftmaxを紹介し、多値選択問題を3層NNでモデル化する実習。で、ディープラーニングについてほんのちらっと紹介(1pとちょっと)。

財務諸表から倒産確率を線形判別するモデルをアルトマンモデルというのだそうだ。知らなかった。

データ解析 - 読了:「ビッグデータ統計解析入門」

電子書籍で読んだマンガ。

Bookcover はたらくすすむ(1) (ヤンマガKCスペシャル) [a]
安堂 ミキオ / 講談社 / 2019-04-18

Bookcover LOST DRIVE (全1巻) (ヤングキングコミックス) [a]
コウノ コウジ / 少年画報社 / 2019-01-30

Bookcover 天国ニョーボ 4 (ビッグコミックス) [a]
須賀原 洋行 / 小学館 / 2017-10-30

Bookcover むしろウツなので結婚かと 解説付き [a]
菊池 直恵,城伊 景季 / 講談社 / 2019-05-25

コミックス(2015-) - 読了:「はたらくすすむ」「LOST DRIVE」「天国ニョーボ」「むしろウツなので結婚かと」

<< 読了:「JODK 消えたコールサイン」
 
validate this page / CSS