elsur.jpn.org >

« 2015年12月 | メイン | 2016年2月 »

2016年1月27日 (水)

 週末にぼけーっとめくっていたビジネス誌で経済学者の方が紹介していて、なんだか面白そうなので探して読んだ論文。自分だけは勝ち組になれるかもと思っている哀れなサラリーマン向けの嫌ったらしい雑誌だと思っていたが、たまには役に立つぞ、日経ビジネス!

Binder, C.C. (2015) Measuring Uncertainty Based on Rounding: New Method and Application to Inflation Expectations. Working Paper, August 25, 2015.
 たとえば「将来のインフレ率は何パーセントだと思うか」というような、数値を尋ねる設問では、キリの良い数字を答える人は確信度が低いことが多い。そこから逆に確信度を推定する、という話。
 著者が公開しているWorking Paperを読んだ。under reviewとのこと。
 
 著者いわく。
 個人の信念の不確実性をどうやって測定するか[←たとえば、ある人が将来インフレがどのくらいの確率で起きると思うかを調べたとして、その人がどのくらいの確信をもってそう信じているのかをどうやって調べるか]。これは重要な問題だ。信念を確率分布のかたちで直接訊くのは難しい。対象者間の不一致性とかボラタリティとかで代用することが多いけど、ミクロレベル[←個人レベルということであろう]での測定ではない。
 昔から、確信度が低い人は丸めた数字を答えやすいことが知られている。この性質を使った手法をご提案します。
 長所: (1)ミクロレベルの測定です。(2)信念の形成過程についてはなんら仮定を置きません、申告過程についての仮定を置くだけです。(3)過去データに適用できます。

 丸めた数字(5の倍数とか)は「正確でない」ということを伝えるために使われる。「497人が参加しました」といったらそれは497人だけど、「500人が参加しました」といったらそれは約500人だ。Krifka (2009 Theory & Evidence in Semantics)はこれを「丸めた数字は丸めた解釈を示唆する」原理(RNRI原理)と呼んでいる。
 実証的研究による証拠もある:

 Michigan Survey of Consumers (MSC) におけるインフレ期待の設問をみてみよう。国レベルの電話調査で、対象者は毎月500世帯(うち4割は半年前の対象者)。「これからの12ヶ月で、物価は平均して何パーセントくらい下がる/下がるでしょうか?」と尋ね、整数ないしDKを答えさせる。みよ、このヒストグラムを。5の倍数が多い(「3%」もちょっと多いけど)。
 5の倍数の回答者だけ取り出すと、実際のインフレ率からの誤差(MAE, RMSE)が大きく、2回参加した人における回答の変更率が高く、2回目調査でのDK率が高い。[←おおお... ただの思弁的議論じゃなくて、こういう証拠を持っているのか、やるなあ]

 さて、回答者の確信度をどうやって測るか。簡単に思いつくのは、「5の倍数」だったら確信度低だとみなすという手だが、これはあまり宜しくない。確信を持って5の倍数を答えている人だっているかもしれないじゃないですか。

 お待たせしました、提案手法の登場です。
 消費者$i$が時点$t$において持っている、将来のインフレについての主観確率分布について、平均を$f_{it}$, 分散(=不確実性)を$v_{it}$とする。
 $v_{it}$が閾値$V$を超えている消費者をタイプH、超えていない消費者をタイプLと呼ぶ[←原文ではh, l だが、小文字のlは読みにくいので大文字に変えた]。
 回答$R_{it}$は、タイプHでは$f_{it}$にもっとも近い5の倍数、タイプLでは$f_{it}$にもっとも近い整数になる、と仮定する。
 回答が5の倍数でなかったら、その人はタイプLだ。しかし、回答が5の倍数の場合、その人のタイプはわからない。そこで、ある人がタイプHである確率を$\zeta_{it}$とし、これを最尤推定しよう。

 どうやるかというと...
 タイプHの$f_{it}$の分布を$N(\mu_{Ht}, \sigma_{Ht}^2)$, タイプLの$f_{it}$の分布を$N(\mu_{Lt}, \sigma_{Lt}^2)$とする。
 ある$t$における$R_{it}$の分布は2つの確率質量関数の混合分布である。ひとつはタイプLの確率質量分布$\phi_t^L$で、サポートは整数。もうひとつはタイプHの確率質量関数$\phi_t^H$で、サポートは5の倍数。それぞれ定義できる[数式略。個々のサポート点の周りに等幅の閉区間をつくって積分する]。タイプHの割合を$\lambda_{t}$として、混合分布は
 $\phi_t = \lambda_t \phi_t^H + (1-\lambda_t) \phi_t^L$
 タイプLの人数を$N_t^L$, タイプHの人数を$N_t^H$とすれば、尤度は
 $\prod_{j=1}^{N_t^L+N_t^H} \phi_t (R_{it} | \lambda_t, \mu_{Lt}, \mu_{Ht}, \sigma_{Lt}, \sigma_{Ht})$
 ほらね、尤度関数が書ける。5つのパラメータを最尤推定すれば、個々の対象者のタイプH確率$\zeta_{it}$が推定できるという寸法だ。$V$についてはなんら仮定していない点にご注目。
 最後に、集団レベルのインフレ不確実性指標をつくろう。上で除外していたDK回答者は$\zeta_{it}=1$だということにして、全員について$\zeta_{it}$の平均をとる。結局それは次の式になる。DK率を$DK_t$として、
 $U_t = (1-DK_t)\lambda_t+DK_t$

 MSCのインフレ期待設問に当てはめて観察。$\zeta_{it}$が高い人は、実際のインフレ率に対するインフレ期待の誤差が大きく、2回調査参加したときのインフレ期待の変化が大きい。$\zeta$は2回の調査参加を通じて安定している。
 別の調査で消費者にインフレ予測を主観確率分布の形で直接聴取しているのがあって、そこから不確実性がわかるんだけど、この調査の分析にいくつか仮定を追加すると、その調査の不確実性をあてることができる由 [詳細は付録を参照とのこと]。
 デモグラで層別して$\zeta$の平均をみると、高年収、高学歴、男、30-60台で低い... などなど、別調査での結果と整合している。

 インフレ不確実性指標$U_t$の時系列をみると、'81-'82の不景気で高く、湾岸戦争でも上昇。実際のインフレ率と不確実性とのあいだにはBallの仮説というのがあって、インフレ率が高いときに不確実性があがるといわれているが(政府が介入するかもしれないと思われるから)、実際のインフレと$U_t$とのVARモデルを組むと仮説通りのグレンジャー因果性がある。[そのほか、失業率とか、横断でみたインフレ期待の不一致とか、いろんな時系列と比較している。めんどくさいので読み飛ばした]

 [最後に、耐久消費財の消費行動と$U_t$との関連性を分析。これも関心ないのでパス。すいませんね]

 結論。[インフレ期待の研究に対する貢献の話はとばして...] 提案手法はほかの調査データにも使える(未来への期待の設問でも、それ以外でも)。 今回はタイプLとHの2タイプを考えたけど、もっと増やしてもいい。云々。

 なるほどねぇ、こりゃあ面白いな。
 調査で数値を答えてもらったとき、キリのよい回答をどう扱うか、一緒に集計してよいものか、というのは以前ちょっと考えたことがあった(サーヴェイ調査に関わる人にとってはそれほど突飛な問題意識ではないと思う)。混合分布をあてはめたらいいんじゃないか、というところまでは考えたんだけど、そのときは回答自体(連続変数)と「キリのよさ」ダミーの2指標を持つLCAを想定し、いまいちうまくいかなかったので、途中で投げ出してしまった。
 いっぽう著者の戦略は、回答を「主観確率分布の平均を離散変数で表現するプロセス」とみなし、その離散変数のメトリックについて潜在クラスを想定する、というもの。著者は、ある人が所属する潜在クラスは主観確率分布の分散と閾値の比較で決まる、云々と述べてはいるが、その仮定は結局使っていないから、いわば潜在クラスは外生的に決まってしまっているわけだ。つまりこの手法にとっては、主観確率分布の分散なんてほんとはどうでもよくて、単に「回答を5の倍数に丸める人」と「整数に丸める人」を想定しているだけなのだ。なるほどね、頭いいなあ。

 マーケティング・リサーチの文脈だと、たとえばカテゴリ購入金額のような設問に使えればいいなあと思うんだけど、金額はたいてい右に裾を引くので、この論文で提案している正規性仮定はちょっと厳しい。そういう場合はどうしたらいいのかなあ。どなたか頭の良い方、考えて下さらないかしらん。

論文:データ解析(2015-) - 読了:Binder (2015) 回答におけるキリの良い数字に注目して確信度を測定する

2016年1月26日 (火)

Camerer, C.F., Ho, T.H., Chong, J.K. (2004) A Cognitive Hierarchy Model of Games. The Quartarly Journal of Economics, 119 (3), 861-898.
 私にはよくわからないが、行動ゲーム理論というのだろうか、そういう分野では有名な論文らしい。しばらく前に読んだScienceのレビュー論文で紹介されていて、興味を惹かれて手に取った。
 正直いって私ごときの歯が立つ代物ではないのだが(掲載誌は経済学のトップジャーナル)、まあ何事も経験だよな、と目を通した次第。いいじゃん、素人が何を読んだってさ。

1. イントロダクション
 たとえば美人投票ゲーム。参加者に0から100までの数字を挙げさせ、回答の平均の2/3に一番近い数字を挙げた人に賞品を与える。参加者にとっての合理的で整合的な選択はゼロだ。なぜなら、均衡理論によれば参加者はこう考えるはずだ:「仮に他のすべての参加者の推測値が100だとして、答えるべき値は67だ。他の参加者もそう考えるだろうから、答えるべき値は45だ。他の参加者もそう考えるだろうから...突き詰めると答えるべき値は0だ」。しかし実験では、回答の平均はたいてい20から35くらい。
 たとえばビジネス参入ゲーム。n 人の参加者に、需要 d の市場に参入するかどうか決めさせる(dはnより小さい)。参入者の人数がd以下だったら参入したほうがよくて、そうでなかったら参入しない方が良い、というようにペイオフを設定する。均衡理論によれば、参入する人数は d に近くなるはずである。実験すると、確かにそういう結果になる。
 このように、均衡理論による予測は当たらない場合もあれば当たる場合もある。この違いはなぜ生まれるのか?
 それではご紹介しましょう、認知階層理論(cognitive hierarchy model)です!

2. ポワソンCHモデル
2.1 決定ルール
 認知階層理論では、ゲームのプレイヤーたちが以下のグループに分かれると想定する。[←話の先取りになるけど、以下でいうステップ数とは「他者の選択について何手先まで読むか」というような概念である。]

...以下続く(ただし、人数はどんどん減っていく)。
つまり、$k$ステップ・プレイヤーが持つ、他者に占める$h$ステップ・プレイヤーの割合についての信念$g_k(h)$は、すべての$h \geq k$について $g_k(h)=0$。人は「俺だけが他の奴らより一手先まで読んでいるぜ」と過信しちゃうものだ、という想定である。

 さらにこう想定する。$k$ステップ・プレイヤーの信念$g_k(h)$は、自分よりステップ数が少ない人におけるステップ数の相対的割合について正確である。つまり、実際の頻度を$f(h)$として、$g_k(h) = f(h) / \sum_{l=0}^{k-1} f(l)$。$k$が増大すると$g_k(h)$と$f(h)$のずれは小さくなる。[←2ステップ・プレイヤーは「2ステップ・プレイヤーはこの俺様だけだ」と考え、3ステップ以上のプレイヤーが存在するとは夢にも思わない。その点で彼は間違っているのだが、0ステップ・プレイヤーと1ステップ・プレイヤーの相対的サイズに限って言えば、彼は実際の分布を知っている。ということであろう]

 プレイヤー $i$ が$m_i$個の戦略を持っているとしよう。$j$番目の戦略を$s_i^j$と書く。彼が$k$ステップ・プレイヤーだとして、彼がその戦略を選ぶ確率を$P_k (s_i^j)$と書く。別のプレイヤー$-i$が持っている戦略が$s_{-i}^{j'}$であるときのペイオフを$\pi_i (s_i^j, s_{-i}^{j'})$と書く。
 戦略$s_i^j$のペイオフの期待値は、彼のステップ数を$k$として下式となる。
 $E_k (\pi_i (s_i^j)) = \sum_{j'=1}^{m_{-i}} \pi_i (s_i^j, s_{-i}^{j'}) \{ \sum_{h=0}^{k-1} g_k(h) \cdot P_h(s_{-i}^{j'})\}$
 [←いやいや、ここで諦めてはならん。さあ深呼吸!
 k=2として考えよう。まず、相手$-i$の選ぶ戦略が$j'=1$である場合について。そのときのペイオフは$\pi_i (s_i^j, s_{-i}^{1})$。では相手が$j'=1$を選ぶ確率は? 相手は確率$g_2(0)$で0ステップ・プレイヤーであり、戦略$j'=1$を選ぶ確率は$P_0(s_{-i}^1)$。相手は確率$g_2(1)$で1ステップ・プレイヤーであり、戦略$j'=1$を選ぶ確率は$P_1(s_{-i}^1)$。あわせて考えると、相手が$j'=1$を選ぶ確率は $g_2(0) \times P_0(s_{-i}^1) + g_2(1) \times P_0(s_{-i}^1)$。
 オーケー、じゃ次は相手の選ぶ戦略が$j'=2$である場合について考えよう... というわけだ。なるほどね、この式で合っている]

 各プレイヤーはどのように戦略を決めるか。以下のように仮定する。
 0ステップ・プレイヤーには戦略的思考がない。彼はある確率分布に従って戦略を選ぶだけだけである。ここでは一様分布に従うとしよう。彼が戦略 $j$ を選ぶ確率は $P_0 (s_i^j) = 1/m_i$である。
 1ステップ以上のプレイヤーは期待値が最大の戦略を選ぶ。すなわち $P_k(s_i^*) = 1$ iff $s_i^* = argmax_{s_i^j} E_k (\pi_i (s_i^j))$。もし期待値最大の戦略が複数あったらランダムに選ぶ。

 こうして、プレイヤーのステップ数の分布$f(0), f(1), \ldots$が与えられれば、順に戦略の選択確率$P_0(s_i^j), P_1(s_i^j), \ldots$を算出できるわけだ。これをCHモデルと呼ぶ。

2.2 $f(k)$の分布
 さて、$f(k)$の分布をどうやって手に入れるか。
 ひとつの方法は、ステップ数の最大値を適当に決めてデータから最尤推定するという方法。著者らはこれまでこの方法を試してきた。だいたい0,1,2ステップまで考えればよいことがわかっている。
 もうひとつは、分布にパラメトリックな仮定を置く方法。ステップ数は作業記憶に制約されるから、大きくなるほど人数が減るとみてよいだろう[←サラッと強気な仮定を置くねえ...]。$f(k)/f(k-1)$が$k$に反比例すると考えると、$f(k)$はポワソン分布 $f(k) = \exp(-\tau) \tau_k / k!$だ。パラメータは$\tau$のみ。この仮定でも$f(0), f(1), \ldots$を自由推定するのと同じくらいの適合が得られることが、これまでの研究でわかっている。これをポワソンCHモデルと呼ぶ。

3. ポワソンCHモデルの理論的特性
3.1 支配-可解ゲーム (dominance-solvable games) [←支配される戦略を逐次削除すると最後に戦略の組が一つだけ残る、という意味らしい]
 ポワソンCHモデルによれば、$f(k-1)/f(k-2) = \tau(k-1)$だ。$\tau$が大きな値であるとは、$k$ステップ・プレイヤーが「ほぼ全ての他者が$k-1$ステップ・プレイヤーだ」と考えることを指す。
 [ここから私には難しかったので、ほぼ全訳]

ポワソン分布の持つこの特性は、思考のステップを被支配戦略の繰り返し削除と結びつけるかんたんなやりかたを提供する。まず、1ステップ思考者は弱被支配戦略を選ばないだろう。なぜなら、0ステップ・タイプのランダム戦略への反応として、これらの反応は決して最良でないからだ。さて、$\tau$が非常に大きいと想定しよう。このとき、2ステップ思考者は、(ほとんど)すべてが1ステップ思考者で、ごく一部が0ステップ施行者であるような相手とプレイしているかのようにふるまう。1ステップ思考者はすでに弱被支配戦略を削除しており、0ステップ思考者はランダムである。こうして、2ステップ思考者は、強被支配戦略をプレイしないだろうし、他の人が弱被支配戦略プレイを削除したあとで弱被支配である戦略もプレイしないだろう。この論理を拡張すると、被支配戦略を好きなだけ繰り返し削除できる。なぜなら、kが$\tau$より十分小さい限り、kステップ思考者はあたかも他の人がすべてk-1ステップ思考者であるかのようにふるまうだろうからである。

[←被支配戦略が逐次削除されて解が決まるという話と、他の人はほぼすべてk-1ステップ・プレイヤーだと思ってしまうという話との論理的関係がつかめないんだけど、これは私の知識不足のせいなので、いずれは理解できる日も来るだろう...]
 さらに次の性質がある[証明がついているけど略]:kステップ・プレイヤーが(純)均衡戦略をプレイするならば、それより高いステップのプレイヤーもそうなる。したがって、$\tau$→ $\inf$ とすると、ポワソンCHモデルによる予測は、弱被支配戦略を繰り返し削除して到達されるナッシュ均衡へと収束する。

3.2 協調ゲーム [CHモデルは複数の均衡を持つゲームにおける均衡選択をうまく説明できる、という話。略]
3.3 市場参入ゲーム [なぜ市場参入ゲームの結果は均衡解に近いのかという説明。略]

4. 推定とモデル比較
 ポワソンCHモデルをいろんなゲームの実験データにあてはめてみよう。
4.1. 美人投票ゲーム。先行研究における24の美人投票ゲームにモデルをあてはめそれぞれの$\tau$を算出する。平均してだいたい1.5くらい。ただし、均衡がどこかとか、教育程度とか、報酬とかでちょっと変わってくる。
4.2. $\tau$はどのくらい一定か。[略]
4.3 どのモデルがもっともよくあてはまるか。あるパネルにいろんなゲームをさせた先行研究データを使う。ポワソンCHモデルはデータによくあてはまる。同じパネルでもゲームごとに$\tau$が動くと考えるともっとよくあてはまる。いっぽうナッシュ均衡は全然あてはまんない。云々。
4.4 ゲームを通じた予測。同一のパネルに複数回ゲームをさせたデータで、一部のゲームをホールドアウトしてポワソンCHモデルをあてはめたとき、同じ$\tau$でホールドアウトをうまく説明できる、という話。
4.5 事例。[略]

5. 理論の経済的価値
 あるプレイヤーの立場になってシミュレーションしてみると、ナッシュ均衡解に従うよりもCHモデルの予測に従ったほうが期待される利得が大きい。云々。

6. 戦略的思考の限界が持つ経済学的含意
6.1 投機
 合理性が共通知識であれば、リスク回避的プレイヤーはヘッジング以外の投機的行動をしないはずだ。これをグルーチョ・マルクスの定理という。[←なぜそう呼ぶのだろう?]
 実際には投機は始終起きる。CHモデルはこれをうまく説明できて...[略]
6.2 マネー・イリュージョン
 インフレの時に収入と価格を調整しそこねること。たとえば、4人一組のゲームで、プレイヤーに1から30までの整数を選ばせる。これが価格。ペイオフは自分の価格と、残り3人の価格の平均の組み合わせで決まる(プレイヤーに30x30のペイオフ表を示す)。「他の人より高い価格を云うと儲かる」というルールの場合と、「他のプレイヤーと一致する価格を云うと儲かる」というルールの場合について調べる。前者では価格は戦略的代替(substitutes)となっており、後者では価格は戦略的補完(complements)となっている。なお、どちらのルールでもナッシュ均衡は11か14になっている。実験データでは、代替の場合のプレイヤーの答えは均衡に近いが、補完の場合には22から23になる。これはポワソンCHモデルでうまく説明できる。[←元のゲームの構造が理解できていないので、残念ながらまるごと理解できない。元のゲームは、どうやら「字面の数字の大きさに引っ張られる」バイアスを示すゲームらしい。面白そうだなあ]

7. 結論
 ワンショットのゲームでは、$\tau$はだいたい1.5くらいと思われる。
 今後の課題: (1)$\tau$を内生変数にする[endogenize. いかにも経済学者っぽい言い方だなあ。普通の言い回しでいえば「$\tau$がどういうときにどういう値になるのかを説明する」であろう]。これは認知制約のもとでもう一手余計に考えることの限界利益の問題であろう。(2)プレイヤーに信念を述べさせる、脳イメージング、情報検索、反応時間、などによる研究。(3)不完全情報ゲームへの拡張。(4)実際の経済行動への適用。
 
 いやー、これは!!超面白かった!!
 どこが面白いといって、規範モデルをちょっとだけ手直しして、すごく説明力のある記述モデルをつくる、というところ。CHモデルのプレイヤーは期待効用を最大化する合理的経済人なのだ。ただちょっぴり頭が悪くて(?)、他人の戦略を読む手数が限られているだけなのである。いやあ、こういうの、痺れるなあ。
 さらに面白いのは、比較的に単純なミクロ・モデルに個人差を取り入れることで、マクロにみると複雑な現象をうまく説明しているところ。大昔にL.Lopesの「プロスペクト理論がなくたってリスク志向性の個人差を考えればリスク下意思決定の複雑な現象がうまく説明できる」という論文を読んでいたく感動したことがあるんだけど(若かったなあ)、あの感銘を思い出した。

 でもそのいっぽうで、読んでてすごく気持ち悪かったところもあって...
 モデルが現実と比べて単純だというのは当然のことなので、細部をあげつらって「この仮定は現実的でない」といっても仕方がないんだけど、著者らはステップ数の限界を認知的な制約(作業記憶による制約)として述べているわけだから、ほかの部分でも、認知的にあまりに不自然な仮定を置くのは宜しくないと思う。この論文を読んでいて一番気持ち悪かったのは、「2ステップ・プレイヤーは2ステップ・プレイヤーが自分しかいないと誤解しているが、0ステップ・プレイヤーと1ステップ・プレイヤーの相対的サイズについてだけは正しく知っている」というところ。なんでそんなふうに、わざわざ認知的基盤が想像しにくい仮定を置くんだろう? あるゲームに参加したとき、他のプレイヤーがどのくらいアホか、僕らはどうやって知ることができるんだろうか。
 むしろ、最初から「ステップ数の共通事前分布があり(正しいとは限らない)、各プレイヤーは自分自身のステップ数をシグナルにしてそれをベイズ更新する」ようなモデルを考えたほうが、ずっとリアルな感じがするし、かえってシンプルに推定できちゃったりしないのかなあと思うんだけど... そんなことないのかなあ。

 もうひとつ、この感想もきっと専門の方には馬鹿にされちゃうだろうと思うんだけど... 作業記憶制約のせいでステップ数に限界が生じるっていうんなら、なんでもっと直接的な証拠を探さないの、先生!とイライラしながら読んでいた。プロトコル分析すればいいじゃん。ゲームの参加者の口元にマイクつけて、ずっと独り言いってもらいながらプレイしてもらえば、個々の参加者が何手先まで読んでる人か分かったりするんじゃない? そこまでいかなくても、せめて反応時間くらい調べようよ! さらにいえば、無関係な数字を暗唱する並行課題かなんかで作業記憶を妨害しながらプレイしてもらったときの選択確率の変化が、CHモデルにおけるステップ数の減少として記述できるとかさ、そういう実験やろうよ先生! と...
 幸いこういう行動実験の話は、論文の最後のところでちらっと触れられていたので、全くやらないってわけでもないんだろう。Camerer, Prelec, & Loewenstein (forthcoming, Scandinavian J. Econ.), Rubinstein(2003, Working Paper), Chong, Camerer, & Ho (in press, incollection), Costas-Gomes & Crawford (2004, Working Paper)というのが挙げられていた。

 というわけで、途中で「キタキタ...」「おおおーっ」などと小声で呟いたりしつつ、しばし楽しいひとときを過ごしたのだけれど、あいにく当面の仕事には役に立ちそうにない。なにやってんだかなあ。

論文:心理 - 読了:Camerer, Ho, & Chong (2004) ゲームの認知階層モデル

2016年1月22日 (金)

Yang, Y., Goldfarb, A. (2015) Banning Controversial Sponsors: Understanding Equilibrium Outcomes When Sports Sponsorships Are Viewed as Two-Sided Matches. Journal of Marketing Research, 52(5), 593-615,
 ちょっぴり興味を惹かれて読んだ(当面の仕事と関係ないというところも魅力的であった)。スポーツのスポンサー契約をマッチング理論で分析するという論文。

 著者ら曰く。
 マーケティング意思決定の多くはマッチングプロセスの結果だ。たとえば小売がどのメーカーの製品を扱うか、とか。この論文ではマッチング市場におけるポリシーの変化が及ぼす効果をtwo-sidedマッチング・モデルで分析する。取り上げる題材は英サッカークラブのシャツのスポンサー契約(通常ひとつのクラブにはシャツのスポンサーが年に1社だけつく由)。

 先行研究概観。

 データの説明。英サッカークラブのスポンサー契約のデータ(約30年間分)、クラブのデータ、スポンサー企業のデータ、である。関心ないのでメモは省略。
 two-sided マッチングモデルについて。ここはあまりに馴染みのない話で困惑したので、別にメモをとった。ま、とにかく、スポンサーシップの効用がクラブの属性と企業の属性の交互作用項で決まるという線形モデルを、 マッチング市場が均衡しているという前提のもとで最適化問題として解くという話だ。
 スポンサーシップの効用の線形モデルには次の12種類の項を叩き込む(それぞれが複数の変数を含んでいる。巨大なモデルだ)。論文中の記号と一緒にメモする。なお、クラブの属性の主効果と企業の属性の主効果は、最適化問題に定式化した際に消去できるので無視してよい。$a$はクラブ, $i$はスポンサー, $t$はシーズンを表す添え字。

 変数を入れ替えたりデータを絞ったりしてモデルを9本も推定するが、これは細かい突っ込みへの防衛策で(スポンサー契約には複数年契約があるじゃんとか、自己相関があるんじゃないのとか)、結果はモデル間でたいして変わらないよという主旨。
 結果は... 距離がすごく効くとか... でもその効き方はクラブの成績や企業の産業によって異なるとか... なんとかかんとか、めんどくさいので省略。結果自体よりもむしろ、こんなでかいモデルをホントに推定できんのかというほうに興味を惹かれるが、Web Appendixをみないといけない模様で、そこまでやる気力はないぞ。

 後半は政策分析(policy experiments)。もしアルコール産業とギャンブル産業のスポンサーシップが禁止されたらなにが起きるかを調べる。
 1990年から2010年までの21の架空市場を想定する。クラブとスポンサー総当たりのペアをつくり、上のモデルで効用を求める。で、完全情報下の協調ゲームとみなしてマッチングの均衡解を求める。さらに、アルコール企業(ギャンブル企業)のスポンサー契約が禁止されている状況での均衡解を求め、差を調べる。
 結果。禁止するとマッチングできない企業が増え、市場全体での効用も下がる。細かくみると、禁止企業と契約しているクラブが割りを食うわけではなく、むしろ、動員数が小さい貧乏なクラブが割を食う。[←なるほどー... これは面白い。もしクラスで一番モテる娘が高校をやめたら、彼女をつくるのが難しくなるのはむしろスクール・カースト底辺の男の子ってわけだ。このへんは反実仮想的な分析の威力だなあ]
 [とはいえ、こういう分析はそれほどストレートではなく、いろいろ突っ込みが可能なようで、論文はここから長い長い防衛戦に突入する。仮にマッチングが成立しなかったら効用は0だといえるか、とか。スイッチング・コストとか自己相関とか複数年契約とかとの関係はどうよ、とか。面倒なので読み飛ばした]

 考察。諸君、two-sidedマッチング・モデルの威力にひれ伏せよ。
 限界:(1)クラブ・スポンサーのforward-lookingな行動を無視している。(2)政策分析でわかるのは禁止の長期的影響であって、短期的にどうなるかは別の問題。(3)市場に新規参入したスポンサーの価値が最小限だと想定している。(4)マッチングを協調ゲームだと捉えている。(5)他の国・スポーツへの一般化可能性はわからない。

 。。。実証研究の文脈で均衡という概念が出てくるといつも思うことだけど、この論文にも、そもそも現実世界が均衡状態にあるっていう仮定には証拠があるの?? という素朴すぎる疑問を感じた次第である。もっとも、この前提からスタートして効用関数を推定し、「クラブのスタジアムとスポンサーの本社が離れているとスポンサー契約の効用が小さい」なんていう、いかにもそれらしい係数を推定してみせているので、うーん、やっぱこれで正しいのか... と説得されちゃうんだけど。でも正直いって、やっぱりモヤモヤが残るんですよね。わたくし、やっぱ頭が固いんでしょうか、それとも不勉強のゆえでありましょうか。

 正直言って方法論に関心があっただけで、エゲレスのサッカー業界がどうなろうが知ったこっちゃないんだけど、スポンサーシップをめぐる消費者サイドの話にはちょっと関心があるので、挙げられていた先行研究をメモしておく。前に読んだNeijens et al.(2009)というスポンサーシップ研究は挙げられてない。かわいそうに。

論文:マーケティング - 読了:Yang & Goldfarb (2015) マッチング理論でみたスポーツチームのスポンサー契約 (または: 酒メーカーのロゴを選手のシャツから締め出したら困るサッカークラブはどこだ?)

2016年1月19日 (火)

Green, P.E., Krieger, A.M. (1988) Choice Rules and Sensitivity Analysis in Conjoint Simulators. Journal of the Academy of Marketing Science, 16(1), 114-127.
 仕事の都合で読んだ。なんで四半世紀前の論文を読まねばならんのだ、とも思うのだけれど、知りたいことが書いてある本が見つからなくて。探し方が悪いのだろうか...

 コンジョイント分析で属性の部分効用を推定し、かつ選択集合となる製品群を定義できたとして、そこから消費者の選択確率を求めるとき、方法がいろいろあるけどどれがいいのか、という話。
 おかしい... こうやって書いてみると、どうみてもその辺の参考書に載っているべき話だ。探し方が悪いんだよな、やっぱり...

 著者らいわく。
 歴史的にいうと、初期のコンジョイント分析では対象者レベルでの最大効用ルールを使うのが一般的だった。個々の対象者は自分から見て効用がもっとも高い製品を確率1で選ぶ、と考える。いまでもこれが主流。
 最近では効用シェアルールも使われている。効用のベクトルを選択確率のベクトルに変換する。良く使われているはBradley-Terry-Luceモデル(BTL)モデルとロジット・モデル。結果はだいたい同じ。どちらも"majority fallacy"という問題を抱えている。すなわち、異質性が高い市場において、効用の平均が高いのに誰にとってもfirst choiceでないという製品が出現するという問題である[←ちょっと待って先生...それがなぜ問題なの? 誰にとっても二番手の製品が市場全体を通してシェア最大になる、ってことは実際にあり得るんじゃないですか? どうも文脈がつかめない]
 ほかに、EBA, 辞書型、probit型、tobit型、conjunctive/disjunctive型などのルールが提案されているが、推定が難しいしあんまし使われていないので、ここでは扱わない。[←知らなかった... コンジョイント分析の文脈でも、かつては非補償的選択を取り入れるという提案があったのか]

 各ルールについての説明。
 いま、部分効用は対象者内で最小0, 最大1に規準化されているとしよう[←おっと、合計0じゃないのね。BTLルールの説明をしたいからだろう]。製品$1,2,\ldots,J$の効用$s_1, s_2, \ldots,s_J$を選択確率に変換する関数について考える。

 BTLルールは効用に定数を加えると確率が変わる。ロジットルールは効用を定数倍すると確率が変わる。
 向き不向きについていうと、散発的に買う製品の異質性の高い市場では最大効用ルールが良い。反復購買する製品に市場ではBTLなりロジットなりが良い。

 後半は感度分析のすすめ。候補集合をちょっぴり変えてシェアの変化をみるといいよ、という話[←推定量に対するパラメータの感度分析というような話じゃなくて、もっと実質的な話だ]。

とかなんとか。[←牧歌的な話で実に心暖まるが、いま心暖めてもしょうがないので、適当に読み飛ばした]

 効用から確率を求める方法については、もっと新しい方法もあるので(Sawtooth社のrandomized first choiceとか)、1988年の論文を読んでもしょうがないんだけどね、実のところ。
 BTLモデルとロジットモデルでは、その背後にある効用についての理論が違うのではないかと思う。その辺の事情が知りたくて手に取ったんだけど、やっぱりよくわからなかった。なにを読めばいいんだろう? もちろん、難しい数式が出てこない範囲でお願いしたい... 修士のときに読まされたCoombs-Dawes-Tverskyの数理心理学の教科書が、いまだトラウマになっているのである。

論文:データ解析(2015-) - 読了:Green & Krieger (1988) コンジョイント分析で推定した効用から市場シェアを推定する方法 in 1988

2016年1月17日 (日)

年始に集計してみたところ、2015年中に読んだ本のうち、小説などフィクションはたったの18冊。記録が残っている2005年以来最低の冊数である。いくつか要因はあるけれど、第一に忙しさ、第二にスマホの影響だ。
 たくさん読めばいいってもんでもないけれど、これはあまりに寂しすぎる。死ぬ前に「あの小説読みたかったな」と思うことはあっても、「もうちょっとスマホいじりたかったな」と思うことはたぶんない。今年はもうちょっと小説を読もう...

Bookcover 月と篝火 (岩波文庫) [a]
パヴェーゼ / 岩波書店 / 2014-06-18
というわけで、何か月も読みかけであった小説を年始に頑張って読み終えた。パヴェーゼの小説はいつもそうなんだけど、あまりに切々と哀しくて、途中で辛くなってしまうのである。
 イタリア現代史の知識がないせいで、よく理解できないところがあるのが残念だ。

Bookcover 氷 (ちくま文庫) [a]
アンナ カヴァン / 筑摩書房 / 2015-03-10
暗ーい暗ーい幻想小説であった。

フィクション - 読了:「月と篝火」「氷」

Bookcover 縮小都市の挑戦 (岩波新書) [a]
矢作 弘 / 岩波書店 / 2014-11-21
デトロイトとトリノ(どちらもかつての自動車の街)を題材に、都市の縮小政策について論じた新書。著者はもともと新聞社出身だそうで、取材を中心にした内容。どうせ外国の成功譚でしょ、と冷めた気持ちで読み始めたんだけど、なかなか面白かった。

Bookcover 数学が生まれる物語 第5週 関数とグラフ (岩波現代文庫) [a]
志賀 浩二 / 岩波書店 / 2013-08-21
数学コンプレックスが昂じて、こんな本をふむふむと読んじゃったりして... しかも途中でわかんなくなっちゃったりして...

Bookcover 砂糖の通った道《菓子から見た社会史》 [a]
八百 啓介 / 弦書房 / 2011-12-12

Bookcover 砂糖の世界史 (岩波ジュニア新書) [a]
川北 稔 / 岩波書店 / 1996-07-22

Bookcover 美の猟犬―安宅コレクション余聞 [a]
伊藤 郁太郎 / 日本経済新聞出版社 / 2007-10
散歩中に出くわした古本市がきっかけで読んだ本。
 著者は新卒で安宅産業に入社、古美術コレクターとして知られた会長・安宅英一の側近として働き、倒産後は安宅コレクションを収めた美術館の館長を務めた人。安宅英一との日々の回顧を主軸にした古美術エッセイであった。
 自分が理解できない世界の話を自分が理解できないということを理由に蔑むのは、厳として慎まないといけないと思う。また、安宅産業の末路を知っている立場から、敗者を後付けで鞭打つことも慎まないといけない。
 しかし、一読してどうしても、憤りに近い感情を抑えきれない。安宅英一さんも著者の方も、見方によっては魅力的な人かも知れない。しかし、こういう人たちが組織を駄目にするのだ、と思う。もしくは、ある組織が駄目になるときにはこんな人たちが現れてしまうのだ、と思う。

ノンフィクション(2011-) - 読了:「縮小都市の挑戦」「砂糖の通った道」「数学が生まれる物語」「砂糖の世界史」「美の猟犬 安宅コレクション余聞」

Bookcover ジャーナリストはなぜ「戦場」へ行くのか (集英社新書) [a]
危険地報道を考えるジャーナリストの会 / 集英社 / 2015-12-17
フリーランスや通信社勤務など10人による共著。

Bookcover 戦場記者 「危険地取材」サバイバル秘話 (朝日新書) [a]
石合 力 / 朝日新聞出版 / 2015-12-11
こちらは朝日の外信記者。海外取材のエピソードとノウハウを並べた比較的に軽い感じの読み物に仕立てているけれど、おそらくは最終章、危険地取材の必要性を訴えるくだりが、もっとも書きたかったことなのだろう。

Bookcover 〈文化〉を捉え直す――カルチュラル・セキュリティの発想 (岩波新書) [a]
渡辺 靖 / 岩波書店 / 2015-11-21

Bookcover しぐさで読む美術史 (ちくま文庫) [a]
宮下 規久朗 / 筑摩書房 / 2015-12-09

ノンフィクション(2011-) - 読了:「<文化>を捉え直す」「ジャーナリストはなぜ『戦場』に行くのか」「戦場記者」「しぐさで読む美術史」

Bookcover 恋は雨上がりのように 4 (ビッグ コミックス) [a]
眉月 じゅん / 小学館 / 2016-01-12
クールな女子高生がなぜかバイト先のファミレス店長に恋心を抱いてしまい... というマンガ。「なぜ好きになったか」は素っ飛ばし、不釣り合いな恋という状況の下で二人がどうふるまうか、というところに焦点を絞っているところが面白い。
 どういう人が主読者層なのかわからないけど、私はもう完全に店長の側に肩入れして読んでしまっているので、このマンガで描かれる状況はそのへんのホラーよりおそろしい。主人公に涙ながらに「どうしてこんなに胸がちぎれそうなの」と訴えられるくだりでは、思わず喉の奥から「ひぃぃぃぃぃ」と悲鳴が出てしまい、頁をバン!と閉じ、傍らにあった岩波書店「図書」を意味もなくぱらぱらとめくり、そうか日本民俗学の始祖・柳田國男は海上交通だけではなく河川交通についても早くから注目しているのか、なるほどなるほど、なんて呟いて気持ちを落ち着けたりなんかして。。。

Bookcover 海街diary 7 あの日の青空 (flowers コミックス) [a]
吉田 秋生 / 小学館 / 2016-01-08

Bookcover 忘却のサチコ 2 (ビッグコミックス) [a]
阿部 潤 / 小学館 / 2015-04-30

Bookcover あとかたの街(5)<完> (KCデラックス BE LOVE) [a]
おざわ ゆき / 講談社 / 2015-11-13

Bookcover たそがれたかこ(6) (KCデラックス BE LOVE) [a]
入江 喜和 / 講談社 / 2015-11-13
市井に生きるごく平凡な45歳女性のささやかな冒険を描く。偶然に知り合いとなった鬱屈した中学生と歩く場面、並んで歩くどころか、全然距離が縮まらない。「でも/これは神様が/10代のころの私のこと--なんだか不憫に思って/気まぐれにくれたプレゼントなのかな」 参るなあ。胸が締め付けられる場面だ。

コミックス(2015-) - 読了:「恋は雨上がりのように」「海街ダイアリー」「たそがれたかこ」「忘却のサチコ」「あとかたの街」

2016年1月14日 (木)

 たとえば、プロのサッカー選手が来ているシャツにはスポンサーのロゴなんかが入っている。小さなロゴの裏では莫大な金が動いている。
 スポンサー契約を通じて、スポンサーは知名度を向上させたりなんだり、なんらかの価値を得るだろう。ひょっとするとクラブの側も、契約金とは別になんらかの価値を得るかもしれない(ないし、変な企業とスポンサー契約したせいで損をするかもしれない)。
 スポンサー契約はどれだけの価値を生むのか。

 あるスポンサー契約がクラブとスポンサーにもたらす、(契約金以外の)価値の合計について考える。その価値を手に入れたのがクラブ側かスポンサー側かはいったん脇に置いておく。この価値の合計のことを、経済学者っぽく「生産価値」と呼ぶことにする。
 スポンサー契約の生産価値はなにによって決まるか。クラブにもいろいろあって、スポンサー契約が価値をもたらすようなクラブもあれば、そうでもないクラブがあるだろう。スポンサー企業にもいろいろあって、スポンサー契約が価値をもたらすような企業もあれば、そうでもない企業もあるだろう。さらに、クラブとスポンサーの相性というものもあるだろう。
 次のように考えよう。市場$t$におけるクラブ$a$の特徴をベクトル$X_{at}$、スポンサー$i$の特徴をベクトル$Y_{it}$で表す。生産価値は
 $f(a, i, t) = \alpha X_{at} + \beta [X_{at} Y_{it}] + \gamma Y_{it} + \epsilon_{ait}$
 第1項は、いうなればクラブの力。第2項は相性の力で、ブラケットの中身をどうするかはあとで考える。第3項はスポンサーの力。最後は誤差だ。

 ここで知りたいのは、係数$\alpha, \beta, \gamma$だ。これらが推定できれば、スポンサー契約の価値を推定する仕組みが手に入る。クラブとスポンサーの特徴をインプットすれば、スポンサー契約がもたらす価値の推定値がアウトプットされる仕組みだ。素晴らしい。
 そこで、スポンサー契約の事例を片っ端から集めてくる。さらに、クラブとスポンサーの特徴についてのデータを片っ端から集めてくる。クラブとスポンサーの相性に影響しそうなデータも集める。
 たとえば、大チームと大企業を組み合わせると相乗効果が生まれたりするかもしれない。 クラブとスポンサーが地理的に近いところにある方が相性は良いかもしれない。強くて人気がある大チーム、大企業、国際的企業、サッカー向きの業種の企業は力を持ち、スポンサー契約の価値を高めるかもしれない。でもその力も距離次第では損なわれてしまうかもしれない。なんであれ、スポンサー契約を続けていると価値が増すかもしれない。。。という具合に、思いつく仮説を、上の数式にどんどん入れていく。

 さあ、準備はできた。データを上の式に放り込み、係数$\alpha, \beta, \gamma$を推定しよう... と思うところですよね。私もそう思いました。しかし、話はそのようには進まない。これがこのメモを書き始めた理由である。
 なぜか。スポンサー契約がもたらした価値についてのデータがないからだ。クラブの観客数や企業の売上からスポンサー契約の価値を割り出すのは難しい。契約金からどうにか推定できるとしても、そもそもスポンサー契約の金額は企業秘密だ。式の右辺についてはデータがある、しかし左辺についてのデータがないのである。
 さあ、ここからが本題。スポンサー契約がもたらした価値についてのデータなしで、スポンサー契約の価値を推定するモデルをどうやってつくるか。

 サッカークラブは金をくれるスポンサーを求め、スポンサーはロゴをつけてくれるサッカークラブを求めている。クラブたちとスポンサーたちはひとつの市場を形成している。たとえばあるシーズンにおけるある国のクラブたちとスポンサーたち、これがひとつの市場だ。
 いま、市場 $t$ においてクラブ $a$ がスポンサー $i$ と契約したとしよう。スポンサーがクラブに渡す金額を $r_{ait}$、スポンサーが得る価値を$\Delta V (a,i,t)$, クラブが得る価値を$\Delta U(a,i,t)$としよう。スポンサーの利得は
 $\pi^S (a,i,t) = \Delta V(a,i,t) - r_{ait}$
クラブの利得は
 $\pi^C (a,i,t) = \Delta U(a,i,t) + r_{ait}$
この契約によって生まれる価値、すなわち生産価値は
 $f(a,i,t) = \Delta V(a,i,t) + \Delta U(a,i,t)$
である。両者の間でどれだけのカネが動いたか($r_{ait}$)は、もはやどうでもよくなっていることに注意。

 同じ市場$t$において、別のクラブ $b$ が別のスポンサー $j$ と契約したとしよう。このとき、世の中がうまく回っているならば、
 $f(a,i,t) + f(b,j,t) \geq f(a,j,t) + f(b,i,t)$
であるはずである。つまり、2つの契約から生まれる生産価値の合計は、仮にクラブとスポンサーのマッチングを入れ替えたときに生まれる生産価値の合計と同じ、ないしそれよりもマシであるはずだ。マッチング理論ではこれを「局所生産最大化条件」と呼ぶのだそうである。

 市場$t$においてなされたスポンサー契約の集合から、2ペア$\{a,b,i,j\}$を取り出すすべての取り出し方について考える。契約が3つあったら3x2=6通り、k個あったらk(k-1)通りあるんでしょうね。で、すべての取り出し方について、局所生産最大化条件が満たされていたら1点、そうでなかったら0点とカウントする。このカウントを合計しよう。
 さらに、市場の数が$H$個あるとして、それらの市場を通じて、カウント合計の平均を求めよう。
$Q_H(f) = \frac{1}{H} \sum_{t \in H} \sum_{\{a,b,i,j\} \in A_t} 1[f(a,i,t) + f(b,j,t) \geq f(a,j,t) + f(b,i,t)]$
 $1[\cdot]$は、カッコ内の不等式が成立しているときに1, そうでないときに0を返す関数である。上記数式、原文にはどうもミスプリがありそうなので、勝手に表記を変えている。誤解していないといいんだけど。

 この関数を$f$について最大化した解を、スポンサー契約市場における均衡状態と捉えることができるのだそうだ。
 つまり、もし世の中がうまく回って回って回り続けていれば、いずれはスポンサー契約市場 がそうなるであろう姿。一旦世の中がそうなってしまった暁には、どの(合理的な)クラブもスポンサーもそこから抜け出すことができない、そんな姿。それがわかるというわけだ。まじですか。
 ということは、もし世の中がこれまでうまく回って回って回り続けているならば、スポンサー契約市場は均衡状態に陥っているはずだ。ということは、スポンサー契約から生まれる価値の関数 $f$ は、上の$Q_H(f)$を最大化するような関数であるはずだ。ということは、実際のスポンサー契約、ならびにクラブとスポンサーの特徴についてのデータの下で、$Q_H(f)$を最大化する$f$を求めれば、それがこの世の中における、スポンサー契約の価値を求める関数となるはずだ。
 ... というロジックなのではないかと思う。えーと、こういう理解であっているんでしょうか。こういう考え方そのものに、私、 いささか戸惑ってしまうんですが...

 このスコア関数$Q_H(f)$にさきほどの$f(a, i, t)$の式を放り込もう。ここで面白いのは、$Q_H(f)$の中身の不等式をよく見ると、$\alpha X_{at}, \alpha X_{bt}, \gamma Y_{it}, \gamma Y_{jt}$がひとつづつ出てくる、という点だ。つまりこれらは無視してしまってよい。問題はクラブとスポンサーの相性の力 $\beta [X_{at} Y_{it}]$ だけなのだ。おおお、なるほど。
 ともあれこのようにして、スポンサー契約、クラブ、スポンサーについての十分なデータがあれば、スポンサー契約がもたらす価値を推定するモデルを手に入れることができる。
 イギリスのサッカークラブのスポンサー契約のデータをつかって推定したところ、クラブとスポンサー企業は規模が釣り合っているときに相性がいいとか、クラブ本拠地と企業の本社所在地が地図上で近いほうが相性がいいとか、そういったことがわかった由。

 以上、Yang & Goldfarb (2015, J. Marketing Research) からメモ。
 実は上記は、私には途方もなく難しいこの論文のごく最初のほうに出てくる話で、ここから論文は「酒やギャンブルに関連する企業がサッカーのスポンサーになるのを禁止したら何が起きるか」という分析へと進んでいくのだが、分析の仕組みというか建付けの部分で途方に暮れてしまった。頭を冷やすために、論文のロジックを組み立て直し、私にも理解できるくらいに平易な筋立てに落として、メモにしてみた次第である。

 均衡という概念に基づいたこういう分析が、ビジネス・ リサーチやデータ解析でもこれから重要になってくるのか、そうでもないのか、そういう大きな話は私にはよくわからない。だから、手探りで勉強することにどれだけの投資対効果があるのかはよくわからないんだけど、 とにかくその、読むたびに途方に暮れてしまうのである。なんというかその... 現象を理解するための分析に、いつのまにか規範的言明が入ってくる感じ、というか...
 もっとも、ふつうの統計的分析だって、インプットは常に仮定とデータだ。上の場合でいうと、仮にスポンサー契約の価値のデータが手に入っていたら回帰分析でモデルを推定できただろうけど、でもそのときだって、きっと誤差項の分布についてなんらかの仮定を置くだろう。上の分析ではその確率的な仮定の代わりに「スポンサー契約市場が均衡状態にある」というゲーム理論的な仮定を置いただけだ、ということなのかもしれない。ううううむ。。。

雑記:データ解析 - メモ:スポーツ・スポンサー契約がもたらす価値をどうやって推定するか:マッチング理論の巻

2016年1月10日 (日)

Ronkko, M., McIntosh, C.N., & Antonakis, J. (2015) On the Adoption of Partial Least Squares in Psychological Research: Caveat Emptor. Personality and Individual Differences, 87, 76-84.

 構造方程式モデリング(SEM)の研究者が集うメーリングリストSEM-NETを眺めていて気が付いた論文。なにより驚いたのは第2著者の名前。Cameron McIntosh!! Cameronさんじゃありませんか!!
 SEM-NETを読んでいる人なら知っていると思うけど、世界中の有象無象が送りつける、統計モデルにまつわるありとあらゆる質問に対し、適切な参考文献リストを一瞬にして返信する謎の人物、それがCameronさんであった。その速度と博識は人間業をはるかに超え、Cameronとはどこかの研究所の奥深くの人工知能なんじゃないか、ないし脊髄から光ファイバーがgoogleのデータセンターに伸びている人なんじゃないかと思っていたのである(日本語だからと思って云いたい放題ですね、すいません)。数年前にぷつりと行方を晦ましていたのだが、お元気であったか!というか、Camって実在する人物だったのね!(すいません)
 あまりの衝撃に、researchgateのdraftを読んだ。夜中にディスプレイで 。なにやってんだ、この忙しいときに...

 SEMのバリエーションであるPLS-SEM(偏最小二乗法SEM)を批判する論文。PLS-SEMは回帰の文脈でつかうPLS回帰とはちょっと違ってて... まあとにかく、SEMの推定手法のひとつである。日本語の資料はほとんどみかけないが、マーケティングの分野では結構メジャーではないかと思う。ある方がまとめたマーケティング分野でよく引用される論文Top20の第1位はPLS-SEMのレビューだったし、顧客満足の分野で有名な米顧客満足指標(ACSI)のモデルはたしかPLS-SEMに基づいていたはずだ。私も仕事で使ったことがあります、すいません。
 PLS-SEMに対する批判というのは珍しくなくて、情報科学系のジャーナルでも熾烈な罵倒と反論が交わされているのを見かけたことがある。第三著者のAntonakisさんもかつてPLSを痛烈に批判していた。この論文の主たる仮想敵はWillaby et al (2015, 同誌) という論文で、心理学での個人差研究におけるPLS-SEMのレビューらしい。

 著者ら曰く。
 そもそもPLS-SEMはSEMじゃない[←そうきたか...。以後、著者らは執拗に、PLSウェイティング・システムという言葉を使うが、面倒なのでPLS-SEMと略記する]。古典的な最尤法ベースのSEMの背後には統一的な統計理論がある。PLSアプローチはわけわからない手順の寄せ集めにすぎない。PLS-SEMは、指標を加重和として合計し、その合成変数を使ったOLS回帰でパス係数を推定しているだけだ。そんなのSEMとはいわん。
 PLS-SEMは多重指標の潜在変数モデルの推定に有用か。まずこう問うべきだ。(1)潜在変数のあるSEMを、潜在変数を合成変数で近似して推定するのは良いアイデアですかね? (2)その合成変数を求めるために最良の方法はなんですかね?
 (1)について。どうみても答えはノーだ。なぜなら、合成変数は指標の測定誤差を継承する。そのせいでPLS-SEMには一致性がないし(真値への漸近的収束がない)、不偏性もない。一致性がないというのは特に深刻だ。かのグレンジャー先生はこう言っている。nが無限大になっても正しくならないようなものを使うな、と。
 (2)について。PLSのウェイトは「最適」だと人はいう。しかしなにをもって最適というのかがはっきりしない。Fornellたちは予測の最大化をもって最適と呼び、Chinたちは信頼性の最大化をもって最適化と呼ぶ。この2つは全然ちがうぞ。さらに、指標の合成の方法はほかにもある。回帰法の因子得点ウェイト、これは合成変数の信頼性の期待値を最大化する。相関保存法の因子得点ウェイト、これは因子相関を維持する[←相関保存法ってなんのことだろう、Bartlett法のことだろうか]。主成分ウェイト、これは指標の分散説明率を最大化する。これらと比べ、PLSはどういう点で優れているというのか? それどころか、PLSがつくる合成変数は信頼性が単純合計よりも低いという報告があるくらいだ。ついでにいうと、標本における信頼性を最大化するという観点では、理想的ウェイトでさえも単純合計と変わらないといわれている。[←へー。Bobko et al.(2008 ORM), Cohen et al.(2003, 書籍), Cohen (1990, Am.Psychologist), McDonald (1996 MBR), Raju et al.(1999 App.Psych.Measurement)というのが挙げられている。院生の頃だったか、因子得点をこねくり回している人に「単純合計のほうがましだよ」と言い放つ人を見たことがあって、一理あると思ったんだけど、実証研究もあったとは]
 [ここでWillabyらのデータの再分析。省略]
 PLS合成変数間の相関は不偏でない。測定誤差間の相関によってインフレを起こす。この”capitalization on chance"について、Ringleたちは「悪いことばかりじゃない、変数自体の測定誤差で合成変数間相関はデフレを起こすからトントンだ」というが、インフレとデフレが釣り合う証拠がどこにある。後者は希釈化補正なり変数誤差モデルなりで対処すべき問題だ。

 モデル検証について。
 PLS-SEMは丁度識別な回帰の組み合わせなので過識別テストはできない。もともとモデル検証というマインドセットがないのだ。
 これに対してPLS派はヒューリスティクスに頼る。信頼性指標とAVEを比べるとか、R二乗ベースの適合度指標をみるとか。前者の問題点は、PLS-SEMの因子負荷は正方向に偏るので、信頼性とAVEも偏るという点。後者の問題点は、R二乗じゃモデルの適合度はわからないという点。適合と予測とは別の問題だ。さらに、不一致な推定量だって高いR二乗を持つことがある。
 Ringleたちは最近新たな指標を提案している。これはよくみるとPLSアルゴリズムとは全然関係なくて、単に指標の相関行列から出している。発想は悪くないけど、ふつうのSEMの弁別的妥当性検証の手順より優れているかどうかは今後の課題だ。
 [ここでWillabyらのデータの再分析。省略]

 パラメータの検定について。
 PLS派はブートストラップでSEを出して t 検定する。でもPLS推定値の標本分布は非正規だから t 分布は使えないはずだ。ブートストラップ信頼区間は決め方によって結果がかわってくるし、その性質についてはよくわかっていない。
 さらにややこしいのは、いわゆる「符号反転修正」だ。これはブートストラップ反復から要約を出す前に、個々のブートストラップ反復のすべてのウェイト、負荷、回帰係数の符号を調べて、必要あらば全部反転する、という手続きである[←なにそれ、そんなことしてたの?]。この手続き、ふつうのブートストラップ法では行われない。ブートストラップ反復における統計量が元の推定で使われた統計量と同じでないといけないと述べていることになるわけで、ブートストラップの基本原理に反する。この手続きはもともとWaldの考え方に由来していて、Waldさんは、指標のウェイトの符号は不定なので「多数の指標でウェイトが正になる」ように符号を選べばいいと考えていた。しかしPLS-Graphは個々の反復についてこういう風に処理していて... これには具体的にはこういう問題があって...[と、シミュレーションの紹介に突入。めんどくさいので飛ばし読み。ようするにブートストラップ信頼区間があてにならんという話ではないかと思う]

 PLSのいわゆる「長所」について。[←ようやく本丸に攻撃を開始します。待ちくたびれたぜ]

 「PLSはサンプルサイズが小さくて良い」というのは本当か。また、「PLSは非正規データでもOK」というのは本当か。
 通常の最尤法SEMは小標本や非正規データで歪む。しかし、不偏でないかもしれない推定量を、不偏ではなく一致性もない推定量に取り換える理由がどこにあるのか。「この推定量はデータについての想定が少なく、小標本でもうまくはたらきます」だなんて、統計的推定の基本原理に反している。パラメータ推定というのは、標本情報と非標本情報(想定や制約)の組み合わせから得られるものなのだ。実際、Westland (2015, "Structual Equation Models")のシミュレーション研究は、PLSのバイアスの強さとfalse positive率の高さを示している。[←この本面白そう...]
 さらに、近年のSEMでは小標本・非正規性に対処する方法が次々に開発されている。小標本ではカイ二乗統計量を修正するとか、非正規性に多変量的変換で対処するとか、検定統計量を修正するとかロバスト推定量を使うとか。PLS理論家のなかにはこの進展を踏まえ、もうPLSを使うのは時代遅れだと認めている人もいるぞ(Gafen, Rigdon, & Straub, 2011 MIS Quarterly)。

 「PLSは探索的研究に適している」というのは本当か。
 PLSだってSEMだって、想定モデルと構造モデルを事前に決めなきゃいけない点では変わらない。さらに、PLSのウェイティングは、パスでつながれた合成変数間に高い相関があることを前提としているから、つまりすごく強い理論がないといけないわけだ。理論がないんなら単純合計のほうがマシである。さらに、SEMには探索的ツールがたくさんあるぞ、修正指標とか、モデル探索の自動化とか。[←な、なにそれ?! Marcoulides & Ing(2012)というのが挙げられている。Hoyle(ed)のSEMハンドブックの章だ]

 「PLSはformative measurementモデルに適している」というのは本当か。
 残念ながら、そもそもformative measurement自体が論争の種だ。それ自体をやめちゃえという意見もあるし(Edwards, 2011 ORM; Hardin, et al., 2011 Edu.Psych.Measurement)、すくなくともそれは測定じゃないという指摘もある(Markus & Borsboom, 2013 書籍; Rhemtulla, Bork, Borsboom, 2015 Measurement)。「項目内のすべての分散に意味がある」というformative measurementの想定には、調査データ分析に関する限り無理がある。formative指標は測定誤差という概念を否定しているわけで、これは受け入れがたい。測定誤差を考慮しつつformative measurementと同じ目的を達する手法だってある。[←なんのこと? 前掲のEdwards(2011)が挙げられている]
 百歩譲ってformative modelを受け入れるとして[←ええ、そこは百歩譲ってくださいな]、PLS-SEMがこのタイプのモデルについてうまく機能するのかどうかがよくわからない。WoldもLohmollerもそんなことは主張していない。これをもともと言い出したのはFornell & Bookstein (1982)で、彼らはPLS合成変数を構築する2つの方法(Mode A, Mode B)を統計モデルの構造(reflective, formative)と混同しただけである。近年の研究は真実をあきらかにしつつある[Aquirre-Urreta & MarakasとRigdonらの論争を引用している。Info.Sys.Res., 2014]。さらに、仮に「formative 指標は因果的性質を持たない」「formative変数とは概念的に意味がある実体ではなくただの簡便な合計に過ぎない」という立場に立つとしても、PLSはその合成変数をつくるための最適な手法とはいえない(上の"capitalization on chance"のせいで)。固定したウェイトのほうがましだ(Howell, 2013 AMS Review)。

 結論。PLS-SEMは使うな。以上。
 
 。。。ダラダラとメモしたが、PLS-SEMで作った(reflective指標の)潜在変数が測定誤差を分離できてないとか、モデル検証ができないとか、その辺はPLS-SEMユーザにとっては織り込み済みの欠点ではないかと思う。人によるでしょうけど、私だったら、普通に最尤推定できるSEMモデルをわざわざPLS推定しようとは思わない。PLS-SEMの是非をめぐる議論の焦点は、なんといっても、formative指標しか持たない潜在因子を含むSEMモデルを想定し(普通のSEMだと識別困難)、全体のR二乗を最大化するパス係数を小標本でどうにか推定したい... という場合ではないか。
 だから論文のポイントは一番最後の部分で、ドキドキしながら読んだんだけど、いきなりformative指標モデルそのものについての批判から始まり、ちょっとがっくり。モデルのよしあしと推定のよしあしは別の話でしょう。前者について言えば、formative指標そのものを排斥するのはちょっと極論で、前にBaggozziさんたちが書いていたように、要するにそれは現象をどのように概念化するかということなのだと思う。肝心の後者のPLS推定批判のほうも、引用文献任せでちょっと迫力が足りない感じだ... すいません、勉強します。

 本筋と離れるけど、推定量の望ましい性質をめぐる議論について不思議に思う点があるので、メモ。
 この論文のなかで引用されているGrangerのコメントのように、線形モデルの文脈で、なによりもパラメータ推定量の一致性を重視するという立場を見かけることは多い。しばらく前にAchenのかなりユーザ寄りのモノグラフを読んだときも、そういう断言がなされていて、へええ、と思った。
 馬鹿にされるのを覚悟でいうと、それって場合によるのではなかろうか、という気がする。たとえば調査データからSEMモデルを組んで解釈しようというような局面で、推定量の漸近的性質についてはあまり関心が持てないような気がする。リッチなデータが手に入る架空の世界で正しい結果が手に入ることより、とにかく手元の標本から得られるパラメータ推定値が誤った解釈を引き起こさないことが大事なわけで、こういう場合は、どちらかというと一致性よりも有効性(最小分散不偏性)が大事だったりしないかしらん。いやまてよ、それどころか、真値に対するMSEの期待値さえ小さければ、不偏性さえどうでもよいかも?
 うーむ、ユーザにとってほんとに大事な推定量の性質って、いったいなんだろう。学生の頃にもっと勉強しておけば、こんなことでいちいち悩まなくても済んだだろうか。

論文:データ解析(2015-) - 読了: Ronkko, McIntosh, & Antonakis (2015) PLS-SEMに怒りの鉄拳を

2016年1月 7日 (木)

Domingos, P. (2012) A Few Useful Things to Know about Machine Learning. Communications of the ACM, 55 (10), 78-87.
 たまたま見つけて、前半はお茶を飲みながらぼけーっと眺めていたのだけれど、途中でこりゃあ勉強になるわと気づき、心を入れ替えて真剣に読んだ。大変面白かった。
 きわめてイイカゲンな訳だが、メモをとっておくと...

 みんな機械学習使ってますね。教科書もいっぱいありますね。でも、機械学習をうまく使うためには、知っておかなければならない「民間伝承」(folk knowledge)があるのだ。よろしいか、よくお聞きなさい。

1. 学習=表現+評価+最適化
 要するに、鍵はこの3つだ。たとえば分類課題だとして、(1)分類器はなんらかの形式的言語で表現されてないといけない。事例ベースとか(K最近隣法やSVM)、超平面ベースとか(ナイーブベイズやロジスティック回帰)、決定木ベースとか、ニューラル・ネットワークベースとか。(2)分類器の良し悪しを知るには評価関数が必要。エラー率とか二乗誤差とか尤度とかなんとか。(3)良い分類器を探す手段が必要。貪欲サーチとか勾配降下とか線形プログラミングとか。
 たいていの教科書は表現によってまとめられている。評価と最適化のことは見過ごされがちだ。

2. 大事なのは汎化だ
 初心者のよくあるミスは、訓練データでテストして成功の夢をみちゃうことだ。テストデータを使ってチューニングしまくるのも同じこと。訓練データとテストデータは厳密に分けるべし。
 ふつうの最適化とはちがって、機械学習では最適化関数にアクセスする方法がないのだ(訓練エラーはテストデータの代理物にすぎない)。ポジティブにいうと、目的関数が真の目標の代理であるからこそ、完全に最適化する必要がないのだともいえる。単純な貪欲サーチでみつけた局所最適解が大域的最適解よりも良い、なんてこともあるわけだし。

3. データだけでは十分じゃない
 手元に事例が100万件あり、2値変数が100個あるとしよう。あなたはすべての事例について知っているといえるか? まさか。手元の事例はたったの$10^6$個、可能な事例は$2^{100}$個だ。手元にない事例についてどうやったらわかるというのか?
 完璧な学習器なんて存在しない(ノー・フリー・ランチ)。いつだって、データを超えたなんらかの知識・想定が必要になる。幸いなことに、スムーズネスとか、似た事例は似たクラスに属するとか、複雑性に限度があるとか、そういったすごく一般的な想定が、たいていの場合うまく効く。
 ここから次のことがいえる。表現を選ぶ際には、その表現で楽に表現できるのはどんな知識か、ということが鍵になる。もしあなたが事例の類似性をつくりだしているものについて知識を持っているならば事例ベースの手法がよいし、もしあなたがそれぞれのクラスにどんな前提条件が必要かという知識をもっているならIF-THENルールを使うのがよい。便利な学習器とは、そこに想定が組みこまれているような奴というだけではなく、それを使えばあなたの知識を明示的に表現できるような奴、いろんな知識を表現できるような奴、学習を通じて知識を自動的に統合できるような奴、である。機械学習は魔法じゃない。必要なのは知識とデータの組み合わせだ。

4. オーバーフィッティングにはいろんな顔がある
 機械学習における恐怖の化け物、それがオーバーフィッティングであることは誰もが知っている。しかし、奴はいろんな形で現れ、すぐには目に見えない。汎化エラーにはバイアスという側面と分散という側面があるのだ。
 奴と戦う武器のひとつは交差妥当化である。決定木のサイズを交差妥当化で決めるとか。しかしこれも万能薬ではない。たくさんのパラメータを交差妥当化で決めることは、それ自体がオーバーフィットのはじまりだ。
 ほかに、評価関数に正則化項を加えるという手や、新しい構造を加えてよいかどうか検定するという手もある。しかし、解決策があるなどと安易に信じてはならない。分散が小さくなったと喜んでいたらバイアスが増えていた、なんていうことはままあることだ。
 オーバーフィッティングについてのよくある誤解に、ノイズのせいでオーバーフィッティングが起きる、というのがある。ノイズがなくたってオーバーフィッティングは起きます。
 多重検定(multiple testing)という問題はオーバーフィッティングと密接に関係している。標準的な統計的検定は、あるひとつの仮説だけが検定されると想定する。しかし現代の学習器は膨大な量の検定を簡単にこなす。その結果、有意に見えるものも実はそうではない、ということが起きる。仮説の数を考慮して有意性検定を修正すると、こんどはアンダーフィッティングが生じる。より良いアプローチとしてはFDRがある。[←多重比較についてこういう視点で考えたことはなかったなあ...まだちょっと腑に落ちてないけど、勉強になる]

5. 高次元では直感は無力だ
 オーバーフィッティングに次ぐ大問題は次元の呪いだ。正しい汎化は特徴の数とともに指数的に困難になる。さらに困ったことに、類似性ベースの推論は高次元では破たんする。類似性指標としてハミング距離を使う最近隣分類器について考えよう。いま、クラスは単に $x_1$かつ$x_2$であるとしよう。特徴がこの2つだけなら楽勝だ。いっぽう、あと98個無関係な特徴があったら、そこからくるノイズのせいで、最近隣分類器はまったく機能しなくなる。では、その98個もクラスと関連していたら? それでもだめだ。高次元ではどの事例も互いに似てきてしまう。
 幸いなことに、次元の呪いに対抗する効果がある。「非一様性の祝福」とでも呼ぼう。たいていの場合、事例は空間に一様に分布しているのではなく、低次元の空間に固まっている。学習器は暗黙的にこの低次な次元を利用したり、明示的に次元を縮約したりする。

6. 理論的保証ってのは見かけ通りのものではない
 機械学習の論文は理論的保証のてんこ盛りである。良い汎化のために必要な事例数が有界ですとか。
 たとえばこんなのだ。分類器の真の誤差率が $\epsilon$より大きいとき、その分類器は「良くない」ということにしよう。「良くない」分類器が$n$個の独立な訓練事例と整合する確率は$(1-n)^\epsilon$より小さい。いま、学習器の仮説空間$H$における「良くない」分類器の数を$b$としよう。そのなかの一つ以上が整合する確率は$b(1-n)^\epsilon$より小さい。学習器が常に整合的な分類器をひとつ返すとしよう。その分類器が「良くない」確率は、$b \leq |H|$より、$|H|(1-n)^\epsilon $以下だ。ゆえに、あなたはがこの確率を$\delta$以下にしたかったら、
 $n > \frac{\ln(\delta / |H|)}{\ln(1-\epsilon)} \geq \frac{1}{\epsilon} (\ln|H| + \ln(1/\delta))$
とすればよい...
 申し訳ないけど、こんな保証は眉唾だ。このようにして得られる範囲というのは通常きわめていいかげんなものである。上の例では、必要な事例数が$|H|$と$1/\delta$とともに対数的にのみ増大する。残念ながら、関心がもたれる仮説空間というものは、ふつう特徴数$d$とともに二重指数的に増大する。$d$個の二値変数からなるブール関数の空間を考えよう。もし可能な事例が$e$個あったら、可能な関数は$2^e$個あることになる。この空間には可能な事例が$2^d$個あるんだから、関数の数は${2^d}^d$個だ。さらに、上で求めた範囲は非常に悲観的であることに注意。二値特徴100個、決定木の深さが10までだとして、$\epsilon=\delta = 0.01$を達成するには50万個の事例が必要だということになるが、経験上そこまで必要ではない。
 さらにいうと、上で言っている有界ってなんのことだ。「あなたの学習器がいま目の前にある訓練セットと整合する仮説を返したら、その仮説はたぶんよく汎化します」ってこと? ちがうよね。「訓練セットが十分に大きければ、あなたの学習器は高い確率で、よく般化する仮説を返すか、あるいは整合する仮説を返せないでしょう」ということなのだ。さらに、良い仮説空間の選び方については何も述べていない。「もし仮説空間が真の分類器を含んでいたら、学習器がよくない分類器を返す確率は訓練セットのサイズとともに減少します」と述べているだけだ。
 ほかによく聞く台詞は、無限大のデータが与えられれば、この学習器は正しい分類器を出力することが保証されている、というものだ。我々はふつうそんな漸近トピア(asymptopia)にはいない。無限大のデータの下では学習器Aの勝ちでも、有限のデータの下では学習器Bの勝ちかもしれない。
 ユーザよ、用心せよ(caveat emptor)。学習とは複雑な現象だ。ある学習器が理論的に正当化されており、かつうまく機能しているからといって、うまく機能している理由が理論的な正当化にあるとは限らない。

7. 特徴づくりが鍵だ
 機械学習のプロジェクトは、最終的には成功することもあれば、失敗することもある。そのちがいをもたらすものとは? もちろん、いちばん大事なのは特徴だ。初心者はびっくりするが、機械学習プロジェクトにおいて機械学習に割かれる時間は極めて短い。 労力のほとんどは特徴の構築に捧げられる。それは領域固有な知識を必要とする困難な部分だ。また、もっとも面白い部分でもある。それは技術力、直感、創造性、そして黒魔術の世界だ。
 もちろん、機械学習の聖杯のひとつは特徴づくりの自動化である。その主な手法は特徴の候補集合からの選択だが、単独ではクラスと関連しない特徴でも組み合わせでは関連するかもしれない。とはいえ、膨大な特徴のなかから有益な組み合わせをみつけるのは時間がかかるしオーバーフィッティングを招く。結局、頭の良さに勝るものはない。[←このくだり、Deep Learningがもてはやされる2016年現在だと、ちょっと書き方も変わってくるかも...]

8. アルゴリズムの賢さよりデータの大きさ
 あなたは最良の特徴のセットを選びました。でもあなたの分類器の正確さはいまだ十分でありません。次の一手はなんでしょう? 選択肢その一、もっと良い学習アルゴリズムを設計する。選択肢その二、データを増やす。研究者は前者を選びがちだが、成功への近道は後者だ。アホなアルゴリズムと死ぬほどたくさんのデータの組み合わせは、賢いアルゴリズムとそこそこのデータの組み合わせに勝つ。
 賢いアルゴリズムが報われないのはなぜか。その理由のひとつは、賢くてもアホでもやってることは同じだ、という点にある。どの学習器も、要するに、近くの事例を同じクラスにまとめているだけだ。「近く」という意味がちがうだけである。データが一様に分布しているんなら話は別だが、どこに境界線を引いたところで、予測はたいして変わらない。強力な学習器が不安定であるにも関わらず正確でありうる理由がここにある。
 というわけで、お勧めはこうだ。簡単な学習器を先に試すこと。ロジスティック回帰よりもナイーブ・ベイズが先、サポート・ベクター・マシンよりもk最近隣法が先だ。複雑な学習器にはつまみがいっぱいついているし、中でなにやってんのか不透明だ。
 世の中の学習器には2種類ある。表現が固定サイズの奴と(線形分類器とか)、データとともに成長する奴だ(決定木とか)。固定サイズの学習器は、データが大きくてもそんなに得しない。可変サイズの学習器は、原理的には十分なデータのもとであらゆる関数を学習できるが、現実には局所解や計算コストのせいでそうならないし、次元の呪いのせいで、どれだけデータがあっても足りないかもしれない。こうした事情を勘案して賢いアルゴリズムを選ぶことは、最終的には報われるかもしれない。学習器の設計と分類器の学習とは明確には分けられないわけで、機械学習プロジェクトの締めくくりが学習器の設計となることも少なくない。実務家も少しは勉強しておいた方が良い[←あれれ? 途中でいっていることが微妙に変わってきてませんかね...]。

9. 多くのモデルを学習せよ
 かつて人々はお気に入りの学習器を持っていた。人々は自分のお気に入りの学習器が優れていると信じるアプリオリな理由みたいなものを持っていた。人々はその学習器のいろんなバリエーションをつくっては最良のものを選ぶことに心血を注いでいた。しかるに、学習器の優劣は場面場面で違っていることが明らかになり、いろんな学習器を組み合わせて使うモデル協調の時代がやってきた。バギング、ブースティング、スタッキングといった手法だ。
 モデル協調をベイジアン・モデル・アベレージング(BMA)とごっちゃにしないように。モデル協調は仮説空間そのものを変えるし、いろんな形式をとりうる。BMAは元の仮説空間における仮説群にウェイトを割り振るだけで、そのウェイトは(バギングやブースティングとちがって)極端に偏っており、事実上、いずれかひとつの分類器を選んでいるに過ぎない。

10. 単純だからといって正確とは限らない
 オッカムの剃刀って有名ですよね。機械学習でいうと、同じ訓練エラーをもつ2つの分類器があったら、単純な奴のほうがテスト・エラーが低いだろう、これすなわちオッカムの剃刀だ... なんて主張をよく見かける。しかし、ここでもノー・フリー・ランチだ。たくさん反例を挙げられる。
 たとえばモデル協調。ブースティング協調の汎化エラーは、訓練エラーが0になってしまった段階でさえ、分類器の追加によってさらに改善する。たとえばサポート・ベクター・マシン。無数のパラメータを持つがオーバーフィッティングしない。たとえば関数 sign(sin(ax))。この関数はx軸上の任意のサイズの任意のラベルの点を判別できてしまうが[←そ、そうなのかなあ??]、パラメータ数はたったひとつだ。
 複雑さについてのもっと洗練された見方を紹介しよう。複雑さとは仮説空間のサイズだ。空間が小さければ仮説は単純に表現される。たしかに、仮説をつくる際に我々は単純さを好む。しかし、仮にその仮説が正確だったとして、それは我々の好みが正確だったからであり、仮説が単純に表現されていたからではない。
 さらにややこしいのは、たいていの学習器は仮説空間を漏れなく探索したりしないという点だ。広大な仮説空間から少数の仮説をつくろうとする学習器のほうが、小さな空間からたくさんの仮説をつくろうとする学習器よりもオーバーフィッティングしにくい。つまり、仮説空間のサイズそのものはおおまかな目安に過ぎないということだ。訓練エラーとテスト・エラーにとって本当に問題になるのは、仮説を選択する手続きだ。
 というわけで、次のようにアドバイスしたい。単純な仮説のほうが望ましいというのは本当だ。でもそれは、単純さそれ自身に徳があるからであって、正確性とは関係ない。思うに、オッカムがもともと云わんとしたのもそういうことであろう。

11. 表現できるからといって学習できるとは限らない
 サイズ可変な学習器に使われている表現はなんであれ、次のような形のなんらかの定理を用意しているものだ:「この表現を用いればあらゆる関数が表現できる、ないし近似できる」。その表現のファンたちはこれに舞い上がっちゃって他のことを忘れがちだ。しかし、ある関数を表現できるからといって、それを学習できるとは限らない。たとえば、決定木は訓練事例以上の枚数の葉を持てない。また、仮説空間のなかで評価関数が多数の局所解を持ち、真の関数を見つかられないかもしれない(表現はできるのに)。だから、大事なのは「表現できるか」じゃない、そんなのはたいていどうでもよい。本当に大事なのは「学習できるか」だ。[←なるほどねえ。ここは勉強になった]
 ある関数についてある表現よりも他の表現のほうが指数的にコンパクトだ、ということがある。当然、後者が必要とする訓練データのサイズも指数的に小さくなる。多くの学習器は単純な基底関数の線形和をつくる(サポート・ベクター・マシンがそうだ)。このときnビットの表現には2のn上の基底関数が必要になる。でも、多層な表現を使うと(つまり入力と出力のあいだにもっとステップをおくと)、おなじnビットが線形なサイズの分類器で符号化できたりする。こういう深層表現をどうやってみつけるかというのが、機械学習の最前線の課題のひとつだ。

12. 相関は因果を意味しない
 これ、耳にタコができていると思うけど、ここで質問。学習器による結果が因果関係として解釈されているの、みたことありませんか? あれは間違いなの? 仮に間違いなら、なぜみんなこぞって間違えるの?
 予測モデルをつくる目的は、たいていの場合、行為を導くことにある。ビールとおむつが一緒に売れているんなら、並べて売れば売上が上がるかな、なんて思うじゃないですか。本当にそうなるかどうかは実験してみないとわからない。でも、観察によって得られる相関は、ありうる因果的結びつきのサインであり、さらなる検討のためのガイドなのだ。
 この世界に真の意味での因果関係というものがあるのかどうか知らないが、実務的にいえば、機械学習にとってのポイントはふたつ。我々は相関だけじゃなくて行為の効果を予測したいのだということ(それを「因果的」と呼ぶかどうかは別にして)、そして、もし実験ができるんならなんとしても実験すべきだということだ。

 以上だ。諸君のさらなる精進を期待するぞ。チャオ! [←とは書いてないけど、まあそういう雰囲気のことが書いてある]

論文:データ解析(2015-) - 読了:Domingos(2012) 機械学習について知っておきたい12の事実

2016年1月 4日 (月)

twitterでどなたかが呟いておられるのをみかけて、興味を惹かれて手に入れてしまい、興味を惹かれて眺めているうちに、興味を引かれるままついつい読み終えてしまった論文。仕事とはなんの関係もないっす。すいません、現実逃避です。

Ljungqvist, I., Topor, A., Forssell, H., Svensson, I., Davidson, L. (2015) Money and Mental Illness: A Study of the Relationship Between Poverty and Serious Psychological Problems. Community and Mental Health Journal.
 著者ら曰く。
 そもそも心的健康と貧困には関係があるといわれている。どっちが原因かは諸説ある。どっちかが原因でどっちかが結果だと割り切れるような話でもないのかもしれない。
 因果関係はともかくとして、心的疾患は社会的孤立と結びついており、社会的孤立は貧困と結びついているのだろう。経済状態が好転すれば社会関係が良くなる、という知見はすでにレジストリ研究(register study)で得られている。また社会化支援の介入が心的疾患に与える効果についてはランダム化統制試験(RCT)による証拠がある。社会化支援とは、伝統的な"train and place"モデルを"place then train"モデルに置き換え、とにかくまず望ましい状況をつくっちゃう(ここでは友達をつくっちゃう)、というアプローチである。
 スウェーデンといえども相対的な貧困はある。精神疾患患者の社会化支援の必要性も叫ばれている。じゃあ経済的支援は役に立つか? 先行研究ではよくわからない。実験してみましょう。

 重度な精神疾患患者(SMI)を被験者にする。ある町の患者さん100人に月73ドル渡した。別の町の患者さん38人には測定のときだけ22ドル渡した(これが統制群。つまりRCTになってないわけで、著者らも言及しているが、 ホーソン効果の可能性は残る)。介入は9ヶ月。介入前と6~7ヶ月時点を比較する。測定したのは不安とか心的機能レベルとかQOLとか[略]。なお、患者さんは統合失調症、双極性障害、重度の鬱、自閉症スペクトラム、などであった由。どっちの群も可処分所得が低かった。
 結果。実験群でのみ、鬱、不安、QOL、自己知覚、社会的ネットワークが改善。機能レベルは有意差なし。云々。

 考察。
 SMIにおける社会的孤立はSMIの症状ではないのではないか。心的状態だって、お金のおかげで生活が変われば改善するのではないか。
 
 へええええ。面白いなあ。
 金を渡したら精神疾患の症状が軽減されたという話自体は、視点ががらっと変わる驚きはあるが、よく考えてみるとまあそんなもんなんだろうな、と思う次第である。著者らも最初に述べているように、所得と社会関係と心的状態、すべては絡み合っている。人生のある側面を改善したら他の側面も改善しちゃう、というのは不思議じゃない。
 むしろ面白いのは、著者らは触れていないけど、実は患者に金を配った方が薬漬けにするより安上がりかも?常識的なケアより安上がりかも?... と想像が膨らむところだ。
 データ解析についていえば、せっかくだからpre-post比較じゃなくて、介入開始後にもう一回くらい測定しておいて、経済状態の好転→社会的関係性の向上→心的疾患の改善、という縦断モデルをつくればよかったんじゃないかと思ったけど、ま、傍で見ているほど楽じゃないんでしょうね。

論文:その他 - 読了:Ljungqvist, et al.(2015) 重度の精神疾患患者に毎月お金を渡したら?

Chen, T., & He, T. (2015) Higgs Boson Discovery with Boosted Trees. JMLR: Workshop and Conference Proceedings, 42, 69-80.
 えーと、なんでも、Kaggleっていう予測モデリングのコンペティションがあるそうなんです。世界中の頭の良い人たちが寄ってたかって同じデータを分析して予測モデルを構築し、賞金と名誉を目指して優劣を競うのだそうです。わたしゃよく知りませんけど。弊社インターンの超優秀な青年は「オノさんKaggleとか出ないんですか...? ああそうですか...」と落胆しておられたが、そんなもん出るわけないじゃん、こちとら人文系の出自で、地を這う虫のような仕事してるのに。
 Kaggleではいつも複数のコンペティションを開催しているけど、参加チームが多いコンペもあれば少ないコンペもあって、あの差はどうやって生まれているのだろう、賞金額で決まるわけでもないらしいし、よくわからない。一昨年話題になっていたのはHiggs Boson Machine Learning Challengeというコンペで、参加チーム数1785、かなりの人気コンペであった。
 機械学習の分野は流行りすたりが早すぎて訳がわからないが、しばらく前から有名であるらしいライブラリにxgboostというのがあって、Kaggleのようなコンペでもよく使われているらしい。この論文はxgboostの開発チームが自ら語るHiggs Bosonコンペ戦記。調べたところ、彼ら自身も45位にランクインした模様。

 そもそもHiggs Bosonというのはなんなのか、それさえも私にはさっぱりわからないが、wikipediaによると、素粒子?の名前?なんだそうです。素粒子ってなんだ? 高校で物理とか習っていれば出てきたのかしらん。原子とか物理学とか、そういった感じのなにかなのでしょうね。名前からして、なんかこうすごく小さな?粒?とか?そういう感じのものなのではないかと思う。でなければ、そうでないなにかであろう。
 ま、事情はともあれ、死ぬほど巨大なデータのなかに、稀にHiggs Bosonなるもののシグナルが含まれている、でもノイズは大きいし、どういうときに出てくるかは複雑すぎてわからない。この際理屈はどうでもいいから、とにかく特徴ベクトルでシグナル有無を予測する二値分類器をつくれ。というお題だと思えばいいらしい。

 まずは著者ら謹製、xgboostのご説明から。
 以下、特徴ベクトルを$x_i$, 対応するラベルを$y_i$とする。予測スコアを
 $\hat{y}_i = \phi(x_i) = \sum_{k=1}^K f_k (x_i), \ \ f_k \in F$
とする。$f_k$とはなんらかの関数で、話の先取りになるけど、 ここでは回帰木である。
 目的関数を次のように定義する:
 $L(\phi) = \sum_i l (\hat{y}_i, y_i) + \sum_k \Omega (f_k)$
 第一項は予測と目標のずれである。$l$は微分可能な凸関数だとみなす。第二項は正則化項で、$\Omega$でモデルの複雑さを測っている。

 さて、この目的関数を直接最適化するのではなく、$f_1, f_2, \ldots, f_t, \ldots$を順につくって協調させる。$f_t$はそのiterationにおいて目的関数を最適化するような関数である。$t$回目のiterationにおけるケース$i$の予測を$\hat{y}^{(t)}_i$としよう。この時点における目的関数は
 $L^{(t)} = \sum_i^n l(y_i, \hat{y}^{t-1}_i + f_t(x_i)) + \sum_i^t \Omega(f_i)$
ポイントは、明示的に正則化項を入れている、という点。

 具体的には...入力変数空間を$T$個の領域にわける。このマッピングを$q$と呼ぼう。領域に与えるスコアのベクトルを$w$とする。で、
 $f_t (x) = w_{q(x)}$
とする。この関数のクラスに含まれるものとしては回帰木があるが、別に回帰木でなくてもよい。
 正則化項の関数は
 $\Omega(f_t) = \gamma T + (1/2) \lambda \sum_j^T w^2_j$
とする。[ああそうか、領域数つまり葉っぱの枚数と、スコア二乗和つまり葉っぱごとの予測値の二乗和に、ペナルティを与えてるのか...]
 [以下、目的関数をさらに書き直して、あるitarationで追加する木を具体的にどうやって作るか、欠損値があったらどうするか、というアルゴリズムにまで話を持っていくんだけど、そういうこみ入った話にはあんまり関心ないので省略。木を伸ばすのは要するにgreedy searchであるらしい]

 ... というのが、著者らが開発しているxgboostである。ここからはコンペの話。
 特徴量をいろいろ工夫して...[物理学の知識がないとわからない箇所。パス]
 元のデータではシグナルの数が少なすぎるので、物理学の知識に基づくシミュレーションで学習データと検証データをつくって...[パス]
 木の最大の深さは6, シュリンケージ・パラメータは0.1, 木の本数は120にして、xgboost, Rのgbm, pythonのsklernを比較。このコンペでは、精度はAMS(approximate median significance)というヘンな指標で測ることになっているので[説明省略]、ここでもAMSで比較する。結果、xgboostの勝ち。パラメータをファイン・チューンしたらともっと勝てた[←そこのコツのようなものが聞きたいんですけどね...]。ちなみにスピードも圧勝。
 なお、上で「パラメータのファイン・チューン」といっているのは、主に正則化パラメータ$\gamma$と$\lambda$のことのようで、いくつかのパターンについてAUCを示しているのだけれど、なるほど、全然違ってくる。コンペでは$\gamma=0.1, \lambda=0$にした由。

 ... 正直、機械学習の難しい話はよくわかんないし、数年待てばもっと素人フレンドリーになるような気がして勉強する気力が沸かないんだけど、ともあれ、勉強になりました... なったような気がします。
 仕事の都合上、xgboostの実装上のパラメータ名をメモしておくと、おそらく、木の最大深さとはmax_depth(デフォルト6)、シュリンケージ・パラメータとはeta(デフォルト0.3)、$\gamma$とはgamma(デフォルト0)、$\lambda$とはL2正則化パラメータ lambda(デフォルト1)であろう。ほかにL1正則化パラメータalphaというのもあるんだけど(デフォルト0)、この論文には出てこなかった。
 話の本筋からは離れちゃうけど、配られているデータで学習するんじゃなくて、いったんシミュレーションで架空データをつくって学習しているのね。機械学習のコンペとはいえ、やっぱり領域知識(ここでは素粒子物理学の知識)が生きてくるわけだ。このへんはマーケティング・データでも事情は同じで、面白いところでもあり、辛いところでもある。

論文:データ解析(2015-) - 読了:Chen & He (2015) xgboostかく戦えり

2016年1月 3日 (日)

Bookcover 日本海軍はなぜ過ったか――海軍反省会四〇〇時間の証言より (岩波現代文庫) [a]
澤地 久枝,半藤 一利,戸高 一成 / 岩波書店 / 2015-07-16

Bookcover 吉原はこんな所でございました 廓の女たちの昭和史 (ちくま文庫) [a]
福田 利子 / 筑摩書房 / 2010-10-08
原著は86年刊。著者(語り手)は吉原の茶屋育ち、戦後の混乱期には自ら娼館を経営、料亭に商売替えして活躍。赤線廃止後に久保田万太郎の支援を受けて「花魁ショー」を立ち上げ、観光名所として人気を呼んだそうだ。興味深い本であった。
 吉原は東京大空襲で全滅、ところが政府は吉原復興を命じ、生き残った花魁たちを掻き集めて無理矢理営業を開始した。それが1945年8月5日で、10日後には再び店を閉める羽目になった由。もっとも、すぐに進駐軍の慰安施設に衣替えさせられることになるのだが。 。。なんだか暗澹とさせられる話だ。空襲では凄まじい数の人々が亡くなっているはずである。

 そういえば、ソープランドを手広く営んでいる角海老グループというのがある。子供の頃私は「角海老」と大書してある看板の横でよく遊んだもので、成長してからその業種がわかってびっくりした。たしかボクシングジムも手がけてますね。この屋号、明治期の吉原の大見世の一つであった角海老楼から取っているそうだ。wikipediaによれば、直接のつながりはないのだけど、創業者でありソープの帝王と呼ばれた実業家・鈴木正雄は、若き日に車夫として角海老楼に出入りしていたとのこと。

日本近現代史 - 読了:「日本海軍はなぜ過ったか」「吉原はこんな所でございました」

Bookcover 【新版】西鶴と元禄メディア : その戦略と展開 [a]
中嶋 隆 / 笠間書院 / 2011-11-23

Bookcover 健さんと文太 映画プロデューサーの仕事論 (光文社新書) [a]
日下部 五朗 / 光文社 / 2015-12-16
東映の往年の名プロデューサーとして知られる著者は1934年生まれ、怖いもののないご年齢で、後輩の社員プロデューサーの実名を出して「思うほど伸びてくれなかった」。女優・寺島しのぶの出演作を選ぶ嗅覚を称えて、「われわれから見れば左翼の三流監督にしか見えない若松孝二『キャタピラー』(2010)に出て、全編裸のような役を演じているのである」。言いたい放題だ...

Bookcover 世論調査とは何だろうか (岩波新書) [a]
岩本 裕 / 岩波書店 / 2015-05-21
著者はNHKの方。現代における世論調査のあり方について深く掘り下げた論考が読めるか、と思ったのだが、どちらかというと岩波ジュニア新書向きの内容で、後半は統計学入門みたいな話になってしまう。ま、それはそれで価値のある本ではありましょう。

ノンフィクション(2011-) - 読了:「世論調査とはなんだろうか」「健さんと文太 映画プロデューサーの仕事論」「西鶴と江戸メディア その戦略と展開」

Bookcover 円周率が歩んだ道 (岩波現代全書) [a]
上野 健爾 / 岩波書店 / 2013-06-19
頭のトレーニングのために丁寧に読もう、と気合をいれて手に取ったのだが、第一章、古代中国の算術の話で早くもギブアップ。数式はすっとばしてエピソードだけ読んだ。
 円周率の計算というのは、3.1415...と上の桁から徐々に進めていくものなのだろうと想像していたのだが、一概にそういうものでもなく、任意の桁の数字だけをぴたりと言い当てる数式もあるのだそうだ。ただし、円周率を60進数で表現するならば、というところがミソ。不思議だなあ...

Bookcover ルポ 老人地獄 (文春新書) [a]
朝日新聞経済部 / 文藝春秋 / 2015-12-18

Bookcover ヒトラーに抵抗した人々 - 反ナチ市民の勇気とは何か (中公新書) [a]
對馬 達雄 / 中央公論新社 / 2015-11-21

ノンフィクション(2011-) - 読了:「円周率が歩んだ道」「ルポ 老人地獄」「ヒトラーに抵抗した人々」

Bookcover オールラウンダー廻(18) (イブニングKC) [a]
遠藤 浩輝 / 講談社 / 2015-12-22
18巻も続く長期連載だが、要するにアマチュア格闘技の試合を描いたマンガであって、劇中で主人公のコーチがいみじくもいうように、勝ったら楽しい、負けたら残念、ただそれだけの話なのである。に関わらず、とても面白い。その試合に至るまでの生活史と人間関係が丁寧に描かれているからである。永井愛さんの戯曲を読んでいるときにも痛感したのだけど、ドラマは日常のなかに潜んでいるのだなあと思う。

Bookcover 僕だけがいない街 (7) (カドカワコミックス・エース) [a]
三部 けい / KADOKAWA/角川書店 / 2015-12-22

Bookcover たそがれメモランダム 2 (ビッグコミックス) [a]
田村 茜 / 小学館 / 2015-09-11
真面目な高校生たちの甘酸っぱい恋愛ですよ、もう! こいつらみんな爆弾とかで死なないかなあと思いながら読んでいた。

コミックス(2015-) - 読了:「僕だけがいない街」「たそがれメモランダム」「オールラウンダー廻」

昨年中に読んだ本。まずはマンガから。

Bookcover 惑星スタコラ(4) (KCピース) [a]
加藤 伸吉 / 講談社 / 2015-12-19
Bookcover 惑星スタコラ(5)<完> (KCピース) [a]
加藤 伸吉 / 講談社 / 2015-12-19
2009年に単行本第1巻、2012年に第3巻。以後雑誌連載も中断してしまい、もう続きは読めないかと思っていたのだが、なんと完結までの2巻分が描き下ろしで上梓された。どういう事情だったのだろうか。
 昭和風のデューラーといえばいいのだろうか、懐かしくもおぞましい奔放なイメージに満ち溢れた、ダーク・ファンタジーの大傑作であった。あまり読者を得ていないマンガだと思うが(講談社の新刊なのに入手が大変だった)、日本よりもむしろ海外で評価されるのではないかと思う。

Bookcover 大砲とスタンプ(5) (モーニング KC) [a]
速水 螺旋人 / 講談社 / 2015-12-22

Bookcover 中国嫁日記 (五) [a]
井上 純一 / KADOKAWA/エンターブレイン / 2015-12-26

Bookcover OL進化論(37) (ワイドKC モーニング) [a]
秋月 りす / 講談社 / 2015-12-22

Bookcover あれよ星屑 4 (ビームコミックス) [a]
山田 参助 / KADOKAWA/エンターブレイン / 2015-12-25

コミックス(2015-) - 読了:「惑星スタコラ」「大砲とスタンプ」「中国嫁日記」「OL進化論」「あれよ星屑」

« 2015年12月 | メイン | 2016年2月 »

rebuilt: 2020年11月16日 22:40
validate this page