elsur.jpn.org >

« 2014年8月 | メイン | 2014年10月 »

2014年9月23日 (火)

Commandeur, J.J.F., Koopman, S.J., Ooms, M. (2011) Statistical Software for State Space Methods. Journal of Statistical Software, 41(1).
 JSSのこの号は状態空間モデル特集号だったようで、その巻頭論文。著者があのコマンダー&クープマンであることに気づき(翻訳書が出ている)、いちおう目を通そうかと...。
 仕事の役には立たないけれど、歴史の話って、ちょっと面白いんですよね。ええと、状態空間モデルはもともと制御工学に由来しており、その発想は1960年のカルマンの論文までさかのぼり、1969年のアポロ11号の月着陸の際にも役に立ったそうです。いっぽう、時系列分析一般に広く適用されるようになったのは1980年代になってから、とのこと(ちなみにBox-Jenkinsモデルは1976年)。古いんだか新しいんだか。

 2節は状態空間モデルの一般的解説。せっかくご説明いただいているので、ちょっとメモをとっておくと... まず、線形ガウシアンの状態空間モデルを一般的形式で示す。それから以下の特殊ケースを紹介: ローカルレベルモデル, ローカル線形トレンドモデル, 季節ダミー要素の導入, 周期性要素の導入。で、説明変数・媒介変数の導入。構造的アプローチへの展開 (いろんな観察不能要素についてそれぞれの説明モデルを組んで合体させる)。多変量時系列への展開(SURモデルとか)。いやー、教科書何章分もの内容を一気に説明されても...

 3節は推定の話。前向きパス(カルマンフィルタ)と後ろ向きパス(状態平滑化と攪乱項平滑化)、とかなんとか... 4節はARIMA要素モデル。5節は非ガウシアン。すいません、後日きちんと勉強しますので、今日のところはお見逃しください。
 
 で、ようやく本題。状態空間モデルのためのソフトウェアの星取り表。多変量モデル(MM)、正確な初期化(exact initialization, EI), 多変量時系列の単変量的扱い(UTMTS)、非線形非ガウシアンモデル(NLNGM)について扱えるかどうかを、以下の14のソフトについて整理。名前を聞いたこともないのもあって、へー、という感じ。全部メモしておくと(一部リンク付き):

で、本特集号の各論文の構成。各論文はそれぞれに特定のソフトを解説しているのだが、著者らにそれぞれのソフトで同一のデータを分析してもらったそうだ。へー。

論文:データ解析(-2014) - 読了:Commandeur, Koopman, & Ooms (2011) 状態空間モデルのためのソフトウェア

2014年9月19日 (金)

Bookcover Rによる時系列分析入門 [a]
田中 孝文 / シーエーピー出版 / 2008-06

 数学が得意な人には苦手な人の気持ちがわからないし、苦手な人はふつう年を食ってから改めて勉強したりはしないので、結局わたしの気持ちなんで誰にもわかってもらえないのである。(ぼやき)
 というわけで、データ解析の諸領域のなかでも鳥肌立っちゃうくらいに苦手な、時系列分析の勉強のために通読した本。論文を読んでいるといつもわけがわかんなくなり、バカ高い参考書を何冊も買っては投げ出し、レベルを落としに落とし、ついにここにたどり着きました。もとは青山学院大の学部の計量経済学の演習資料だそうである。文系の学生諸君よ、ありがとう!
 
 ええと、内容は...
 最初の1/3は、経済時系列・超入門、という感じ。

 中盤(9章-14章)は時系列とはほぼ無関係に、確率統計入門。確率と確率分布、確率変数の特性、正規分布、母集団と標本、積率法と最尤法、標本分布(ここでカイ二乗分布を導入)、推定量の不偏性・一致性・有効性、区間推定(ここでt分布を導入)、仮説検定(t検定とF検定)、単回帰とそのパラメータ推定量、予測値の区間推定、重回帰とそのパラメータ推定量、2次元の同時確率分布(ここでようやく共分散と相関を導入)、条件付き分布と独立性、多変量正規分布(ついでにcontour()を紹介)。通年の講義の1/3で、これだけホントにやるのだろうか。大変だなあ。

 終盤、ついに時系列分析っぽくなってまいりまして... ここからは真面目に読んだ。我ながら涙ぐましい。

 というわけで、詳しい人は「肝心なところを端折りおって...」と苛立つかもしれないが、私のような宿命的な数学音痴にはぴったりの教科書であった。特に15章から19章、説明の順序がわかりやすいおかげで、はじめて腑に落ちる箇所が多かった。要所要所でシミュレーションコードを示してくれているのも嬉しい。実行してはいないけど、目で追うだけでなんとなくわかったような気がして、助かる。

 それにしてもこういう話、少なくとも私にとっては、会社勤めしてはじめて面白みを感じるようになった話題だ。学生の身の上にしてちゃんと勉強できる人って、いったいどういう動機づけを持っているんだろうか。(形を変えたぼやき)

データ解析 - 読了: 「Rによる時系列分析入門」

2014年9月17日 (水)

Gilbert, P.D. & Meijer, E. (2005) Time series factor analysis with and application to measuring money. Research Report, University of Groningen.
 Rの tsfa パッケージの基になっている論文。通常の動的因子分析(dynamic factor analysis, DFA)を改訂した時系列因子分析(time series factor analysis, TSFA)を提案する。
 DFAという用語も結構あいまいに使われているので、ここで著者らがなにを想定しているのか、はっきりしないのだが... たぶん、因子負荷にはラグがなく因子得点に時系列構造があるようなモデル(先日読んだZhang, Hamaker, & Nesselroad(2008)いうところのdirect autoregressive factor score model)が念頭にあるのではないかと思う。
 著者らいわく、ふつうのDFAは因子の時系列構造の指定に過度に依存する。いっぽう提案手法は最小限の想定しか置かない。

 時点数を$T$, 因子数を$k$, 指標数を$M$とする。時点$t$における因子得点ベクトルを$\xi_t$, 指標の値のベクトルを$y_t$とする。提案モデルのうち測定モデルは
 $y_t = \alpha_t + B \xi_t + \varepsilon_t$
 なお、ある時点における$\xi_t$と$\varepsilon_t$は独立で、$\xi_t$は平均0, 共分散$\Gamma$, $\varepsilon_t$は平均0, 共分散$\Psi$とする。切片ベクトル$\alpha_t$さえ変動する点に注意。なんというか、ゆるゆるのモデルで、これでは推定できない。
 差分オペレータ$D$を導入する。たとえば$Dy_t := y_t - y_{t-1}$である。$Dy_t$を分解して
 $Dy_t = D\alpha_t + BD\xi_t + D\varepsilon_t$
 で、以下の仮定を置く。略記するけど、$\lim$と書いているのはほんとはすべてplimで、下添え字は$T→\inf$。

あ"あ"あ"あ"あ" (藤原竜也風の叫び)。時系列モデルに疎い私はもう頭が真っ白だが、著者らいわく、因子得点の差分 $D\xi_t$と 誤差の差分$D\varepsilon_t$が単位根を持たないことを求めているほかには、実質的にはほとんどなにも仮定していない、のだそうである。そうなんすか。
 識別のためにもう少し制約を追加しないといけないようだが($\Omega$を対角行列とするとか)、まあとにかく、このモデルをどうにかして推定できちゃうそうである。因子得点も推定できるんだそうである。細かい説明は全然理解できないのだが、まあ、いいや。

 後半は数値例。まず人工データへの適用例が載っているけど、パス。
 実データへの適用例。著者らはカナダ銀行の人なので(論文が難しいわけだ)、そっち方面の話である。辞書を引き引き読んだ。
 ええとですね。現在のmonetary aggregates(マネーサプライ。取引に用いられるカネがどの程度出回っているか)にはいろいろ問題がある。TSFAをつかい、これをpopulationにおけるfinancial assets(金融資産)の変化を説明する潜在変数に置き換えたい。
 以下の6個のカテゴリの指標を使う: currency(通貨), personal chequing deposits(個人小切手預金), non-bank chequing deposits (ノンバンク小切手預金... なんのことだ一体?)、non-personal demand and notice deposits(非個人の要求払い預金と通知預金... 会社の普通預金のことかなあ)、non-personal term deposits (非個人の定期預金)、そしてinvestment (投資... ってどういうこと? 投資信託とか?)。1986年からの215ヶ月のデータ。なお、ここではいっさい季節調整しないが、してもよい、とのこと。
 まず、差分指標の標本相関行列の固有値を見る(ちょちょちょっと待って, 6本のDy_t 時系列の相関行列ってことよね?)。順に2.08, 1.39, 0.85, 0.69, 0.65, 0.33。伝統に従い、固有値1で切って2因子としよう。直接オブリミン回転で解釈する。
 云々。途中で嫌になったのでパス。

 というわけで、ほとんど読んでないけど、読了にしておく。
 要するに、差分データについて極力素直に因子分析するわけね。そういうモデルであったか。思ってたのと全然ちがったので、めくっておいてよかった。たぶん、比較的に本数が少なく、共分散が定常かどうかわからず、因子の時系列構造がさっぱりわからんような多変量時系列に向いている手法なのだと思う。

論文:データ解析(-2014) - 読了:Gilbert & Meijer (2005) 時系列因子分析TSFA

2014年9月16日 (火)

Brodensen, K.H., Gallusser, F., Koehler, J., Remy, N., Scott, S.L. (2014) Inferring Causal Impact Using Bayesian Structual Time-Series Models. Technical Report, Google.
 先日Googleの人がリリースした、RのCausalImpactパッケージの基になっている論文。どこかに投稿中である由。
 本当はパッケージをいじりながら慣れていけばいいんだろうけれど、どうしてもそういう勉強のしかたができなくて... こういうフォーマルな文章を先に読んでおかないと、落ち着かないのである。効率が悪いなあ、とため息。

 えーっと、いまをときめくデータサイエンティスト(っておっしゃるんですかね)の皆様にではなく、私のような哀れな文系ユーザ向けに、このパッケージが持つ意味をどう説明するか ... と考えながら読んでいたのだが、要するにこういうことだと思う。
 いま、あるブランドのためのなにかのマーケティング・アクションが行われたとしましょう。広告とか販促とか。で、なにか結果指標があるとしましょう。売上とかイメージとか。アクションの効果を推定するためにはどうするか。
 一番簡単なのは、そのアクションが行われる前と後との間で、結果指標の変化を調べることである。話を簡単にするために、売上の差を調べる、ということにしましょう。
 たちまち、次のような批判が生じる。アクションの前より後で売上が高くなったとして、それは季節のせいではないのか? アベノミクスのせいではないのか? そのほか、当該のアクションとは無関係なさまざまな要因のせいではないのか?
 こういう批判にこたえるためには、「季節やらアベノミクスやらその他すべての要因において共通しているが、当該のアクションはなされていない」なんらかの比較対象が必要である。たとえば、競合ブランドの売上データだったり、当該ブランドの前年の売上データだったり、当該の広告を出稿していない地域における当該ブランドの売上データだったり。これをコントロールと呼ぶことにする。で、先ほど求めた前-後の売上の差と、コントロールにおける前-後の売上の差とを比べる。いわゆる「差の差を調べる」手法である。
 問題は、都合の良いコントロールはなかなか手に入らないという点である。競合さんだって頑張っている。去年の僕らだって頑張った。広告を出稿しなかった地域があったら、それにはそれなりの事情がある。「差の差」が当該アクションの効果だけを表しているとは限らない。
 ...とお嘆きの皆様に対し、この論文はつぎのように提案する。よろしい、アクションの効果を推定してご覧にいれましょう。大丈夫、コントロールなんて要りません。ただし、「アクションの前の値」と「アクションの後の値」だけではだめ。長めの時系列データをください。特に、「アクションの前」についてはぜひ長めの時系列を。そして、あなたのブランドの結果指標(売上とか)に影響するであろう変数のデータを、片っ端から用意してください。

 えーと、提案モデルは以下の通り。いやー、時系列構造モデルだなんて、生まれながらの文系である私がなんでこんな目に...
 大枠として、以下の状態空間モデルを考える。
 観察方程式: $y_t = Z^T_t \alpha_t + \epsilon_t$
 状態方程式: $\alpha_{t+1}= T_t \alpha_t + R_t \eta_t$
 観察値$y_t$はスカラー(ありがたいことに)。$Z_t$は長さ$d$の係数ベクトル。$\alpha_t$が長さ$d$の状態ベクトル。誤差項$\epsilon_t$は$N(0, \sigma^2_t)$に従う。
 状態方程式のほうは、$T_t $が$d$行$d$列のブロック対角な遷移行列。$R_t$は$d$行$q$列のブロック対角な係数行列、$\eta_t$は長さ$q$のシステムエラーで(季節性とかね)、その拡散行列を$Q_t$とする (ブロック対角)。
 この状態ベクトル$\alpha_t$にいろんな要素を突っ込んでいく。

 ひとつめ、トレンド$\mu_t$。傾き$D$のAR(1) として、
 $\mu_{t+1} = \mu_t + \delta_t + \eta_{\mu, t}$
 $\delta{t+1} = D + \rho(\delta_t - D) + \eta_{\delta, t}$

 ふたつめ、季節性。季節の数を$S$として、
 $\gamma_{t+1} = - \sum_{s=0}^{S-2}\gamma_{t-s} + \eta_{\gamma, t}$
こういう季節性の表現を見るといつも泣きたくなるんだけど、著者様は素人向けに易しくかきなおしてくださっていて、たとえば春から順に1,2,3,4だとすると、$\gamma_{冬} = -1 * (\gamma_{秋}+\gamma_{夏}+\gamma_{春}) + (誤差項)$ だから、これでつじつまが合っているわけです。

 みっつめ、係数が時間変動しない共変量ベクトル$x_t$の効果。これは、$\alpha_t$のほうに 値 1 の要素を突っ込んでおいて、$Z_t$のほうに$\beta^T x_t$を突っ込めばよろしい。ああそうか、なるほど。なお、論文ではラグつき共変量のことは考えてないけど、容易に拡張できる。

 よっつめ、係数が時間変動する共変量ベクトル$x_t$の効果(ベクトルの長さを $J$とする)。ええと、いま効果を$x^T_t \beta_t$としましょう。$\beta_t$は長さ$J$の係数ベクトルで、これがランダムウォークすると考える。つまり各要素について
 $\beta_{j, t+1} = \beta_{j, t} + \eta_{\beta, j, t}$
この$\beta_t$を$\alpha_t$に突っ込み、共変量$x_t$のほうを$Z_t$に突っ込めばよろしい。状態ベクトルの遷移行列$T_t$は$J$行$J$列の単位行列になる。(状態空間モデルの、こういうひっくり返った発想に慣れないんだよな...)。なお、共変量の係数は時間変動させないほうが簡単で、させちゃうにあたってはいろいろ工夫が要る由(動的潜在因子とか潜在閾値回帰とか)。よくわからんので省略。

 このモデルをベイズ推定する。事前分布をいろいろ工夫するんだけど(共変量の係数には少数の変数を使うようにspike-and-slab分布をつかうとか)、省略。なんだかわからんが、とにかく推定できるんだそうです。へー、すごいですね。

 さて、このモデルをどうやって使うかというと...
 t=n の直後になんらかのアクションが行われていたとする。その場合、次の3つのステップを踏む。

  1. 時系列$y_{1:n}$をつかってモデルのパラメータを推定する。
  2. このモデルを使って、反事実的な時系列$\tilde{y}_{n+1:m}$の事後予測分布を求める。
  3. 各時点 $t$ について、この事後予測分布からドローした値と実際の$y_t$との差$\phi^{(\tau)}_t := y_t - \tilde{y}^{(\tau)}_t$を求め (上添字 ($\tau$) は$\tau$回目のドローであることを表す)、その分布を介入の因果効果の事後分布とする。なんだったら、時点$n+1$以降の全時点を通じた $\phi^{(\tau)}_t$の合計なり平均なりを求めてもよい。

 後半は数値例。まず、2つの共変量に動的回帰する人工データの例。
 それから実データ。google adwordsへの出稿がクライアントのwebサイトへのクリック数に及ぼした効果の推定。共変量はそのカテゴリのgoogle trend(なるほど)。出稿されていない地域をコントロールにした効果推定に近い結果が得られた、云々。なるほど、googleがこの研究をする理由がわかろうというものだ。

 私の素人目には意外だったのだが、この提案では、市場に対する介入の効果をモデルのなかでexplicitに表現するつもりはさらさらないのである。なるほどねえ、そんなのモデル化するとなったら、そのたびに頭を使わないといけないもんね。
 しっかし、パラメータ推定にあたっては基本的に介入前の時系列しか使えないわけで、いかにもgoogle的なデータリッチな発想だなあ、と呆然。マーケティング・リサーチの文脈では、ふつうマーケティング・アクションが起きる前の観察データはプアなので、こういうのを聞くとあっけにとられてしまう。

論文:データ解析(-2014) - 読了: Brodensen, et al. (2014) マーケティング・アクション前後の時系列からアクションの因果効果を推定するぜ by Google

2014年9月13日 (土)

Soukhoroukova, A., Spann, M., Skiera, B. (2011) Sourcing, filtering, and evaluating new product ideas: An empirical exploration of the performance of idea markets. Journal of Product Innovation Management., 29(1), 100-112.
 製品アイデア開発のための予測市場の先行研究。ほんとはもっと早く読んでおくべきだったのだけれど...

 著者らいわく。
 製品開発の初期段階(いわゆるファジー・フロント・エンド)においては、企業の従業員の知識をフル活用しなければならないのに、多くの企業はそれをやりそこねている。従業員から新製品アイデアを集め、絞り込み、評価するうまい方法はないものか?
 最近ではネットを使った支援システムが提案されている(ここでDahan&Hauser(2002,JPIM)というのが引用されている。やばい、読まなきゃ)。たとえば:

本論文ではそうした支援システムのひとつとして、アイデア・マーケットを提案する。これは予測市場みたいなもので、アイデアの仮想証券を仮想市場で取引する仕組みである。

 先行研究概観。(Crawford & Di Benedetto, 2006, "New Product Management" というのが挙げられている。どうやら大学の教科書らしい)

1) アイデア収集(Sourcing)。まず社員のなかのリード・ユーザを探すという手があるが、カテゴリによっては難しい。多様な人からどっさり集めてくる、意見を交換させる(ブレインストーミングとかで)、匿名性を活かす、投稿を容易にする、透明性をつくる、楽しく競争させる、といった工夫がある由。
 本筋から離れるけど、ここのくだりにすごく関心があるので、引用文献をリストにしておく。

 2) 集団によるアイデア絞り込み(Filtering)。以下の3つが必要になる。

  1. 刺激のデザイン。アイデアを文章で示すのか、絵をつけるのか、などなど。
  2. 対象者の選択。エキスパートを選びたいところだが、なかなか難しいし、あんまり少ないと問題が生じるといわれている。多様な評価者を(社内だったらたくさんの部署からの評価者を)、多数選ぶのが良い。
  3. 反応のマネジメント。評価者にアイデアを多数の基準で評価してもらって、AHPで重みづけてして集約する。ないし、全体的評価だけを尋ねる(投票とかランキングとかで)。評価者を通じた集約の方法としては、単純平均、デルファイ法、そして市場メカニズムが挙げられる。デルファイ法みたいに相互作用させるのもよい(Ozer, 2005, Euro.J.OR)。ただし集団思考に陥る危険もある(Kumar,et al.,1993,Aca.Mgmt J.)。

 3)評価(Evaluating)。これはアイデア収集と統合するのがよい。アイデア提案者に即座にフィードバックできるし、ひどいアイデアをすぐに落とせるので認知的負荷が下がる。さらに、即時的フィードバックは提案者のアイデアの質を挙げるし、良い提案者を同定できればそれは良い提案者でもあるかもしれない。

 提案手法の特徴。
 まず予測市場についての説明があって... IEMの紹介があって... (SpannとSkieraってひょっとしてIEAの関係者なのかしらん)
 アイデア・マーケットでは、参加者が考えたアイデアが証券になる。予測市場の違いは2点。

  1. 証券の種類数が参加者の提案の数によって決まる。従って開始時点では未知である。
  2. 証券の価値が、近未来の実際の結果によっては決まらない。

つまり、Dahanらのプリファレンス・マーケット(Dahan,Soukhoroukova,&Spann, 2010, JPIM) やSTOC(2011,JMR) と比べても、上記1.においては異なるわけである。

 お待ちかね、手法と実証実験。
 とある企業との協同実験である。ハイテクB2B製品の国際企業、売上は300億ドル以上、世界100ヶ国以上でビジネスをしている由。(社名は伏せられているけど、Santos&Spann(2011,R&D Mgmt.)という論文があって、それはクアルコムにおける従業員からのアイデア収集の事例研究だから...)
 仮想証券は3種類。

  1. 会社の新技術。専門家委員会が、むこう10年にその技術が収入に占める割合を推定し、それで最終配当が決まる。
  2. ある製品カテゴリにおける新製品アイデア。専門家委員会が、むこう10年の売上数量を推定し、それで最終配当が決まる。
  3. 創造的なビジネス・製品アイデア。専門家委員会がベスト10を選び、それに入ってたら配当あり、ほかは配当なし。

なあんだ、結局は専門家委員会が「正解」を決めてくれちゃうんだ。がっくり。この点ではDahanのSTOCなんかよりもオーソドックスだ。
 ええと、著者ら曰く、配当の決め方としては次の路線がある。

 というわけで、この実験では本当に社外からえらい人を連れてきて時間を掛けて議論させたらしい。なにもそこまでせんでも、適当でいいじゃん、と思っちゃいましたけど、国際企業の社内実験ともなれば従業員をかつぐことは許されないのだろう。

 市場開設期間は36日間。全正社員に対してオープン。社内報とかチラシとかで告知した。取引は仮想通貨で行われる。
 参加者は最初に仮想の金を渡される。ええと、仮想通貨の単位をポンドと呼ぶとして、最初に10000ポンド渡すんだそうです。
 さて、この研究のウリともいえるアイデア収集だが... 市場開設から23日間、誰でもアイデアを投稿できる。ただし、会社にとっても市場にとっても新しいアイデアでないといけない、という決まりがある(別にチェックはしないらしい)。説明文のほかに、画像とか、外部リンクとか、引用文献なんかを載せられる。
 投稿者には仮想通貨ではない賞品が与えられ(先着25名様には割増がある)、さらに仮想ポートフォリオにも仮想通貨がどかんと追加される。(これ、本文では投稿者にもれなく渡すように書いてあるが、図では後述するIPOフェイズを通過できたアイデアの投稿者に限って渡すように書いている。どっちなのかはっきりしない)
 投稿から7日間はIPOのフェイズ。アイデアは価格が5ポンドに固定された証券となる。一人の参加者が買える上限は4000ポンドまで。で、売上が決まった閾値(参加者数で決める。たとえば20000ポンド)を超えないと、この証券は紙くずになる。
 これを通過した証券は、初値5ポンドから取引開始(ダブルオークション)。あれれ、初値が公募価格と同じだということは、IPOに応募する特別なインセンティブはないわけか。
 なお、このルールだと初期に取引する証券がまだないことになるので、主催者がIPOフェイズに3証券、取引フェイズに7証券を初日に投入した由。
 さて、市場が閉まると専門家委員会の評価で配当が決まる。これで利益が確定する。
 成績優秀者10名に100ドルから1500ドルの賞金を渡す。つまり、最終的なポートフォリオと報酬が連動するわけではない。それでも大丈夫という研究がある由(Servan-Schreiber, Pennock, et al., 2004, Electronic Markets)。

 結果。市場がうまく機能したかどうかを4つの観点から評価する。

  1. アイデア・マーケットは従業員に受容されたか。参加してくれたのは397名、アクティブに取引してくれたのは157名。投稿数は252個。IPOを通過したのは100個。参加者調査の結果、大勢の参加者が「楽しかった、またやりたい」って言ってます、大勢の投稿者が「いやーこれやらなかったら新アイデアなんて出さなかったよ」って言ってます、とかなんとか。はいはい。スキップ。
  2. 収集・フィルタリングされたアイデアの質。IPOフェイズで半分以上が落ちたわけで、つまりフィルタリングは機能している(おいおい... 妥当なフィルタリングかどうかが問題なのに)。市場終了1週間前にやった経営層への調査では、上位20アイデアへの評価はとてもよかった。とかなんとか。うーん、ここの議論もちょっと弱い感じだ。
  3. アイデア評価の質。参加者調査では「すべての参加者がアイデアを評価できたのは良かった」という回答が得られたとか、経営層調査でも「この結果を参考にしたい」という回答が得られたとか。はいはいはい、省略。非投稿者より投稿者のほうが取引が活発で、かつ成績が良い。終値と専門家評価の相関は.10~.47で、一致しているとはいえない。著者らいわく、この不一致は新製品アイデアの成功の予測における不確実性の高さを表しているのでしょう、高価な市場調査を経た新製品導入さえ半分以上が失敗するといわれているのも道理ですよね、とのこと。おいおい。
  4. 全体的パフォーマンス。参加者調査ではみんな有用だっていってくれました、とか、他の会社でもやるといいと思うよっていってくれました、とか... この研究者たちはリップサービスという言葉を知らないのだろうか。

 考察。
 マネジリアルな含意:企業はアイデア開発の管理が不得手だ(Berczak, Griffin, Kahn, 2009, JPIM. あーこれ読んでおけばよかった...)。この研究が示したように、アイデア・マーケットのようなうまいプラットフォームがあれば、従業員からアイデアを集め同時にフィルタリングできるし、イノベーティブな組織文化をつくれるだろう。
 今後の課題:手続きやインセンティブ・スキーマの改善。専門家委員会を使わないですむ方法。社外の人の参加。ブレストのようなアイデア創造手法との組み合わせ(←なるほど)。エキスパートの有効活用。

 わかりやすい論文だし、勉強にはなったけど...
 この手法の売りがアイデア評価ならば、専門家による評価と市場による評価のどちらが優れているのか、という問いに答えなければならないはずである。また、手法の売りがアイデアの収集とフィルタリングにあるならば、他の手法と比べて収集したアイデアの数が多いとか、IPOフェイズ通過有無がアイデアの質を正しく反映しているとか、そういうことを示さないといけないはずである。
 この研究では、どちらについてもしっかりしたエビデンスがない。せいぜい、「アンケートでみんなそうだって言ってました」というレベルである。うーん。きっとこの研究分野では、検証が甘くてもアイデアが良ければ受け入れられるんだなあ。いわゆる社会科学的研究とはちょっと違うのかもしれない。まあ、別にそれでもかまわないような気もする。

 ポジティブに捉えると、提案手法そのものは確かに面白いと思う。自分の投稿したアイデアが取引されるなんて、とても楽しそうだ。参加してみたい。
 自分でアイデアを投稿している人のほうが取引成績が良いという知見もちょっと面白いと思った。単にコミットメントによる疑似相関かもしれないけど、とにかく投稿者を飽きさせない仕組みではあるわけだ。もしかすると、大きな組織のなかには埋もれたアイデアマンがいて、それをこの手法で探し出せるんじゃないかしらん。

論文:予測市場 - 読了:Soukhoroukova, Spann, & Skiera (2001) 新アイデアの仮想市場を社内で開設

Bookcover ロジスティック回帰分析: SASを利用した統計解析の実際 (統計ライブラリー) [a]
丹後 俊郎,高木 晴良,山岡 和枝 / 朝倉書店 / 2013-11-08
昨年に改訂版が出ていたことにようやく気が付き、びっくりして買い込んだ。どんな変更があるか確かめるためにざーっとめくっただけなので、読了というのはおかしいけれど、備忘録として記録しておく。
 記憶との照合だからあてにならないけど、レイアウトがちょっと親切になり、ケースコホートみたいなマイナーなデザインの話が追加され、階層データと欠測データの説明がどどーんと追加され、数量化II類の説明が落とされているように思う。

 試しに見比べてみよう、と本棚にある旧版(1996)を久々に手に取ったら、ところどころに手垢やら必死な書き込みやら目につき、急にセンチメンタルになってしまった。前の前の会社に拾ってもらって、でも民間企業でなにをしたらいいかわからず当初はヒマを持て余し、仕方がないのでこの本や項目反応理論の本を朝から晩まで読み倒していたのであった。ラララ、そんな日もあったー。

データ解析 - 読了:「ロジスティック回帰分析」

2014年9月11日 (木)

Arnulf, J.K., Larsen, K.R., Martinsen, O.L., Bong, C.H. (2014) Predicting survey responses: How and why sementics shape survey statistics on organizational behavior. PLoS ONE, 9(9).
 質問紙調査で得られる結果のうち、項目間の関連性について、その項目のワーディングの分析によって、実際に調査する前に予測してご覧にいれましょう、という論文。随分キャッチーな言い方だが、提起している問題は意外に深い...

 著者らいわく。EFAにせよCFAにせよ、計量心理的分析は、調査項目間の関連性は項目の意味の重複による自明な関連性ではないということを前提にしている。でも、たとえば「今日は月曜日だ」を真と評価した人は「明日は火曜日だ」も真と答えるに決まっている。こういう意味の重複が、もしすべての項目を通じて存在していたら、尺度間の関連性もそれに汚染されていることになるではないか。
 こういうことを考えた人としてはCoombs & Kao (1960, Psychometrika) がいる。彼らは因子分析がそれ自体の特性として、「社会的効用機能」という外的因子を常に生みだしてしまうと考え、「一次元展開」という計量心理理論を構築した。(←unidimensional unfolding. 昔のMDSの文脈で出てくる話だと思う。この辺の話、苦手なんだよなあ...)
 そんなわけで、項目間の意味的関連性を最新の手法を使って事前に調べ、それで調査結果における項目間関連性がどのくらい説明できてしまうかを検討する。

 意味的関連性を分析する手法はふたつ。まず、LSA。ビジネス系記事(WSJとか)、新聞記事(NYTとか)、PR系文章を集めてそれぞれの意味空間をつくっておく。著者らのひとりが工学系で、自前で空間を作ったらしい。ふたつめは、著者らはMIと呼んでいるのだけれど、要するにWordNet(語彙データベース)を使う。詳細は読み飛ばしたけど、とにかくこの2つのシステムに調査項目を2問放り込めば、ワーディングの意味的類似性を算出できるわけである。

 質問紙調査のほうは組織行動研究をターゲットにしている。リーダーシップとかモチベーションとか、そういう潜在変数が跳梁抜鉤する魑魅魍魎の世界である(すいません冗談です)。
 実験は4つ。
 実験1. Multifactor Leadership Questionnaire (MLQ) という尺度を使う。リーダーシップの因子とかモチベーションの因子とか計11個あり(「知的な刺激」因子とか)、さらにall outcomesという因子がある(なんだかよくわからない)。実際の調査データから求めた各因子のアルファとMIで推測したアルファはほぼ近い。因子間の相関もだいたい推測できる。云々。
 実験2, 3も、MLQやそれに関連したリーダーシッブ尺度を使っている。CFAとかをやっているけど、主旨は実験1と同じである。省略。
 実験4. 今度はNEO-FFIというビッグ・ファイブ尺度の簡略版を使う。こっちの結果は毛色がちがって、調査データにおける各因子のアルファはすごく高いんだけど、MIで予測した値は低い。項目間の実際の相関を、MIではうまく予測できない。つまり、パーソナリティ研究のような、最初に項目を幅広く集めてくる手続きがしっかりしている分野は、この研究の攻撃対象にはならないわけである。
 (あれれ、結局LSAはどこで使ったのだろうか? きっと見落としているのだと思う)

 考察。ここ、いろいろ考えさせられる箇所なので、長めに引用しておく。

 構成概念妥当性に関する計量心理学的諸原理は(少なくとも現在の形式、つまり組織心理学において頻繁に適用されている形式でのそれらは)、我々の知見に照らしての改訂が必要である。アルファ係数からCFAに至るまでのデータ分析の多くの部分を通じ、調査回答に対して意味論的諸特性が猛威を振るっている(pervade)ように思われる。このことは、科学研究における計量心理学の諸原理についての理解に、ある根本的な問題をつきつけている。我々の研究は、独立変数と従属変数の間の関連性が調査実施よりも前に意味論的に決定されているという可能性を示している。つまり項目のワーディングによって決まってしまっているのである。[...]さらに深刻なのは、変数間のこの交絡が、リーダーシップに限らずモチベーションや業務満足や労働の結果といった他の組織行動の諸指標においてもみられるという点である。それはまた、異なるリーダーシップ理論に基づく調査の間の関連性にも影響しており、あの理論よりこの理論のほうが大事だといった主張に疑いを投げかけている。それらは単に同じ命題を違った形で述べているものだからである。(←?? このくだり、いまいちよくわからない)
 現時点では、我々がここで見出した問題がどこまで広がっているかを評価するのは難しい。本研究では、組織行動の分野で一般に用いられている指標が意味論から実質的な影響を受けていることが示された。いっぽう、パーソナリティ・テストではほとんど影響が示されなかった。社会科学の諸概念のあいだには抽象度の差があり、抽象度が高いと単純な意味論的関係に対して脆弱になるのかもしれない(←ううむ... ビッグ・ファイブよりリーダーシップのほうが抽象的だといえるかしらん?)。近年では、組織行動研究では他の分野に比べて共通手法分散による統計量のインフレーションが起こりやすいことが知られている。我々がここで見出した問題も、他の分野ではあまり問題にならないのかもしれない。
 問題の核心は、調査回答におけるシグナルをノイズから分離する統計的手法があれば構成概念の客観的存在を確認できる、という無批判的な想定である。こうしたやり方は理論的見地から批判され続けてきた。認知ではなく行動の観察に基づき抽象度の低い回答を収集している場合には、調査回答はここで示されたような意味論的計算の影響を受けにくいのかもしれない。
 突き詰めていえば、意味論的影響が調査データにおける共変動の主要な源となることを排除する唯一の方法は、その影響を事前に同定することだ。調査変数間の関連性は、ふつう帰無仮説統計量によって検証される。ここで帰無仮説は調査項目間の関連がランダムなものだという期待を含意している。いっぽう我々の知見が示唆しているのは、すべての項目が、意味論的共通性を通じて関連している可能性が高いということである。おそらく、帰無仮説を意味論的仮説に置き換えることが、調査における単なる意味論的関連性と実証的情報を分離するためのひとつの確実な方法となるだろう。

 PLoS ONEの論文になんでこんなにアツクなっているのかわからんが、いろいろと考えさせられる内容であった。

 仕事の話に置き換えて考えると、たとえばある消費経験の領域に対する態度をたくさんの項目で聴取し(「自動車に対するあなたのお気持ちを伺います」とかね)、それを因子分析かなにかで整理しようとするとき、この項目とこの項目の相関が高いのはきっと裏にこんな潜在変数があるからだよね、と思う場合もあれば、この2項目は同じことを違う言い回しで訊いているだけでしょう、相関が高くて当たり前よ、と思うこともある。
 もちろん、因子分析を単にデータ縮約の手段として捉え、項目間の相関構造を生んでいる実質的機序は気にしない、という立場もありうる。でもひとたび項目群の関連性について実質的に理解しようとする限り、単に同じ意味だから相関が高い場合とそうではない場合、このふたつをごっちゃにしちゃっていいものかという疑問は、なるほど、たしかに感じますね。
 そうした疑問に対して、コーパスに基づくLSAなりWordNetなりによってその調査領域や調査対象者に依存しない一般的な意味的類似性を求め、それをベースラインにして、これはどうやら言葉の意味による相関だね、これはそうでもないかもね... と腑分けしていくことができたら、それはもしかすると便利かもしれない。また、たとえば意味論的にみて高いアルファが予測されるような因子については、そんな因子をホントに想定する必要があるのか、項目セットにたまたま同じような項目がはいっちゃっただけじゃないのか、というふうに反省することができるかもしれない。

 しかし... たとえば、ある広い領域についての態度や価値を調べているとしよう(結婚についてとか教育についてとか)。いろいろな項目を聴取して、10個の因子にまとめました、と。で、事前知識による因果的解釈と併せてSEMのモデルを組みました、F1とF2からF3にパスが伸びていて... 云々、と。さてここで批判者が現れ、いやそれはしょせん言葉の問題なんだよ、そのSEMのパス係数は、私たちがコーパスから作ったLSAで説明できちゃうよ、と言われたとしよう。果たしてそれは批判になっているのか。
 そのSEMのモデルは、まあ野望としてはだけれど、私たちの結婚なり教育なりについての態度と行動を規定している因果モデルなのである。そこで表現されている因果関係が、コーパスなり語彙データベースなりに反映されているのは当然である。だからそういう指摘に対しては、ああそうですか、私は調査データで、あなたは言語データで、結局同じものをみているんですね、と答えるしかないように思う。

 というわけで、「その相関はempiricalではない、semanticだ」という著者らの指摘が、果たしてどういう場面でのどういう主張に対して攻撃力を持つのか... さっきからあれこれ考えているのだけれど、難しくてよくわからない。

論文:調査方法論 - 読了:Arnulf, Larsen, Martinsen, Bong (2014) 調査票をみせてよ、結果を当ててやるからさ

Brynjolfsson, E., Geva, T., & Reichman, S. (2013) Crowd-Squared: A New Method for Improving Predictions by Crowd-sourcing Google Trends Keyword Selection. Workshop on Information Systems and Economics (WISE2013).
 ネットで調べものをしていて見つけたもの。あることをwebで調べるときの検索語をクラウドソーシングで決めましょう、という提案。
 背景には、Google trendなんかを使って将来予測を試みるとき、どうやって検索語を決めたらいいか、という問題がある。著者らはもともとGoogle trendで不動産価格を予測するというような研究をやっているらしい。
 もちろん、Googleの中の人であれば片っ端から調べるという手もあるわけで、たとえばGinsberg et al.(2008, Nature)のインフルエンザ予測は5000万語を調べているそうなのだが、普通の人には望むべくもない。

 そこで、検索語を決めるためのオンライン・ゲームをつくり、クラウド・ソーシング(Amazon Mechanical Turk)でデータを集める。ううむ、面白そうではないですか。いったいどんな仕掛けかと、興味深々だったのだが...
 たとえばインフルエンザの場合。webページにキュー単語"Flu"を表示し、それを取り巻くように5つのテキストボックスを表示する。で、"Flu"から連想される単語でボックスを埋めさせる。単純に集計して、連想語ベストテンを使う。なお一位は"sick"で出現率53%だそうです。
 そ・れ・だ・け。脱力。それ、ネットパネルに「連想する語を5つ挙げてください」という調査を掛けるのと同じことではないか。クラウドって言いたかっただけちゃうんかと。

 検証実験。まずインフルエンザの例。上の方法で集めた連想語ベストテンについてGoogleトレンドで検索量を調べ、CDCのインフルエンザ流行データに対する単純な回帰式を組む。Googleの中の人たちがやった研究と遜色のない予測力が得られました。云々。
 ほかに、不動産の予測、失業率の予測をやっている。いずれも連想語ベストテンを使うだけで、連想出現率を使うとか、そういう工夫はない模様。面倒なので飛ばし読み。

 というわけで、期待が高かった分ガックリしちゃって、後半はパラパラめくった程度。まあ、人の学会発表にケチをつけるのも野暮というものであろうが...
 せっかく目を通したのでちょっと前向きに考えると、インフルエンザ予測のための検索語特定という局面でインフルエンザの連想語を使うというアイデアは筋が通っている。これはそれらの検索語のトレンドの背後に単一の潜在トレンド(インフルエンザの流行)があると考えているからだ。いっぽう、Du&Kamakuraのマーケティングにおけるトレンド抽出のように、ある領域に関する多様な語の検索トレンドから複数の潜在トレンドを抽出したい局面では、単一のキーワードからの上位連想語を使うのはおかしいと思う。その領域における典型性の高い語だけを調べていてもしかたがない。むしろ、「100人中2人の人だけが挙げる連想語を考えてください」というような課題が向いているのではないか。そのときこそクラウド・ソーシングの出番であろう。

 引用のなかから面白そうな論文をメモ:

論文:予測市場 - 読了:Brynjolfsson, Geva, & Reichman (2013) クラウドソーシングによって将来予測を改善する超画期的な方法

Forlines, C., Miller, S., Guelcher, L., & Bruzzi, R. (2014) Crowdsourcing the future: Predictions make with a social network. Proceeding of CHI '14 Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. pp.3655-3664.
 今年の ACM CHI Conference on Human Factors in Computing Systems (CHI2014) という学会で発表された研究。要旨があまりに魅力的なので、ぐだぐだ迷った末、ぽちっとクリックして買ってしまった...10pで$15。うぐぐぐ。
 つまらないと困るので、固唾を飲むような感じで目を通した。どう位置づけたらいいのか、自分のなかでまだちょっと整理できていないのだけれど...

 要するに、個人の予測を集約して集合知を得る際にどうやって集計するか、というスコアリング・ルールの話である。いちばん単純なのは平均しちゃうことで、たいていの場合うまくいく。これに反旗を翻しているのが、PrelecのBTSによるスコアリングである。BTSでは、まずある事柄について回答させる(この研究の文脈でいえば、将来の出来事について予測させる)。さらに、その設問について他の人々が全体としてどう答えるかを予測させる(著者らにならってこれをメタ予測と呼ぶ)。この2問から各個人のBTSスコアが得られる。これをウェイトにして重み付け集計する。
 さて、著者らはOne-on-one スコアリングというのを提案する。この手法では、BTSでのメタ予測設問とちがって、自分以外の回答者ひとりひとりについてその人がどう答えるかを予測させる。つまり、N人の集団であれば、各人にN-1回のメタ予測を求めるわけである。
 最初に全回答者にある一定のスコアを持たせておく。で、回答者のすべてのペアについて以下の計算を行う。いま、Aさん自身の予測値が72%, Bさん自身の予測値が24%だったとする。さらに、AさんはBさんが70%と答えるだろうとメタ予測し、BさんはAさんが70%と答えるだろうとメタ予測したとする。メタ予測に関して言えば、Bさんの勝ちである。このとき、AさんはBさんに自分のスコアを、abs ( ln (Bさんについてのメタ予測 / Bさんの実際の予測) ) だけ献上する。こうして決まった個人のスコアをウェイトにして重み付け集計する。

 実験。対象者は学生30人。さすがに自分以外の29人について全部答えるのは無理なので、10人ずつ3群に分ける。将来の出来事についての10個の予測を行い(例, 2013年4月1日までにユーロ圏から離脱する意思を表明する国は現れるか?)、BTS式の全体的メタ予測、9人に対する個別的メタ予測、その他いろいろを聴取。予測課題はすべて2013年4月に正解が確定するものばかりなので、予測誤差を測れる。結果、単なる平均よりBTSでウェイティングした集計が優れていたが、One-on-oneスコアで重みづけた集計はもっと優れていた。

 ううううむ。。。
 問題意識はわかる、ような気がする。BTSでは集団の意見分布について予測させ(メタ予測)、その正確さを予測スコアと呼び、BTSスコアに加味する。でも、集団を構成するネットワークには疎密があって、ある人は集団の多くのメンバーについてよく知っているし、ある人はあまり知らない。だから、単に集団全体の意見分布についての予測が当たったかどうかをみるのではなく、「たくさんの人についてよく知っている人」を重視しよう。ということだと思う。
 一番わからないのは、スコアをゼロサム的にやり取りさせている点だ。つまり、多くの他人の態度を正しく推測した人が重視されるだけでなく、自分の態度を多くの他人に正しく推測された人は軽視されることになる。サトラレさんは損をするのである。なぜそんな仕組みにする必要があるのだろうか?
 実験手続きにもよくわからない点がある。この課題では、たぶん事象の生起確率をパーセンテージで答えさせているのだと思う。もしそうなら、対象者のBTSスコアはいったいどうやって求めたのだろう。連続量の回答についてBTSスコアを算出するには、訊き方に工夫が必要なはずだ。あるいは、事象の生起有無を二値で答えさせたのだろうか。だとしたら、今度はOne-to-oneスコアの算出方法がわからない。
 BTSと単純に比較している点もちょっと不思議である。BTSスコアは情報スコアと予測スコアの重み付け和で、肝になっているアイデアは情報スコアのほうだ。One-to-oneスコアは予測スコアの代替に相当している。だったら、BTSスコアをOne-to-oneスコアと比べるだけではなく、情報スコアとOne-to-oneスコアの重みづけ和のパフォーマンスを調べるのが筋ではないか。
 研究のなかでの提案手法の位置付けもよくわからない。One-to-oneスコアは、2者間のスコアの移動にあたってその親密さは問うていない(親密さを考慮した改訂版スコアも一緒に実験しているが、パフォーマンスはOne-to-oneスコアより劣る)。つまり、良く考えてみると題名とは異なり、著者らの本命であるところのOne-to-oneスコアは、ソーシャル・ネットワークについての理解とは無関係に得られるスコアだ。ちょっと看板に偽りがあるような気がする。
 最後に、提案手法の適用分野がわからない。この手法はメンバーがある程度顔見知りであるような集団における意見の集約に焦点を当てている。それってどんな場面だ。そのような状況があるとして、そこでの対抗馬はBTSなのか? もともとBTSは小集団には向いていない。もっと現実的な対抗馬を立てないと、この手法の優越性が示せないのではないか。

 などなど、疑問は山ほどあるのだが、でも大変に刺激的な研究であった。個人の予測を集計する際にソーシャル・ネットワークに注目する、という発想がとても面白い。視野が広がったような気分だ。

論文:予測市場 - 読了:Forlines, Miller, Guelcher, & Bruzzi (2014) 予測の集約を社会的ネットワークを使って改善する

2014年9月10日 (水)

以下、日本経営工学会(JIMA)という学会の機関誌「経営システム」の、2010年の「予測市場と集合知」特集号の論文。実はこれ、すべてWeb上で公開されており, 前半は既読だったのだが(ディスプレイ上で)、先日冊子版を頂いたので、出張の帰りに読み直した。せっかくなのでメモしておく。

山口浩 (2010) 予測市場と集合知メカニズムの現状と展望: 「神の手」と「衆愚」の間. 経営システム, 20(5), 234-238.
 ええと、予測市場の先行研究として、ハイエク、Rollという人(オレンジジュースの先物市場と将来の天候)、IEMを紹介。メカニズム例を紹介(ダブル・オークション)。予測市場の背景として以下を挙げる: (1)標本の偏りの影響を受けにくい, (2)分散型意思決定メカニズム全体への関心の高まり。証券市場メカニズム以外の提案として、(1)UIをわかりやすくする(マシンエージェントとか), (2)選択肢に対する投票, (3)予測対象が取りうる値の範囲を推測させ集計。展望として、予測・意思決定メカニズムとしてだけではなく、組織コミットメント促進のツールとしての用途を示唆。

佐藤哲也 (2010) 選挙と対象とした予測市場. 経営システム, 20(5), 239-242.
 選挙予測はそれ自体に経済的意義がある。さらに予測市場による選挙予測は、様々な予測者が観察した事実、それに基づくメタ認知を継続的に集約する、世論計測技術としての意義がある。先行例としてIEM、はてな総選挙を紹介。最後に、佐藤先生がやってたshuugi.inの2009年の結果を紹介。
 shuugi.inではバブル防止のためにこういう工夫をしていたそうだ。内部で「値上がり期待」「値下がり期待」という証券を用意する。価格は常に同じ。前者はふつうの株式と同じで、値が上がると利益が出る。後者は逆に値が下がると利益が出る、つまり空売りしているようなものである(損失が膨れ上がると強制的に精算させられる)。空売りっていうのはつまり価格の下落局面でも利益がでる仕組みなわけで、バブルの防止になる由。へええ。

水山元 (2010) 予測市場による経営の意思決定支援に向けて. 経営システム, 20(5), 243-248.
 これはもう繰り返し読んで、プレゼンやら学会発表やらでさんざん引用させていただいているものなので、省略。

池田心 (2010) 予測市場シミュレーションのためのエージェント群構成法. 経営システム, 20(5), 249-254.
 まずABMの紹介。著者らは個々のエージェントのミクロな挙動にではなく、「エージェント群がマクロにみてある特徴を満たすようにするためにはどうしたらいいか」に関心を持っている。
 実験例。選挙の予測市場で、候補者は二人。各エージェントの意思決定についていくつか単純な仮定をおき、各エージェントの戦略パラメータを進化させていく。ええと、多様な戦略を共進化させると、負けっぱなしの奴もいないしうまく勝ち越す戦略もない、つまりは自然な市場となっていくのだそうだ。
 うーむ、これ、難しいけど面白いなあ。いつか仕事に生かせないだろうか。

ここからは未読であった。

伊藤孝行 (2010) マルチエージェントの自動交渉機構と集合的コラボレーション支援への応用. 経営システム, 20(5), 255-267.
 大規模な意見集約や合意形成を支援するシステムの話。先行例として、MIT SloanのCollaboratoriumプロジェクトというのがあるそうだ。
 えーと、自動車かなにかの設計システム上で、ユーザが何かを作成すると、エージェントが他の人と交渉したりなんだりを勝手にやってくれる、というような仕組みらしい。従ってエージェントの課題は次の3つとなる: (1)自動交渉と合意。(2)人間の好みの推定。(3)交渉の場の提供。
 交渉とは、すなわち可能な合意点を探索すること。先行研究は多いんだけど、エージェントが持っている多属性効用関数において属性間の独立性を仮定することが多い由(フィッシュバイン・モデルみたいなもんですかね)。属性が独立していない、複雑な効用関数に基づく交渉としては、オークションを開く方法があって、でもいろいろ大変なことも多くて... 云々。ううむ、門外漢にはなかなか難しいぜ。
後半は著者らの開発事例の紹介。車、公園、庭、キャンパス緑化のデザイン支援システム。

岡村秀一郎 (2010) 投票方式による予測市場の実証実験: 数値範囲指定予測とランキング予測. 経営システム, 20(5), 268-273.
 著者はNRIの方。企業ユースを想定して開発した二つの予測システムの紹介と実証実験。
 ひとつめは、ある数値を予測するためにその範囲を投票させるシステム。いわく、企業が予測したいのは事象の生起有無よりなにかの数値であることが多いし(売上とかね)、ダブルオークションは少人数だと難しいし大変だし、マーケットメイクは予測の正しさを儲けに連動させにくいし、数値のピンポイント予測は至難の業だし、結局は範囲の投票が一番いい、とのこと。なるほど。
 予測の正確さに応じて配当を渡す。配当の計算式は、範囲が狭いとハイリスク・ハイリターンになるとか、早めに投票すると得しやすいとか、いろいろ工夫してある。
 実験。調査モニタパネル(どこのだろう?)を対象者として、ガソリン価格、プラズマテレビの最安値、ドラマ「イノセント・ラブ」の視聴率を予測させた。あんましうまくいかなかった。
 ふたつめは、選択肢に資金を投入させるシステム。実験: ツタヤ・オンラインの会員を対象に、セルCDシングルの来週のベストテンを予測させる、というのを8週繰り返した。調べているのは、全員を合計した投資配分の順位と実際の順位の一致。なんだかんだでいろいろ課題がある、というのが結論。
 二つ目の実験、面白いなあ。集計データではなく個人データを分析してみたいものだ。

多ヶ谷有・淺田 克暢 (2010) 新商品需要予測のための予測市場システム. 経営システム, 20(5), 274-278.
 著者はキャノンITソリューションの方。やばい... これ超面白い... 早く読んでおくべきだった...
 題名のとおり、新製品の需要予測のための社内ユース向け予測市場をつくったという話である。証券は需要予測の範囲、つまり「aからbまでのあいだに需要が落ちる」という証券である。当然、ダブルオークションってわけにもいかなくなるので、マーケットメーカ方式になる。マーケットメーカは、予測値の数直線の上に正規分布があると考えていて、区間[a, b]の面積に応じて価格を決める。で、株の販売状況に応じて、人気のある区間の価格が高くなるように、正規分布を更新していく。最終的にはこの正規分布が予測分布になるわけだ。
 で、実際にシステムをつくった。画面上で数値範囲をクリックすると価格が表示されたり、自己資産がどう変わるかシミュレーションが出たりする。売買の際にはコメントを書いてもらってそれを公開する(←面白い!)。
 実験。社内での実験で、内閣支持率、スキー場の降雪量、ある週の部内出勤延べ数、を取引させたら、短期売買で差益を狙ったり、沈んでいる参加者が逆転を狙って変な区間を大量買いしたりしたそうだ。さすがは理系企業...
 いやあ、これは勉強になった。
 それにしても、こうやって区間可変型の証券を使うことのメリットとデメリットはなんだろう。参加者にとっては、たとえマーケットメーカ方式であっても、固定区間ごとに証券が発行されているほうがずっとわかりやすいような気がする (現在の価格が表で一覧できるから)。証券は固定区間型にし、区切り方を事前にちゃっちゃとうまく決める方法を開発する、という路線もありそうだ(質問紙調査の出番ではないかしらん)。あるいは、最初はおおざっぱな区間にしておいて、人気の区間を途中で分割していくのはどうだろう。発行済み証券も1株を0.5株ふたつに分割しちゃうのだ。
 このシステムで使っている価格更新の仕方についてはMizuyama, et al.(2010, J. Japan Industrial Mgmt Assoc.)を、固定区間型証券についてはPlott(2000, Southern Econ. J.)を読むといいらしい。 

論文:予測市場 - 読了:「予測市場と集合知」特集号 (2010)

2014年9月 9日 (火)

 ある方に「私は未読ですがこんな論文があるようですよ」とお知らせしたのだが(畏れ多くも)、よく考えてみると、自分が読んでない資料を紹介するのはいかがなものか。私の最初の指導教官ならば、穏やかに「いやあ私にはよくわかりませんが、それは少し無責任な態度といえなくもないかもしれませんね」と仰るであろう。先生は謙虚さを煮詰めて温和さでコーティングしてスーツを着せたような方で、自著の内容について質問された際も「いやあ私にはよくわかりませんが」と前置きしたという逸話が残っているほどであり、従って発言の真意を知るのは素人には困難なのだが、もし上記のような発言があればそれは厳しいお叱りの言葉なのだ。
 すいません師匠、読みますです、と心の中で勝手に叱られ勝手に恐縮して、印刷してみたら、これ、40ページもあるやんか...

Browne, M.W. (2001) An overview of analytic rotation in exploratory factor analysis. Multivariate Behavioral Research, 36(1), 111-150.
 探索的因子分析における回転法のレビュー。いまホットな話題とは言い難いだろうが、実務で因子分析を使う人にとってはいまでも切実な話題である。そういえば先日も、市場調査会社のある優秀なリサーチャーに「バリマクス回転とエカマクス回転はどうちがうんですか」と正面から問われ、うろたえたものであった。(私の答え:「似たようなもんっすよ」)

 冒頭で著者いわく、現状で一番使われている回転法は、直交ならバリマクス、斜交ならプロマクス、ちょっと詳しい人なら直接クオーティミンであろうとのこと。
 まず記号の定義。$p \times m$の初期因子行列を$A$とする。$m \times m$ の変換行列を $T$とする。回転後の因子パターン行列$\Lambda$は
$\Lambda = A T$
 準拠構造行列を $L$ とする。で、パターン行列なり構造行列なりの複雑性(opp.単純性)を表す連続的関数を最小化したい、というのがお題である。
 回転後の因子間相関行列を$\Phi$とする。直交回転ならば、$T$は
$\Phi = T' T = I$
と制約される。制約の数は $m(m-1)/2$個。斜交回転ならば
diag($\Phi$) = diag($T^{-1} T^{-1'}$) = $I$
という制約がかかる(因子の分散を1にするため)。制約の数は$m$。このように、直交回転も斜交回転も$f(\Lambda)$の最小化であって、ちがいは制約の数に過ぎない。

 因子行列の単純性とはなんぞや。Thurstone(1947)は5つの基準を挙げている:

  1. 各行がすくなくともひとつのゼロを持つ
  2. 各列がすくなくともm個のゼロを持つ
  3. 列のすべての対が、一方はゼロでなく他方はゼロである行をいくつか持つ
  4. (m>3のとき) 列のすべての対が、両方がゼロである行をいくつか持つ
  5. 列のすべての対が、どちらもゼロでない行をいくつか持つ

ただし、このうち単純構造の定義になっているのは最初の基準だけで、あとの4つは識別条件などである。
以下、$\Lambda$(ないし$L$) のある行における非ゼロ要素の数を、その変数の「複雑性」と呼ぶ。複雑性1の変数を「完全指標」と呼ぶ。すべての変数が完全指標だったら、それは完全クラスタ配置である(変数の排他的分類に成功しているわけだ)。これが単純性の行きつく先だ、と考える人が多い。しかしThurstoneの基準はもっとゆるい。

 以下、有名無名とりまぜて、回転法の紹介。

1) Crawford-Ferguson基準。
 まずは非負の要素{$s_1$, $s_2$, ...}を持つベクトル$s$について考える。その複雑性についてCarrollは次の指標を考えた:
$c(s) = \sum_j \sum_{l \neq j} s_j s_l$
つまり、要素のすべての対の積和である。下限 0 が得られるのは、非ゼロ要素がせいぜい1個までのときである。
因子負荷の平方の行列$S$について考える。行を$s_{i.}$, 列を$s_{.j}$で表す。各行の複雑性の総和と各列の複雑性の重み付け和
$f(L) = (1-\kappa) \sum_i c(s_{i.}) + \kappa \sum_j c(s_{.j})$
をCrawford-Ferguson基準という。

このCrawford-Ferguson基準と直交制約を合わせると、いわゆるオーソマクス回転のファミリーが得られる。$\kappa=0$ならクオーティマクス、$\kappa=1/p$ならバリマクス、$\kappa=m/(2p)$ならエカマクスに等しい。ここまではCrawford-Ferguson(1970)よりも前に提案されていた。$k=(m-1)/(p+m-2)$ならパーシマクスで、$\Lambda$の全要素が等しいときに変数複雑性と因子複雑性の貢献が同じになるように配慮している。$k=1$なら因子パーシモニーで、これはあまり実用性がない。
 斜交制約のみをかける場合も同様のファミリーを考えることができる。各手法のオリジナルの定式化と区別するために、頭にCF-をつけて、たとえばCF-varimaxなどという。ちなみに、オリジナルのバリマクスの定式化を斜交化しちゃうと因子間相関が1になっちゃうという問題が生じるのだが、CF-varimaxの斜交回転ではそういうことは起きない。

2) Geomin基準。
 さきほどのCarrollの複雑性の関数は、Thurstonの発想とちょっとちがう。Thursonは基準1で、ゼロが1個でもあったらそりゃ単純だ、と考えていたのだ。そこで、非負の要素{$s_1$, $s_2$, ..., $s_m$}を持つベクトル$s$について、その複雑性を要素の総乗
$c(s) = s_1 s_2 s_3 ... s_m$
としよう。
 で、準拠構造行列の複雑性を次のように定義する。まずすべての要素を平方する。行を$s_i$とする。各行の複雑性の総和
$f(L) = \sum_i c(s_i)$
を行列の複雑性とする。Thurstonはこれを最小化するアルゴリズムを考えたんだけど、うまくいかなかった。
その後Yates(1987)がこれを次のように書き換えた。因子パターン行列を使う。まずすべての要素を平方しておく。各行について複雑性を求め$1/m$乗する(つまりは各行内の幾何平均である)。これを足しあげる。
$f(\Lambda) = \sum_i c(s_i) ^{1/m}$
 Yatesはこの式をちょいと加工して(省略)、うまく最小化できるようにした。これをGeomin基準という。

3) McCammonの最小エントロピー基準。
 まずはエントロピーの定義から。合計1となるn個の非負要素からなるベクトル x について、エントロピーは
$Ent(x) = - \sum_i e(x_i)$
ただし$x_i = 0$のとき$e(x_i) = 0$, $x_i>0$のとき$e(x_i) = x_i ln(x_i)$である。どこかひとつが1(他はすべて0) のときに下限0が得られるわけで、その点ではCarrollの複雑性と同じである。
 例によって、因子パターン行列の全要素を平方しておく。各要素を$s_{ij}$、行$i$ の総和を$S_{i.}$, 列$j$ の総和を$S_{.j}$、全総和を$S$として、
$f(\lambda) = -\sum_j \sum_i e(s_{ij}/S_{.j}) / -\sum_j e(S_{.j}/S)$
落ち着いて眺めると、要するに、列エントロピーの総和を、列和のエントロピーで割った値である。つまり、各因子が少数の高い負荷を持ち、他の負荷はすべて0、というときに小さくなる。これがMcCammon(1966)の最小エントロピー基準である。ちなみに直交回転でしか役に立たない。

4) McKeon(1968)のインフォマクス基準。
 因子負荷行列の各要素を平方した行列を、あたかも2元クロス表のように捉え、連関の尤度比検定量を最大化する。うわあ、なんだそりゃ。数式は省略。

5) 部分的に特定したターゲットへと回転する方法。
 CFAみたいに聞こえるが、ちょっと違うのである。たぶん一生使わないと思うので省略。

 話かわって、初期行列の標準化。回転の前に初期因子行列$A$をなんらか標準化することが多い。2つの手法がある。

いずれもサンプルサイズが小さいときはやめといたほうが良い由。(これはSASのproc factorでいうところのNORM=オプションの話だと思う。SASの場合、NONE, KAISER, WEIGHT(CM標準化のこと), COVの4種類があって、デフォルトはKAISERである。)

 数値計算の話。著者らはCEFAというプログラムを配っていて、この論文に載っている手法をカバーしている由。局所最適解に落ちないようにこんな工夫をしてます、云々。パス。

 やれやれ。。。ここまでがレビューであった。
 後半は数値例。疲れたので斜め読み。要点をメモしておくと、

 というわけで、この論文は探索的因子分析についてある程度知っている人向けのレビューであった。いきなりCrawford-Ferguson基準の観点から整理しちゃっていて、従来よく使われているプロマクス回転については説明がない。そのかわり最近のGeomin基準については丁寧な説明がある。
 明日の実務に役立つアドバイスはないが、勉強にはなりました。ううむ、やっぱし銀の弾丸はないのか。

論文:データ解析(-2014) - 読了: Browne (2001) 探索的因子分析の回転法を総ざらえ

小川祐樹、山本仁志、宮田加久子 (2014) Twitterにおける意見の多数派認知とパーソナルネットワークの同質性が発言に与える影響: 原子力発電を争点としてTwitter上での沈黙の螺旋理論の検証. 人工知能学会論文誌、29(5), 483-492.
 先日読んだピューリサーチセンターの自主調査が面白かったので、たまたま目に留まったこの論文も読んでみた。第三著者は昨年亡くなった高名な社会心理学者である。

 ええと... 2012年2月末に楽天リサーチのモニターからツイッター利用者を集めて調査。1276人を分析。
 まず調査票で、原発への賛否、自分の意見がtwitterで多数派だと思うか少数派だと思うか、原発問題の主観的重要性、原発についての知識の程度、政治への関心、を聴取。
 で、調査参加者にtwitterのアカウントを訊いておいて、その人ならびにその人がフォローしている人の3月中のツイートを収集し紐づける。うわあ、ネット調査のモニターさんが、twitterのアカウントまで教えてくれるかなあ...? ふつうの市場調査ならかなり厳しそうだ。調査主体の名前が大学であるところが勝因かもしれない。
 ある対象者の原発関連のツイートを抜き出し、オリジナル、メンション、公式RT, 非公式RTに分ける。また、ネットワーク構造の指標として、フォロー数、フォロワー数、クラスタ係数を使用する。さらに、ここからが面白いんだけど、(1)2月の調査票と突き合せると原発への賛否がわかるわけで、全対象者のデータを使い、ツイートから賛否を推定する分類器をランダム・フォレストで組んでしまう。(2)このモデルを使い、ある人がフォローしている人々のそれぞれについて、原発への賛否を推定しちゃう。(3)5人以上フォローしている対象者614人について、その人がフォローしている人がその人と同意見である割合を求める。これを推定同質性と呼ぶ。

 結果。フォロー数・フォロワー数が多いと推定同質性が低い(なるほど)。クラスタ係数が高いと推定同質性も高い(友達と友達が友達な人は友達たちと意見が似ているわけだ)。多数派認知と推定同質性は無相関(なるほど、タイムラインで世の中を判断しちゃうほど能天気ではないってわけか)。
 原発関連ツイート数を従属変数にした回帰モデルを組み、デモグラや知識や主観的重要性や政治関心を投入した上で、多数派認知と推定同質性の効果を調べる。(ちょ、ちょっと待って、原発問題に限らない全ツイート量は調整しなくていいの? このモデルだと、原発関連ツイート数との関連を見ているのか、日頃のツイート頻度との関連を見ているのか、わからないんじゃないかしらん? うーむ...)
 ともあれパラメータをみると、

 考察にいわく:

 というわけで、いろいろ疑問はあるものの、態度調査一発ではなく実行動を押さえているという意味で、先日のピューのリリースより面白い研究であった。勉強になりました。
 思うに、分析対象者のなかでもtwitter上での匿名性の程度にはばらつきがあるはずで、そこんところを測定できていたらさらに面白かっただろう。匿名のまま空気読まずに吠えるのは簡単なわけで、フォロワーとの間でオフラインでの社会的関係がある人ほど「沈黙の螺旋」が効く、というような関係がありそうなものだ。

 先行研究概観のところからメモ: 沈黙の螺旋理論の研究では、従属変数を個人の意見表明意図、独立変数を個人の意見と意見分布の認知とすることが多い由(先日のピューリサーチセンターのリリースもこのパラダイムであった)。すでに研究はいっぱいあり、メタ分析もあり(Glynn, Hayes, Shanahan, 1997 POQ)、沈黙の螺旋が生じている程度を測定する指標なるものさえ提案されているそうな(Sheufele, Shanahan, Llee, 2001 Communicatin Res.)。ひゃー。

論文:心理 - 読了:小川・山本・宮田 (2014) 原発関連tweetに「沈黙の螺旋」は生じたか

2014年9月 1日 (月)

Bookcover シェイクスピア全集 (〔21〕) (白水Uブックス (21)) [a]
ウィリアム・シェイクスピア / 白水社 / 1983-01
えーっと... 人名が入り乱れてわかりにくかったんだけど、舞台で観たらさぞや楽しいだろう。

Bookcover 不忠臣蔵 (集英社文庫) [a]
井上 ひさし / 集英社 / 2012-12-14

Bookcover 夜想曲集: 音楽と夕暮れをめぐる五つの物語 (ハヤカワepi文庫) [a]
カズオ イシグロ / 早川書房 / 2011-02-04
これは実に面白かった。どんなドタバタ・コメディを書いても、やっぱりカズオ・イシグロだ、というところがまた面白い。

永井愛「カズオ」. 現代を代表する劇作家の、1984年の出世作。日本劇作家協会の電子本で読んだ。さすがに後年の作品の深みはないんだけど、いやー、面白い。

フィクション - 読了:「お気に召すまま」「カズオ」「夜想曲集」「不忠臣蔵」

Bookcover 関東大震災と中国人――王希天事件を追跡する (岩波現代文庫) [a]
田原 洋 / 岩波書店 / 2014-08-20
関東大震災の際の朝鮮人虐殺、大杉栄らの虐殺や亀戸事件は有名だけれど、中国人学生リーダーの暗殺事件というのもあって(王希天事件)、遠藤三郎中将の告白に基づきこの事件を追跡するノンフィクション。
 著者は王の旧制高校の同期生に片っ端から連絡を取るんだけど、思い出話を好意的に提供してくれる人はごく少ない。その一人が、内務省のエリート官僚として生涯を送った磯部巌という人。なんだか気になって検索してみたら、この人、石原慎太郎に抗議して都立大を去った磯部力先生のお父さんなんですね。へえー。

日本近現代史 - 読了:「関東大震災と中国人」

Bookcover 革命と騒乱のエジプト:ソーシャルメディアとピーク・オイルの政治学 [a]
山本 達也 / 慶應義塾大学出版会 / 2014-07-19
エジプトの政変を題材に、ITと原油の生産減衰が社会にもたらす影響について述べた本。
 本筋とは関係ないけど、日本の政治の計量分析で、選挙公約と当選後の国会活動に一致がない、かつ公約と活動の不一致がその次の選挙結果に影響しない、ということを示した研究があるのだそうだ。そ、そうなんだ?! 小林良彰さんという人の研究で、ミネルヴァ書房「現代民主主義の再検討」収録とのこと。

Bookcover カクレキリシタンの実像: 日本人のキリスト教理解と受容 [a]
宮崎 賢太郎 / 吉川弘文館 / 2014-01-21
いわゆる「隠れキリシタン」の教えはキリスト教からはるかに隔たってしまっていた、とのこと。それはそうなんだろうけど、たとえば現代日本の(ないし、どこの国でもいいけど)キリスト教徒に質問紙調査をかけて、その結果に基づき信仰の教義的な正しさを評定したら、それなりの隔たりはあるのではないかしらん... と考えながら、興味深く読了。

Bookcover 本の魔法 [a]
司 修 / 白水社 / 2011-06-03

Bookcover 対独協力の歴史 (文庫クセジュ) [a]
ジャン ドフラーヌ / 白水社 / 1990-06
フランスのナチスドイツに対する協力の実態。ヴィシー政権のような苦虫をかみつぶした追従の話かと思ったら、とんでもない、消極的協力から熱狂的暴走まで、大きな幅があるのであった。「フランス人のゲシュタポ」なんて、知らなかった...

ノンフィクション(2011-) - 読了:「本の魔法」「革命と騒乱のエジプト」「カクレキリシタンの実像」「対独協力の歴史」

現実逃避の一環として、最近読んだ本の記録を...

Bookcover シュガーウォール 1 (リュウコミックス) [a]
ninikumi / 徳間書店 / 2014-01-11
高校生が主人公の恋愛ホラー。新人作家らしく絵柄が不安定で、読んでいて落ち着かないんだけど、なんだか目が離せない。

Bookcover 春風のスネグラチカ (F COMICS) [a]
沙村広明 / 太田出版 / 2014-07-10

Bookcover 銀の匙 Silver Spoon 12 (少年サンデーコミックス) [a]
荒川 弘 / 小学館 / 2014-08-18

Bookcover 働かないふたり 2 (BUNCH COMICS) [a]
吉田 覚 / 新潮社 / 2014-08-09

Bookcover きのう何食べた?(9) (モーニング KC) [a]
よしなが ふみ / 講談社 / 2014-08-22

Bookcover 山賊ダイアリー(5) (イブニングKC) [a]
岡本 健太郎 / 講談社 / 2014-08-22

Bookcover ワカコ酒 3 (ゼノンコミックス) [a]
新久千映 / 徳間書店 / 2014-08-20

Bookcover リメイク(2) (エデンコミックス) (マッグガーデンコミックス EDENシリーズ) [a]
六多いくみ / マッグガーデン / 2013-12-14
Bookcover リメイク 3 (マッグガーデンコミックス EDENシリーズ) [a]
六多 いくみ / マッグガーデン / 2014-06-13

コミックス(2011-) - 読了:「春風のスネグラチカ」「銀の匙」「働かない二人」「シュガーウォール」「きのう何食べた?」「山賊ダイアリー」「ワカコ酒」「リメイク」

« 2014年8月 | メイン | 2014年10月 »

rebuilt: 2020年11月16日 22:42
validate this page