elsur.jpn.org >

« 読了:金(2015) 現代中国におけるクリス・リーのファンの生活と意見 | メイン | 読了:黒崎ほか(2015) 市場の流動性とはなにか、それをどうやって測るか »

2015年11月16日 (月)

 国会前に安保法制反対デモの人々が詰めかけていたとき、参加者は主催者発表で×万人だ、いやそんなに多いわけがない捏造するな... 云々と、なにかと喧しい様子であった。それはまあ置いとくとして、なにかのメディアに、こうした場合の人数の数え方に関する専門家なる方のコメントが載っていて、いわく、香港の研究者でデモの人数を統計的に推測するモデルを作った人もいます、とのこと。ああ、そりゃきっといるよね、と膝を打った。北海道の熊や太平洋のマグロの個体数についてもなんらか推測している人がいるんだから、人間の頭数くらい推測できそうなもんじゃないですか。

 というわけで、数か月前に純粋な好奇心で目を通した論文なのだけど、せっかくなので記録しておく。

Yip, P.S.F., et al. (2010) Estimation of the number of people in a demonstration. Australian & New Zealand Journal of Statistics. 52(1), 17-26.
 著者いわく、群衆のサイズ推定という問題は古くからあり、すでにたくさんのアプローチがあるんだけど、デモのように移動している場合は難しい。本論文は、"double count and spot-check"法を提案します。

 デモを一方向の行進とみなし、そのルートを$[0,1]$とする。デモは地点1の近くにある焦点ポイント$f$に向かって進むものとする。たいてい$f$のそばには広場があって、群衆がそこで広がることができる。
 ある個人は、ルート上の任意の点$u$でデモに参加し、任意の点$v$で離脱するものとする。$0 \leq u \lt 1$, $0 \lt v \leq 1$, ある人について$u \lt v$である。$u \leq u_0$, $v_0 \leq u$を満たす人をデモ参加者とする。
 推定の対象は、指定された時間内にデモに参加した人数$N$である。距離を置いて同行した人は含めない。

 まず従来の方法として、香港大学世論プログラム(HKUPOP)が用いている"count and follow-up"法について説明しよう。
 $f$の手前に調査ポイント$P$を置く。ここを通過した人数を$N_p$とする。観察者がずっとカウントしていたとしよう。このときのカウントを$Y_P$とする。実際にはなんらかの時間間隔をサンプリングして$Y_P$を推定する。この推定値を$\hat{Y}_P$とする。
 ところで、そもそも$N_P$は$N$でない。$P$より手前で離脱した人が入ってないからだ。そこで、あとでランダム電話調査でデモ参加者を探す。みつかった人数を$l$とする。この人たちに$P$を通過したかどうか尋ねる。
 参加者に占める地点$P$通過率$p$の推定値$\hat{p}$が手に入ったとしよう。そのSEは$\sqrt{\hat{p}(1-\hat{p})/l}$である。さて、参加者の推定値は$\hat{N}_1 = \hat{Y}_P / \hat{p}$だ。そのSEは下式となる:
 $se (\hat{N}_1 ) = \sqrt{\frac{var(\hat{Y}_p)}{\hat{p}^2} + \frac{\hat{Y}_P^2 (1-\hat{p})}{l\hat{p}^3}} $
[恥ずかしながら、この式の導出はよくわからないんだけど、ま、信じることにしましょう]

 このやり方にはいろいろと問題点がある。どんなに巨大なデモであろうが、人口に占めるデモ参加者の割合は小さいので、電話調査で捕まえるのはすごく大変だ。無回答のバイアスもあるし、地点$P$通過の有無を正直に答えてくれてるかどうかもわからない。

 さて、提案手法。電話調査はやらない。その代わり、$f$のすぐ手前だけじゃなくて、もっと手前のほうにももうひとつ調査ポイントを置く。手前から順に$A$, $B$としよう。
 $A$と$B$のあいだで参加し、かつあいだで離脱した人は除外して考えよう[←つまり、$A$,$B$がデモ参加者を定義する2地点になるわけね]。$B$通過者における$A$通過率を$\phi$として、
 $\hat{N} = \hat{Y}_A + (1-\hat{\phi}) \hat{Y}_B$
といえる。$\hat{\phi}$は、$B$通過者$m$人をその場で抽出して「あなた$A$を通りましたか」と訊けばかんたんにわかる。そのSEは$\sqrt{\hat{\phi}(1-\hat{\phi})/m}$であり、
 $se (\hat{N}) = \sqrt{\hat{var}(\hat{Y}_A) + (1-\hat{\phi})^2 \hat{var}(\hat{Y}_B) + \hat{Y}^2_B \frac{\hat{\phi}(1-\hat{\phi})}{m}}$
[恥ずかしながら、この式もよう導出せんわ...]
 $se (\hat{N}_1)$と$se (\hat{N})$を比べてみると [....中略...] 前者のほうが大きい。
 そんじゃあ観察地点を3つ以上にすればもっといいんじゃないか、という意見もあるだろうが、それは金もかかるし大変だ。それよか、よい2地点を選んで正確にカウントするほうがよいでしょう。

 後半は、2006年7月1日(香港の返還記念日)のデモへの適用例。ルートは約3.6km。
 地点$A$, $B$におけるカウントは、5分に一回、1分間、複数の観察者が通過人数を数える、というやり方。突き合せてみると結構当たっていた。平均するとおよそ220人/分。 なお、提案手法で一番大事なのは地点$A$で正確に数えることである[なるほど]。地点$B$におけるインタビューの結果は$\hat{p} = 0.91$であった。
 [以下、$\hat{Y}_A, \hat{Y}_B$とそのSEの算出方法が丁寧に書いてあるけど、省略]

 まあそんなこんなで、デモ参加者の人数の推定値は26300名、95%信頼区間は(25300, 27400)となった。
 他の推定値と比べてみよう。日刊紙「明報」はデモの最後の人が出発地点を離れた時点での衛星写真から、参加者を22141名と推定している(これは途中参加者抜き)。HKUPOPは地点$B$の近くでのカウントに基づく"count and follow-up"法で、36000人から43000人と推定している。主催者発表は58000人、警察発表は28000人。完璧な正解はないけれど、このデモに関する限り、主催者発表よりは警察発表があたってんじゃないですかね。云々。

 なるほどね、おもしろいな。でも(←ごろ合わせではない)、一方向に進むデモ行進じゃなくて、国会かなにかを取り囲む人々が三々五々入れ替わる、というような群衆の数え方も知りたいところだ。

論文:データ解析(2015-) - 読了: Yip et al.(2010) デモ行進の人数をどうやって推定するか

rebuilt: 2020年11月16日 22:56
validate this page