読了:田中(2023) 毎月勤労統計の不正な集計に政府・専門家・非専門家はどう反応したか

田中重人(2023) 統計コミュニティは統計不正にどう対応したか:毎月勤労統計調査問題における政府・専門家・非専門家のはたらき. OSF Preprint 2023-11-05.

 別にいま読む必要はないんだけど、なんとなく読みふけってしまった…
 基幹統計のひとつである毎月勤労統計において生じた不正集計問題を振り返る。一般メディアでは事業所の不正抽出問題が大きくクローズアップされたけれど、集計の仕方がおかしいという指摘もあったのです。私は途中まで固唾を飲んで情報を集めていたのだけれど、「一国が衰退するときはあらゆる側面がおかしくなるのだ…」となんだか妙な悟りを開いてしまい、以降は関心が薄れてしまっていた。

 いわく。
 2018年夏、西日本新聞に次のような記事が掲載された。毎月勤労統計調査(全国調査)では、2018年1月に調査対象となる事業所の半数弱を入れ替えた。その結果、2018年の「現金給与総額」の前年比増加率は21年ぶりに高い伸び率となった(これは安倍政権の狙い通りである)。しかし入れ替えとならなかった事業所だけで計算すると、伸び率はごく小さい。
 さらに2018年末には、東京都での不正抽出が発覚。毎月勤労統計調査への疑問が噴き出すことになった。

 ここでは層間移動事業所の労働者数推計方法について検討する。
 毎月勤労統計調査では調査対象となる事業所を産業分類と規模で細かく層別している。層別に労働者数の母合計を推定し、これを平均給与の算出に用いる。労働者数の推定は、(1)既存事業者の労働者数増減を毎月勤労統計の調査データから推定し、(2)事業所の増減を雇用保険データから推定し、(3)規模区分の境界を超える労働者の増減があった事業者の労働者数増減を毎月勤労統計の調査データから推定し、最後に(4)経済センサスなどの全数調査データで推定値を調整する(これは数年に一度程度)。ここで注目するのは(3)である。
 厚労省のWGの資料によると、もともと規模区分の境界には幅を持たせてあった。調査開始時点で労働者数499人の事業所があったとする(これは労働者数100-499人の層に属する)。この事業所が労働者を増やし、労働者数が501人になったとしても、この事業所は上の層に移動させない。移動は労働者数が550人を上回ったときにする、というルールであった。始終動くと煩雑だからね。
 ところが、いつからかははっきりしないんだけど[おいおい]、おそらく2008年ごろから、原則として層の移動はやらないということになった。つまり、550人を上回っても100-499人の層の事業所として集計し続けるわけ。ところが、この事業所は本来上の層に動いているわけで、それによる労働者数の流出についてはなぜかカウントしていた。たとえば調査開始時点(ふつう1月)が閑散期で労働者数が少なく、繁忙期に労働者数を増やす事業所があったとすると、上のほうの層の母合計が大きく推定される。
 さらにですね。移動人数をカウントする際、なぜか人数を5割に切り下げていた。理由はよくわからない。
 さらにさらに。母合計を推定するためにはウェイトをつけないといけないですね。層によって抽出率が異なるからだ(たいてい大きな事業所のほうが抽出率が高い)。その際のウェイトは、その事業所の抽出率の逆数とするのがスジである。ところが2018年から、集計時に所属する層の抽出率の逆数をウェイトにするようになった。その結果、下の層から上の層への移動を過大評価することになってしまった。
 さらにさらにさらに。2018年末の不正抽出発覚後、厚労省は2012-2017年のデータを再集計するんだけど、その際にこの推計方法を使ってしまった。つまり、集計値はかえって不正確になってしまったわけである。

 実は、毎月勤労統計には前からおかしな点があった。標本誤差率の表が経年変化しなかったり、標本誤差率が急増したり。上記の点も、母集団労働者数の推移の再集計前後の変化をよくよく見ていれば、再集計はどこかがヘンだと気付くことができた。
 では、誰がそれにいつ気付いてどうふるまったか、というのが本論の主題である。

 まず、定年退職した元研究者の山田さんという方(公的統計の専門家ではない)が気づいてブログに書いた(なんと2019年2月)。同年には、データ分析を趣味とするあるトレーダーの方も気づいてブログに書いたし、弁護士の明石順平さんも気づいて著書に書いた。気づいたポイントはそれぞれ違っていたが、真剣に受け止めていれば推計方法の誤りにもっと早く気付くことができたはずだ。
 もちろん、みんながみんな勘が良いわけでもなく、たとえば2018年夏の西日本新聞の記事を見当違いな方向から論難してしまった有名なマーケターの方もいらっしゃったけど。[この論文ではこの方を統計専門家のなかに含めているけれど、それはちょっと残酷だと思いますよ?]
 専門家の反応はどうか。2019年の6月の日本統計学会「公的統計に関する臨時委員会報告書」はそもそも毎月勤労統計の推定方法をよく理解していないし、当然ながら再集計の問題にも触れていない。再集計前後の比較を行った論文は何本か出ているが、推定方法を疑っていないので問題点にも気づいていない。
 そもそも厚労省の統計品質管理を信頼するのがおかしいのだが[はっはっは]、その点について警告したのは竹内啓先生だけであった。
 ここから著者の2021年からの分析と原因究明活動が始まる。[このあたりから私は著者のブログをリアルタイムで読んでいたので、メモは省略する]
 [不正抽出発覚後の厚労省の特別監察委員会、総務省の統計委員会、厚労省の有識者懇談会、厚労省のWGの話。メモ省略]

 まとめると、毎月勤労統計の母集団労働者数推計の問題を、専門家は十分に検証できなかった。厚労省から独立した探索・検討がなされなかったし、やった場合にもその結果が共有されなかった。厚労省は情報を十分に出さなかったし、統計委員会は頑張って資料を出させたけどそれらの資料を批判的に検討しなかった。不正を働いた部局からの説明を信用し、裏を取らなかったのである。個人ウェブサイトや一般向け書籍における指摘は専門家に届かなかった。

今後、データと文書を分析して検証する機能が、統計担当部局から独立した制度として統計コミュニティに組み込まれることがありうるだろうか? あるとすれば、それにはふたつの方向を想定しうる。コミュニティ周辺部で批判的活動を行う層が厚みを増して影響力を獲得するか、コミュニティの中心を占める政府と専門家が常識的な判断力を手に入れるかである。