読めばいやでもわかる、逆二項抽出標本からの母比率の不偏推定

要約
 「ある属性を持つ人が\(x\)人に達するまで標本抽出を続ける」方式の標本抽出で標本サイズが\(n\)になったとき、その属性を持つ人の母比率\(p\)の不偏推定量は、\(x/n\)ではなく\((x-1)/(n-1)\)である。

問題
 ある集団における、ある属性を持つ人の割合を知りたい、という場面について考える。たとえば、日本人のうちセグウェイに乗ったことがある人はどのくらいいるのかな(私はないです)、というような場面である。
 いささか非現実的ではあるけれど、なにか巨大な名簿のようなものがあり(これを抽出台帳という)、もしその名簿に載っている人すべてを調べることができるならその回答の特徴は日本人全体を調べたときの特徴と同じなのだと考えることができて、その名簿から無作為に人を選ぶことができて、選んだ人にセグウェイに乗ったことがありますかと質問することができて、正しい答えを知ることができる、ということにしよう。日本人とはなにか、その名簿とは一体なにか、無作為に選ぶとはどういうことか、どうやって質問するのか、答えは信用できるか、といった問題は、どれも大事なことではあるけれど、ここでの本題ではない。

 次の2つの例を考えよう。

  • 例1. 名簿から10000人の人々を無作為に選んで質問した。その結果、セグウェイに乗ったことがある人は5人だった。日本人のうちセグウェイに乗ったことがある人の割合はどのくらいだろうか。
  • 例2. 名簿からひとりを無作為に選んで、セグウェイに乗ったことがあるかどうか質問し、これを延々と繰り返し、セグウェイに乗ったことがある人が5人に達したらストップ、という調査を行った。その結果、訊いた人は10000人になった。日本人のうちセグウェイに乗ったことがある人の割合はどのくらいだろうか。

 例1の場合、(セグウェイに乗ったことがあると答えた人数)/(訊いた人数)は0.0005だから、おそらく 0.05% ですね、というのが常識的な推測であろう。
 例2の場合でも同様に、(セグウェイに乗ったことがあると答えた人数)/(訊いた人数)は0.0005だから、おそらく 0.05% ですね、というのが常識的な推測であろう。そんなことないですか?

 例1の推測は正しい。しかし例2の推測は必ずしも正しくない。なぜか。

準備
 説明の都合上、いくつかの用語と記号を導入しておく。

 上の例での関心の対象は、「日本人のうちセグウェイに乗ったことがある人の割合」であった。これを\(p\)とする。
 用意した名簿は、もしその名簿に載っている人すべてを調べることができるならその回答の特徴が日本人全体を調べたときの特徴と同じであるような名簿である。従って、名簿に載っている人のうちセグウェイに乗ったことがある人の割合は\(p\)である。また、名簿から無作為に選んだひとりの人がセグウェイに乗ったことがある確率も\(p\)である。
 この名簿から人々を無作為に選んだ(例1と例2はその人数の決め方が異なる)。選んだ人数を\(n\)とする。
 選んだ人々に、セグウェイに乗ったことがありますかと訊いた。ある人がイエスと答えたら「成功」と呼び、ノーと答えたらを「失敗」と呼ぶことにしよう。イエスと答えた人数、つまり成功数を\(x\)とする。

 ありうるすべての実現値に確率が割り振られている変数のことを確率変数という。
 例1の場合でいえば、「\(n\)人に訊いたときの成功数」を確率変数だと考えることができる。ある調査で実際に観察された成功数\(x\)と区別するためにこれを\(X\)と書く。
 例2の場合で言えば、「\(x\)人の成功数を得るまでに訊いた人数」を確率変数だと考えることができる。ある調査で実際に訊いた人数\(n\)と区別するためにこれを\(N\)と書く。

 確率変数の個々の実現値に割り振られている確率たちのことをひっくるめて確率分布と呼ぶ。
 例1の場合、\(p\)と\(n\)は決まっており、成功数が取りうる値\(x=0, \ldots, n\)にはそれぞれ確率が割り振られていると考えることができる。\(x\)に割り振られている確率を\(Pr(X=x|p,n)\)と書こう。
 例2の場合、\(p\)と\(x\)は決まっており、実際に訊いた人数がとりうる値\(n=x, \ldots, \infty\)にはそれぞれ確率が割り振られていると考えることができる。\(n\)に割り振られている確率を\(Pr(N=n|p,x)\)と書こう。

 ある確率変数\(Z\)の実現値の平均を期待値と呼び、\(E(Z)\)と書く。
 例1で言うと、仮に\(p\)と\(n\)を変えずに調査を繰り返し、成功数\(X\)の実現値をたくさん手に入れることができたとして、それらの長ーい目でみた平均が、\(X\)の期待値\(E(X)\)である。
 例2で言うと、仮に\(p\)と\(x\)を変えずに調査を繰り返し、訊いた人数\(N\)の実現値をたくさん手に入れることができたとして、それらの長ーい目でみた平均が、\(N\)の期待値\(E(N)\)である。

 確率変数\(Z\)の期待値を求めるにはどうすればよいか。\(Z\)が離散的な場合は(たとえば実現値が整数だけだという場合)、ありうるすべての実現値にその確率を掛けて足し上げれば良い。
 例1の場合、\(n\)人に訊いたときの成功数\(X\)は、実現値として\(x=0, \ldots, n\)を持っている。それぞれの確率は\(Pr(X=x|p,n)\)である。従って \( E(X) = \sum_{x=0}^n x Pr(X=x|p,n)\)である。
 例2の場合、\(x\)人の成功数を得るまでに訊いた人数\(N\)は、実現値として\(n=x, \ldots, \infty\)を持っている。それぞれの確率は\(Pr(N=n|p,x)\)である。従って \( E(N) = \sum_{n=x}^\infty n Pr(N=n|p,x)\)である。

さらに準備:組み合わせの数について
 準備ばかり続いて辛いけど、組み合わせの数について記号を導入する。さあ、ティーンの心を取り戻せ。

 十円玉を\(3\)回投げて結果を記録する。ありうる結果の組み合わせは、{表表表、表表裏、表裏表、…、裏裏裏}の8個。このうち表が0回なのは1個, 1回なのは3個, 2回なのは3個, 3回なのは1個である。
 \(3\)回投げて表が\(2\)回になる組み合わせの数は、次のようにして求めることができる。(1)平等院(十円玉の表に描いてある建物)が2回顔を出してくださる。これがコイン投げであることを一旦忘れて、我らの無垢な瞳に2回映し出される平等院さんに名前をつける。平等院Aさんと平等院Bさんと呼ぶことにしよう。平等院Aさんが出てくることができるタイミングは1回目, 2回目, 3回目の3つ。平等院Bさんが出てくることができるタイミングは、平等院Aさんが出てくるタイミングを除いた2つ。つまり平等院さんたちの出現パターンは3×2=6個ある。(2)ところがこの6個のなかには、平等院Aさんが先に出てくるのと、平等院Bさんが先に出てくるのがある。その違いには意味が無いので(だって結局は同じ十円玉の模様じゃないですか)、6パターンを2で割って、答えは3パターン。
 一般化しよう。十円玉を\(n\)回投げて表が\(x\)回になる組み合わせの数を\(C(n,x)\)とする。「\(x\)人の平等院さんがそれぞれどこで出てくるか」のパターン数は\( n(n-1)(n-2)\cdots(n-x+1) \)である。平等院さんたちの出現順は\( x(x-1)\cdots 1\)通りである。従って$$ C(n,x) = \frac{n(n-1)(n-2)\cdots(n-x+1)}{x(x-1)\cdots 1}$$ 階乗記号\(!\)を使って書き直そう。えーと、\(x! = x(x-1)(x-2) \cdots 1 \)ですね。分子をよくみると、$$C(n,x) = \frac{ \frac{n!}{(n-x)!} }{x!} = \frac{ n!}{(n-x)!x!} $$ と書き換えられる。

 ところで、$$ (a+b)^2 = (a+b)(a+b) = aa+ab+ba+bb $$ ですよね。これは、\( (a+b)(a+b) \)のひとつめの\( (a+b) \)から\(a\)か\(b\)のどちらかを選び、ふたつめの\( (a+b) \)から\(a\)か\(b\)のどちらかを選んで掛ける、というのをすべての選び方(4通り)について繰り返し、得られた値(\(aa\)と\(ab\)と\(ba\)と\(bb\) )を合計している、という風に理解できる。
 同様に、\(k\)を整数として$$ (a+b)^k = (a+b)(a+b) \cdots (a+b) $$ を求めるときも、ひとつめの\( (a+b) \)から\(a\)か\(b\)のどちらかを選び、ふたつめの\( (a+b) \)から\(a\)か\(b\)のどちらかを選び… \(k\)個目の\( (a+b) \)から\(a\)か\(b\)のどちらかを選び、全部掛ける、というのを、すべての選び方( \(2^k\)通り) )について繰り返し、得られた値を合計すれば良い。
 さて、この\(2^k\)通りの内訳をみると、\(a\)を0回選んでいるのが \( C(n,0) = 1 \)通りあり(得られた値は\(b^n\)), \(a\)を1回選んでいるのが \( C(n,1) = n \)通りあり(得られた値は\(ab^{n-1}\)), \(a\)を2回選んでいるのが \( C(n,2)\)通りあり(得られた値は\(a^2 b^{n-2}\)), …, \(a\)を\(n\)回選んでいるのが \( C(n,n) = 1\)通りある(得られた値は\(a^n\))。それを合計するんだから $$ (a+b)^k = \sum_{x=0}^{k} C(k,x) a^x b^{k-x} $$ となる。これを二項定理という。

抽出標本からの母比率の不偏推定
 本題に戻ろう。
 例1.では、名簿からある決まった人数を無作為に選び、セグウェイに乗ったことがあるかどうかを訊いた。日本人のうちセグウェイに乗ったことがある人の割合\(p\)を推測するために、セグウェイに乗ったことがあると答えた人数\(x\)を、訊いた人数\(n\)で割った値\(x/n\)を使った。
 この推測の仕方は正しい。なぜか?

 まず、名簿から無作為に\(n\)人を選んだとき成功者数が\(x\)となる確率\(Pr(X=x|n,p)\)について考えよう。
 名簿から無作為にふたりを選んだとしよう。答えがイエス・イエスとなる確率(=成功数が2となる確率)は\( p\times p\)、ノー・ノーとなる確率(=成功数が0となる確率)は\((1-p)\times(1-p)\)である。答えが順にイエス・ノーとなる確率は\(p \times (1-p)\)、ノー・イエスとなる確率も同じく\(p \times (1-p)\)だから、成功数が1となる確率は\(2 \times p \times (1-p)\)である。
 今度は3人を選んだとしよう。答えがすべてイエス、つまり成功数が3となる確率は\(p^3\)。成功数が0となる確率は\((1-p)^3\)である。成功数が1となる組み合わせは、イエス・ノー・ノー、ノー・イエス・ノー、ノー・ノー・イエスの3通りあって、それぞれの確率が\(p \times (1-p)^2\)なので、成功数が1となる確率は\(3 \times p \times (1-p)^2\)。同様に、成功数が2となる確率は\(3 \times p^2 \times (1-p)\)。
 一般化しよう。\(n\)人を選んで成功数が\(x\)になる確率をどう求めるか。それは次の2つをかけたものである。

  • \(n\)人のうち成功数が\(x\)回になる組み合わせの数。これは、十円玉を\(n\)回投げて表が\(n\)回になる組み合わせの数だといってもよい。つまり\(C(n,x)\)。
  • 個々の組み合わせが出現する確率。それぞれの組み合わせは成功を\(x\)回、失敗を\(n-x\)回含んでいるから、\(p^x (1-p)^{n-x}\)である。

従って、\(n\)人を選んで成功数が\(x\)になる確率は$$Pr(X=x|n,p) = C(n,x) p^x (1-p)^{n-x}$$である。
 この式で表現される確率分布を二項分布と呼ぶ。

 では、成功数\(X\)の期待値\(E(X)\)はどうなるだろうか。$$ E(X) = \sum_{x=0}^n x Pr(X=x|p,n) = \sum_{x=0}^n x C(n,x) p^x (1-p)^{n-x}$$ 下心としては、この式の総和記号から右側を、なんとかして二項定理の\(\sum_{x=0}^{k} C(k,x) a^x b^{k-x}\)という形に変形したい(この式の総和記号のすぐ右にある\(x\)が目障りなので消したい)。がんばるぞ。
 まず、\(x=0\)のとき総和記号の内側は0になるので、総和記号は\(x=1\)から始めてよい。階乗記号で書き直すと $$ E(X) = \sum_{x=1}^n x \frac{n!}{x!(n-x)!} p^x (1-p)^{n-x} = \sum_{x=1}^n \frac{n!}{(x-1)!(n-x)!} p^x (1-p)^{n-x}$$ よし、目障りな\(x\)は消えたが、組み合わせの数の形に戻せなくなってしまった。記号に総和記号の右側には、すくなくともひとつの\(n\)とひとつの\(p\)ははいっているので、これを外に出す。$$ E(X) = np\sum_{x=1}^n \frac{(n-1)!}{(x-1)!(n-x)!} p^{x-1} (1-p)^{n-x}$$ \(j=x-1\)と置くと$$ E(X) = np\sum_{j=0}^{n-1} \frac{(n-1)!}{j!((n-1)-j)!} p^j (1-p)^{(n-1)-j}$$ 組み合わせの数の記号に戻して$$E(X) = np \sum_{j=0}^{n-1} C(n-1, j) p^j (1-p)^{(n-1)-j}$$ 無事、二項定理 \( (a+b)^k = \sum_{x=0}^{k} C(k,x) a^x b^{k-x} \)を使えるようになりました。$$E(X) = np (p+(1-p))^{n-1} = np$$ つまり、成功数の期待値とは、訊いた人数に成功率をかけたものだ。そりゃそうでしょうね。

 では、\(p\)の推測に使う \(x/n\)の期待値\( E(X/n)\)はどうなるか。期待値というのは長ーい目で見た平均のことだ。なにかの平均を求めてそれを\(c\)倍しても、元の値を全部\(c\)倍してから平均しても答えは同じである。だから、\(X\)を\(n\)で割ってから期待値を求めようが、\(X\)の期待値を求めてから\(n\)で割ろうが同じ事である。従って\(E(X/n) = E(X)/n\)である。\(E(X) = np\)を代入して \(E(X/n) = np / n = p\)である。

 このように、セグウェイに乗ったことがあると答えた人数を訊いた人数で割った値\(x/n\)は、長ーい目で見て平均すれば、日本人のうちセグウェイに乗ったことがある人の割合\(p\)となる。個々の調査で得られる\(x/n\)は真の値\(p\)より大きかったり小さかったりするけれど、長い目でみれば大きすぎる値でも小さすぎる値でもない、つまり偏りがない。その意味で、\(p\)を\(x/n\)によって推測するのは正しい。

逆二項抽出標本からの母比率の不偏推定
 例2では、名簿からひとりを無作為に選んで、セグウェイに乗ったことがあるかどうか訊く、というのを延々と繰り返し、セグウェイに乗ったことがある人が5人に達したら調査を終えた。その結果、訊いた人は10000人になった。
 こういう調査は実際によくある。なぜなら、セグウェイについて調べているからには、セグウェイに乗ったことがある人にいろいろ訊きたいことがある、というのが普通だからである。あいにくセグウェイに乗ったことがある人の割合はごく小さい。例1のように、名簿からある決まった人数を抽出するやりかたでは、セグウェイに乗ったことがある人はみつからなかったり、見つかってもすごく人数が小さいかもしれない。それより、あらかじめ抽出する人数を決めずにひとりずつ抽出し、セグウェイに乗ったことがある人が必要な数だけみつかるまで調査を続ける、というほうが都合が良い。
 こういう抽出方法のことを逆二項抽出(inverse binomial sampling)ないし逆抽出という。セグウェイに乗ったことがある人というような、レアな人々について調べる際によく用いられる抽出方法である。

 では、日本人のうちセグウェイに乗ったことがある人の割合はどのくらいだろうか。
 例1とは、訊いた人の人数の決め方こそ異なるが、結果はさっきの(セグウェイに乗ったことがあると答えた人数)/(訊いた人数)は0.0005だから、おそらく 0.05% ですね… 、というのが常識的な推測であろう。
 この推測の仕方は、意外にも、必ずしも正しくない。なぜか。

 まず、名簿から\(n\)人を選んだとき成功者数が\(x\)人に達する確率\(Pr(N=n|p,x)\)について考えよう。
 たとえば、「名簿から3人を選んだところで成功者が2人に達する」確率はどうなるか。3人目に訊いたのが2人目の成功者なんだから、1人目と2人目の一方は成功者で他方は失敗者である。パターンは(成功, 失敗)と(失敗, 成功)の2つ、それぞれのパターンが起きる確率は\(p \times (1-p)\)。よって、「1人目と2人目の一方が成功者で他方が失敗者」である確率は\(2 \times p \times (1-p)\)である。で、3人目は成功者だったのである。その確率は\(p\)。というわけで、「名簿から3人抽出したところで成功者がはじめて2人に達する」確率は\(2 \times p^2(1-p)\)である。
 もっと一般的に書こう。\(n\)人を選んだときはじめて成功者が\(x\)人に達する確率\(Pr(N=n|p,x)\)は? \(n-1\)人目までの成功者は\(x-1\)人だったわけだ。そのパターン数は\(C(n-1,x-1)\)あって、個々のパターンの確率は\(p^{x-1}(1-p)^{n-x}\)だから、そうなる確率は\(C(n-1,x-1)p^{x-1}(1-p)^{n-x}\)。で、\(n\)人目は成功者だったわけだ。その確率は\(p\)。この2つを掛けて、$$Pr(N=n|p,x) = C(n-1,x-1) p^x (1-p)^{n-x}$$ となる。
 この式で表現される確率分布を負の二項分布と呼ぶ。

 では、日本人のうちセグウェイに乗ったことがある人の割合\(p\)を推測するための、いっけん常識的な推定方式 \(x/n\)について、それが良くない性質を持つことを示せばよさそうなものだけれど、それは話がややこしくなる。そのかわりに、もっとよい推定方式をご紹介し、それがなぜもっと良い推定方式なのかということを示そう。

 それではご紹介しましょう! 拍手でお迎え下さい! もっとよい推定方式、\( (x-1)/(n-1) \)です!

 \( (x-1)/(n-1) \)はどのような性質を持つだろうか。期待値\(E((x-1)/(N-1))\)を求めてみよう。そのためには、\((x-1)/(N-1)\)のありうるすべての実現値にその確率を掛け、足し上げればよい。\(N\)の実現値は\(x, \ldots, \infty\)であるから$$ E \left( \frac{x-1}{N-1} \right) = \sum_{n=x}^{\infty} \frac{x-1}{n-1} Pr(N=n|p,x) $$ $$ = \sum_{n=x}^{\infty} \frac{x-1}{n-1} C(n-1,x-1) p^x (1-p)^{n-x}$$ 階乗記号で書き換えると$$ E \left( \frac{x-1}{N-1} \right) = \sum_{n=x}^{\infty} \frac{x-1}{n-1} \frac{ (n-1)!}{(n-x)!(x-1)!} p^x (1-p)^{n-x}$$ $$= \sum_{n=x}^{\infty} \frac{ (n-2)!}{(n-x)!(x-2)!} p^x (1-p)^{n-x} $$ また組み合わせ記号に戻して$$E \left( \frac{x-1}{N-1} \right) = \sum_{n=x}^{\infty} C(n-2, x-2) p^x (1-p)^{n-x} $$
 ここからの下心としては、総和記号より右側を、なんとかして\( \sum_{i=0}^\infty C(\alpha, i) z^i\)という形にしたい(理由は後述)。がんばるぞ。
 失敗数\(n-x\)を\(y\)と書くことにしよう。\(n\)を\(x\)から\(\infty\)まで動かすと言うことは、\(y\)を\(0\)から\(\infty\)まで動かすと言うことと同じだ。\(p^x\)は総和記号の前に出せるから $$E \left( \frac{x-1}{N-1} \right) = p^x \sum_{y=0}^{\infty} C(x+y-2, x-2) (1-p)^y $$ \(x+y-2\)回訊いて成功数が\(x-2\)回になる組み合わせの数は、\(x+y-2\)回訊いて失敗数が\(y\)回になる組み合わせの数と同じだから、$$E \left( \frac{x-1}{N-1} \right) = p^x \sum_{y=0}^{\infty} C(x+y-2, y) (1-p)^y $$ 行ったり戻ったり要領が悪いが、ここで組み合わせ数\(C(x+y-2, y)\)をもう一度階乗記号で書き換えると $$ C(x+y-2, y) = \frac{ (x+y-2)! }{ y!(x-2)!} $$ $$= \frac{ [(x-2)+y][(x-2)+(y-1)]\cdots[(x-2)+2][(x-2)+1)]}{y!} $$ 分子は\(y\)個の項のかけ算になっている。すべてに\(-1\)を掛けて$$ C(x+y-2, y) = (-1)^y \frac{ [-x-y+2][-x-y+3]\cdots[-x][-x+1]}{y!} $$ 分子の\(y\)個の項を右から並び替えて$$ C(x+y-2, y) = (-1)^y \frac{ [(1-x)][(1-x)-1]\cdots[(1-x)-(y-2)][(1-x)-(y-1)]}{y!} $$ $$ = (-1)^y \frac{ (1-x)!}{y!(1-x-y)!} = (-1)^y C(1-x, y)$$ さっきの式に代入すると $$ E \left( \frac{x-1}{N-1} \right) = p^x \sum_{y=0}^{\infty} C(1-x, y) (p-1)^y$$ ときに全然話は違うんですけど、\(f(z) = (1+z)^\alpha\) (ただし\(|z| < 1\))っていう関数があるとき、$$f(z) = (1+z)^\alpha = \sum_{i=0}^\infty C(\alpha, i) z^i$$ と書き換えることができるのだそうですよ? こういうのをテーラー展開っていうらしいですよ? こういうのってどこで習うんでしょうね。大学かなあ。私は習わなかったけど、寝てたのだろうか。
 \(i=y, z = p-1, \alpha = 1-x\)と書き換えると、\(|z| < 1\)だから、$$ f(z) = p^{1-x} = \sum_{y=0}^\infty C(1-x, y) (p-1)^y $$ これをさっきの式に代入すると$$ E \left( \frac{x-1}{N-1} \right) = p^x p^{1-x} = p$$

 ああ、長かった。
 というわけで、新しくご紹介した推定方式の性質がわかった。セグウェイに乗ったことがあると答えた人数が\(x\)に達するまでに訊いた人数を\(n\)として、\((x-1)/(n-1)\)は、長ーい目で見て平均すれば、日本人のうちセグウェイに乗ったことがある人の割合\(p\)となる。個々の調査で得られる\((x-1)/(n-1)\)は真の値\(p\)より大きかったり小さかったりするけれど、長い目でみれば大きすぎる値でも小さすぎる値でもない、つまり偏りがない、ということである。その意味で、\(p\)を\((x-1)/(n-1)\)によって推測するのは正しい。

 なお、常識的な推定方式と偏りのない推定方式を比べると$$ \frac{x}{n} – \frac{x-1}{n-1} = \frac{1}{n(n-1)} \left( (n-1)x-n(x-1) \right) = \frac{1}{n(n-1)} (n-x) \geq 0$$ だから、常識的な推定方式 \(x/n\)は、ちょっと大きめに偏る推定方式であることがわかる。

 上で延々と述べた話は、別の角度から手短にいえばこういうことでもある。逆二項抽出での\(n\)は負の二項分布に従う。負の二項分布の期待値は\(E(n) = x/p\)であるから(証明略)、もし\(1/p\)を推定したいのなら不偏推定量は\(n/x\)である。しかし、ある確率分布に従う変数の逆数の期待値は、その変数の期待値の逆数と等しいとは限らないし、実際ここでも等しくない( \( E(1/n) \neq p/x \) )。\(p\)を推定したいのなら不偏推定量は\(x/n\)ではなく、\((x-1)/(n-1)\)である。

 直感的な言い方としては、セグウェイに乗ったことがあると答えた人数が5人に達するまでに訊いた人数が10000人だとして、日本人におけるセグウェイ経験率を推定するには、5人を10000人で割るのではなく、最後に訊いた人を無視して、それまでの出現数(4人)をそれまで訊いた人数(9999人)で割るのがよいわけだ。この調査方式では最後に訊いた人はかならず成功者になるんだから、その人は無視して考えた方が良い、という風にも理解できるだろう。

まとめ
 以上では延々と時間を掛けて、逆二項抽出標本から母比率を推定するとき、標本比率 \(x/n\) ではなくそれをちょっと修正した\((x-1)/(n-1)\)を使うべきであるということを説明した。

 もっとも…

  • 逆二項抽出標本を使っている人であっても、人によっては、こんな話はどうでもよいと思うかもしれない。抽出を停止する基準となる\(x\)が大きい場合、\((x-1)/(n-1)\)と\(x/n\)のちがいはごくわずかになる。
  • 上記の議論は偏りのない推定方式(不偏推定量)をよしとする議論であって、別の観点からは別の議論ができる。ありうるさまざまな\(p\)のなかで、手元の\(x, n\)を生み出す確率がもっとも高い\(p\)を求めようという推定方式(最尤推定量)をよしとする議論であれば、逆二項抽出であっても\(x/n\)を使ってよいことになる。
  • 上記の議論はそもそも「日本人のなかでセグウェイに乗ったことがある人の割合」\(p\)を推定したいという議論であって、別の観点からは別の議論ができる。もし「セグウェイに乗ったことがあるのは日本人あたり何人にひとりか」\(1/p\)を推定したいのであれば、その不偏推定量は\(n/x\)である。知りたいことについての捉え方が変われば、よい推定方式も変わってくるってことですね。
  • 最後に、上記の議論は標本が母集団の無作為標本とみなせる場合の話である。サーベイ調査の関係者におかれましては、抽出台帳を用いた標本調査が激減し任意参加型インターネットパネルによる調査が全盛である昨今、そもそもそんな議論は時間の無駄だ、というお立場もあろう。私自身は、そういうご意見は不注意にもお味噌と大便を混ぜておられるのであって(←できるだけ丁寧な言い回し)、一種のモラルハザードを引き起こす退廃的な立場だと考えているのだが、それはまた別の話である。

postscript
 仕事の都合でちょっと悩むことがあって、あれこれ調べてようやく納得したので、さっさと頭から追い出すべく、メモにしてまとめておく。悩みにつきあってくれた同僚に感謝します。

 もともとの問題意識は、ネット調査で対象者条件に合致する人数が目標標本サイズに達するまで配信・回収を続けたとき(市場調査では非常によくある場面である)、条件合致者の比率はスクリーニング調査における出現率で推定していいのか? という素朴な疑問であった。ところが、どうみても標本抽出の教科書に書いてありそうな話題なのに、inverse samplingという用語を知らなかったために大変苦労した。勉強不足を痛感した次第である。
 最終的には本棚の Cochran (1974) “Sampling Techniques”, 3rd. ed. に短い説明を見つけ(古本で入手しておいてよかった…)、ようやく納得した次第である。たいていはスクリーニング調査での出現率\(x/n\)を使ってていいけど、出現数\(x\)がすごく小さいときには気をつけたほうが良い、って感じですかね。

 Cochran本には不偏推定量の導出が載ってなかったので、メモを書くにあたってHaldane(1945)を参照した。もちろん、不注意と数学力不足のため、たくさん間違いがあっても不思議でない。

 ふだんの仕事の中で、データ解析に関する疑問に対し、相手の素養をできる限り前提とせずに説明しようと試みることが多い。重回帰の多重共線性を、線形代数の知識に一切頼らずに説明するとか。自分にとって大変勉強になる機会なので、日頃よりありがたく思っている。
 上記のメモも、そういう場面を想定して書いたんだけど、読み返して、こんなの読まされるほうもたまったもんじゃないよな、と思った。日頃より災難をまき散らしているとも言える。