Toth, D., Eltinge, J. (2011) Building consistent regression trees from complex sample data. Journal of the American Statistical Association, 106(409), 1626-1636.
仕事の都合で標本ウェイトつきのデータを使って分類木モデルをつくりたくなり、あれこれ調べていて見つけた論文。
少なくともタイトルは知りたいことにぴったりだし、第一著者はサーベイデータに特化した分割木・森モデリングのRパッケージrpmsの中の人だし、これを読めば道が開けるかな、と思ったのが運の尽き… いやあ、えらい目にあった。
1. イントロダクション
サーベイデータの分析では、補足変数と有限母集団パラメータの関数関係を推定しようとするけれど、交互作用がたくさんあるので、ノンパラメトリックな方法を使いたくなる。
本論文の目的は、再帰分割アルゴリズムをサーベイデータに適用して二進木をつくることを理論的に正当化することである。分割アルゴリズムが超母集団モデルの下で漸近的デザイン不偏(ADU)・漸近的デザイン一致(ADC)になる十分条件をあきらかにする。
仮に分割が所与ならば話は簡単である。再帰分割アルゴリズムのなにがややこしいといって、分割が標本ドリブンに決まっていることである。
2. 再帰分割
[長いので勝手に小見出しをつける]
表記
母集団を\( \{ (Y_1, \mathbf{X}_1), \ldots, (Y_{N_\nu}, \mathbf{X}_{N_\nu}) \}\)とする。個体はモデル\(\xi\)にiidに従うとする。モデルの分布関数を\(F(y, \mathbf{x})\)とする。\(y\)は単変量、\(\mathbf{x}\)は\(d\)次元ベクトルとする。
\(Y\)の単変量の周辺分布を\(F_Y(y)\)とする。また\(X_l\)の単変量の周辺分布を\(F_l(x_l)\)とする。
なんらかの単変量cdf \(F(\cdot)\)について、\(\lim_{\epsilon \rightarrow 0-} F(x + \epsilon)\)を\(F^- (x)\)と書く。[おおまかにいえば累積確率分布の導関数のことだろうか。なぜこんな風に書いているのか私の理解を超えているけれど…]
Gordon & Olshen (1978, 1980)は以下の議論が、一般性を失うことなく \(\mathbf{X} \in (0, 1)^d\)について成り立つことを示している。以下のアルゴリズムと証明もそうなので、われわれも\(\mathbf{X}\)はこの形式だと仮定する。
本節の概要
\(\xi\)に関して評価した期待値を\(E_\xi\)と書くとして、超母集団回帰関数 \(h(\mathbf{x}) = E_\xi [Y | \mathbf{X} = \mathbf{x}] \)について考えよう。補足変数\(\mathbf{X}\) のサポートと共通する集合\(A\)について、関数\(h(A) = E_\xi[Y | \mathbf{X} \in A]\)を定義する。
Gordon & Olsenは、再帰分割アルゴリズムで構築された推定量 \( \hat{h}_{N_\nu}(\mathbf{x})\)について検討し、ある固定された\(p \gt 1\)について$$ \lim_{N_v \rightarrow} E_\xi [ | h(\mathbf{X}) – \hat{h}_{N_\nu} (\mathbf{X}) |^p] = 0$$ が満たされる十分条件を与えている。本節では彼らの結果について概観する。
[はい、深呼吸! 要するにこういうことだと思う。真のデータ生成モデル\(\xi\)はいろんなモデルであり得ます。それらのいろんなモデルを通じた、\(\mathbf{X} = \mathbf{x}\)の下での\(Y\)の期待値を\(h(\mathbf{X})\)と書きます。我々は有限の標本となにかのアルゴリズムによってそれを推測しようとします。その推測は真のモデルによって良かった悪かったりするでしょうけど、いろんなモデルのもとでの(\(p=2\)として)MSEの期待値は、漸近的には0であってほしいです。その十分条件は何でしょうか。
うーん、学力不足でよくわかんない。手元のモデルに\(X\)を放り込んだときの\(Y\)の予測値が、個別具体的な真モデルの下で一致性を持たないのはこれはもうしょうがないので、いろんな真モデルを通じてみたときにそれに一致性があるのはどういうときかを考える、ということ? 逆に言うと、任意の真モデルの下で一致性を持つような推定量ははなっからあきらめてますってこと?]
箱とその上下限
\(X\)のサポートを\(supp(\mathbf{X})\)とする。再帰分割アルゴリズムでできた箱たちを\(Q^{N_\nu}\)とし、\( \mathbf{x} \in supp(\mathbf{X})\)を含む箱を\(B^{N_\nu}(\mathbf{x})\)とする。
それぞれの箱に2つのインデクス・ベクトル \(\mathbf{a}(B^{N_\nu}) = (a_1(B^{N_\nu}), \ldots, a_d(B^{N_\nu})), \mathbf{b}(B^{N_\nu}) = (b_1(B^{N_\nu}), \ldots, b_d(B^{N_\nu}))\)を持たせる。箱の中身について、それぞれの\(\mathbf{x} \in B^{N^v}\)が \(a_l(B^{N_\nu}) \geq x_l \geq b_l(B^{N_\nu}), l = 1, \ldots, d\)を満たすと定義する。
[難しい書き方だなあ。箱\(B^{N_\nu}\)の変数\(x_l\)上での下限と上限を\(a_l(B^{N_\nu}), b_l(B^{N_\nu})\)と書くよってことね]
ノルム
次に、補足変数空間の所与の分割におけるノルムについて述べる。
\(\mathbf{X}\)の所与の分布を\(F\)、それに対応する確率測度を\(P\)、要素\(x_l\)のそれに対応する周辺分布を\(F_l\)とする。「\(F\)に対する分割\(Q^{N_\nu}\)の\(l-\)ノルム」を以下のように定義する。$$ || Q^{N_\nu} ||^F_l = \sum_{ B^{N_\nu} \in Q^{N_\nu} } \{ [ F_l(b_l(B^{N_\nu})) F_l(a_l(B^{N_\nu})) ] P(B^{N_\nu}) \} $$ 「\(F^-\)に対する分割\(Q^{N_\nu}\)の\(l-\)ノルム」を以下のように定義する。$$ || Q^{N_\nu} ||^{F^-}_l = \sum_{ B^{N_\nu} \in Q^{N_\nu} } \{ [ F^-_l(b_l(B^{N_\nu})) F^-l(a_l(B^{N_\nu})) ] P(B^{N_\nu}) \} $$ おおざっぱにいえば、これらは分布\(F_l\)なり\(F^-_l\)なりに関する箱\(Q^{N_\nu}\)の確率質量の期待値にあたる。分割がたくさんあると小さくなる。
経験確率
所与の\(Y =y\)と\(A \subset supp(\mathbf{X})\)について、経験的条件付き確率分布関数と経験的確率を定義する。いずれも有限母集団\(U_\nu\)に関しての定義である。それぞれ$$ \hat{F}_{N_\nu}(y|A) = \left(\sum_{i \in U_\nu} \mathbf{1}_{\mathbf{x}_i \in A} \right)^{-1} \sum_{i \in U_\nu} \mathbf{1}_{y_i \lt y} \mathbf{1}_{\mathbf{x} \in A} $$ $$ \hat{P}_{N_\nu}(A) = N^{-1}_\nu \sum_{i \in U_\nu} 1_{\mathbf{x}_i \in A} $$ [なぜこんな難しい書き方をするんだろう… 補足変数の値域の一部\(A\)について、そこに含まれる個体が\(y\)以下である割合と、個体がそこに含まれる割合を定義したってことだよね?]
速度条件
最後に、収束速度として用いる関数を2つ定義しよう。\(\gamma(N_\nu), k(N_\nu)\)を0より大な関数とし、すべての\(N_\nu\)について以下を満たすものとする。
速度条件1: \(\gamma(N_\nu) \rightarrow \infty\)
速度条件2: \(N^{^1}_\nu k(N_\nu) \rightarrow 0\)
速度条件3: \(k(N_\nu)^{-1} \gamma(N_\nu) N_\nu^{1/2} \rightarrow 0 \)
以上の3条件は以下を要求する: $$ N^{-1/2}_\nu \gamma(N_\nu) \rightarrow 0$$ これらの条件を満たす関数を見つけるのは簡単である。たとえば、\( \alpha \in (1/2, 1), \epsilon \in (0, \alpha – 1/2) \)だとして、\( k(N_\nu) = N^\alpha_\nu, \gamma(N_\nu) = \log(N_\nu)\)とか。
[わ・か・ら・ん… 最初から話の流れが見えなかったのだが、ついになにがしたいのか全然わからななくなった…]
推定量の定義
いよいよ、関数\(h(\mathbf{x}) = E_\xi[Y |\mathbf{X} = \mathbf{x}] \)の推定量を定義する。
以下では所与の集合 \(A \subset supp(\mathbf{x})\)について\(\#_{N_\nu}(A) = \sum_{i \in U_\nu} \mathbf{1}_{\mathbf{x}_i \in A}\)とする。つまり集合\(A\)に含まれる母集団の要素数である。
以下では\(Y \geq 0\)について考える。実際の\(Y\)は負かもしれないけど\(Y = Y^+ – Y^-\)と分解すればどっちも正だと定義できる。$$ E_\xi[Y | \mathbf{X} = \mathbf{x}] = \sum_0^\infty (1-F(y | \mathbf{X} = \mathbf{x})) dy $$ とする。
有限母集団推定量はこうなる。[場合分けの数式を書くのがめんどくさいので平文で書く]
もし\( \#_{N_\nu} (B^{N_v}(\mathbf{x})) \gt k(N_\nu)\) ならば、$$ \hat{h}_{N_\nu}(\mathbf{x}) = \int_0^{\gamma(N_\nu)} \{ 1-\hat{F}_{N_\nu}(y|B^{N_\nu}(\mathbf{x})) \} dy$$ でなければ0。
この推定量は、少なくとも\(k(N_\nu)\)個の点を含む箱のなかでの、トリミング閾値\(\gamma(N_\nu)\)以下の値の平均である。
[はい深呼吸! 日本語でいうとこういうことだ。いま補足変数のベクトル\(\mathbf{x}\)の下での\(Y\)の条件付き期待値の推定量としてこういうのを考える。まずそのベクトルが含まれる箱を探す。その箱が含んでいる母集団の要素数が\(k(N_\nu)\)以下だったら、0です!という。そうでなかったら、「その箱に含まれる個体が\(y\)より大きい割合」を、\(y\)を0から\(\gamma(N_\nu)\)まで動かして積分した値を返す。
なるほどね。でもあれだよね、「入力ベクトルが小さすぎる末端ノードに落ちたら問答無用でゼロを返す回帰木」ってかなり迷惑だよね。いまそういう話はしてないのかもしれないですけど]
Gordon&Olshenが示したこと
Gordon & Olshen(1980)は以下の定理を示した。
iidデータ\( \{ (Y_1, \mathbf{X}_1), \ldots, (Y_{N_\nu}, \mathbf{X}_{N_\nu}) \} \)が超母集団モデル\(\xi\)からドローされているとする。\(E_\xi|Y|^p \lt \infty\)とする。\(k(N_\nu), \gamma(N_\nu)\)は速度条件1-3を満たすとする。このとき、以下の3条件がなりたつならば
- 条件1: \(\xi-\)確率1で \( \hat{P}_{N_\nu} \{ \mathbf{x} | \#(B^{N_\nu}(\mathbf{x})) \gt k(N_\nu) \} \rightarrow 1 \)
- 条件2: \( || Q^{N_\nu} ||^{\hat{F}_{N_\nu}}_l \rightarrow 0 \)
- 条件3: \(\xi-\)確率1で\( || Q^{N_\nu} ||^{\hat{F}^-_{N_\nu}}_l \rightarrow_\xi 0 \)
そのとき $$ \lim_{N \rightarrow \infty} E_\xi[ | h(\mathbf{X}) – \hat{h}_{N_\nu} (\mathbf{x}) |^p] = 0$$ が成り立つ。
この推定量におけるトリミングは、観察された\(Y\)に対して\(\gamma(N_\nu)\)が十分に大きければ消失する。しかし速度条件3は、\(\gamma(N_\nu)\)が大きくなる速度が速いほど、\(k(N_\nu)\)の速度も速くなければならないことを示している。つまり箱はどんどん細かく疎になっていき、3条件のうち1つめが損なわれる。条件1は、箱の割合が十分に密で、経験分布から推定された値が1に近づかなければならないということを示しているからである。条件2は、(有限母集団割合と経験ノルムから見た)箱の幅がゼロへと縮約するということを示している。
[私の能力を超える内容だということがあきらかになったので意気阻喪しているが、とりあえずメモしておこう。
真のデータ生成機構\(\xi\)の下で、真の回帰関数\(h(\mathbf{X})\)というのがある。哀れな私たちは及ばずながらも、データ\(N_\nu\)に基づいて、回帰木\(\hat{h}_{N_\nu}(\mathbf{x})\)を得る。そいつは一致推定量であってほしい。正確に言うと、真のデータ生成機構はいろんなものでありうるが、いろんな機構を通じて均して考えたときにそいつが一致推定量であってほしい。この節では、その十分条件について語っている。
その十分条件とは以下の3つの条件である。回帰木には終端ノードの下閾値と上閾値というのがあって、母集団における要素数が下閾値を下回った時予測値は0ですという話になり、また上閾値を上回るような\(y\)については全然考えないんだけど、その下閾値は無限小に近づき、上閾値は無限大に近づき、上閾値を下閾値で割った値は無限小に近づく、というような性質を持っているとしよう。このとき、(1)回帰木に入力を放り込んだ時に落ちる終端ノードの母集団における要素数が閾値を超えているとき、入力がその入力である確率が1に近づく。(2)推定された\(\mathbf{X}\)の分布に対する分割の\(l-\)ノルムが0に近づく。(3)推定された\(\mathbf{X}\)の分布の導関数[?]に対する分割の\(l-\)ノルムが0に近づく。
… わっかっらん。特に(1)が全くわからん。正直、一致性を示すというのはその道のプロの仕事であって俺にわかるような事柄ではないのだろうと思う。頼むから、ひらたくいうとどういうことなのか俺にわかるように教えてくれ]
3. complex サーベイデータ
ここからは、母集団の要素\((Y_i, \mathbf{X}_i)\)にもれなく\(\mathbf{Z}_i\)がついている状況について考えよう。それは分析者が直接には関心を持たないけれど標本デザインで使われれているような特徴だ。たとえば選択確率を決める際につかっているサイズとか。\(\mathbf{Z}_i\)は母集団の単位すべてについて既知とする。
有限母集団の系列\( \{U_\nu\}_{\nu=1}^\infty \)からサイズ\(n_\nu\)の標本\(S_\nu\)を抽出した[学力不足でわからんが、その上添字だともはや無限母集団ではないのか…? まああれだな、いまは枠組みの確認をしているだけで、気持ちとしては十分に大きな有限母集団ってことなんだろうな]
抽出のインデクスを\(\delta_{\nu i}\)とする。抽出確率 \(E_p(\delta_{\nu i}) = P(i \in S_\nu)\)は既知とする。同時確率\(\pi_{\nu i j} = P(i \in S_\nu \cap j \in S_\nu)\)も既知とする。
母集団サイズの推定量を\(\tilde{N}_\nu = \sum_{i \in S_\nu} \pi_{\nu i}^{-1}\)とする。
さきほどは母集団上での分割を\(Q_\nu^{N_\nu}\)、箱を\(B_\nu^{N_\nu}(\mathbf{x})\)と書いていたが、こんどは標本だけみてつくった分割を\(Q_{n_\nu}\)、箱を\(B^{n_\nu}(\mathbf{x})\)とする。[ええええ、2章の\(Q^{N_\nu}\)って母集団をつかって分けた箱だったの? そうか、超母集団モデルを使って徹頭徹尾母集団の話をしてたわけか]
母集団サイズを\(N_\nu\)とする。所与の分割\(Q^{n_\nu}\)のなかのある箱\(B^{n_\nu}\)の母集団サイズを\(\#_{N_v}(B^{n_\nu})\)、標本サイズを\(\#_{n_v}(B^{n_\nu})\)、母集団サイズの標本ベース推定量を$$ \tilde{\#}_{N_\nu} (B^{n_\nu}) = \sum_{i \in S_\nu} \pi^{-1}_{vi} \mathbf{1}_{\mathbf{x}_i \in B^{n_\nu}(\mathbf{x})} $$ とする。
Gordon & Olshenと同じ分割アルゴリズムを考える。すなわち、それぞれの分岐での下位集合について、
- その標本サイズが\(2k(n_\nu)\)以下だったらストップ。
- 補足変数のなかで、それで分割したらMSEが一番下がるという分岐を探す。
- その分岐によって減るMSEがpパーセント以上だったらほんとに分岐する。
- そうでなかったら、一番最近つかった補足変数の中央値で分岐する。[え、なにそれ? そんな風に分岐するアルゴリズムがあるの?]
経験的条件付き分布推定量と経験的確率推定量を定義する。[怖ろし気な式だが、よくみると当たり前のことしかいってない] $$ \tilde{F}_{n_\nu}(y|B^{n_\nu}(\mathbf{x})) = (\tilde{\#}_{N_\nu}(B^{n_\nu}))^{-1} \sum_{i \in S_\nu} \pi_{vi}^{-1} \mathbf{1}_{\{y_i \geq y\}} \mathbf{1}_{\{\mathbf{x}_i \in B^{n_\nu}(\mathbf{x})\}} $$ $$ \tilde{P}_{n_\nu}(B^{n_\nu}(\mathbf{x})) = (\tilde{N}_\nu)^{-1} \sum_{i \in S_\nu} \pi^{-1}_{vi} \mathbf{1}_{\{\mathbf{x}_i \in B^{n_\nu} (\mathbf{x})\}}$$
\(k, \gamma\)は速度条件1-3を満たす関数とする。
3.1 条件
以下の条件を設ける。
- 条件1。\(\xi-\)確率1で、$$ \lim_{\nu \rightarrow \infty} N^{-1}_\nu \sum_{i = 1}^{N_\nu} Y^2_i = \mu_2 \lt \infty$$ [なんやしらんが、\(Y\)の二乗が平均を持つってことね]
- 条件2。\(\xi-\)確率1で、$$ \lim_{\nu \rightarrow \infty} \ \mathrm{sup} \left( N_\nu \min_{i \in U_\nu} \pi_{vi} \right)^{-1} = O(n_\nu^{-1}) $$ [最初の添え字\(\nu \rightarrow \infty\)はほんとは\(\mathrm{lim \ sup}\)の下につく。それはともかく、なんだかさっぱりわかんない]
- 条件3。\(\xi-\)確率1で、$$ \lim_{\nu \rightarrow \infty} \ \mathrm{sup} \max_{i,j \in U_\nu, i\neq j} | \frac{\pi_{\nu i j}}{\pi_{\nu i}\pi_{\nu j}} – 1 | O(n^{-1}_\nu) $$ [最初の添え字\(\nu \rightarrow \infty\)はほんとは\(\mathrm{lim \ sup}\)の下につく。これもさっぱりわかんない]
- 条件4。\(\xi-\)確率1で、すべての\(i, j \in S_\nu\)について、$$ E_p[\delta_{\nu i} \delta_{\nu j} | Q^{n_\nu} ] = \pi_{\nu i j} + O_p(n_\nu^{1/2} \gamma(n_\nu)^{-1} k(n_\nu)^{-1})$$ [正直、目が死んできました]
説明しよう。条件1は超母集団の標準的な条件である。条件2と3は標本デザインについてのよく知られた条件で、ものすごくクラスタ化されたデザインでない限り容易に満たされる。条件4がいっているのは、標本のもとになった有限母集団に極端な値がはいっていたとしても、その効果は箱の標本サイズ\(k(n_\nu)\)が大きくなれば消えるよね、ということである。[…以下さらに説明があるけど、全然ついていけないので省略]
3.2 箱の特性についての予備的な結果
\(Y_\nu = \sum_{i \in U_\nu} Y_i\)とする。母平均$$ \tilde{Y}_\nu = N^{-1}_\nu \sum_{i \in U^nu} Y_i = N^{-1}_\nu \hat{Y}_\nu $$のHajek推定量は次の比推定量になる: $$ \hat{\tilde{Y}} = \left( \sum_{i \in U_\nu} \pi^{-1}_{vi} \delta_{vi} \right)^{-1} \sum_{i \in U_\nu} \pi^{-1}_{\nu i} \delta_{\nu i} y_i = \tilde{N}_\nu^{-1} \hat{Y}_\nu$$ 以下では、回帰木で定義した推定量が、同じアルゴリズムを母集団に適用した時の分割に収束する—というようなことを証明するのではない。そうじゃなくて、以下の順に話を進める。
- まず、標本にアルゴリズムをあてはめてつくった分割\(Q^{n_\nu}\)が、Gordon-Olshenの定理の条件1,2を満たすことを示す。
- すろと、標本に基づいてつくった分割\(Q^{n_\nu}\)を有限母集団データにあてはめて定義した推定量\(\hat{h}^*_{N_\nu}(\mathbf{x})\)は、母集団の量\(h(\mathbf{x})\)の一致推定量になる。
- 標本に基づいて定義した推定量は、\(\hat{h}^*_{N_\nu}(\mathbf{x})\)の漸近的デザイン不偏(ADU)・漸近的デザイン一致(ADC)推定量となる。
ということは結局、標本に基づく推定量は、超母集団の量\(h(\mathbf{x}\)のADUかつADCな推定量だということになる。
ここで2つの補題を示す。どちらも証明は付録を参照。
補題1 標本デザインが4条件を満たし、\(k, \gamma\)が3つの速度条件を満たすとする。もし\(\xi-\)確率1で$$ \lim_{\nu \rightarrow \infty} \tilde{P}_{n_\nu} [ \mathbf{x} | k(n_\nu)^{-1} \#_{n_\nu} (B^{n_\nu}(\mathbf{x})) \geq 1 ] = 1$$が成り立つならば、$$ \lim_{\nu \rightarrow \infty} \hat{P}_{n_\nu} [ \mathbf{x} | k(n_\nu)^{-1} \#_{n_\nu} (B^{n_\nu}(\mathbf{x})) \geq 1 ] = 1$$
も\(\xi-\)確率1で成り立つ。
次に、ノルムの標本ベース推定量を\(\hat{F}_{n_v}\)という風に書いて…
補題2 標本デザインが4条件を満たし、\(k, \gamma\)が3つの速度条件を満たすとする。すべての\(l = 1, \ldots, d\)について、\(\nu \rightarrow \infty\)とともに\(\xi-\)確率1で、$$ || Q^{n_\nu} ||_l^{\tilde{F}_{n_\nu}} \rightarrow_p || Q^{n_\nu} ||_l^{\hat{F}_{n_\nu}}$$ $$ || Q^{n_\nu} ||_l^{\tilde{F}^-_{n_\nu}} \rightarrow_p || Q^{n_\nu} ||_l^{\hat{F}^-_{n_\nu}}$$が成り立つ。
3.3 平均推定量
抽出割合について次の条件を設ける。
- 条件5。$$ f^{-1} = N_\nu/n_\nu = O(n^{1/2}_\nu \gamma(n_\nu)^{-1} ) $$
いよいよ本論文の本題である。
命題1 以下が成り立つ。もし、
- \(\xi-\)確率1で \(\tilde{P}( \mathbf{x} | k(n_\nu)^{-1} \#_{n_\nu} (B^{n_\nu}(\mathbf{x})) \geq 1) \rightarrow_p 1\)が成り立ち、
- \( || Q^{n_\nu} ||_l^{\tilde{F}_{n_\nu}} \rightarrow_1 0 \)が成り立ち、
- すべての\(l = 1, \ldots, d\)について\( || Q^{n_\nu} ||_l^{\tilde{F}^-_{n_\nu}} \rightarrow_1 0\)が成り立つなら、
$$ \lim_{\nu \rightarrow \infty} E_{\xi p}[|\tilde{h}_{n_\nu}(\mathbf{x}) – h(\mathbf{x})|^2] = 0 $$ が成り立つ。
[要するにあれだ。標本に基づく推定量が一致性を持つ十分条件はなにかというとですね… 入力が落ちた箱の標本サイズが下閾値を上回るときに入力がその入力である確率の推定値が1に収束することと、分布に対する分割のノルムが0に収束することと、分布の導関数みたいななにかにに対して分割のノルムが0に収束すること、なのである。はいそこの君、わかりましたか? 私にはさっぱりわからない。
以下、まるまる1頁にわたって証明が続く。すいません、私にはもうついていけないのでパスします]
4. 適用例
ある会社の従業員の平均賃金はその会社の場所と業種に強く依存する。OESという企業調査で調べてみよう。次の4変数に注目する: size(従業員数)、age(親会社の設立から何年たったか)、msa(都市規模)、count(親会社がほかの州で持っている会社数。親会社の企業構造の複雑性の代理変数)。7122社のデータを使う。[読み落としたのかもだけど、たぶん標本ウェイトがついているんだと思う]
ではシミュレーションしてみよう。この7122社を有限母集団とみなし、\(h(x)\)のかわりに有限母集団推定量\(\hat{h}(N_\nu)\)を使う。2種類のやり方で、それぞれ1000件ドローして、それぞれ回帰木を作る。これを繰り返す。
2種類の標本デザインとは以下の通り。
- OESデザイン。オリジナルの標本についているOES標本抽出ウェイトの逆数をサイズ変数として使うproportional to size (pps)デザイン。[えーと、ppsデザインってのは抽出確率を抽出単位のサイズに比例させるやり方だから、つまり、ウェイトが大きいほど抽出しにくくするってこと? どういうモチベーションなの? まあなにか抽出確率が不均一な抽出でありさえすればいいんだろうから、なんでもいいのかもしれないけど]
- PPSデザイン。会社の従業員数をサイズ変数として使ったppsデザイン。[うーん。これはつまり、OESのローデータについてるウェイトを無視し、ローデータを母集団台帳とみてpps抽出するってことだよね]
後者ではcertainty unitsが常に生じる[抽出確率が1になる抽出単位のことをこう呼ぶらしい。へー]
1から7112までの整数の集合を\(U\)とする。母集団要素にアルゴリズムをあてはめて得た真の回帰木モデルを\(T\)とする。母集団からの各標本\(S\)について、ウェイトを考慮した回帰木と考慮しない回帰木をつくり、\(T\)から得られる平均賃金に対するバイアスとRMSEを標本サイズごとに比べる。
結果をみると、どちらの抽出デザインでも、ウェイトを考慮した回帰木のほうが、バイアスもRMSEも小さい。
5. 考察
シミュレーションで示したように、complexデザインを無視して回帰木をつかうとひどい目にあう。
今後の課題: 補足変数の合計が既知の場合にそれを利用する方法。本論文ではひたすら超母集団モデルの下での漸近性を示したけれど、単一の有限母集団についてはどういう特性になるか。特に、外れ値を検出するにはどういう診断指標があればいいか。また、超母集団モデルの下で推定量がalmost sureに収束する条件とは何か。また、所与の有限母集団に対する再帰分割アルゴリズムを最適化する標本デザインとはなにか?[えっ、単純無作為抽出なんじゃないの? そうじゃない可能性があるのか…]
本論文の結果は木モデル構築しか扱っていない。実務家は往々にして枝刈りをやるので、それも今後の課題である。
—————–
途中で「これは俺の能力を超えている」と気が付いたんだけど、意地になって読み終えた。
恥をさらすようだが、素朴な疑問を3点メモしておく。
- この論文が示しているのは、(1)標本ウェイト付きのデータから、この論文が想定しているあるアルゴリズムによって構築された回帰木が、(2)ある種の(よくわかんないけどたぶんリーズナブルな)仮定の下で、(3)この論文で定義された意味での(よくわかんないけどたぶん我々ど素人がが一致性という言葉から想像するような意味を持った)一致性を満たす、ということだろうと思う。(2)(3)は信じますよ、そこを疑うだけの能力がないから。気になるのは(1)なんですけど。標本ウェイト付きのデータから回帰木を構築するアルゴリズムって自明なの? たとえば標本ウェイトがついているときのMSEって自明なの(単に誤差二乗とウェイトの積和をウェイトの和で割ったやつなの)? 仮に自明だとして、世の中の回帰木の実装ってそれに従っているの? だって回帰木構築アルゴリズムっていろいろ工学的な工夫があるじゃないですか。この論文でも最後に触れていてほっとしたけど、枝刈りとかさ。枝刈りの前にもなんか変な工夫がいろいろありそうじゃないですか、ソフトによって。
- 上の疑問と重なるけど、Rでいえばrpartパッケージではケースウェイトが指定できるじゃないですか。あれで標本ウェイトを指定して大丈夫なの? 作った人のモチベーションはたぶん違うよね…
- もはやこの論文とは関係ないけど、ランダムフォレストみたいなアンサンブル学習では、それぞれの木はデータからドローしてきた下位データを使いますよね。その際に、標本ウェイトを抽出確率とみなしてドローしちゃえば、木の構築アルゴリズムは手つかずでよくない? だめ?