読了: Gelman (2007) ウェイティングと回帰モデリングを巡る悪戦苦闘 (質疑応答編)

引き続き、Gelman(2007) のメモ。

Gelman, A. (2007) Struggles with survey weighting and regression modeling. (with commentaries.) Statistical Science. 22(2), 153-164.

 論文に対して寄せられた5人の識者によるコメントと、Gelmanさんによる返答を読んでみた。

 Gelmanさんの返答は分解しにくいので最後にまとめてあるが、特定のコメントへの返答は、当該コメントに埋め込む形でメモする。
 論文の性質上、コメントもなんだか大きな話が多い。さらに、元論文の著者の偉さゆえか人柄ゆえか知らないが、みんな礼儀正しい。そのため、どこまでが総括と称賛でどこから批判的主張が入っているのか、私の力では読み取るのが難しい。正直なところ、疲れます…

コメント: Bell & Cohen
 [メモはしてみたが、ほぼ称賛的なコメントである]
 回帰に調査デザインを組み込むという試みとして、Pfefferman & Sverchkov(1999), Graubard & Korn (2002), Little(2004)がありました。Gelmanさんの論文はこれにつづくものです。

 従来の一般的枠組みは、以下の戦略(ないしその組み合わせ)からなっていました。

  • unweightedの分析。モデルは(超)母集団全体について正しいという仮定の上に立った純粋なモデル・ベースの考え方である。
  • 標本選択確率の逆数をウェイトとした分析。純粋にデザイン・ベースの考え方である。
  • モデルの予測子として調査デザインを組み込む。たとえば調査変数で定義された下位集団別にモデルが必要であることが明らかであるようなときに意味を持つ。

Gelman論文は2番目と3番目の混合といえます。

 Gelmanさんはこんな例を挙げていました。性別の観点からみて標本が母集団を代表していないとき、収入の対数を予測するモデルで、人種の係数にバイアスが生じてしまうという例です。これはいわゆるセンサス回帰係数を推定するという問題です(ここでは、有限母集団における白人の収入の対数の平均と非白人の収入の対数の平均との差を推定するという問題です)。データがMARだとして、unweightedの回帰での人種の係数のバイアスは、標本に占める男性率と母集団における男性率との差と、母集団における人種-性の交互作用にほぼ比例します。
 Gelmanさんの例ではこのバイアスをうまく修正できましたが、一般にはそうとは限りません。ウェイティングやモデリングは人種の係数の推定値の分散を拡大します。真の交互作用が非常に小さい場合、MSEはむしろ増大するかもしれません。真の交互作用が十分に大きければ修正によってMSEは縮小します。なお、標本のインバランスは修正した方が良いかどうかに影響しません。
 「これ以上なら修正した方が良い」といえる真の交互作用のサイズは、推定された交互作用に関する経験的な不確実性のオーダーで決まります。簡単に「修正しろ」とはいえないわけです。

 いっぽう、調査はたいていたくさんの潜在的な層別変数を持っています。とてもじゃないがすべてをバランスさせることはできません。どうやって選べばいいんでしょうか。
 実務家は、いくつかの変数を無視したり併合したりしてクロス表をとるとか、レイキングや傾向スコアウェイティングとか、ウェイトのトリミングといった、いろんな手を使います。ウェイトとモデルベースアプローチのどっちを使うか、というのはそんなにたいした問題じゃありません(Gelmanさんが示したように、モデリングで可能な修正とウェイティングで可能な修正の間には対応があります)。一番大事なのは、どの変数と交互作用を使うかを決めるために、アウトカムを実際に予測する交互作用を調べないといけないという点でしょう。アウトカムをみなくったってウェイトは作れるけど、最良のウェイトとは適切なモデルによって示唆されたウェイトです。

 Gelmanさんの階層回帰モデルによるアプローチは非常に魅力的です。それは従属変数についての豊かなモデルを使いつつ、同時に過剰適合の危険を減らしています。また原則に基づいた推論基盤を提供しています。さらに、モデリングとウェイティングの関係を明確にしています。ウェイティングの実務的な利点として、(1)標準的なソフトを使えること、(2)毎回大きなモデルを作る必要がなくなること、(3)公的データのユーザがほぼ最適な結果を簡単に得られること、が挙げられます。ウェイティングとモデリングの関係について検討し、双方の利点を生かすことが望まれます。[… とかなんとか称賛。中略…]

 いくつかの質問と今後の課題を挙げさせて下さい。

  • 階層回帰モデルの適合度をどうやって調べるか。また、特定のデータ点がセンサス母集団回帰推定値に与える影響をどう評価するか。
  • ロジスティック回帰とか、分類木・回帰木とかへの拡張。
    Gelmanの返答: 興味深いですが、モデルから等価なウェイトを得るのは難しいでしょうね。完全に非線形名モデルとウェイティングとの間には互換性がないと思います。

コメント: Breidt & Opsomer
 [称賛と総括… 中略]
 この論文はデザイン・ベースの(つまりweightedの)モデル適合・推論についてたくさんの欠点を挙げています。モデラーにとってブラックボックスにみえるとか、とくに分散推定がややこしくなるとか。しかし私たちは、weightedの分析にも良い点が多いといいたいです。
 デザイン・ベースのパラダイムの鍵は、デザインと抽出後調整を分析から切り離せるという点です。サーヴェイ統計家とアナリストの分業です。
 あるモデルについて、包含確率の逆数に基づくweightedな分析を行うことで、得られる推定量は母集団レベルの量についてデザイン一致性を持つようになります。このことは関心あるモデルパラメータについてモデル一致性を持つことを意味します。また、ウェイトが無回答調整やその他のカリブレーションを含むとき、推定量はデザイン-反応の同時メカニズムの下で一致性を持ちます。これらの結果は、モデルパラメータが有限母集団以外を目標に指定している場合も維持されると期待されます(ただしこの点についての形式的理論は限られています)。
 分業には次の利点があります。

  • 秘匿性の観点から、ウェイト作成に用いるユニットレベルの情報はアナリストに開示されないことがある。
  • 複雑なデザインの場合、分業しないとアナリストがすごく大変。

 Gelmanさんは、weightedな推定量の分散推定が大変だという点を指摘していますが、最近はソフトも発展してますし、ジャックナイフ法なりブートストラップという手もあります。
 デザインと無回答特性を明示的なモデリングで統合するというのは統計学的に妥当ですし、無視可能性がないちおう問題を解決するためのアプローチとして概念的な魅力がああります。しかし、関連する変数への知識と注意深さが必要になります。付与されたウェイトを使ったデザイン・ベースな分析にもまた別の魅力があります。それはデータ収集についてよく知らなくても可能なのです。
 最後にひとこと。ウェイト構築はかなりの部分まで「アート」のままかもしれません。しかし、ウェイト構築についての透明性を増すことで、アナリストが感じる不快さはマシになるでしょう。云々。

コメント: Little
[本稿、とても面白いので全訳に近い勢いで訳してしまった。目からウロコが落ちる]

 統計学の学生であったわたくしが最初にウェイトに出会ったのは、回帰における分散不等性を扱うために誤差分散の逆数をウェイトにする、というのをみたときです。その後に受けた標本調査の講義では、ウェイトは選択確率の逆数でした。
 この2つのウェイトが異なっていたらどっちを使えばいいんだろう? この問いは私にとって長年の謎でした。ずっと後になってから、これはふたつの基本的な哲学のちがいなのだと思い至りました。デザイン・ベース推論とモデル・ベース推論の違いです。

 デザイン・ベースのアプローチでは、調査のアウトカムを固定したものと捉えます。偶然性は標本選択の分布から生じています。標本ウェイトとは選択確率の逆数です。それはデザイン・ベース推論において、デザイン不偏ないしデザイン一致な推定値を生むという重要な役割を演じます。事後層別と同様に、ウェイトは母集団と事後層における標本カウントの比に比例し、つまり標本カウントの分布(アウトカムの分布ではない)を含みます。「選択確率」を「包含確率」と読み替えれば、無回答のウェイティングも、所与の選択の下で反応が得られる確率の推定値の逆数という形で捉えることができます。

 回帰アプローチはモデル・ベースです。このアプローチでは、母集団における非選択ユニットに予測値を与えるという点が強調されます。Gelmanさんは予測の生成にベイジアン・パラダイムを用いていますが、私のみるところ、重要なのは目的を予測と捉えているかどうかです。ベイジアン・パラダイムは予測のためのもっとも自然で説得的な枠組みだと思いますが(Gelmanさんもそう思っていると思いますが)、事前分布を明示的に付与しない尤度ベースの手法も多くの状況で十分に役に立ちます。

 要約するとこうです:
 デザイン・ベース = ウェイティング
 モデル・ベース = 予測
もちろんこれは単純化しすぎでしょう。デザイン・ベースのウェイトは予測モデルの文脈でも登場しますから、ふたつのアプローチは交差しています。
 たとえば、層別標本の層別平均は、層をダミー変数で表した回帰の予測推定値でもありますね。もっと一般的にいえば、Little(1991 J.OfficialStat.)は回帰パラメータデザイン・ウェイトの下での推定値について近似的ベイジアン解釈を示しています。予測とウェイティングを結合するハイブリッド・アプローチも一般的になりつつあります。Sarndal et al.(1992)はあるモデルから予測の推定値を得て、それに残差の重み付き合計を足すことでカリブレートし、モデルの誤指定に対抗しています。Robinsらはこうした推定量を「二重頑健」と呼び、この呼び方は一般的統計学の文献に広まっています。
 こうしたアプローチに対してGelamnさんはどう思っているのか興味があります。私の見方は、モデルを賢明に選択した純粋な予測パラダイムの中で頑健性を得ることができるというものです[←どういうこと?? 文意がつかめない]

 Horvitz-Thomston推定量とその変形に代表されるデザイン・ウェイティングは、単純であり、また明示的なモデルを避けることでモデル誤指定に対して頑健だというオーラを放っています。これはアウトカムと選択確率の比が交換可能であるというモデルによる予測推定量であり、「二重頑健推定量の祖父」であるといえます。それはモデルないしウェイトが正しく指定されていれば一致性を持ちます。
 しかし、HT推定量を深く考えずに使うのは危険です。根底にあるHTモデルが仮に合理的でなかったら、それに基づく推論もプアでありうるからです。それを極端なパロディとして示したのが、有名なBasuの象の例です。
 [Basuの象とはこんな話である。サーカスのオーナーが象50頭を輸送するために重量の合計を推定したいと思う。オーナーは中くらいの大きさの象サンボの体重を測ってそれを50倍しようとする。ところがサーカスの社内統計家がやってきて(ははは)、いやそんな作為的抽出ではだめだと反対する。妥協案として、サンボの抽出確率を0.99, 他の象の抽出確率を0.01/49として抽出しようということになる。無事にサンボが抽出されたんだけど、統計家は「合計のHT推定量は、標本のユニット\(i\)の値を\(y\), 選択確率を\(p_i\)として\(\sum_i (Y_i / p_i)\)だから、重量合計の推定量は(サンボの体重)/0.99だ」と主張してクビになる、という笑い話]
 私たちはHT推定量を、アウトカムと選択確率の関係を罰則付きスプラインでモデル化したロバスト回帰モデルに基づく予測と比べたことがあります。HTモデルが真であれば予測推定量の成績はHTと同程度で、HTモデルが真でないときには、有効性でみても信頼区間でみても、予測推定量のほうがはるかに良い成績を示しました。

 Gelmanさんが挙げた事後層別の事例はデザイン・ウェイティングの限界を示しています。
 変数\(Y\)の母平均のデザインweightedな推定量は、層\(j\)が母集団に占める割合を\(P_j\)、標本カウントを\(n_j\)、標本平均を\(\bar{y}_j\)として$$ \bar{y}_w = \sum_j P_j \bar{y}_j = \frac{\sum_j w_j n_j \bar{y}_j}{\sum_j w_j n_j} $$です。予測の観点からは、\(P_j\)は既知であり、\(\bar{y}_j\)は事後層\(j\)の母平均\(\bar{Y}_j\)の推定値です。上の式は、それぞれの\(j\)が個別に、アプリオリに独立な平均を持っていると仮定したときのモデルベース推定量です。この推定量は標本が大きいときにはうまく機能しますが、ある事後層における標本サイズが小さいときにはうまくいきません。
 予測アプローチは、\(\bar{y}_j\)という飽和モデルから得られた推定値のかわりに、もっと倹約的なモデルから得られた推定値\(\hat{\mu}_j\)を使います。$$ \bar{y}_{mod} = \sum_j P_j \hat{\mu}_j$$ ここで注意してほしいのは、事後層\(j\)の予測平均\(\hat{\mu}_j\)には依然として「ウェイト」が付与されているという点です。この量が既知であるならばそうすることは適切です。
 修正するのは\(\bar{y}_j\)です。なぜなら他のセルのデータから強みを借りてくるべき場所はここだからです。これは厳密なデザイン・ベース・アプローチでは不可能です。なぜならアウトカム\(Y\)についてのモデルが必要だからです。デザイン・ウェイトを修正するというアイデア(たとえば、事後層が標本において事例を持ち、デザイン・ウェイトが大きくなりすぎないように、事後層を併合するというアイデア)は、\(Y\)の事後層における予測ではなく事例に付与するウェイトに焦点を当てているという点で、焦点の当て方を間違えていると思います。具体的にいうと、セルを併合するということは、\(Y\)の平均がそれらのセルを通じて一定だという暗黙的なモデルを仮定しています。併合へのもっと実証的なアプローチは、回帰木において併合された事後層に基盤を置くやり方でしょう。

 Gelmanさんは飽和モデルからの予測を階層回帰モデルからの予測に置き換えています。彼が提案したモデルは、モデルの主効果に一様事前分布を与えて固定効果とみなし、交互作用に正則事前分布を与えてモデリングすることで交互作用をゼロに向けて縮小しています。このアプローチは、ベイジアンアプローチの力と柔軟性を示す好例であり、他のやり方と比べてより筋のとおった、デザイン・ウェイティングの拡張となっています。

 Gelmanさんがモデリングに関して提示した問いについて、私は以下のようにコメントしたいです。

  1. Gelmanさんはこう書いています。「回帰モデリングはウェイティングと比べてより魅力的な選択肢でありうる。しかし現実には、数多くの交互作用が存在しうるということによって、回帰調整は非常に変動的でありうる」。しかし、層がデザイン変数の同時分布に基づいているとき、飽和モデルに基づくウェイティング推定量はそれらの変数の全ての交互作用を含んでいるわけで、ウェイティング・アプローチはこの問題を最も極端な形で抱えます。交互作用を取り除く、ないし平滑化する、なんらかの回帰モデルのほうが精度が高くなるはずです。
  2. もしすべての主効果と交互作用が階層モデルにあらわれているならば、結果として得られる平均の推定値はデザイン一致であり、サンプルサイズの増大とともに、飽和モデルに基づくウェイティング推定量へと収束します。ベイジアン・アプローチは小標本の平滑化に向けての筋の通ったアプローチです。
  3. 平均の推定値に関していうと、アウトカムと包含プロペンシティとの関係を注意深くモデル化することが重要です。他の変数との関係を捉えることはそれほど重要でありません。なぜなら他の変数の分布は、プロペンシティ・スコアが持つバランシング特性により、プロペンシティの条件下で、包含された事例とされていない事例の間でバランシングしているからです。このアイデアから生まれたのがLittle & An(2004 Stat.Sinica)のプロペンシティ予測の罰則つきスプライン・モデルです。アウトカムと回答プロペンシティとの間の関係を罰則付つきスプラインでモデル化し、そこに他の変数をパラメトリックに追加する、というものです。Zhang & Little (2005 J.OfficialStat.)ではこのモデルを単純化し、さらに無条件平均以外のパラメータへと拡張しました。こうした手法は無回答プロペンシティという事例のために形式化したものですが、標本選択のような他の形式の選択という問題にも容易に適用できます。
  4. 回帰アプローチはウェイトに入れる変数に制約されます[原文: The regression approach conditions on the variable that enter into the weight. conditionが自動詞になってんのはじめて見るかも…]。従って回帰モデルの他の変数の効果はそれらのデザイン変数に関して調整されます。妥当な非調整効果を得るためにはデザイン変数を平均し消去する必要があります。Gelmanさんは回帰を含むモデルについてこの平均化プロセスを記述していますが、表1で、加法モデルをあてはめるときのデザイン変数\(X\)の平均化をやっていないようです。表1で比較されている変化の推定値は比較不能です。なぜなら回帰推定値は\(X\)について調整されているのに変化のweightedな推定値は調整されていないからです。
  5. Gelmanさんは、彼のベイジアン分析から得た事後分布に基づいて分散推定していますが、こうした推定値は回帰モデルの分散推定を誤っている場合にそれに敏感である可能性があります。たとえば、多くの調査変数が正で、その分散が平均とともに増大する傾向があるとしましょう。分散の不均等性があるのに標準的モデルを仮定すると、信頼区間のカバレッジが不正確になります。良い信頼区間カバレッジを得るためには、平均構造だけでなく分散構造にも注意する必要があります。こうした問題を避ける方法のひとつは、ブートストラップのような標本再使用分散推定値を求めることです。こうしたアプローチに対するGelmanさんの態度に関心があります。
    Gelmanの返答: おっしゃるとおりですね。

 Gelmanさんはこういっています。「回帰係数のような複雑なestimandsにウェイトを適用する方法は一般にあきらかでない」。標本ユニットがその包含確率の逆数でウェイトづけられているとき、得ることができるweightedな推定値は幅広いクラスに及びます。その特殊例がweighted擬似尤度です(推定方程式は対数尤度の導関数になります)。ただし、母集団全体についての推定方程式へのweightedな近似を生成することは、上で述べた事後層別のセッティングにおけるウェイティングとは別の問題になります[←このパラグラフ、よくわからない]。

コメント: Lohr
 推定においてウェイトを使うとして、その使い方は次の特徴を持っていることが望まれます。

  1. ウェイトを使わない場合よりも使う場合のほうが、推定量のMSEが小さい。
  2. ウェイトを使った推定量が内的に整合していること。\(\hat{Y}_1\)が母集団における男性の医療支出の合計の推定値、\(\hat{Y}_2\)が母集団における女性の医療支出の合計の推定値、\(\hat{Y}_3\)が母集団における医療支出の合計の推定値ならば、\(\hat{Y}_1 + \hat{Y}_2 = \hat{Y}_3 \)であること。
  3. 性、年齢、人種・エスニシティといった変数について、センサスなり管理データなりから独立した母集団カウントを得ることができるとして、ウェイトを使った推定値はその真の母集団カウントと等しくあってほしい(calibration特性)。
  4. 標本ユニット\(i\)のウェイトはそのユニットで代表される母集団ユニットの数と考えることができる。[えっ、これは必要な特徴なの? 別にどうでもよいのでは…]
  5. 推定量がデータに適合すると考えれる超母集団モデルの下で最適な特性を持っていること。
  6. 推定量は超母集団モデルの誤指定に対して頑健であること。
  7. ウェイト構築手続きが客観的で透明であること。

問題は、すべてを同時にみたすウェイトが作れることが稀だという点です。

 以下では、デザイン・ウェイトと事後層別のウェイティング調整を分けて考えたいと思います。

  • デザイン・ウェイト\(d_i\)はユニット包含確率の逆数で、ユニット\(i\)の特性です。デザイン・ベース推論においてそれは固定された定数です。
  • いっぽう事後層別ウェイト調整は標本\(S\)に依存します。

 比調整のもっとも単純な事例を考えましょう。補足変数\(x\)の既知の母合計を\(X\)とし、\(\hat{X} = \sum_{i \in S} d_i x_i \)とします。個々の標本抽出ウェイトに\(g_i(S, x) = X/\hat{X}\)を掛けた\(w_i(S, x) = d_i x_i\)を最終的なウェイトとします。このウェイトは選択された標本と補足変数\(x\)に依存します。母合計の比推定量は$$ \hat{Y}_r = (X/\hat{X}) \sum_{i \in S} d_i y_i = \sum_{i \in S} w_i(S, x)y_i $$ となります。
 同様に一般化回帰推定では$$ g_i(S, x) = 1 + (X – \hat{X})^\top \left( \sum_{j \in S} d_j x_j x_j^\top / c_j \right)^{-1} x_i/x_i $$ となります(\(c_i\)はスケーリング定数で\(x\)に依存します)。[←やばい、話についていけなくなった…]
 事後層別はこの特殊ケースです。\(i\)が属する事後層を\(c\)として $$ g_i(S, x) = N_c / \hat{N}_c $$ となります。従ってウェイト調整は事後層別では正ですが、一般回帰モデルでは無制約です。\(w_i(S, x)\)は標本によって変わります。ただしウェイト調整は\(x\)のみに依存し\(y\)には依存しません。\(w_i(S, x)\)はその標本のすべての反応変数に関して同一です。
 さて、Gelmanさんが提案した階層モデルでは、さらに\(y\)への依存性が追加されます。\(w_i(S, x, y)\)ということになります。
 
 ここまでに登場したウェイティング・スキーマの、最初に挙げた7つの特性について考えましょう。

  1. MSEの減少。ウェイティング修正の根拠はMSEが小さくなるはずだというものです。反応変数が事後相関で同一の平均を持つならば事後層別ウェイトは推定量の有効性を減らします。[…中略…]
     ウェイトのちらばりによる分散を減少させ、大きなウェイトを持つ観察の影響を減らすため、さまざまなウェイト縮小方法が提案されてきました。伝統的には、エージェンシーは層の併合やウェイトのトリミングを使います。その結果、ウェイトは依然として\(y\)には依存しませんが、最適性の観点から見て正当化しにくくなってしまいます。
     経験ベイズアプローチや混合モデルでウェイトを縮小させるという提案もあります。Gelmanさんの提案は階層回帰を使って回帰パラメータ推定値を縮小しウェイトを平滑化するというものです。それは\(y\)への依存を生みます。
  2. 内的整合性。そのためには、ウェイトは反応変数が異なっていても同一である必要があります。Gelmanさんの提案には内的整合性がありません。公的統計の場合、内的整合性は重要と思います。
  3. カリブレーション。事後層別ウェイトはカリブレーション特性を満たしますが、縮小ウェイトは必ずしも満たしません。カリブレーション特性は大きな分類で大事だと考えられることが多いです(性xエスニシティについて必要だが性xエスニシティx年代についてはなくてもいい、とか)。階層回帰でも情報事前分布を使えば特定の変数についてのみカリブレーション特性を実現することができると思いますが、他の変数については実現できないです。
  4. ウェイトはその標本ユニットが表現している母集団ユニットの数か。一般化回帰推定量から得たウェイトは負となる可能性があります。これは説明しにくいです。
    Gelmanの返答: ウェイトが負になるのは、多くの場合はモデルがまずいんだと思います。モデルが直せないなら負のウェイトはゼロにすればいいんじゃないでしょうか。いっぽう、\(y\)と\(x\)の真の関係が非線形なのだとしたら、負のウェイトでも合理的です(たとえば、特定の下位母集団は多数派の反対の値を持つとか)。
  5. モデル・ベース特性。従来の推定量は、それを生成した超母集団モデルのもとで良い特性を持っていました。Gelmanさんが指摘しているように、特に共変量の数が多いとき、回帰係数の信頼性がどうやったらわかるかという点が重要です。
  6. 頑健性。調査会社のなかには、convenienceな標本を得て、母集団への一般化のために再ウェイティングするという方法をとっているところがあります[どういう意味? RAND研究所のwhite paperがreferされている]。この方法で得た母集団特性推定値の正確性は、ウェイティング・スキーマの基となるモデルに依存します。もし標本の外側でモデルが維持できないなら、母集団推定値は未知の量を持ちます。
     Gelmanさんが描いたウェイトの木 [横軸にモデル(複雑なのを右にする)、縦軸にウェイトをとった折れ線チャート。右に向かって木のように広がる]はウェイトの変動を知るための良いツールだと思います。
  7. ウェイティング手続きが客観的であり、フェアにみえること。Gelmanさんは論文を次のセリフではじめています。「サーヴェイ・ウェイティング、それは泥沼だ」。私はそうは思いません。むしろ、多くの人がウェイトにあまりに多くを求めすぎているのだと思います。まず、どんなウェイトが望ましいのか、目標を定義すべきです。社会科学者は変数間関係に関心を持つので、モデルのもとでの最適性に価値を見いだすでしょう。いっぽう公的統計においては、推定量の内的整合性とウェイト構築方法の透明性が重要でしょう。

コメント: Pfeffermann
[4p強。これはたぶん超めんどくさいぞ… 深呼吸…]

 本論文は主として母平均の一般的な推定量 \(\bar{y}_w = \sum_i w_i y_i / \sum_i w_i\) に焦点を当て、線形回帰モデルを使ったウェイト構築のさまざまなアプローチについて論じている。
 回帰ウェイティングの背後にある発想は、アウトカムに関連しかつ標本選択と反応確率に影響する全ての変数・交互作用をモデルに含めれば、観察データにあてはめたモデルは母集団モデルに一致する、という発想である。説明変数が離散的ならば、それらのすべての組み合わせが事後層別セルとなり、目標とする母集団パラメータは \(\theta = \sum_j N_j \theta_j / \sum_j N_k\) (\(j\)は事後層別セル番号)という形で書けるはずだ、というわけである。

1. 論文へのコメント

  • 事後層別セルの数は膨大になり得る。小さなセルや標本のないセルが生じると、ランダム回帰係数の場合は理屈上は問題ないかもしれないが、固定係数を持つモデルではなにが起きているのかはっきりしなくなる。特に、標本がゼロであるセルは無回答のせいでそうなっているのかもしれないという点が重要である。回帰モデルにおいてこれらのセルを除外することは無視可能性の仮定に反する可能性がある。
    Gelmanの返答: 標本がゼロであるセルが生じた場合には交互作用を減らすか階層回帰モデルを使うべきです。
  • この論文ではセルサイズが既知だと仮定されている。これは小さなセルがたくさんある大規模調査では強い仮定である。実査者はセルサイズを知っているけれど、分析者にはわからない(たとえば秘匿のせいで)ということもある。セルサイズをIPFとかで推定すると、今度はそのことの影響が問題になる。
    Gelmanの返答: 仰るとおり。突き詰めていうと、フル・ベイズ・アプローチで、セルサイズの事後分布を通じた平均を得るということになりそうです。私の悪戦苦闘のこれからの課題です。
  • この論文の背後には、分析者が標本選択と無回答に影響する全ての要因を知っている、という暗黙の仮定がある。さらに、欠損がMARだという仮定もある。
    Gelmanの返答: 欠損がMARだと仮定しているのは標準的方法でも同じです。
  • weightedの推定量の分散の計算は簡単でない。これはウェイトがデータに依存する確率変数になっているからだ。無回答を説明するウェイティング・セルがデータ・ドリブンなのは仕方がないが、所与のセルについて分散の計算が複雑なのは困る。従って、条件付き分散と無条件な分散を区別する必要がある[←話について行けない…どういう指摘だろうか]。さらに、もっと重要な区別は分散とMSEの区別である。セルが正しく定義されていて無回答がMARだというのは本当か、という点が主たる問題だからだ[←分散の推定ができたからといって、モデルの誤指定によるバイアスはわかんないでしょ、ということであろうか]。
  • 本論文は\(y\)の\(z\)に対する回帰を推定する際に2段階の手続きを提案している。まず、\(y\)を\(z\)と\(X\)に回帰する。次に、\(X\)を\(z\)に回帰し、\(y\)の\(z\)のみへの回帰を得る(つまり、\(E(y|z)\)の式を得る\)。このやり方自体は良いけれど、\(X\)の分布が未知ならば(実務ではよくある)、なんらかのウェイティングを使わざるをえなくなる[←??]。従って、実務家はむしろ「重み付き回帰」手続きを好む。\(y\)を\(z\)のみに回帰するが、標本包含確率の逆数をウェイトにした重み付き回帰を使うという手続きである。
     もちろん、Gelmanさんの第1ステップのモデルが正しいならこのモデルは正しくない。しかし、ウェイトが適切であるならば一致推定量にはなる。私が思うに、たいていの分析者は、Gelmanさんの「正しい」モデルを推定するときであれ、重み付き回帰を使うだろう。モデル誤指定が怖いからだ。[そうそう! 今回Gelmanさんの論文を読んでて思ったのはそこだった。やっぱりWLS推定しちゃうと思うね、ふつうなら。ありがとうPfeffermannさん… あなたの名前の読み方はよくわからないけれど…]
    Gelmanの返答: もしウェイトが事後層別で決まってるんなら、重み付き回帰が一致推定量になるというのは仰るとおり。細かい点で恐縮ですが、ウェイトは事後層別で決まるのであり、無回答のことを考えるとそれは標本包含確率の逆数にならないです。このように、理論家は必ずしも現実的でない標本抽出デザインを仮定するという落とし穴にはまりがちであります。
  • Gelmanさんいわく(3.1節)、事後層別推定量\(\hat{\theta}^{PS} = \sum_j N_j \bar{y}_j / \sum_j N_j \)はすべての事後層別セルのインジケータを含めた古典的回帰推定量であるとのこと。\(N_j\)は?これは重み付き回帰推定量ではないの?
    Gelmanの返答: もし回帰モデルが飽和していたらそれは単純なウェイティングと同じで、付加情報はセルサイズだけです。[これはここの質問への返答ではないかも…]
  • Gelmanさんいわく、重み付き回帰は柔軟性に欠け、ウェイトがどのように適用されているかが明確でない。私はそうは思わない。たとえば擬似尤度法は広く用いられている。
  • 階層モデルによるウェイトはアウトカム変数によって異なる。役所の統計部門は効率性が下がろうが単一のウェイトを使いたいだろう。[内的整合性がなくなるから。Lohrさんが挙げているのと似た例で説明している。メモ省略]
  • Gelmanさんはセル平均について独立な正規ランダム効果を想定しているが、モデルに交互作用項が入っているときは適切でない。セル間の距離を反映した空間相関付きモデルのほうがよい。なお、セル数が多くセルサイズがとても小さいときは、\(\hat{\theta}_k\)は\(\hat{\mu}\)に近づくことが多く、その結果ウェイトはほぼ定数となるだろう。

2. 代替モデル
 \(X\)の代理として、標本包含確率のベクトルを使うアプローチを考えよう。[傾向スコアだよね…]
 母集団モデル \( f_p(y|z) \) に関心があるとする。標本モデルを以下のように定義する。$$ f_s (y_i | z_i) \equiv f(y_i | z_i, i \in S) = \frac{Pr(i \in s|y_i, z_i) f_p(y_i | z_i)}{Pr(i \in S|z_i)} $$ もしすべての\(y_i\)について\(Pr(i \in S|y_i, z_i) = Pr(i \in S | z_i) \)なら(つまり抽出プロセスが無視可能なら)、標本モデルと母集団モデルは同一である。
 標本包含確率を \(\pi_i = Pr(i \in S)\)として $$ = \frac{E_p(\pi_i|y_i, z_i) f_p(y_i|z_i)}{E_p(\pi_i|z_i)}$$ と書ける。\(Pr(i \in S | y_i, z_i)\)はふつう\(\pi_i\)ではないという点に注意。前者は\(X\)に(そしてもし欠損がNMARなら\(y_i\)にも\)依存する。しかしモデルに\(X\)を組み込む必要はない。
 ここから、\(w_i = 1 / \pi_i\)として、$$ f_p(y_i | z_i) = \frac{E_s(w_i | y_i, z_i) f_s(y_i | z_i)}{E_s (w_i | z_i)} $$ であることが示せる。これは標本から推定できる。
 標本から得られる「完全尤度」は $$ f(s, y_s| z_s, z_{\tilde{s}}) = \prod_{i in S} Pr(i \in S|y_i, z_i) f_p (y_i | z_i) \cdot \prod_{j \notin S} [1 – Pr(j \in S|z_j)] $$ ここで\(Pr(j \in S | z_j) = \int Pr(j \in S|y_j, z_j) f_p(y_j | z_j) d y_j\)を傾向スコアという。この式を使うには、母集団のすべての個体について共変量が既知でなければならない。

 ここでついでに、重み付き回帰の理論的正当性を示しておこう。
 母集団モデルが \(y_i = z^\top_i \beta + \epsilon_i\)で、\(E_p(\epsilon_i|z_i) = 0, E_p(\epsilon^2_i | z_i) = \sigma^2_\epsilon\)としよう。さっき示したように$$ f_p(y_i | z_i) = \frac{E_s(w_i | y_i, z_i) f_s(y_i | z_i)}{E_s (w_i | z_i)} $$ ここから $$ \beta = argmin_{\tilde{\beta}} E_s [w_i(y_i – z^\top_i \tilde{\beta})^2] $$ であることが示せる[導出過程は略]。よって重み付き回帰推定量 $$ b_w = \frac{\sum_{i \in S} w_i z_i y_i}{\sum_{i \in S} w_i z_i z^\top_i} $$ が最小二乗解である。[ふーん]
 [上の最小化のかわりに\(z_i\)で条件付けたやつを最小化するとちょっと違う推定量が得られるという話。パス]

 上記の標本モデルを使って、有限母集団の合計と平均を推定するには? […力尽きました。パス]

 ここで紹介した代替モデルは、標本選択と回答に影響する変数をモデルに組み込む必要がないという利点がある。また回答プロセスがNMARである場合にも使える。いっぽう、\(E_s(w_i | y_i, z_i)\)のモデル化が必要である(無回答がある場合にはかんたんではないかもしれない)。とはいえ、得られた標本モデルは古典的な適合度統計量で検証できる。
Gelmanの返答: 私は予測子のもとでの回答をモデル化しようとして、Pfeffermannさんは予測子に依存するウェイトを使おうとしている、という違いです。すくなくとも反応についての線形回帰モデルである限り、私のアプローチのほうで得た等価なウェイトは、Pfeffermannさんのウェイトに近くなると希望しています。

Gelmanの返答

1. モチベーション [略]

2. 標本選択確率 [略]

3. 2つの良いアプローチ
 私の論文は悲観的すぎたかも知れません。要するに、現状では良い手法がふたつあるわけです。個体ウェイトとモデリング・事後層別です。
 個体ウェイトはまずはウェイトの構築からはじまります。そこではいくつかの選択肢がありますが、PfeffermannさんやBreidt & Opsomerさんがいうように、実務家は母集団と標本の重要なずれを修正しつつも安定したウェイトをつくることができるのかもしれません。これはアートの領域です。
 平均とか分位点よりももっと複雑な要約統計量を求めるとき、ウェイトを個体対数尤度の要因として組み込むことができます。それは結局は重み付き線形回帰とかに帰着するかもしれません。SEを求めるのは大変だけど、ブートストラップとかで求めることもできるでしょう。
 いっぽうモデリング・事後層別は、標本包含確率に影響する全ての変数をいれた回帰モデルをあてはめ、それらの変数の同時分布を使って平均するわけです。潜在的な交互作用がたくさんあるという点が難点ですが、この方法もこれまで多くの成功を収めてきました(とくに小地域推定)。

4. デザイン・ベースとモデル・ベース
 この論文では、私は「デザイン・ベース」と「モデル・ベース」という区別を避けました。どちらも結局は、デザインについての情報を使っているという点ではデザイン・ベースだからです。突き詰めていえば、私たちはこのふたつの区別から離れて手法を評価する方法を必要としてます。Lohrさんの原則リストは素敵だと思います。

5. 統合的アプローチの潜在的利点
 ウェイティングと回帰モデリングという2つの良いアプローチがあるのに、なぜ私は悪戦苦闘しているのでしょうか? その理由は:

  • 個体ウェイト(母集団推定における主流)と階層モデル・事後層別(小地域推定における主流)とが完全には互換しないからです。後者はLohrさんのいう内的整合性とカリブレーション特性を持ちません。
  • 難しい小地域問題に取り組んでいるからです(たとえば、死刑賛成の州レベル時系列)。もちろん、ウェイトを使って推定するだけでもいいんですけど、ウェイトは私の問題のために作られているわけじゃないです。ウェイトを使っているときに、私がその結果を本当に信頼できるという風に感じることができたらいいのにな、と思うわけです。統合的なアプローチがあれば、自分が正しいと思う階層モデルを使ってウェイトを求め、それをあたかも古典的なワイとのように評価したり使ったりできますよね。\(y\)によってウェイトが違うのが嫌なら、いろんな\(y\)を通してウェイトを平均すればいいじゃないですか。

6. 回帰ないしウェイティングの難題
[上記コメントに埋め込んだ]

7. 要約
 私はウェイティングを強力なツールだと思ってます。でもそこには深刻な限界があります(特に小地域で。ウェイティングは空のセルを扱えません)。私のアイデアは、ウェイティングを回帰モデリングと統合して、回帰モデリングから等価なウェイトを得るというものです。しかし、このアイデアにもそれはそれで難点があります(特に非線形モデルで)。
 Brendt & Opsomerがいうように、デザイン・ベースのパラダイムは本質的重要性を持っています。問いたいのは、小さな下位母集団の推定とか、母集団が変動しているときの時系列比較のような難しい問題に、デザイン・ベースのパラダイムをどうあてはめるかということです。
————-
 やれやれ、終わった…
 8年前に読んだときも思ったんだけど、とても勉強になるけれど、なんだかすっきりしない論文なんですよね、明確な新手法とかが提案されているわけではないから。題名のとおり、Gelmanさんが2007年当時に取り組んでいた悪戦苦闘の報告なのである。

 自分の仕事にあてはめると、目標母集団と標本のずれが問題になるのは、抽出プロセスがはっきりしない非確率標本であるから(任意参加型webパネルの調査だから)という側面と、対象者スクリーニングの際に諸事情により恣意的なスクリーニングをしているからという面がある。市場調査実務に関わっていない人はびっくりするかもしれないが、実はウェイティングを用いる動機は後者であることが少なくない。だから、たとえばスクリーニング調査参加者から得たスクリーニング条件に関わる変数についての回答分布を母集団の共変量分布とみなし、事後層別ウェイトを掛けたりするわけである。私もときどきそのナンセンスさに自分で呆れることがありますが、webパネルのバイアスは不可知だ、できないことはほっといてせめてできることをやろう、という誠実な発想であるとご理解いただければと思う。こういう局面では、(スクリーニング調査参加で条件づけた)本調査選択の共変量は、(本調査中の脱落を無視すれば)既知であり少ないので、MRPみたいな発想はでてこない。
 しかし、ついつい忘れがちになるんですが、ほんとにやるべきことは「できる限り誠実に推定いたしました」と主張することではなく、母集団特性を推定することなのである。ちょうど選挙予測でMPRがブイブイいわせているように、市場調査でもアウトカムがはっきりした調査であれば(販売予測とか)、もうちょっとブイブイいわせてもいいと思うんですよね。おそらく、カリブレーション特性や内的整合性を持たないという点が導入の壁になると思うのだが、それだって既存の枠組みに囚われているだけで、よくよく考えると必須ではないかもしれない。