3.4.3非確率サンプル:サンプルマッチング

全ての非確率サンプルが同じです。私たちは、フロントエンドでより多くの制御を追加することができます。

王とその同僚は、2012年米国大統領選挙の結果を推定するために使用されるアプローチは、データ分析の改善に完全に依存していました。つまり、彼らはできる限り多くの回答を集め、次いで、それらを重量を再度しようとしました。非確率サンプリングを使用するための補完的な戦略は、データ収集プロセスをより細かく制御を持つことです。

部分的に制御非確率サンプリングプロセスの最も簡単な例は、 クォータサンプリング 、調査研究の初期の頃に戻った技術です。クォータのサンプリングでは、研究者らは、異なるグループ(例えば、若い男性、若い女性、など)に人口を分割し、各グループ内で選択する人々の数のクォータを設定します。研究者が各グループにクオータを満たしているまで、回答者は偶然の方法で選択されています。そのため、クォータの、得られた試​​料は、よりそうでなければ真であるよりも標的集団のように見えるが、介在物の確率が不明であるため、多くの研究者は、クォータサンプリングの懐疑的です。実際には、クォータサンプリングが原因1948年米国大統領の世論調査でエラー "デューイはトルーマンを破る"でした。それはサンプリング処理をある程度制御を提供するので、しかし、1クォータサンプリングが完全に制御されていないデータ収集の上にいくつかの利点を持っている可能性があるかを見ることができます。

クォータのサンプリングを超えて移動すると、非確率サンプリング処理を制御するより現代的なアプローチが可能になりました。このようなアプローチの1つは、 サンプル・マッチングと呼ばれ、それはいくつかの商用オンライン・パネル・プロバイダによって使用されます。人口の1)完全なレジスタとボランティアの2)大型パネル:最も単純な形式で、サンプルのマッチングは、2つのデータソースを必要とします。ボランティアは、任意の集団から確率のサンプルである必要はないことが重要です。パネルに選択のための要件がないことを強調するために、私は汚れたパネルを呼び出します。また、人口のレジスタと汚れたパネルの両方が、この例では、私は年齢や性別を考慮しますが、現実的な状況では、この補助情報は、はるかに詳細な可能性があり、一人一人についてのいくつかの補助的な情報を含める必要があります。サンプルマッチングのトリックは、確率のサンプルように見えるサンプルを生成方法で汚れたパネルからサ ​​ンプルを選択することです。

シミュレートされた確率サンプルが母集団レジスタから取られたときのサンプルのマッチングが開始されます。このシミュレートされたサンプルは、 対象試料となります。そして、補助情報に基づいて、対象試料中の例は、 一致したサンプルを形成するために汚れたパネルの人々に一致しています。たとえば、場合、ターゲット試料中の25歳の女性があり、その後、研究者は、一致したサンプルにあるように汚れたパネルから25歳の女性を見つけました。最後に、 マッチしたサンプルのメンバーは、回答者の最終セットを生成するためにインタビューされています。

マッチしたサンプルは、標的サンプルのように見えるにもかかわらず、一致したサンプルは、確率のサンプルではないことを覚えておくことが重要です。マッチしたサンプルは、唯一知られている補助情報(例えば、年齢、性別)にではなく、未測定の特性にターゲットサンプルを一致させることができます。汚れたパネル上の人々は貧しく、すべての後になる傾向がある場合たとえば、調査パネルに参加する一つの理由はお金-その後を獲得することです一致したサンプルは、年齢や性別の点で標的サンプルのように見えたとしても、それはまだ持っています貧しい人々へのバイアス。真の確率サンプリングの魔法は両方を測定し、測定されない特性上の問題(第2章の観察研究から因果推論のためのマッチングの我々の議論と一致している点)を排除することです。

実際には、サンプルのマッチングが調査を完了するために熱心大規模かつ多様なパネルを有するに依存し、したがって、それは主に、このようなパネルを開発し、維持する余裕がある企業によって行われます。また、実際には、マッチング(時には標的サンプルの誰かのために良い試合がパネル上に存在しない)と非応答(時には一致したサンプル中の人が調査に参加することを拒否)に問題があることができます。そのため、実際には、サンプルのマッチングを行う研究者はまた、見積りを行うために後層別調整のいくつかの種類を実行します。

サンプルのマッチングに関する有用な理論的な保証を提供するのは難しいですが、実際にはそれがうまく実行することができます。例えば、スティーブンAnsolabehereとブライアン・シャフナー(2014) 、メール、電話、およびサンプルのマッチングとポスト成層調整を使用してインターネットパネル:3種類のサンプリングを使用し、方法をインタビューし、2010年に行われ、約1,000人の3つの並列調査を比較しました。 3つのアプローチからの推定値は、このような現在の人口調査(CPS)と国民健康インタビュー調査(NHIS)のような高品質のベンチマークからの見積もりと非常に類似していました。具体的には、両方のインターネットやメール調査は3%ポイントの平均と電話調査ではオフにした4%ポイントオフになっていました。この大きな誤差は1つが、約1,000人のサンプルから期待およそするものです。なお、実質的に良好なデータ生成され、これらのモードのいずれも、(8ヶ月かかりました)郵送調査よりもフィールドに、実質的に速かった(数日または数週間を要した)は、インターネットや電話調査、およびサンプル・マッチングを使用するインターネット調査、両方、他の二つのモードよりも安かったです。

結論として、社会科学者や統計学者は、彼らがそのような文学ダイジェスト世論調査など調査研究のいくつかの厄介な障害に関連付けられている部分であるため、これらの非確率サンプルからの推論の信じられないほど懐疑的です。一部では、私はこの懐疑的に同意する:未調整の非確率サンプルは悪い推定値を生成する可能性があります。研究者は、サンプリング処理におけるバイアスのために(例えば、後の成層)を調整するか、サンプリング処理若干(例えば、サンプル・マッチング)を制御することができる場合は、それらはより良い推定値を生成することができ、ほとんどの目的のために十分な品質であっても推定します。もちろん、完全に実行される確率サンプリングを行う方が良いことはないだろうが、それはもはや現実的な選択肢であるように思われます。

非確率サンプルと確率サンプルの両方が、その品質に変化し、現在はそれが可能性が高い確率サンプルからほとんどの推定値が非確率サンプルからの推定値よりも信頼できるケースです。しかし、今でも、おそらく不十分-行っ確率サンプルからの推定値よりも優れている、よく行っ非確率サンプルから推定します。さらに、非確率サンプルは、実質的に安価です。したがって、非確率サンプリング対その確率はコスト品質のトレードオフ(図3.6)を提供しています表示されます。楽しみにして、私はよく行っ非確率サンプルからの推定値が安く、良くなることを期待しています。さらに、ため固定電話調査と非応答の増加率の内訳を、私は確率サンプルは、より高価になり、低品質のことを期待しています。そのため、これらの長期的な傾向の、私は非確率サンプリングは調査研究の第三の時代にますます重要になると思います。

図3.6:実際には確率サンプリングと非確率サンプリングは、両方の大規模な、異種のカテゴリです。一般に、より低いコスト、より高いエラーである非確率サンプリングとコストエラートレードオフが存在します。しかし、よく行っ非確率サンプリングが不十分-行わ確率サンプリングよりも良い推定値を生成することができます。将来的には、私は確率サンプリングが悪化し、より高価な取得する一方、非確率サンプリングがより良く、より安くなることを期待しています。

図3.6:実際には確率サンプリングと非確率サンプリングは、両方の大規模な、異種のカテゴリです。一般に、より低いコスト、より高いエラーである非確率サンプリングとコストエラートレードオフが存在します。しかし、よく行っ非確率サンプリングが不十分-行わ確率サンプリングよりも良い推定値を生成することができます。将来的には、私は確率サンプリングが悪化し、より高価な取得する一方、非確率サンプリングがより良く、より安くなることを期待しています。