3.4.1確率サンプリング:データ収集とデータ分析

重みは、意図的にサンプリング処理に起因する歪みを元に戻すことができます。

確率サンプルは、すべての人々がインクルージョンの知られ、非ゼロの確率を持っており、最も単純な確率サンプリングデザインはそれぞれの人が、介在物の等しい確率を持つ単純無作為抽出であるものです。回答者は、完璧な実行(例えば、無カバレッジエラーなし非応答)との単純無作為抽出を介して選択された場合、サンプルがオンになります人口のミニチュア版平均であるため、その後の推定は簡単です。

単純無作為抽出はめったにしかし、実際には使用されません。むしろ、研究者が意図的にコストを削減し、精度を高めるために含めるの不等確率を持つ人々を選択します。研究者が意図的に含めるの異なる確率を持つ人々を選択すると、その後の調整は、サンプリング処理に起因する歪みを元に戻すために必要とされています。言い換えれば、私たちはサンプルから一般化方法のサンプルを選択した方法によって異なります。

例えば、現在の人口調査(CPS)は、失業率を推定するために米国政府によって使用されます。毎月約10万人が対面や電話でのいずれか、インタビューされ、その結果は、推定失業率を生成するために使用されます。例えば(政府が各状態で失業率を推定することを望むことは、小さな集団(例えば、ロードアイランド州)との州で、あまりにもいくつかの回答を生じるので、それは大人の単純無作為標本を行うことができないため、大規模な人口の状態からあまりにも多くの、 カリフォルニア)。その代わりに、異なる速度で異なる状態でのCPSサンプルの人々は、このプロセスは、選択の不均等な確率で層化抽出と呼ばれます。 CPSは、状態ごとに2,000の回答を望んでいた場合たとえば、その後、ロードアイランド州の成人は、カリフォルニア州(:カリフォルニア対80万大人2,000回答者:3000万大人2,000被告ロードアイランド州)の成人よりも含めるの約30倍より高い確率を持っているでしょう。我々は後で見るように、不等確率でサンプリングこの種のは、あまりにもデータのオンラインソースで行われますが、CPSとは異なり、サンプリング機構は、通常知られていないか、研究者によって制御されます。

そのサンプリングデザインを考えると、CPSは直接米国の代表ではありません。それはあまりにも多くのロードアイランド州からの人々とカリフォルニアからの数が少なすぎるが含まれています。したがって、試料中の失業率と国の失業率を推定することは賢明であろう。代わりに、標本平均の、重みがロードアイランド州からの人々はカリフォルニアからの人よりも含まれる可能性が高かったという事実を考慮し加重平均を取ることをお勧めします。例えば、カリフォルニア州から一人一人は、彼らがされる​​ことになるロードアイランド州から推定-と一人一人で複数のカウントになるupweighted-だろうdownweightedを-彼らは見積もりではあまりを数えることになります。本質的には、あなたが学ぶしにくい人々にもっと声を与えられています。

このおもちゃの例では、重要ではあるが、一般的に誤解のポイントを示しています。サンプルが良い推定値を生成するために、人口のミニチュア版である必要はありません。十分にデータが収集されたかについては知られていた場合は、サンプルから推定を行うとき、その情報を使用することができます。アプローチは、私はちょうど説明-と私は技術的に数学的に記述することは、古典的な確率サンプリング枠組みの中で真正面付録-落ちてきました。今、私は同じ考えは、非確率サンプルに適用する方法を紹介します。