3.4.1概率抽样：数据收集和数据分析

权重可以撤消采样过程中故意造成的扭曲。

概率的样品是其中所有的人都有一个已知的，非零夹杂概率，和最简单的概率抽样设计是简单随机抽样 ，其中每个人都有列入概率相同。当受访者是通过完美执行（例如，没有覆盖的错误和没有非响应）简单随机抽样选中，然后估计是简单，因为样本将上平均是人口的微缩版。

简单随机抽样在实践中很少使用，但是。相反，研究人员有意为了降低成本和提高精确度选择具有包容不等概率人。当研究人员有意选择具有包容不同的概率的人，则需要调整撤消引起的采样过程中的扭曲。换句话说，我们如何从一个样品概括取决于如何选择的样本。

例如，当前人口调查（CPS）用于美国政府估计失业率。每个月大约有10万人接受采访，无论是脸对脸或电话，结果被用来产生估计的失业率。由于政府希望估计在每个国家的失业率，它不能做大人的简单随机样本，因为这将与小人群（如，罗得岛），并从人口众多的国家太多的国家产生过少的受访者（如：，加州）。相反，CPS样的人在不同的国家以不同的速率，这个过程被称为不等概率选择的分层抽样 。例如，如果想CPS 2000受访者每状态，那么在罗得岛州的成年人将有包容比成人在加利福尼亚州的约30倍的概率较高（罗得岛：每80万成人2000受访者VS美国加州：每3000万成人2000名受访者）。正如我们将在后面看到，这种不等概率抽样的情况与数据的在线资源也是如此，但不同的是CPS，采样机制是不知道或研究人员的控制。

鉴于其抽样设计，CPS不能直接代表美国;它包括来自罗得岛的人太多了，并从加州太少。因此，这将是不明智的，估计该国的失业率与样本中的失业率。代替样本均值的，最好是取加权平均，其中权重占事实从罗德岛人更可能被包括比从加利福尼亚人。例如，从加利福尼亚每个人将是upweighted-他们会更个性化的估计和每个人从罗德岛将downweighted - 它们将计算在估计少。在本质上，您将得到更多的声音，你是不太可能了解的人。

这种玩具的例子说明了一个重要但通常被误解的一点：一个样品不需要是人口的微缩版本，以产生良好的预期。如果有足够的人知道数据是如何收集的，则可以使从样本估计时，可以使用这些信息。这种方法我刚刚描述的和我的技术在数学上描述了古典概率抽样框架内方形附录下降。现在，我将展示同样的想法如何可以适用于非概率样本。