数学笔记

在本附录中,我将以稍微更多的数学形式描述本章中的一些想法。这里的目标是帮助您熟悉调查研究人员使用的符号和数学框架,以便您可以过渡到关于这些主题的一些更多技术材料。我将首先介绍概率抽样,然后转向无响应的概率抽样,最后是非概率抽样。

概率抽样

作为一个运行的例子,让我们考虑估算美国失业率的目标。让\(U = \{1, \ldots, k, \ldots, N\}\)成为目标总体,让\(y_k\)乘以人\(k\)的结果变量的值。在这个例子中, \(y_k\)是人\(k\)是否失业。最后,让\(F = \{1, \ldots, k, \ldots, N\}\)为帧总体,为简单起见,假设它与目标总体相同。

基本采样设计是简单的随机采样,无需更换。在这种情况下,每个人同样可能被包含在样本\(s = \{1, \ldots, i, \ldots, n\}\) 。当使用此抽样设计收集数据时,研究人员可以使用样本平均值估算人口失业率:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

其中\(\bar{y}\)是人口中的失业率, \(\hat{\bar{y}}\)是失业率的估计值( \(\hat{ }\)通常是用于表示估算器)。

实际上,研究人员很少使用简单的随机抽样而无需替换由于各种原因(其中一个我将在稍后描述),研究人员经常创建具有不等的包含概率的样本。例如,研究人员可能会选择佛罗里达州的人群,其加入概率高于加利福尼亚州。在这种情况下,样本均值(方程3.1)可能不是一个好的估计量。相反,当存在不均衡的包容概率时,研究人员会使用

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

其中\(\hat{\bar{y}}\)是失业率的估计值, \(\pi_i\)是人\(i\)的包含概率。按照标准练习,我会在eq中调用估算器。 3.2 Horvitz-Thompson估计。 Horvitz-Thompson估计非常有用,因为它可以对任何概率抽样设计进行无偏估计(Horvitz and Thompson 1952) 。因为Horvitz-Thompson估计器频繁出现,所以注意它可以重写为

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

其中\(w_i = 1 / \pi_i\) 。如同eq。 3.3显示,Horvitz-Thompson估计量是一个加权样本均值,其权重与选择概率成反比。换句话说,一个人被包括在样本中的可能性越小,该人应该在估计中获得的权重越大。

如前所述,研究人员经常对包含不一致概率的人进行抽样调查。可能导致包含概率不平等的设计的一个例子是分层抽样 ,这对于理解是重要的,因为它与称为后分层的估计过程密切相关。在分层抽样中,研究人员将目标人群分成\(H\)相互排斥和详尽的群体。这些组称为strata ,表示为\(U_1, \ldots, U_h, \ldots, U_H\) 。在这个例子中,阶层是状态。组的大小表示为\(N_1, \ldots, N_h, \ldots, N_H\) 。研究人员可能希望使用分层抽样,以确保每个州有足够的人来做出州级失业估计。

一旦人口被分割成阶层 ,假设研究人员选择一个简单的随机样本而不替换大小\(n_h\) ,独立于每个阶层。此外,假设样本中选择的每个人都成为受访者(我将在下一部分处理不答复)。在这种情况下,包含的概率是

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

由于这些概率可能因人而异,因此在根据此抽样设计进行估算时,研究人员需要使用Horvitz-Thompson估算器(方程3.2)通过其包含概率的倒数对每个受访者进行加权。

尽管Horvitz-Thompson估计器是无偏的,但研究人员可以通过将样本与辅助信息相结合来生成更准确(即,更低方差)的估计。有些人发现即使有完美执行的概率抽样也是如此,这是令人惊讶的。使用辅助信息的这些技术特别重要,因为正如我稍后将要说明的那样,辅助信息对于从具有无响应的概率样本和来自非概率样本的概率样本进行估计是至关重要的。

利用辅助信息的一种常用技术是后分层 。例如,想象一下,研究人员知道50个州中每个州的男性和女性人数;我们可以将这些组大小表示为\(N_1, N_2, \ldots, N_{100}\) 。要将此辅助信息与样本组合,研究人员可以将样本拆分为\(H\)组(在本例中为100),对每个组进行估计,然后创建这些组的加权平均值:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

粗略地说,eq中的估计量。 3.5可能更准确,因为它使用已知的人口信息 - \(N_h\) - 来正确估计是否恰好选择了不平衡的样本。考虑它的一种方法是,在已经收集数据之后,后分层就像是近似分层。

总之,本节描述了一些抽样设计:无替换的简单随机抽样,不等概率抽样和分层抽样。它还描述了关于估计的两个主要观点:Horvitz-Thompson估计和后分层。有关概率抽样设计的更正式定义,请参见Särndal, Swensson, and Wretman (2003)第2章。有关分层抽样的更正式和完整的处理,请参见Särndal, Swensson, and Wretman (2003)第3.7节。关于Horvitz-Thompson估计的性质的技术描述,参见Horvitz and Thompson (1952)Overton and Stehman (1995) ,或@ sarndal_model_2003的第2.8节。关于后分层的更正式的处理,参见Holt and Smith (1979)Smith (1991)Little (1993) ,或Särndal, Swensson, and Wretman (2003) 7.6节。

具有无响应的概率抽样

几乎所有真实的调查都没有回应;也就是说,并非样本群体中的每个人都回答每个问题。有两种主要的无回应: 项目无回应单位无回应 。在项目无回应中,一些受访者不回答某些项目(例如,有时受访者不想回答他们认为敏感的问题)。在单位无应答中,为样本群体选择的某些人根本不对调查做出响应。单位无回应的两个最常见原因是无法联系抽样人员并联系样本人员但拒绝参加。在本节中,我将重点关注单元无回应;对项目无回应感兴趣的读者应该看Little和Rubin (2002)

研究人员经常将单位不答复的调查视为两阶段抽样过程。在第一阶段,研究人员选择样本\(s\) ,使得每个人都有包含概率\(\pi_i\) (其中\(0 < \pi_i \leq 1\) )。然后,在第二阶段,被选入样本的人以概率\(\phi_i\) (其中\(0 < \phi_i \leq 1\) )进行响应。这个两阶段过程导致最终的一组受访者\(r\) 。这两个阶段之间的一个重要区别是研究人员控制选择样本的过程,但他们无法控制哪些抽样人员成为受访者。将这两个过程放在一起,某人成为受访者的可能性就是

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

为简单起见,我将考虑原始样本设计是简单随机抽样而无需替换的情况。如果研究人员选择大小为\(n_s\) \(n_r\)的样本,产生\(n_r\)受访者,如果研究人员忽略不答复并使用受访者的平均值,那么估计的偏差将是:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

其中\(cor(\phi, y)\)是响应倾向与结果(例如,失业状态)之间的人口相关性, \(S(y)\)是结果的人口标准差(例如,失业率)状态), \(S(\phi)\)是响应倾向的总体标准差, \(\bar{\phi}\)是总体平均响应倾向(Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4)

式。 3.7表明如果满足以下任何条件,无回应将不会引入偏差:

  • 失业状况没有变化\((S(y) = 0)\)
  • 响应倾向没有变化\((S(\phi) = 0)\)
  • 反应倾向与失业状态之间没有相关性\((cor(\phi, y) = 0)\)

不幸的是,似乎没有这些条件。似乎难以置信的是,就业状况不会有变化,或者反应倾向不会有变化。因此,eq中的关键术语。 3.7是相关性: \(cor(\phi, y)\) 。例如,如果失业人员更有可能做出回应,那么估计的就业率将会偏向上升。

在无响应时进行估计的技巧是使用辅助信息。例如,您可以使用辅助信息的一种方法是分层后(从上面回忆方程3.5)。事实证明,后分层估计的偏差是:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

其中\(cor(\phi, y)^{(h)}\)\(S(y)^{(h)}\)\(S(\phi)^{(h)}\) ,和\(\bar{\phi}^{(h)}\)定义如上,但仅限于组\(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) 。因此,如果每个后分层组中的偏差很小,则整体偏差将很小。我有两种方式可以考虑在每个后分层组中使偏差变小。首先,你想尝试形成同质群体,其中反应倾向的变化很小( \(S(\phi)^{(h)} \approx 0\) )和结果( \(S(y)^{(h)} \approx 0\) )。其次,你想形成一个群体,你看到的人就像你没有看到的人( \(cor(\phi, y)^{(h)} \approx 0\) )。比较eq。 3.7和eq。 3.8有助于澄清何时分层后可以减少无应答造成的偏见。

总之,本节提供了一个无应答的概率抽样模型,并显示了无应答可以在没有和后分层调整的情况下引入的偏差。 Bethlehem (1988)提供了对更一般抽样设计的无应答引起的偏差的推导。有关使用后分层调整无应答的更多信息,请参阅Smith (1991)Gelman and Carlin (2002) 。后分层是称为校准估计器的更一般的技术家族的一部分,参见Zhang (2000)的物品长度处理和Särndal and Lundström (2005)的书籍长度处理。有关调整无应答的其他其他加权方法的更多信息,请参阅Kalton and Flores-Cervantes (2003)Brick (2013)以及Särndal and Lundström (2005)

非概率抽样

非概率抽样包括各种各样的设计(Baker et al. 2013) 。专注于Wang及其同事(W. Wang et al. 2015)的Xbox用户样本,您可以将这种样本视为抽样设计的关键部分不是\(\pi_i\) (研究者驱动的包容概率)但是\(\phi_i\) (受访者驱动的反应倾向)。当然,这并不理想,因为\(\phi_i\)是未知的。但是,正如Wang及其同事所表明的那样,如果研究人员具有良好的辅助信息和良好的统计模型来解决这些问题,那么这种选择性样本 - 即使来自具有巨大覆盖误差的抽样框架 - 也不一定是灾难性的。

Bethlehem (2010)将关于后分层的许多上述推导扩展到包括无回应和覆盖误差。除了后分层,其他处理非概率样本的技术 - 以及覆盖误差和无响应的概率样本 - 包括样本匹配(Ansolabehere and Rivers 2013; ??? ) ,倾向得分加权(Lee 2006; Schonlau et al. 2009)和校准(Lee and Valliant 2009) 。这些技术中的一个共同主题是使用辅助信息。