4.4超越简单的实验

让我们超越简单的实验。三个概念对于丰富的实验是有用的:有效性,治疗效果的异质性和机制。

不熟悉实验的研究人员往往关注一个非常具体,狭隘的问题:这种治疗方法“有效”吗?例如,志愿者的电话是否鼓励某人投票?将网站按钮从蓝色更改为绿色会增加点击率吗?不幸的是,关于什么“有效”的松散措辞掩盖了这样一个事实,即狭隘的实验并没有真正告诉你治疗是否在一般意义上“起作用”。相反,狭隘的实验回答了一个更具体的问题:此特定治疗对这一特定实施的平均影响是什么?我将实验专注于这个狭隘的问题简单的实验

简单的实验可以提供有价值的信息,但是它们无法回答许多重要且有趣的问题,例如是否有一些人的治疗效果更大或更小;是否有其他治疗方法会更有效;以及这个实验是否涉及更广泛的社会理论。

为了展示超越简单实验的价值,让我们考虑一下P. Wesley Schultz及其同事关于社会规范与能源消耗之间关系的模拟现场实验(Schultz et al. 2007) 。 Schultz及其同事在加利福尼亚州圣马科斯的300户家庭中挂了门,而这些门厅提供了不同的信息,旨在鼓励节约能源。然后,Schultz及其同事在一周后和三周后测量了这些信息对电力消耗的影响;有关实验设计的更详细说明,请参见图4.3。

图4.3:Schultz等人的实验设计示意图。 (2007年)。田间实验涉及在八周内对加利福尼亚州圣马科斯的约300户家庭进行五次访问。在每次访问时,研究人员手动从房子的功率计读取数据。在其中两次访问中,他们在每个房屋上放置了门铃,提供了有关家庭能源使用情况的一些信息。研究问题是这些信息的内容将如何影响能源使用。

图4.3: Schultz et al. (2007)的实验设计示意图Schultz et al. (2007) 。田间实验涉及在八周内对加利福尼亚州圣马科斯的约300户家庭进行五次访问。在每次访问时,研究人员手动从房子的功率计读取数据。在其中两次访问中,他们在每个房屋上放置了门铃,提供了有关家庭能源使用情况的一些信息。研究问题是这些信息的内容将如何影响能源使用。

该实验有两个条件。首先,家庭获得了一般的节能技巧(例如,使用风扇而不是空调)以及与其邻近地区的平均能源使用量相比的能源使用情况。 Schultz及其同事将此称为描述性规范条件,因为有关邻域能源使用的信息提供了有关典型行为的信息(即描述性规范)。当Schultz及其同事研究了这一组中产生的能量使用情况时,无论是短期还是长期,治疗似乎都没有效果;换句话说,治疗似乎没有“奏效”(图4.4)。

幸运的是,Schultz及其同事并不满足于这种简单的分析。在实验开始之前,他们认为电力的大量用户 - 高于平均水平的人 - 可能会减少他们的消费,而电力用户 - 低于平均水平的用户 - 实际上可能会增加他们的消费。当他们查看数据时,这正是他们发现的(图4.4)。因此,看起来像没有效果的治疗实际上是一种具有两种抵消效果的治疗方法。轻度使用者中的这种适得其反的增加是回飞镖效应的一个例子,其中治疗可以产生与预期相反的效果。

图4.4:Schultz等人的结果。 (2007年)。图(a)显示描述性标准治疗具有估计的零平均治疗效果。然而,图(b)显示该平均治疗效果实际上由两种抵消效应组成。对于重度使用者,治疗减少了使用,但对于轻度使用者,治疗增加了使用。最后,小组(c)显示,使用描述性和禁令性规范的第二种治疗对重度使用者具有大致相同的效果,但减轻了对轻度使用者的回旋镖效应。改编自Schultz等人。 (2007年)。

图4.4: Schultz et al. (2007)结果Schultz et al. (2007) 。图(a)显示描述性标准治疗具有估计的零平均治疗效果。然而,图(b)显示该平均治疗效果实际上由两种抵消效应组成。对于重度使用者,治疗减少了使用,但对于轻度使用者,治疗增加了使用。最后,小组(c)显示,使用描述性和禁令性规范的第二种治疗对重度使用者具有大致相同的效果,但减轻了对轻度使用者的回旋镖效应。改编自Schultz et al. (2007)

在第一个条件的同时,Schultz及其同事也遇到了第二个条件。处于第二种情况的家庭获得了完全相同的治疗 - 一般节能技巧和有关其家庭能源使用情况的信息与其社区的平均值相比 - 只有一小部分:对于消费水平低于平均水平的人,研究人员补充说:并且对于消费高于平均水平的人,他们增加了:(。这些表情符号旨在触发研究人员所称的禁令规范 。禁令规范指的是对通常被批准(和不被批准)的看法,而描述性规范指的是对常见的事情(Reno, Cialdini, and Kallgren 1993)

通过添加这一个微小的表情符号,研究人员大大减少了飞旋镖效应(图4.4)。因此,通过使这一个简单的改变 - 由抽象的社会心理学理论(Cialdini, Kallgren, and Reno 1991)推动的变化 - 研究人员能够将一个似乎没有工作的程序变成一个有效的程序,同时,他们能够促进对社会规范如何影响人类行为的一般理解。

但是,在这一点上,你可能会注意到这个实验有些不同。特别是,Schultz及其同事的实验并没有像随​​机对照实验那样拥有对照组。这种设计与Restivo和van de Rijt的设计之间的比较说明了两种主要实验设计之间的差异。在诸如Restivo和van de Rijt 之间的受试者之间的设计中 ,有一个治疗组和一个对照组。另一方面,在受试者内部设计中 ,在治疗之前和之后比较参与者的行为(Greenwald 1976; Charness, Gneezy, and Kuhn 2012) 。在受试者内部实验中,就好像每个参与者都充当自己的对照组。受试者之间设计的优势在于它们提供了对混杂因素的保护(如前所述),而受试者内部实验的强度则提高了估计的精确度。最后,为了预示将在我提供有关设计数字实验的建议后出现的想法,一个混合设计 - 结合了主体内设计的改进精度和防止主体间设计的混淆(图4.5)。

图4.5:三个实验设计。标准随机对照实验使用受试者之间的设计。一个主体间设计的一个例子是Restivo和van de Rijt(2012)关于巴恩斯坦的实验和对维基百科的贡献:研究人员将参与者随机分为治疗组和对照组,给治疗组的参与者提供了一个barnstar,并比较了结果。两组。第二种设计是主体内设计。 Schultz及其同事(2007)关于社会规范和能量使用的研究中的两个实验说明了一个受试者内部的设计:研究人员比较了接受治疗前后参与者的用电情况。受试者内部的设计提供了改进的统计精确度,但它们对可能的混杂因素(例如,治疗前和治疗期间的天气变化)持开放态度(Greenwald 1976; Charness,Gneezy和Kuhn 2012)。受试者内部的设计有时也被称为重复测量设计。最后,混合设计结合了主体内设计的改进精度和防止主体间设计的混淆。在混合设计中,研究人员比较治疗组和对照组患者的结果变化。当研究人员已经拥有预处理信息时,就像许多数字实验中的情况一样,混合设计通常优于受试者之间的设计,因为它们可以提高估计的精确度。

图4.5:三个实验设计。标准随机对照实验使用受试者之间的设计。一个主体间设计的一个例子是Restivo和van de Rijt (2012)关于巴恩斯坦的实验和对维基百科的贡献:研究人员将参与者随机分为治疗组和对照组,给治疗组的参与者提供了一个barnstar,并比较了结果。两组。第二种设计是主体内设计。 Schultz及其同事(2007)关于社会规范和能量使用的研究中的两个实验说明了一个受试者内部的设计:研究人员比较了接受治疗前后参与者的用电情况。受试者内部设计提供了改进的统计精确度,但它们对可能的混杂因素(例如,治疗前和治疗期间的天气变化) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) 。受试者内部的设计有时也被称为重复测量设计。最后, 混合设计结合了主体内设计的改进精度和防止主体间设计的混淆。在混合设计中,研究人员比较治疗组和对照组患者的结果变化。当研究人员已经拥有预处理信息时,就像许多数字实验中的情况一样,混合设计通常优于受试者之间的设计,因为它们可以提高估计的精确度。

总体而言,Schultz及其同事(2007)的研究设计和结果显示了超越简单实验的价值。幸运的是,你不需要成为一个创造性的天才来设计这样的实验。社会科学家已经开发出三个概念,指导您进行更丰富的实验:(1)有效性,(2)治疗效果的异质性,以及(3)机制。也就是说,如果您在设计实验时牢记这三个想法,您自然会创建一个更有趣和有用的实验。为了说明这三个概念的实际应用,我将描述一些后续的部分数字现场实验,这些实验建立在Schultz及其同事(2007)的优雅设计和令人兴奋的结果之上。正如您将看到的,通过更仔细的设计,实施,分析和解释,您也可以超越简单的实验。