4.4.1有效性

这种翻译是由一个计算机创建。 ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.4.1有效性

有效性是指实验的结果多少支持更一般性的结论。

没有实验是完美的，研究人员已经开发出一种可扩展的词汇来形容可能出现的问题。 有效性指的是一个特定实验的结果支持一些一般性结论的程度。社会科学家已经发现它有助于有效期分为四大类：统计结论效度，内部效度，结构效度和外部效度(Shadish, Cook, and Campbell 2001, Ch 2)掌握这些概念将提供给您的批评和改进实验的设计和分析的精神的清单，这将帮助您与其他研究人员沟通。

统计结论有效性中心周围的实验的统计分析是否正确完成。在上下文Schultz et al. (2007)这样的问题可能集中在是否正确计算它们的p值。统计分析超出了本书的范围，但我可以说，设计和分析实验所需要的统计原则并没有在数字时代变了。然而，在数字化实验不同的数据环境，并创造新的统计机会（例如，使用机器学习方法来估计治疗效果的异质性(Imai and Ratkovic 2013)和新的计算挑战（例如，在大量实验阻塞(Higgins, Sävje, and Sekhon 2016)

内部有效性主要围绕实验程序是否被正确执行。返回到的实验Schultz et al. (2007)关于内部效度的问题可围绕着随机化，输送治疗和结果的测量。例如，你可能会关注的是，研究助理没读电表可靠。事实上，舒尔茨和他的同事担心这个问题，他们有两次读取米的样本;幸运的是，结果基本相同。在一般情况下，Schultz和同事的实验似乎具有高内部效度，但是这并不总是如此;复杂的现场和网络实验经常碰到的问题实际上提供正确的治疗给合适的人，并测量结果的每一个人。幸运的是，数字化时代可以帮助减少有关内部效度的关注，因为它可以更容易，以确保按设计那些谁应该接受它，并测量所有参与者结果的处理交付。

围绕构建数据和理论结构之间的匹配有效性中心。正如第2章所讨论的，结构是抽象的概念，社会科学家原因有关。不幸的是，这些抽象的概念并不总是有明确的定义和测量。返回到Schultz et al. (2007) ，该禁令社会规范可以降低电力使用的索赔要求研究人员设计，将操作“禁令社会规范”（例如，表情符号），并测量“用电量”的处理。在模拟实验中，许多研究人员设计了他们自己的治疗和衡量自己的结果。这种方法可以确保，尽可能的匹配实验所研究的抽象结构。在数字实验中与公司或政府的研究人员合作，提供治疗和永远在线的使用数据系统来衡量的结果，实验和理论结构之间的匹配可能不那么紧张。因此，我希望构想效度将趋于比模拟实验，实验的数字更大的关注。

最后， 外部有效性中心围绕该实验的结果是否将推广到其他情形。返回到Schultz et al. (2007) ，人们可能会问，将有关关系到他们的同龄人自己的能源使用和禁令规范（例如，一个表情符号） -减少能源使用，如果它是在一个不同的方式做了一个信号同样的想法，为人们提供信息不同的设置？对于大多数精心设计和运行良好的实验中，关于外部效度的担忧是解决最难的。在过去，关于外部有效性这些辩论是经常只是一堆人坐在房间里试图想象，如果过程被以不同的方式完成，或者在不同的地方，或与不同的人会发生什么。幸运的是，在数字时代使研究人员能够超越这些免费的数据推测和经验评估外部效度。

因为从结果Schultz et al. (2007)是如此令人兴奋，一个名为Opower公司在美国的公用事业公司合作，更广泛地部署的治疗。根据设计Schultz et al. (2007) ，Opower创建定制的家庭能源报道指出，有两个主要的模块，一个呈现出家庭的用电量相对于其邻邦，一个表情，一个提供降低能源使用技巧（图4.6）。然后，在与研究人员合作，Opower跑了随机对照试验，以评估家庭能源报告的影响。尽管在这些实验中的治疗方法，通过老式的蜗牛是典型的交付物理上通常邮件的成果用在物理世界中的数字设备（例如，功率计）测量。而不是手工收集与研究助理来访的每间房子这个信息，Opower实验的合作伙伴关系都做了与电力公司使研究人员能够访问功率读数。因此，这些部分数码领域的实验是在一个大规模以低可变成本运行。

图4.6：家庭能源报告中Allcott（2011年），有一个社会比较模块和一个行动步骤模块。

图4.6：家庭能源报告中Allcott (2011)有一个社会比较模块和一个行动步骤模块。

在第一组涉及60万户左右，美国10公用事业公司担任实验， Allcott (2011)发现家庭能源报告由1.7％降低电力消耗。换句话说，从大的多，更地理上不同的研究的结果是定性类似于从结果Schultz et al. (2007)但是，其效果的大小是小的：在Schultz et al. (2007)在描述和规范射条件（一个与图释）家庭减少5％的用电量。造成这种差异的确切原因尚不清楚，但Allcott (2011)推测，接收手写表情符号作为一所大学赞助的一项研究的一部分，可能对行为产生较大的影响比接受印刷表情符号作为从一个大规模生产报告的一部分电力公司。

此外，在随后的研究中， Allcott (2015)报道了涉及额外的800万个家庭的额外101实验。在今后的101实验家庭能源报告继续引起人们的降低电力消耗，但效果都更小。这一下降的确切原因尚不清楚，但Allcott (2015)推测，该报告的有效性出现，因为它实际上被应用到不同类型的参与者在下降一段时间。更具体地，在更环保区域公用事业更可能采用较早的方案和它们的客户更响应于治疗。与减少对环境的公用事业客户通过的方案，其效益出现下滑。因此，正如随机实验，确保治疗组和对照组相似，随机研究网站保证了估计可以从一组参与者被推广到更广泛的人群（回想一下第3章关于抽样）。如果研究地点不是随机抽样，那么泛化即使从完美的设计，并进行了试验，可能会有问题。

总之，这些实验111-10 Allcott (2011)和101 Allcott (2015)来自全国各地的美国-involved约8.5万户。他们一致显示，家庭能源报告降低平均电力消耗，支持舒尔茨从加州300家原来的调查结果和同事的结果。不仅仅是复制这些原始效果，后续实验还显示，影响的大小因地点而异。这组实验也说明了有关部分数码领域的实验两个基本点。首先，研究人员将能够根据经验有关外部有效性地址担忧时运行实验的成本低，而如果结果是已经由一个永远在线数据系统测定该可以发生。因此，建议研究应该对查找出来为那些已经被记录其他有趣和重要的行为，然后设计在这个现有测量基础架构之上的实验。第二，这组实验提醒我们，数字领域的实验是不只是在网上;越来越多我希望他们将无处不在由传感器在建筑环境中测得的很多成果。

四种类型的有效性，统计结论效度，内部效度的，结构效度，外部效度，提供了一个精神清单，以帮助研究人员评估从一个特定的实验结果是否支持更一般性的结论。相比于模拟时代的实验，在数字化时代的实验应该是比较容易解决经验外部有效性，它应该是更容易保证内部效度。在另一方面，结构效度的问题将可能会在数字化时代的实验更具挑战性（虽然这不是与Opower实验的情况下）。