Bit By Bit - 运行试验

这种翻译是由一个计算机创建。 ×

活动

难度：容易，中等，很难，很难
需要数学（ $需要数学$ ）
需要编码（）
数据采集（）
我最喜欢的（）

[ ， Berinsky及其同事(2012)通过复制三个经典实验来评估MTurk。重复Tversky and Kahneman (1981)的经典亚洲疾病框架实验。你的结果与Tversky和Kahneman相匹配吗？你的结果是否与那些Berinsky及其同事相符？无论如何，这教会我们如何使用MTurk进行调查实验？
[ ，在一篇名为“我们要分手”的文章中，社会心理学家罗伯特·西亚迪尼是Schultz et al. (2007)的作者之一Schultz et al. (2007) ，写道，他早期从教授的职位退休，部分是因为他在一个主要进行实验室实验的学科（心理学）中进行实地试验所面临的挑战(Cialdini 2009) 。阅读Cialdini的论文，给他写一封电子邮件，敦促他根据数字实验的可能性重新考虑他的分手。使用解决他的问题的研究的具体例子。
[ ]为了确定小的初始成功是锁定还是逐渐消失，van de Rijt和他的同事(2014)介入了四个不同的系统，使随机选择的参与者获得成功，然后测量这种任意成功的长期影响。您能想到其他可以进行类似实验的系统吗？根据科学价值，算法混淆（见第2章）和道德问题来评估这些系统。
[ ， ]实验结果可能取决于参与者。创建一个实验，然后使用两种不同的招聘策略在MTurk上运行它。尝试选择实验和招募策略，以使结果尽可能不同。例如，您的招聘策略可能是在早上和晚上招募参与者，或者补偿高薪和低薪的参与者。招聘策略中的这些差异可能导致不同的参与者群体和不同的实验结果。你的结果有多么不同？这揭示了在MTurk上运行实验的内容？
[ ， $需要数学$ ， ]想象一下，您正在计划情绪传染实验(Kramer, Guillory, and Hancock 2014) 。使用Kramer (2012)早期观察性研究的结果来确定每种情况下的参与者数量。这两项研究并不完全匹配，因此请务必明确列出您所做的所有假设：
1. 运行一个模拟，该模拟将确定需要多少参与者来检测与Kramer (2012)效果一样大的效果，其中 $\alpha = 0.05$ 和 $1 - \beta = 0.8$ 。
2. 分析地进行相同的计算。
3. 鉴于Kramer (2012)的结果是Emotional Contagion (Kramer, Guillory, and Hancock 2014)过度供电（即，是否有更多的参与者而不是需要）？
4. 您所做的假设对您的计算影响最大？
[ ， $需要数学$ ， ]再次回答上一个问题，但这次不是使用Kramer (2012)早期的观察性研究，而是使用Lorenzo Coviello et al. (2014)早期自然实验的结果Lorenzo Coviello et al. (2014) 。
[ ] Margetts et al. (2011)和van de Rijt等人。 (2014)进行了实验研究人们签署请愿书的过程。比较和对比这些研究的设计和发现。
[ ] Dwyer, Maki, and Rothman (2015)对社会规范与亲环境行为之间的关系进行了两次实地试验。这是他们论文的摘要：

“如何利用心理科学来鼓励环保行为？在两项研究中，旨在促进公共浴室节能行为的干预措施考察了描述性规范和个人责任的影响。在研究1中，在某人进入未占用的公共浴室之前操纵了光的状态（即，打开或关闭），表明该设置的描述性标准。如果参加者在进入时关闭，他们更有可能关灯。在研究2中，还包括一个附加条件，其中关闭灯的规范由联盟证明，但参与者本身并不负责打开它。个人责任缓和了社会规范对行为的影响;当参与者不负责打开灯时，规范的影响就会减弱。这些结果表明描述性规范和个人责任如何规范环境干预措施的有效性。“

阅读他们的论文并设计研究的复制1。
[ ， ]在前一个问题的基础上，现在进行您的设计。
1. 结果如何比较？
2. 什么可以解释这些差异？
[ 关于使用从MTurk招募的参与者的实验，存在大量争论。与此同时，关于使用从本科学生群体招募的参与者的实验也存在大量争论。写一份两页的备忘录，比较和对比Turkers和本科生作为研究参与者。您的比较应包括对科学和后勤问题的讨论。
[ ] Jim Manzi的书Uncontrolled (2012)是对商业实验能力的精彩介绍。在书中他转述了以下故事：

“我曾经与一位真正的商业天才会面，他是一位白手起家的亿万富翁，对实验的力量有着深刻而直观的低调。他的公司花费了大量资源，试图创造出能吸引消费者并增加销售额的精美商店橱窗展示，正如传统智慧所说的那样。专家们在设计之后对设计进行了仔细测试，并在多年的个别测试评审中不断显示每个新的显示器设计对销售的重大因果影响。高级营销和推销高管会见了首席执行官，以便全面审查这些历史测试结果。在介绍了所有实验数据后，他们得出结论认为传统智慧是错误的 - 窗口显示不会推动销售。他们建议的行动是减少这方面的成本和努力。这极大地证明了实验推翻传统智慧的能力。首席执行官的回答很简单：“我的结论是你的设计师不是很好。”他的解决方案是增加商店展示设计的努力，并让新人去做。“ (Manzi 2012, 158–9)

首席执行官关注的是哪种有效性？
[ ]在前一个问题的基础上，假设您参加了讨论实验结果的会议。您可以提出四个问题 - 每种类型的有效性（统计，构造，内部和外部）？
[ Bernedo, Ferraro, and Price (2014)研究了Ferraro, Miranda, and Price (2011)所描述的节水干预的七年效应（见图4.11）。在本文中，Bernedo及其同事还试图通过比较治疗结束后有和没有移动的家庭的行为来了解效果背后的机制。也就是说，粗略地说，他们试图看待治疗是否影响了房屋或房主。
1. 阅读论文，描述他们的设计，并总结他们的发现。
2. 他们的发现是否影响您应该如何评估类似干预措施的成本效益？如果是这样，为什么？如果没有，为什么不呢？
[ ]在Schultz et al. (2007)的后续行动中Schultz et al. (2007) ，Schultz及其同事在两种情况下（酒店和分时度假公寓）对描述性和禁令性规范对不同环境行为（毛巾再利用）的影响进行了一系列三次实验(Schultz, Khazian, and Zaleski 2008) 。
1. 总结这三个实验的设计和发现。
2. 如果有的话，他们如何改变你对Schultz et al. (2007)解释Schultz et al. (2007) ？
[ ]回应Schultz et al. (2007) ， Canfield, Bruin, and Wong-Parodi (2016)进行了一系列实验室式实验来研究电费账单的设计。以下是他们如何在摘要中描述它：

“在一项基于调查的实验中，每位参与者都看到了一个电力使用相对较高的家庭的假设电费账单，其中包括（a）历史使用情况，（b）与邻居的比较，以及（c）家电故障的历史使用情况。参与者以三种格式之一看到所有信息类型，包括（a）表格，（b）条形图和（c）图标图形。我们报告了三个主要发现。首先，当消费者在表格中呈现时，消费者最了解每种类型的用电信息，这可能是因为餐桌便于简单的点读。其次，节约电力的偏好和意图是历史使用信息最强的，与格式无关。第三，能源素养较低的人更少了解所有信息。“

与其他后续研究不同， Canfield, Bruin, and Wong-Parodi (2016)的主要结果是报告的行为，而不是实际行为。在更广泛的促进节能研究计划中，此类研究的优点和缺点是什么？
[ ， Smith and Pell (2003)提出了一项讽刺性的荟萃分析，证明了降落伞的有效性。他们总结道：

“与许多旨在预防疾病的干预措施一样，降落伞的有效性尚未通过使用随机对照试验进行严格评估。循证医学的倡导者批评采用仅使用观察数据评估的干预措施。我们认为，如果基于证据的医学最激进的主角组织并参与了降落伞的双盲，随机，安慰剂对照，交叉试验，每个人都可能受益。“

写一篇适合普通读者报的专栏，例如纽约时报 ，反对实验证据的迷信。提供具体的具体例子。提示：另见Deaton (2010)和Bothwell et al. (2016) 。
[ ，， ]治疗效果的差异差异估计可以比差异均值估计更精确。在一家初创社交媒体公司向负责A / B测试的工程师写一份备忘录，解释运行在线实验的差异差异方法的价值。备忘录应该包括一个问题陈述，一些关于差异差异估计器将胜过均值差估计的条件的直觉，以及一个简单的模拟研究。
[ ， ] Gary Loveman在担任Harrah's的首席执行官之前曾是哈佛商学院的教授，该公司是世界上最大的赌场公司之一。当他搬到Harrah's时，Loveman用频繁的飞行员式忠诚度计划改变了公司，该计划收集了大量有关客户行为的数据。在这个永远在线的测量系统之上，该公司开始进行实验。例如，他们可能会进行一项实验来评估优惠券对具有特定赌博模式的客户的免费酒店住宿的影响。以下是Loveman如何描述实验对Harrah日常业务实践的重要性：

“这就像你不骚扰女人，你不偷，你必须有一个控制组。这是你可能在Harrah的工作中失去工作的事情之一 - 没有管理一个控制组。“ (Manzi 2012, 146) 2012,146 (Manzi 2012, 146)

给新员工写一封电子邮件，解释为什么Loveman认为拥有一个控制组是如此重要。你应该尝试包括一个例子 - 无论是真实的还是弥补的 - 来说明你的观点。
[ ， $需要数学$ ]一项新实验旨在估计接收短信提醒对疫苗接种的影响。 150个诊所，每个诊所有600名符合条件的患者，愿意参加。您希望使用的每个诊所的固定费用为100美元，每封发送的短信费用为1美元。此外，您正在与之合作的任何诊所都将免费测量结果（是否有人接种疫苗）。假设您的预算为1,000美元。
1. 在什么条件下将资源集中在少数诊所可能会更好，在什么条件下更广泛地传播它们会更好？
2. 哪些因素会决定您能够通过预算可靠地检测到的最小影响大小？
3. 写一份备忘录，向潜在的资助者解释这些权衡。
[ ， $需要数学$ ]在线课程的一个主要问题是消耗：很多开始课程的学生最终都会退学。想象一下，您正在一个在线学习平台上工作，该平台的设计师创建了一个视觉进度条，她认为这将有助于防止学生退出课程。您想在大型计算社会科学课程中测试进度条对学生的影响。在解决实验中可能出现的任何道德问题后，您和您的同事会担心该课程可能没有足够的学生可靠地检测进度条的影响。在下面的计算中，您可以假设有一半的学生将收到进度条而一半不会。此外，您可以假设没有干扰。换句话说，您可以假设参与者仅受其接受治疗或控制的影响;他们不受其他人是否接受治疗或控制的影响（更正式的定义见Gerber and Green (2012)第8章）。跟踪您所做的任何其他假设。
1. 假设进度条预计会使完成课程的学生比例提高1个百分点;可靠地检测效果所需的样本量是多少？
2. 假设进度条预计会使完成课程的学生比例提高10个百分点;可靠地检测效果所需的样本量是多少？
3. 现在想象一下你已经完成了实验，完成所有课程材料的学生都参加了期末考试。当您将收到进度条的学生的期末考试成绩与未达到进度条的学生的成绩进行比较时，您会惊讶地发现，没有收到进度条的学生实际得分更高。这是否意味着进度条导致学生减少学习？您可以从这些结果数据中学到什么？（提示：参见Gerber and Green (2012)第7章Gerber and Green (2012) ）
[ ，，想象一下，你是一家科技公司的数据科学家。营销部门的某位人员要求您帮助评估他们计划的实验，以衡量新在线广告系列的投资回报率（ROI）。投资回报率定义为广告系列的净利润除以广告系列的费用。例如，对销售没有影响的广告系列的投资回报率为-100％;如果利润产生的成本与成本相等，则投资回报率为0;如果一项活动产生的利润是成本的两倍，那么投资回报率就会达到200％。

在启动实验之前，营销部门会根据他们之前的研究为您提供以下信息（实际上，这些值是Lewis和Rao (2015)报告的真实在线广告活动的典型值）：
- 每个客户的平均销售额遵循对数正态分布，平均值为7美元，标准差为75美元。
- 该活动预计将使每位客户的销售额增加0.35美元，相当于每位客户的利润增加0.175美元。
- 计划的实验规模为20万人：治疗组占一半，对照组占一半。
- 该活动的费用为每位参与者0.14美元。
- 该活动的预期投资回报率为25％[ $(0.175 - 0.14)/0.14$ ]。换句话说，营销部门认为，每花费100美元用于营销，公司将获得额外的25美元利润。
写一份评估这个提议实验的备忘录。您的备忘录应使用您创建的模拟中的证据，并且应解决两个主要问题：（1）您是否建议按计划启动此实验？如果是这样，为什么？如果没有，为什么不呢？务必明确您用于做出此决定的标准。（2）您为此实验推荐的样本量是多少？请务必明白您用于做出此决定的标准。

一份好的备忘录将解决这一具体案例;一个更好的备忘录将以一种方式从这个案例中推广出来（例如，显示决策如何随着活动效果的大小而变化）;一份好的备忘录将呈现一个完全普遍的结果。您的备忘录应使用图表来帮助说明您的结果。

这里有两个提示。首先，营销部门可能向您提供了一些不必要的信息，但他们可能未能向您提供一些必要的信息。其次，如果你正在使用R，请注意rlnorm（）函数不会像许多人期望的那样工作。

此活动将为您提供功能分析，创建模拟以及使用文字和图表传达结果的练习。它应该可以帮助您对任何类型的实验进行功效分析，而不仅仅是旨在估算ROI的实验。此活动假定您具有统计测试和功效分析方面的一些经验。如果您不熟悉功率分析，我建议您阅读Cohen (1992) “A Power Primer”。

这项活动的灵感来自RA Lewis and Rao (2015)的一篇可爱论文，它生动地说明了即使是大规模实验的基本统计限制。他们的论文最初具有挑衅性的标题“关于衡量广告回报的近乎不可能性” - 显示了衡量在线广告投资回报的难度，即使涉及数百万客户的数字化实验也是如此。更一般地， RA Lewis and Rao (2015)说明了一个对数字时代实验特别重要的基本统计事实：在嘈杂的结果数据中很难估计小的治疗效果。
[ ， $需要数学$ ]与上一个问题相同，但是，您应该使用分析结果而不是模拟。
[ ， $需要数学$ ， ]与上一个问题相同，但同时使用模拟和分析结果。
[ ， $需要数学$ ， ]想象一下，您已经编写了上述备忘录，营销部门的某个人提供了一条新信息：他们希望实验前后的销售额之间存在0.4的相关性。这如何改变备忘录中的建议？（提示：有关差异估计器和差异差异估计器的更多信息，请参阅第4.6.2节。）
[ ， $需要数学$ ]为了评估新的基于网络的就业援助计划的有效性，一所大学对进入最后一年的10,000名学生进行了随机对照试验。通过向5,000名随机选择的学生发送的独家电子邮件邀请，发送了具有唯一登录信息的免费订阅，而其他5,000名学生则在对照组中，并且没有订阅。 12个月后，一项随访调查（无无回应）显示，在治疗组和对照组中，70％的学生在所选领域获得了全职工作（表4.6）。因此，似乎基于网络的服务没有任何效果。

然而，该大学的一位聪明的数据科学家更仔细地查看了数据，发现治疗组中只有20％的学生在收到电子邮件后登录了该帐户。此外，有些令人惊讶的是，在那些登录网站的人中，只有60％的人在他们选择的领域获得了全职工作，这低于没有登录的人的比率，低于人们的比率在控制条件下（表4.7）。
1. 提供可能发生的事情的解释。
2. 在这个实验中，有两种不同的方法来计算治疗的效果？
3. 鉴于此结果，是否应该向所有学生提供此服务？需要明确的是，这不是一个简单答案的问题。
4. 接下来他们应该做什么？
提示：这个问题超出了本章所涉及的内容，但解决了实验中常见的问题。这种类型的实验设计有时被称为鼓励设计，因为鼓励参与者参与治疗。这个问题就是所谓的片面不合规的一个例子（参见Gerber and Green (2012)第5章）。
[ 经过进一步检查，结果证明前一个问题中描述的实验更加复杂。事实证明，对照组中有10％的人支付了使用该服务的费用，最终他们的就业率达到了65％（表4.8）。
1. 写一封电子邮件，总结您的想法并推荐一系列行动。
提示：这个问题超出了本章所涉及的内容，但解决了实验中常见的问题。这个问题就是所谓的双边不合规的一个例子（参见Gerber and Green (2012)第6章）。

表4.6：职业服务实验数据的简单视图
组	尺寸	就业率
授予访问网站的权限	5000	70％
未授予访问网站的权限	5000	70％

表4.7：职业服务实验数据的更完整视图
组	尺寸	就业率
授予访问网站并登录的权限	1000	60％
授予访问网站的权限，但从未登录过	4000	72.5％
未授予访问网站的权限	5000	70％

表4.8：职业服务实验数据的完整视图
组	尺寸	就业率
授予访问网站并登录的权限	1000	60％
授予访问网站的权限，但从未登录过	4000	72.5％
未授权访问网站并为其付费	500	65％
未授予对网站的访问权限且未支付费用	4500	70.56％