4.6.2更换,瑞风,和减少

让与非实验研究实验更换,细化治疗,并减少参加人数实验更加人性化。

我想提供有关设计的数字实验建议的第二件涉及道德。由于雷斯蒂沃和范·德·Rijt实验在维基百科显示barnstars,降低成本意味着道德将成为研究设计中越来越重要的组成部分。除了伦理框架指导人类受试者的研究,我将在第6章介绍,研究人员设计数字化实验也可以利用从不同的来源伦理观念:以指导涉及动物实验的伦理原则。特别是,在人文实验技术的里程碑式的著作原则Russell and Burch (1959)提出,要引导动物研究三个原则:替换,瑞风,和减少。我想提出,这些三个R的也可以使用,在稍微修改的形式,以指导人体实验的设计。尤其是,

  • 替换:有可能的话微创方法替换实验
  • 优化:优化处理,使之无害地
  • 减少:尽可能减少参与实验的数量尽可能

为了使这三个R的混凝土和展示他们如何可能会带来更好的,更人性化的实验设计中,我将描述产生的伦理争论在线田间试验。然后,我将介绍三个R的是如何建议的实验设计具体和实际的变化。

其中最道德争论数码领域的实验是“情绪感染”,这是由亚当·克莱默,杰米Gillroy和杰弗里·汉考克进行的(2014) 。试验了在Facebook上的地方,被科学和实践问题的混合动机。当时,用户互动与Facebook的主要途径是新闻联播,从用户的Facebook好友的算法策划一套Facebook的状态更新。 Facebook的一些批评人士认为,由于新闻饲料有大部分是积极的帖子,朋友们展示了他们最新的关党可能会导致用户因为他们的生活似乎比较那么激动人心感到悲伤。另一方面,也许效果是完全相反;也许看到有一个很好的时间会让你感到快乐你的朋友?为了解决这些相互竞争的假设和推进我们的一个人的情绪是如何被她的朋友们的影响理解的情绪,克莱默和他的同事跑了一个实验。研究人员将70万左右的用户分为四组一个星期:一个“消极减少”群体,对他们的职位与否定词(如,悲伤)随机出现在新闻饲料堵塞;一个“积极降低”组为谁用积极的话(如高兴)职位,随机堵塞;与两个对照组。在为“消极降低”组,对照组,定岗,随机挡在同样的速度为“消极降低”组,但不考虑情感内容。对于“阳性减少”组对照组以并行的方式被构成。该实验的设计示出了适当的对照组并不总是一个没有变化。相反,有时在对照组中以创建精确的比较结果,一个研究的问题,需要接收的处理。在所有情况下,从新闻饲料被封锁的帖子仍然可供用户通过Facebook网站的其他部分。

克莱默和他的同事发现,参与者的积极性降低情况下,积极的话在他们的状态更新的比例下降和否定词的比例上升。另一方面,对于参与者消极减小条件下,阳性词的百分比增加,并且否定词的百分比降低(图4.23)。不过,这些影响是相当小的:在治疗和对照之间正反字差异在1,000字约1。

图4.23:情绪感染的证据(克莱默,盖尔利和汉考克2014年)。积极词汇和实验条件否定词的百分比。条代表估计标准误差。

图4.23:情绪感染的证据(Kramer, Guillory, and Hancock 2014) 。积极词汇和实验条件否定词的百分比。条代表估计标准误差。

我已经把这个实验的科学方面的讨论在进一步阅读的部分在本章的最后,但不幸的是,这个实验是最知名的产生伦理争论。本文发表美国国家科学院论文集 ,仅仅几天之后,有一个从研究人员和记者一个巨大的哗然。 1)参加者没有提供超出标准的Facebook条件方面的服务,有些想法可能造成伤害的参与者和2)研究没有进行第三方伦理治疗任何同意:集中在两个要点本文围绕愤慨回顾(Grimmelmann 2015)在这次辩论中提出的道德问题导致该杂志迅速发布关于道德和伦理审查过程研究中的一个罕见的“关注的社论表达” (Verma 2014) 。在随后的几年中,实验仍然是激烈争论和分歧的根源,而这种分歧可能已经驶入正在由公司执行的阴影许多其他实验意想不到的效果(Meyer 2014)

在这种背景下对情绪感染,我现在想表明3 R的可以建议真正研究具体的,实际的改进(无论你可能会个人认为这个特定实验的伦理学)。第一个R是更换 :研究者应寻求如有可能,创伤小,风险技术,以取代实验。例如,而不是运行实验,研究人员能够利用了自然实验 。正如第2章所述,自然实验的情况下在近似的治疗的随机分配世界有事(如抽奖来决定谁将会应征入伍)。自然实验的优点是,研究者不必提供治疗;环境不适合您。换句话说,具有天然的实验中,研究人员也不会需要实验操纵人们的新闻联播。

事实上,几乎同时与情绪感染实验, Coviello et al. (2014)是利用什么可以被称为情绪感染的自然实验。他们的方法,它采用一种叫做工具变量法,是有点复杂,如果你以前从来没有见过。因此,为了解释为什么需要,让我们建立它。一些研究人员可能要学习情绪感染的第一个想法是在天在您的新闻饲料是非常积极的,以自己的帖子在天在您的新闻饲料是非常不利的比较你的帖子。这种做法将被罚款,如果目标只是来预测你的帖子的情感内容,但是这种方法是有问题的,如果我们的目标是研究你的新闻饲料对你的帖子的因果关系。看到这一设计问题,可以考虑感恩。在美国,正面帖秒杀和负面帖子暴跌感恩节。因此,在感恩节,研究人员就可以看到你的新闻饲料是非常积极的,而且您发布积极的事情为好。但是,你的积极的帖子可能已造成的感恩节不是你的新闻饲料的内容。相反,为了估计因果效应研究人员需要的东西,改变你的新闻饲料的含量,而不直接更改你的情绪。幸运的是,这样的事情发生的所有的时间:天气。

科维洛和他的同事发现,雨天在别人的城市将平均减少由约1个百分点的正职位的比例,并增加由约1个百分点的负职位的比例。然后,科维洛和他的同事利用这个事实来研究情绪传染,而无需操纵实验人的新闻饲料。从本质上说他们做了什么是衡量你的职位如何在你的朋友居住的城市,天气的影响。为了说明为什么这是有道理的,假设你住在纽约市,你有一个朋友,谁住在西雅图。现在想象一下,有一天它开始在西雅图下雨。这雨在西雅图不会直接影响你的心情,但它会导致你的新闻饲料是因为你的朋友的帖子不太积极和更多的负面。因此,在西雅图的雨随机操纵你的新闻饲料。谈到这种直觉到一个可靠的统计方法是复杂的(和科维洛和他的同事使用的确切方法是有点不标准),所以我已经把更详细的讨论,在进一步阅读的部分。最重要的是要记住的科维洛和他的同事的做法是,它使他们学习情绪传染,而不需要进行实验,它可能危害参与者,它可能是在其他许多设置,您可以替换其他实验的情况下技术。

第二次在3卢比是瑞风 :研究者应努力改进他们的治疗,以造成伤害最小的可能。例如,而不是阻止,这是正或负的内容,研究人员可能提高,这是正或负的内容。这提高设计会改变参与者的新闻联播的情感内容,但它会解决的关心的问题之一评论家表示:该实验可能造成参与者会错过他们的新闻饲料的重要信息。由克莱默和他的同事使用的设计,一条消息,是很重要的是可能被阻止为一体,是没有的。然而,用升压的设计,这将被移位的消息将是那些不太重要。

最后,第三个R是减少 :研究者应寻求可能的话,以减少他们的实验参与者的数量。在过去,这种减少自然发生由于模拟实验的可变成本是高的,其中鼓励研究来优化其设计和分析。然而,当存在零可变费用数据,研究人员不面对他们的实验的大小成本约束,这具有导致不必要的大实验的潜力。

例如,克莱默和同事也可以使用他们的参与者 - 例如预处理过帐前处理信息的行为,以使他们的分析更有效。更具体地,而不是比较在治疗组和对照条件阳性字的比例,克莱默和同事可能比较的条件之间正词语的比例的改变 ;一种方法通常被称为差 - 在差异和其密切相关的,我的章节中前面描述的混合设计(图4.5)。也就是说,对于每个参加者,研究人员可能已经创建了一个变化得分(治疗后行为 - 预处理行为),然后比较参与者在治疗和控制条件的变化分值。这种差异合的差异的方法是更有效的统计学上,这意味着,研究人员可以实现使用小得多的样品相同的统计置信度。换句话说,通过不参与处理像“小工具”,研究人员往往能获得更精确​​的估计。

而无需将原始数据是很难确切地知道如何更有效的差合的差异的方法将是在这种情况下。但是, Deng et al. (2013)报道,在Bing搜索引擎三个在线实验中,他们能约50%,以减少他们的估计的方差,以及类似的结果已经报告在Netflix的一些在线实验(Xie and Aurisset 2016)这50%的方差减少意味着情绪感染的研究人员可能已经能够削减他们的样本中的一半,如果他们用了一个稍微不同的分析方法。换句话说,在分析一个微小的变化,35万人也许可以避免在参与实验。

在这一点上,你可能会奇怪,为什么研究者应​​该关心,如果35万人均情绪感染不必要的。有迹象表明,让过多的大小所关注的适当情绪感染的两个特定的功能,而这些功能是由许多数字田间试验共享:1)有对实验是否会造成伤害,至少有一些参与者和2)参与是不确定性自主性。在具有这两个特性的实验似乎是可取的保持实验尽可能小。

总之,三R's - 替换,优化,减少,提供的原则,可以帮助研究人员建立道德在他们的实验设计。当然,每到情绪感染这些可能的变化引入了权衡。例如,从自然实验的证据并不总是那样干净的随机试验的证据和提高可能更后勤困难比块来实现。所以,这表明这些改变的目的不是去猜测其他研究人员的决定。相反,它是来说明如何三个R的可以在一个实际的情况被应用。