2.3.8算法混淆

大数据系统中的行为并不自然;它受到系统工程目标的驱动。

尽管许多大数据源都是非反应性的,因为人们并不知道他们的数据被记录(第2.3.3节),研究人员不应该认为这些在线系统中的行为是“自然发生的”。实际上,记录行为的数字系统是经过精心设计以诱导特定行为,例如点击广告或发布内容。系统设计人员的目标可以将模式引入数据的方式称为算法混淆 。算法混淆对于社会科学家而言是相对未知的,但它是细心数据科学家的主要关注点。并且,与数字跟踪的其他一些问题不同,算法混淆在很大程度上是不可见的。

一个相对简单的算法混淆的例子是,Facebook上有大约20个朋友的用户数量异常,正如Johan Ugander及其同事(2011)所发现的那样。科学家在不了解Facebook如何运作的情况下分析这些数据无疑会产生许多关于20是如何成为某种神奇社交数字的故事。幸运的是,Ugander和他的同事对生成数据的过程有了充分的了解,他们知道Facebook鼓励Facebook上几乎没有联系的人在他们达到20个朋友之前结交更多朋友。虽然Ugander及其同事在他们的论文中没有这样说,但这个政策可能是由Facebook创建的,目的是鼓励新用户变得更加活跃。但是,如果不知道这项政策的存在,很容易从数据中得出错误的结论。换句话说,拥有大约20个朋友的人数惊人地高,告诉我们更多关于Facebook而不是人类行为。

在前面的例子中,算法混淆产生了一个奇怪的结果,仔细的研究人员可能会进一步检测和调查。然而,当在线系统的设计者意识到社会理论然后将这些理论融入他们的系统的工作中时,会出现更复杂的算法混淆版本。社会科学家称之为表演性 :当一种理论以一种使世界更符合理论的方式改变世界时。在表演性算法混淆的情况下,数据的混淆性很难被发现。

由表演性创建的模式的一个示例是在线社交网络中的传递性。在20世纪70年代和80年代,研究人员反复发现,如果你是爱丽丝和鲍勃的朋友,那么爱丽丝和鲍勃更有可能成为彼此的朋友,而不是他们是两个随机选择的人。这种模式在Facebook上的社交图中被发现(Ugander et al. 2011) 。因此,人们可以得出结论,Facebook上的友谊模式复制了离线友谊的模式,至少在传递性方面。然而,Facebook社交图中的传递性的大小部分是由算法混淆驱动的。也就是说,Facebook的数据科学家知道关于传递性的经验和理论研究,然后将其融入Facebook的工作方式。 Facebook有一个“你可能知道的人”功能,建议新朋友,而Facebook决定向谁推荐的一种方式是传递性。也就是说,Facebook更有可能建议您与朋友的朋友成为朋友。因此,该特征具有增加Facebook社交图中的传递性的效果;换句话说,及物性理论使世界与理论的预测一致(Zignani et al. 2014; Healy 2015) 。因此,当大数据源似乎重现社会理论的预测时,我们必须确保理论本身并没有被纳入系统的运作方式。

不是将大数据源视为在自然环境中观察人,而是更恰当的比喻是观察赌场中的人。赌场是高度工程化的环境,旨在诱导某些行为,研究人员绝不会期望赌场中的行为能够为人类行为提供无拘无束的窗口。当然,您可以通过研究赌场中的人来了解人类行为,但如果您忽略了数据是在赌场中创建的事实,您可能会得出一些不好的结论。

遗憾的是,处理算法混淆特别困难,因为在线系统的许多功能都是专有的,记录不完整且不断变化。例如,正如我将在本章后面解释的那样,算法混淆是谷歌流感趋势逐渐崩溃的一种可能解释(见第2.4.2节),但这种说法很难评估,因为谷歌搜索算法的内部运作是所有权。算法混淆的动态特性是系统漂移的一种形式。算法混淆意味着我们应该谨慎对待来自单一数字系统的人类行为的任何主张,无论多大。