5.4.1 eBird

eBird收集从鸟观鸟数据;志愿者可以提供地理范围,没有科研队伍无法比拟的。

鸟类是随处可见,鸟类学家想知道,每一个鸟是在每一个时刻。鉴于如此完美的数据集,鸟类学家可以解决各自领域的许多基本的问题。当然,收集该数据是超出任何特定研究者的范围。在同一时间,鸟类学家渴望更丰富,更完整的数据,“观鸟者” - 人们谁去观鸟的乐趣,都在不断观察鸟类和记录他们看到什么。这两个社区有协作的悠久历史,但现在这些合作已经被数字时代转变。 eBird是一个分布式数据采集项目,来自世界各地的观鸟者索取信息,并且它已经250,000参与者收到了超过2.6亿观鸟(Kelling et al. 2015)

到发射eBird之前,倍受观鸟创建数据的不可用的研究人员:

“千当今世界各地的壁橱骗了无数的笔记本,索引卡,带注释的清单,和日记。我们这些参与到观鸟机构熟悉听到一遍又一遍有关的无奈“我已故的叔叔的鸟类记录”我们知道他们可能是多么宝贵。可悲的是,我们也知道我们不能使用他们。“ (Fitzpatrick et al. 2002)

与其让这些有价值的数据坐在未使用的,eBird使观鸟把它上传到一个集中的,数字化数据库。上传到eBird数据包含六个重点领域:谁,在哪里,何时,什么品种,多少,省力。对于非观鸟读者,“努力”是指同时使观测使用的方法。数据质量检查,开始上传数据之前也。捕鸟的人试图提交不寻常的报告,如非常罕见的物种的报道,非常高的数量,或出于季节报道,被标记,并在网站自动请求的其他信息,如照片。收集这些附加信息后,标记的报告发送给数百名志愿者的区域专家的进一步审查中的一个。通过与捕鸟,被标记的报告,区域专家,包括可能的附加通信经过调查或被放弃不可靠或它们输入到数据库eBird (Kelling et al. 2012) 。筛选观测这个数据库,然后提供给任何人在世界上拥有互联网连接,到目前为止,几乎100同行评审的出版物都用它(Bonney et al. 2014) 。 eBird清楚地表明,志愿者观鸟能够收集这是真正的鸟类学研究的有用数据。

其中eBird的美女之一是,它抓住了“工作”的情况已经发生,在这种情况下,观鸟。此功能使该项目取得了巨大的规模。但是,“工作”由捕鸟的人做的不完全匹配由鸟类学家所需要的数据。例如,在eBird,数据收集由捕鸟的位置不鸟类的位置决定。这意味着,例如,大多数观察往往会发生接近道路(Kelling et al. 2012; Kelling et al. 2015)除了这种分布不均的努力在空间,由捕鸟取得的实际观测并不总是理想。例如,一些观鸟者只能上传的是他们认为有趣的,而不是上载上他们观察到的所有物种的信息种类的信息。

eBird研究人员对这些数据质量问题的两个主要的解决方案,在许多其他的分布式数据采集项目中出现的问题。首先,eBird研究人员不断努力升级提交捕鸟的数据的质量。例如,eBird提供教育的参与者,它已创造了每个参与者的数据,由他们设计,鼓励观鸟者的可视化,以上传的是他们观察到,而不仅仅是一个子集,所有物种的信息(Wood et al. 2011; Wiggins 2011) 。其次,研究人员eBird使用试图纠正为原始数据的嘈杂和异质性统计模型。它是目前尚不清楚是否这些统计模型完全从数据中删除的偏见,但鸟类学家都在说,已经有人前面提到的,已在近100个同行评审的科学出版物中使用调整eBird数据的质量有足够的信心。

许多非鸟类学家最初是非常怀疑,当他们听到eBird首次。在我看来,这种怀疑的一部分来自于错误的方式思考eBird。很多人首先想到“是eBird数据完美?”,答案是绝对不会。然而,这不是正确的问题。正确的问题是,“对于某些研究问题,是eBird数据比现有鸟类数据好?”对于这个问题,答案当然是肯定的,部分地是因为许多感兴趣的问题有分布式数据采集没有现实的选择。

该eBird项目表明,有可能涉及到的重要的科学数据集合中的志愿者。然而,eBird,及相关项目,表明相关的采样和数据质量挑战是分布式数据采集项目的担忧。正如我们将在下一节中看到的,但是,与巧妙的设计和技术,这些问题在某些设置最小化。