2.1简介

在模拟时代,收集有关数据的行为,谁做什么的时候,是昂贵的,因此,比较少见。现在,在数字时代,数十亿人的行为记录,存储和分析的。例如,每次你点击一个网站上的时间,让你的手机通话,或支付的东西,用您的信用卡中,创建你的行为的数字记录和企业存储。因为这些数据是人的每天操作的副产品,它们通常被称为数字痕迹 。除了这些痕迹由企业持有,政府也对两国人民和企业的令人难以置信的丰富的数据,这常常是数字化和分析的数据。连同这些企业和政府的记录通常被称为大数据

大数据的不断上涨的洪水意味着我们已经从一个世界移动而行为数据是稀缺的世界里的行为数据充足。但是,因为这些类型的数据是比较新的,使用它们的研究不幸的金额看起来像科学家盲目追可用的数据。这一章,而是提供了一个原则性的角度来理解数据的不同来源,以及它们如何被使用。这更丰富的理解应该帮助您更好地满足您的研究问题,以数据的合适的资源。或者,如果这样的现有来源缺乏,说服你在今后的章节中使用的想法收集自己的数据。

第一步,从大数据中学习是要认识到这是一个已经用于社会研究多年的数据更广泛类别的一部分: 观测数据 。粗略地说,观测数据是,从观察社会制度没有以某种方式干预导致的任何数据。想想它的原始方法是,观测数据是不涉及与人(例如,调查,第3章的主题),或改变着人们的环境(例如,实验,第4章的主题)谈论一切。因此,除了企业和政府的记录,观测数据还包括像报纸上的文章和卫星照片的文字。

本章包括三个部分。首先,在2.2节,我将介绍大数据更加详细,明确,并已普遍被用于在过去的社会研究的数据之间有根本的区别。然后,在2.3节中,我描述的大数据源10的共同特点。了解这些特点使我们能够快速识别的优势和现有资源的弱点,将帮助我们充分利用,这将在未来创造新的来源。最后,在2.4节中,我描述,您可以使用从观测数据学习三个主要的研究策略:计数的事情,预测的东西,逼近实验。