2.2大数据

大数据创建和政府比其他研究的目的收集。利用这些数据进行研究,因此,需要再利用。

社会研究的一种理想化的看法想象有一个想法,然后收集数据,以验证这一想法的科学家。研究这种风格导致研究问题和数据之间的紧密配合,但由于个别研究者往往不具备收集他们所需要的数据,如大型,丰富,而且全国代表性的数据所需要的资源是有限的。因此,很多在过去的社会研究采用了大型社会调查,比如综合社会调查(GSS),美国国家选举研究(ANES)和收入动态研究小组(PSID)。这些大规模的调查通常由一个研究小组的运行,他们的目的是创建可被许多研究人员使用的数据。由于这些大规模调查的目标,非常小心放入设计数据收集和研究人员制备所得数据以供使用。这些数据是由研究人员和研究人员。

采用数字化时代最来源的社会研究,但是,是根本不同的。而不是使用由研究人员和研究人员收集的数据,它使用了创建企业和政府为了自己的目的,如赚取利润,提供服务,或给予法律收集到的数据源。这些企业和政府数据源,来到被称为大数据 。大数据做研究比做与最初的研究中创建的数据研究不同。比较,例如,社交媒体网站,如Twitter,与传统的民意调查,如综合社会调查(GSS)。 Twitter的主要目标是提供给其用户的服务,并赚取利润。在实现这些目标的过程中,Twitter的创建可能用于研究舆论的某些方面有用的数据。但是,与综合社会调查(GSS),微博是不是主要集中在社会研究。

术语大数据是令人沮丧的含糊不清,而且群体很多不同的东西放在一起。对于社会研究而言,我认为这是有帮助的2种大数据源之间的区别:政府的行政记录和企业行政记录政府的行政记录是由政府创建为日常活动的一部分数据。这些种类的记录,在过去,这种被用来研究人员作为人口学家研究出生,结婚和死亡记录,但各国政府正越来越多地收集和分析的中释放的形式详细记录。例如,纽约市的政府安装在每一个城市的出租车内数字米。这些仪表记录各种数据,每个乘坐出租车包括司机在内,开始时间和地点,停止时间和地点,以及车费。在一项研究中,我将在本章后面讲,亨利法伯(2015)重新利用这些数据来解决劳动经济学有关小时工资和工作小时数之间的关系的一个基本的辩论。

社会研究的第二个主要类型的大数据是企业行政记录 。这些都是企业创造,并收集他们的日常活动的一部分数据。这些业务行政记录通常被称为数字轨迹 ,以及包括像搜索引擎的查询日志,社交媒体帖子,并从手机通话记录。重要的是,这些业务的管理记录不只是上网行为。例如,使用退房扫描器的商店正在创建工人的生产力的实时措施。在一项研究中,我将关于本章后面的告诉你,亚历山大马斯和恩里科·莫雷蒂(2009)改变用途这家超市的退房数据,研究如何工人的生产力是由他们的同龄人的生产力的影响。

由于这两个例子说明,再利用的想法是从大数据中学习的基础。根据我的经验,社会科学家和科学家的数据处理这一再利用非常不同。社会科学家,谁习惯于与设计研究数据工作,很快指出与改变用途的数据的问题,而忽略了它的优势。在另一方面,数据科学家们很快指出改变用途数据的好处而忽视它的弱点。当然,最好的办法是混合。也就是说,研究人员需要了解的数据有好有坏,然后弄清楚如何向他们学习这些新源的特点。而且,这是本章的其余部分计划。接下来,我将介绍企业和政府管理数据十个共同特点。在那之后,我将描述可以与这些数据,即是公适合此数据的特性的方法可使用三个研究的方法。