2.2 Big Data

Grandes datos son creados e recollidos por empresas e gobernos con fins distintos á investigación. O uso destes datos para a investigación, polo tanto, require repurposing.

A primeira forma en que moitas persoas se atopan coa investigación social na era dixital é a través do que moitas veces se denomina grandes datos . A pesar do uso xeneralizado deste termo, non hai consenso sobre o que son os grandes datos. Non obstante, unha das definicións máis comúns de grandes datos céntrase na "3 Vs": volume, variedade e velocidade. Aproximadamente, hai moitos datos, en varios formatos, e está sendo creado constantemente. Algúns fanáticos de grandes datos tamén engaden outros "Vs" como Veracity e Value, mentres que algúns críticos engaden Vs como Vague e Vacuous. En vez de 3 "Vs" (ou 5 "Vs" ou 7 "Vs"), a efectos da investigación social, creo que un lugar mellor para comezar é o 5 "Ws": Who, What, Where, When , e por que. De feito, creo que moitos dos retos e oportunidades creados por grandes fontes de datos proceden dun só "W": por que.

Na idade análoga, a maior parte dos datos que se utilizaron para a investigación social foron creados para facer investigacións. Na era dixital, con todo, unha gran cantidade de datos están sendo creados por empresas e gobernos para fins distintos da investigación, como a prestación de servizos, a xeración de beneficios e a administración de leis. Non obstante, as persoas creativas déronse conta de que pode reutilizar estes datos corporativos e gobernamentais para a investigación. Pensando na analoxía da arte no capítulo 1, así como Duchamp reprogramou un obxecto atopado para crear arte, os científicos agora poden reutilizar datos atopados para crear investigacións.

Aínda que hai, sen dúbida, enormes oportunidades para a reprogramación, o uso de datos que non foron creados para os fins da investigación tamén presenta novos retos. Compare, por exemplo, un servizo de redes sociais, como Twitter, cunha enquisa de opinión pública tradicional, como a Enquisa social xeral. Os principais obxectivos de Twitter son proporcionar un servizo aos seus usuarios e obter beneficios. A Enquisa Social Xeral, por outra banda, está centrada na creación de datos de propósito xeral para a investigación social, en particular para a investigación en opinión pública. Esta diferenza nos obxectivos significa que os datos creados por Twitter e os creados pola Enquisa Social Xeral teñen propiedades diferentes, aínda que ambos se poden empregar para o estudo da opinión pública. Twitter funciona a unha escala e velocidade que a Enquisa Social Xeral non pode igualar, pero, a diferenza da Enquisa Social Xeral, Twitter non mostra con atención os usuarios e non traballa arduamente para manter comparabilidades ao longo do tempo. Porque estas dúas fontes de datos son tan diferentes, non ten sentido dicir que a Enquisa Social Xeral sexa mellor que Twitter ou viceversa. Se queres medidas horarias de humor global (por exemplo, Golder and Macy (2011) ), Twitter é mellor. Doutra banda, se quere comprender os cambios a longo prazo na polarización das actitudes nos Estados Unidos (por exemplo, DiMaggio, Evans, and Bryson (1996) ), a Enquisa Social Xeral é a mellor opción. Máis xeralmente, en vez de intentar argumentar que as grandes fontes de datos son mellores ou peores que outros tipos de datos, este capítulo intentará aclarar cal tipo de cuestións de investigación as grandes fontes de datos teñen propiedades atractivas e para que tipo de preguntas non poden ser ideal.

Ao pensar en grandes fontes de datos, moitos investigadores centran inmediatamente en datos en liña creados e recollidos por empresas, como rexistros de buscadores e mensaxes de redes sociais. Non obstante, este estreito enfoque elimina outras fontes importantes de grandes datos. En primeiro lugar, cada vez máis grandes fontes de información corporativa proveñen de dispositivos dixitais no mundo físico. Por exemplo, neste capítulo, vou falarche sobre un estudo que reproguía os datos de check-out do supermercado para estudar como a produtividade dun traballador é afectada pola produtividade dos seus compañeiros (Mas and Moretti 2009) . Entón, nos capítulos posteriores, contareilles sobre investigadores que usaron rexistros de chamadas desde teléfonos móbiles (Blumenstock, Cadamuro, and On 2015) e datos de facturación creados por utilidades eléctricas (Allcott 2015) . Como ilustran estes exemplos, as grandes fontes de datos empresariais son máis que un comportamento en liña.

A segunda fonte importante de grandes datos perdidos por un estreito foco no comportamento en liña son os datos creados polos gobernos. Estes datos do goberno, que os investigadores chaman rexistros administrativos do goberno , inclúen cousas como rexistros fiscais, rexistros escolares e rexistros de estatísticas vitais (por exemplo, rexistros de nacementos e mortes). Os gobernos crearon este tipo de datos para, nalgúns casos, centos de anos, e os científicos sociais exploráronos case sempre que houbo científicos sociais. O que cambiou, non obstante, é a digitalización, o que facilitou de forma dramática aos gobernos a recoller, transmitir, almacenar e analizar datos. Por exemplo, neste capítulo, vou falarvos sobre un estudo que reprotifique os datos dos taxis de taxi dixitais do goberno da cidade de Nova York para abordar un debate fundamental na economía do traballo (Farber 2015) . Entón, nos capítulos posteriores, vou falarvos de como se usaron rexistros de votación recollidos polo goberno nunha enquisa (Ansolabehere and Hersh 2012) e un experimento (Bond et al. 2012) .

Creo que a idea de reabastecemento é fundamental para aprender a partir de grandes fontes de datos e, así, antes de falar máis específicamente sobre as propiedades de grandes fontes de datos (sección 2.3) e como se poden empregar na investigación (sección 2.4), gustaríanme para ofrecer dous consellos xerais sobre repurposing. En primeiro lugar, pode ser tentador pensar no contraste que configurarei como entre datos "atopados" e datos "deseñados". Está preto, pero non está ben. Aínda que, desde a perspectiva dos investigadores, atopáronse grandes fontes de datos, non só caen do ceo. No seu canto, as fontes de datos "atopadas" polos investigadores están deseñadas por alguén para algún propósito. Debido a que os datos "atopados" están deseñados por alguén, sempre recomendo que intente entender o máximo posible sobre as persoas e os procesos que crearon os seus datos. En segundo lugar, cando está repurposando datos, moitas veces é moi útil imaxinar o conxunto de datos ideal para o seu problema e despois comparar ese conxunto de datos ideal co que está a usar. Se non recolleches os teus datos, é probable que teñas diferenzas importantes entre o que queiras e o que tes. Ao notar estas diferenzas axudará a aclarar o que pode e non pode aprender dos datos que ten e pode suxerir novos datos que debería recompilar.

Na miña experiencia, os científicos sociais e os científicos de datos tenden a achegarse a repurposición de forma moi diferente. Os científicos sociais, que están afeitos a traballar con datos deseñados para a investigación, adoitan indicar os problemas con datos reabastecedores e ignoran os seus puntos fortes. Doutra banda, os científicos de datos adoitan indicar os beneficios de datos repurposed mentres ignoran as súas debilidades. Por suposto, o mellor enfoque é un híbrido. É dicir, os investigadores deben comprender as características das grandes fontes de datos, boas e malas, e logo descubrir como aprender deles. E ese é o plan para o resto deste capítulo. Na seguinte sección, vou describir dez características comúns de grandes fontes de datos. Entón, na seguinte sección, vou describir tres enfoques de investigación que poden funcionar ben con eses datos.