2.2 Big Data

Big data é criado e coletado por empresas e governos para outros fins que não a pesquisa. A utilização desses dados para pesquisa, portanto, requer redirecionamento.

A primeira maneira que muitas pessoas encontram pesquisa social na era digital é através do que é freqüentemente chamado de big data . Apesar do uso generalizado deste termo, não há consenso sobre o que é mesmo o big data. No entanto, uma das definições mais comuns de big data concentra-se nos “3 Vs”: Volume, Variedade e Velocidade. Grosso modo, há muitos dados, em vários formatos, e está sendo criado constantemente. Alguns fãs de big data também adicionam outros “Vs” como Veracity e Value, enquanto alguns críticos adicionam Vs como Vague e Vacuous. Em vez dos 3 "Vs" (ou os 5 "Vs" ou os 7 "Vs"), para fins de pesquisa social, acho que um lugar melhor para começar é o 5 "Ws": Quem, o quê, onde, quando , e porque. Na verdade, acho que muitos dos desafios e oportunidades criados pelas grandes fontes de dados vêm de apenas um "W": por quê?

Na era analógica, a maioria dos dados que foram usados ​​para pesquisa social foi criada com o propósito de fazer pesquisa. Na era digital, no entanto, uma enorme quantidade de dados está sendo criada por empresas e governos para outros fins que não a pesquisa, como prestação de serviços, geração de lucro e administração de leis. Pessoas criativas, no entanto, perceberam que você pode redirecionar esses dados corporativos e governamentais para pesquisa. Pensando na analogia da arte no capítulo 1, assim como Duchamp readapta um objeto encontrado para criar arte, os cientistas podem agora redirecionar os dados encontrados para criar pesquisas.

Embora existam, sem dúvida, enormes oportunidades de reaproveitamento, o uso de dados que não foram criados para fins de pesquisa também apresenta novos desafios. Compare, por exemplo, um serviço de mídia social, como o Twitter, com uma pesquisa de opinião pública tradicional, como o General Social Survey. Os principais objetivos do Twitter são fornecer um serviço para seus usuários e obter lucro. O General Social Survey, por outro lado, está focado na criação de dados de propósito geral para pesquisa social, particularmente para pesquisas de opinião pública. Essa diferença de objetivos significa que os dados criados pelo Twitter e aqueles criados pelo General Social Survey têm propriedades diferentes, embora ambos possam ser usados ​​para estudar a opinião pública. O Twitter opera em uma escala e velocidade que o General Social Survey não consegue igualar, mas, ao contrário do General Social Survey, o Twitter não testa cuidadosamente os usuários e não trabalha duro para manter a comparabilidade ao longo do tempo. Como essas duas fontes de dados são tão diferentes, não faz sentido dizer que o General Social Survey é melhor que o Twitter ou vice-versa. Se você quiser medidas horárias de humor global (por exemplo, Golder and Macy (2011) ), o Twitter é o melhor. Por outro lado, se você quiser entender as mudanças de longo prazo na polarização de atitudes nos Estados Unidos (por exemplo, DiMaggio, Evans, and Bryson (1996) ), então o General Social Survey é a melhor escolha. Em termos mais gerais, em vez de tentar argumentar que fontes de dados grandes são melhores ou piores que outros tipos de dados, este capítulo tentará esclarecer quais tipos de perguntas de pesquisa as fontes de dados grandes têm propriedades atraentes e para quais tipos de perguntas podem não ser ideal.

Ao pensar em fontes de big data, muitos pesquisadores se concentram imediatamente em dados on-line criados e coletados por empresas, como registros de mecanismos de pesquisa e postagens de mídia social. No entanto, esse foco estreito deixa de fora outras duas importantes fontes de big data. Primeiro, as fontes de dados cada vez mais corporativas vêm de dispositivos digitais no mundo físico. Por exemplo, neste capítulo, falarei sobre um estudo que reaproveitou dados de check-out de supermercados para estudar como a produtividade de um trabalhador é afetada pela produtividade de seus pares (Mas and Moretti 2009) . Em seguida, em capítulos posteriores, falarei sobre pesquisadores que usaram registros de chamadas de telefones celulares (Blumenstock, Cadamuro, and On 2015) e dados de faturamento criados por empresas de eletricidade (Allcott 2015) . Como esses exemplos ilustram, as fontes corporativas de big data são mais do que apenas o comportamento online.

A segunda fonte importante de big data perdida por um foco estreito no comportamento online são os dados criados pelos governos. Esses dados do governo, que os pesquisadores chamam de registros administrativos do governo , incluem coisas como registros fiscais, registros escolares e registros de estatísticas vitais (por exemplo, registros de nascimentos e óbitos). Os governos vêm criando esse tipo de dados para, em alguns casos, centenas de anos, e os cientistas sociais os exploram há quase tanto tempo quanto os cientistas sociais. O que mudou, no entanto, foi a digitalização, que tornou dramaticamente mais fácil para os governos coletarem, transmitirem, armazenarem e analisarem dados. Por exemplo, neste capítulo, vou falar sobre um estudo que adaptou os dados dos medidores de táxi digitais do governo da cidade de Nova York, a fim de abordar um debate fundamental na economia do trabalho (Farber 2015) . Em seguida, em capítulos posteriores, vou falar sobre como os registros de votação coletados pelo governo foram usados ​​em uma pesquisa (Ansolabehere and Hersh 2012) e um experimento (Bond et al. 2012) .

Eu acho que a idéia de redirecionamento é fundamental para aprender com grandes fontes de dados, e assim, antes de falar mais especificamente sobre as propriedades de grandes fontes de dados (seção 2.3) e como elas podem ser usadas em pesquisa (seção 2.4), eu gostaria para oferecer dois conselhos gerais sobre reaproveitamento. Primeiro, pode ser tentador pensar no contraste que estabeleci entre dados “encontrados” e dados “projetados”. Isso é perto, mas não está certo. Mesmo assim, do ponto de vista dos pesquisadores, grandes fontes de dados são “encontradas”, elas não caem do céu. Em vez disso, as fontes de dados que são “encontradas” pelos pesquisadores são projetadas por alguém para algum propósito. Como os dados "encontrados" são criados por alguém, sempre recomendo que você tente entender o máximo possível sobre as pessoas e os processos que criaram seus dados. Segundo, quando você está reutilizando dados, geralmente é extremamente útil imaginar o conjunto de dados ideal para o seu problema e, em seguida, comparar esse conjunto de dados ideal com o que você está usando. Se você não coletou seus dados por conta própria, provavelmente haverá diferenças importantes entre o que você quer e o que você tem. Perceber essas diferenças ajudará a esclarecer o que você pode e o que não pode aprender com os dados que você tem, e isso pode sugerir novos dados que você deve coletar.

Na minha experiência, cientistas sociais e cientistas de dados tendem a abordar o reaproveitamento de maneira muito diferente. Os cientistas sociais, que estão acostumados a trabalhar com dados projetados para pesquisa, geralmente são rápidos em apontar os problemas com dados reaproveitados, ignorando seus pontos fortes. Por outro lado, os cientistas de dados geralmente são rápidos em apontar os benefícios de dados redirecionados, ignorando suas fraquezas. Naturalmente, a melhor abordagem é um híbrido. Ou seja, os pesquisadores precisam entender as características das grandes fontes de dados - boas e ruins - e descobrir como aprender com elas. E esse é o plano para o restante deste capítulo. Na próxima seção, descreverei dez características comuns de fontes de big data. Em seguida, na seção a seguir, descreverei três abordagens de pesquisa que podem funcionar bem com esses dados.