2.2 Big data

Les données volumineuses sont créées et collectées par les entreprises et les gouvernements à des fins autres que la recherche. L'utilisation de ces données pour la recherche nécessite donc une réutilisation.

La première façon dont de nombreuses personnes rencontrent la recherche sociale à l'ère numérique est ce que l'on appelle souvent le big data . Malgré l'utilisation généralisée de ce terme, il n'y a pas de consensus sur ce que sont les mégadonnées. Cependant, l'une des définitions les plus courantes du Big Data se concentre sur les «3 V»: Volume, Variété et Vitesse. En gros, il y a beaucoup de données, dans une variété de formats, et elles sont constamment créées. Certains fans de big data ajoutent aussi d'autres "V" tels que Veracity et Value, alors que certains critiques ajoutent des Vs tels que Vague et Vacuous. Plutôt que les 3 «V» (ou les 5 «V» ou les 7 «V»), à des fins de recherche sociale, je pense qu'un meilleur endroit pour commencer est les 5 «W»: Qui, Quoi, Où, Quand , et pourquoi. En fait, je pense que de nombreux défis et opportunités créés par les sources de données volumineuses découlent d'un seul «W»: pourquoi?

À l'ère analogique, la plupart des données utilisées pour la recherche sociale ont été créées dans le but de faire de la recherche. À l'ère du numérique, cependant, une quantité énorme de données est créée par les entreprises et les gouvernements à des fins autres que la recherche, comme la fourniture de services, la génération de profits et l'administration des lois. Les personnes créatives, cependant, ont réalisé que vous pouvez réutiliser ces données d'entreprise et de gouvernement pour la recherche. En repensant à l'analogie de l'art dans le chapitre 1, tout comme Duchamp a réutilisé un objet trouvé pour créer de l'art, les scientifiques peuvent maintenant réutiliser les données trouvées pour créer de la recherche.

Bien qu'il y ait sans aucun doute d'énormes possibilités de réutilisation, l'utilisation de données qui n'ont pas été créées à des fins de recherche présente également de nouveaux défis. Comparez, par exemple, un service de médias sociaux, comme Twitter, avec une enquête d'opinion publique traditionnelle, telle que l'Enquête sociale générale. Les principaux objectifs de Twitter sont de fournir un service à ses utilisateurs et de faire des profits. D'autre part, l'Enquête sociale générale est axée sur la création de données générales pour la recherche sociale, en particulier pour la recherche sur l'opinion publique. Cette différence d'objectifs signifie que les données créées par Twitter et celles créées par l'Enquête sociale générale ont des propriétés différentes, même si les deux peuvent être utilisées pour étudier l'opinion publique. Twitter fonctionne à une échelle et à une vitesse que l'Enquête sociale générale ne peut égaler, mais, contrairement à l'Enquête sociale générale, Twitter n'échantillonne pas soigneusement les utilisateurs et ne travaille pas fort pour maintenir la comparabilité au fil du temps. Parce que ces deux sources de données sont si différentes, il n'est pas logique de dire que l'Enquête sociale générale est meilleure que Twitter ou vice versa. Si vous voulez des mesures horaires de l'humeur globale (par exemple, Golder and Macy (2011) ), Twitter est le meilleur. D'un autre côté, si vous voulez comprendre les changements à long terme dans la polarisation des attitudes aux États-Unis (p. Ex. DiMaggio, Evans, and Bryson (1996) ), alors l'Enquête sociale générale est le meilleur choix. Plus généralement, plutôt que de prétendre que les sources de données volumineuses sont meilleures ou pires que d'autres types de données, ce chapitre tentera de clarifier les types de questions de recherche qui ont des propriétés attrayantes et pour quels types de questions elles pourraient ne pas être pertinentes. idéal.

Lorsque l'on pense aux sources de données volumineuses, de nombreux chercheurs se concentrent immédiatement sur les données en ligne créées et collectées par les entreprises, telles que les journaux des moteurs de recherche et les publications sur les réseaux sociaux. Cependant, cette orientation étroite laisse de côté deux autres sources importantes de données volumineuses. Premièrement, les sources de données volumineuses de plus en plus importantes proviennent des appareils numériques dans le monde physique. Par exemple, dans ce chapitre, je vais vous parler d'une étude qui a réorienté les données de caisse de supermarché pour étudier comment la productivité d'un travailleur est affectée par la productivité de ses pairs (Mas and Moretti 2009) . Ensuite, dans les chapitres suivants, je vous parlerai des chercheurs qui ont utilisé les enregistrements d'appels des téléphones mobiles (Blumenstock, Cadamuro, and On 2015) et des données de facturation créées par les compagnies d'électricité (Allcott 2015) . Comme l'illustrent ces exemples, les grandes sources de données d'entreprise ne se limitent pas au comportement en ligne.

La deuxième source importante de données volumineuses manquée par une focalisation étroite sur le comportement en ligne est celle des données créées par les gouvernements. Ces données gouvernementales, que les chercheurs appellent les documents administratifs du gouvernement , comprennent des documents tels que les dossiers fiscaux, les dossiers scolaires et les dossiers de l'état civil (p. Ex. Les registres des naissances et des décès). Les gouvernements ont créé ce type de données pour, dans certains cas, des centaines d'années, et les spécialistes des sciences sociales les exploitent depuis presque aussi longtemps qu'il y a eu des spécialistes des sciences sociales. Ce qui a changé, cependant, c'est la numérisation, qui a considérablement simplifié la collecte, la transmission, le stockage et l'analyse des données par les gouvernements. Par exemple, dans ce chapitre, je vais vous parler d'une étude qui a réorienté les données des compteurs de taxis numériques du gouvernement de la ville de New York afin d'aborder un débat fondamental en économie du travail (Farber 2015) . Ensuite, dans les chapitres suivants, je vais vous parler de la façon dont les dossiers de vote recueillis par le gouvernement ont été utilisés dans une enquête (Ansolabehere and Hersh 2012) et d'une expérience (Bond et al. 2012) .

Je pense que l'idée de réutilisation est fondamentale pour apprendre à partir de sources de données volumineuses, et donc, avant de parler plus spécifiquement des propriétés des sources de données volumineuses (section 2.3) et comment elles peuvent être utilisées dans la recherche (section 2.4), j'aimerais offrir deux conseils généraux sur la réutilisation. Premièrement, il peut être tentant de penser au contraste que j'ai établi entre les données «trouvées» et les données «conçues». C'est proche, mais ce n'est pas tout à fait correct. Même si, du point de vue des chercheurs, les grandes sources de données sont «trouvées», elles ne tombent pas du ciel. Au lieu de cela, les sources de données qui sont «trouvées» par les chercheurs sont conçues par quelqu'un dans un but précis. Puisque les données "trouvées" sont conçues par quelqu'un, je vous recommande toujours d'essayer de comprendre autant que possible les personnes et les processus qui ont créé vos données. Deuxièmement, lorsque vous réutilisez des données, il est souvent extrêmement utile d'imaginer l'ensemble de données idéal pour votre problème, puis de comparer cet ensemble de données idéal avec celui que vous utilisez. Si vous n'avez pas recueilli vos données vous-même, il y a probablement des différences importantes entre ce que vous voulez et ce que vous avez. En notant ces différences, vous pourrez clarifier ce que vous pouvez et ne pouvez pas apprendre des données que vous avez et suggérer de nouvelles données que vous devriez collecter.

D'après mon expérience, les spécialistes des sciences sociales et des données ont tendance à envisager la réutilisation de manière très différente. Les spécialistes des sciences sociales, qui ont l'habitude de travailler avec des données conçues pour la recherche, sont généralement prompts à signaler les problèmes liés aux données réutilisées tout en ignorant leurs points forts. D'un autre côté, les spécialistes des données sont généralement prompts à souligner les avantages des données réutilisées tout en ignorant leurs faiblesses. Naturellement, la meilleure approche est un hybride. Autrement dit, les chercheurs doivent comprendre les caractéristiques des sources de données volumineuses, bonnes ou mauvaises, et trouver ensuite comment en tirer des leçons. Et, c'est le plan pour le reste de ce chapitre. Dans la section suivante, je vais décrire dix caractéristiques communes des grandes sources de données. Ensuite, dans la section suivante, je vais décrire trois approches de recherche qui peuvent bien fonctionner avec de telles données.