2.3.4 Incomplet

Peu importe la taille de vos gros volumes de données, il n'a probablement pas l'information que vous voulez.

La plupart des grandes sources de données sont incomplètes , dans le sens où elles ne disposent pas de l'information que vous voulez pour votre recherche. Ceci est une caractéristique commune des données qui ont été créées à des fins autres que la recherche. De nombreux chercheurs en sciences sociales ont déjà eu l'expérience de traiter l'incomplétude, comme une enquête existante qui ne posait pas la question qui était nécessaire. Malheureusement, les problèmes d'incomplétude ont tendance à être plus extrêmes dans les grandes données. D'après mon expérience, le Big Data a tendance à manquer trois types d'informations utiles pour la recherche sociale: les informations démographiques sur les participants, le comportement sur d'autres plateformes et les données permettant d'opérationnaliser les concepts théoriques.

Parmi les trois types d'incomplétude, le problème des données incomplètes pour opérationnaliser les concepts théoriques est le plus difficile à résoudre. Et dans mon expérience, il est souvent oublié accidentellement. Grosso modo, les constructions théoriques sont des idées abstraites que les sociologues étudient et l' opérationnalisation d' une construction théorique signifie proposer un moyen de capturer cette construction avec des données observables. Malheureusement, ce processus simple s'avère souvent difficile. Imaginons, par exemple, que nous essayions de tester empiriquement l'affirmation apparemment simple selon laquelle les gens plus intelligents gagnent plus d'argent. Pour tester cette affirmation, vous devez mesurer l'intelligence. Mais qu'est-ce que l'intelligence? Gardner (2011) soutenu qu'il existe en fait huit formes différentes d'intelligence. Et y a-t-il des procédures qui pourraient mesurer avec précision n'importe laquelle de ces formes d'intelligence? Malgré d'énormes quantités de travail de psychologues, ces questions n'ont toujours pas de réponses non ambiguës.

Ainsi, même une revendication relativement simple - les personnes plus intelligentes gagnent plus d'argent - peut être difficile à évaluer empiriquement, car il peut être difficile d'opérationnaliser les concepts théoriques dans les données. D'autres exemples de constructions théoriques importantes mais difficiles à opérationnaliser comprennent les «normes», le «capital social» et la «démocratie». Les chercheurs en sciences sociales appellent la concordance entre les constructions théoriques et la validité des constructions de données (Cronbach and Meehl 1955) . Comme le suggère cette courte liste de concepts, la validité conceptuelle est un problème auquel les chercheurs en sciences sociales ont longtemps été confrontés. Mais d'après mon expérience, les problèmes de validité de construction sont encore plus importants lorsqu'on travaille avec des données qui n'ont pas été créées à des fins de recherche (Lazer 2015) .

Lorsque vous évaluez un résultat de recherche, un moyen rapide et utile d'évaluer la validité du construit est de prendre le résultat, qui est généralement exprimé en termes de constructions, et de le ré-exprimer en termes de données utilisées. Par exemple, considérons deux études hypothétiques qui prétendent montrer que les gens qui sont plus intelligents gagnent plus d'argent. Dans la première étude, le chercheur a constaté que les personnes qui obtiennent de bons résultats au Raven Progressive Matrices Test - un test d'intelligence analytique bien étudié (Carpenter, Just, and Shell 1990) - ont des revenus déclarés plus élevés dans leurs déclarations de revenus. Dans la deuxième étude, le chercheur a constaté que les personnes sur Twitter qui utilisent des mots plus longs sont plus susceptibles de mentionner les marques de luxe. Dans les deux cas, ces chercheurs pourraient prétendre avoir démontré que les personnes plus intelligentes gagnent plus d'argent. Cependant, dans la première étude, les constructions théoriques sont bien opérationnalisées par les données, alors que dans la seconde, elles ne le sont pas. En outre, comme cet exemple l'illustre, plus de données ne résolvent pas automatiquement les problèmes de validité de construction. Vous devriez douter des résultats de la deuxième étude, qu'il s'agisse d'un million de tweets, d'un milliard de tweets ou d'un billion de tweets. Pour les chercheurs qui ne sont pas familiers avec l'idée de validité de construction, le tableau 2.2 fournit quelques exemples d'études qui ont opérationnalisé des constructions théoriques en utilisant des données de trace numériques.

Tableau 2.2: Exemples de traces numériques utilisées pour opérationnaliser les constructions théoriques
La source de données Construction théorique Les références
Courrier électronique d'une université (métadonnées seulement) Relations sociales Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Postes de médias sociaux sur Weibo L'engagement civique Zhang (2016)
E-mails d'une entreprise (méta-données et texte complet) Ajustement culturel dans une organisation Srivastava et al. (2017)

Bien que le problème des données incomplètes pour capturer des constructions théoriques soit assez difficile à résoudre, il existe des solutions communes aux autres types courants d'incomplétude: des informations démographiques incomplètes et des informations incomplètes sur le comportement sur d'autres plateformes. La première solution consiste à collecter les données dont vous avez besoin; Je vais vous en parler au chapitre 3 quand je vous parle d'enquêtes. La deuxième solution principale consiste à faire ce que les scientifiques de données appellent l'inférence d'attributs d'utilisateurs et les spécialistes en sciences sociales appellent l' imputation . Dans cette approche, les chercheurs utilisent l'information qu'ils ont sur certaines personnes pour déduire les attributs d'autres personnes. Une troisième solution possible consiste à combiner plusieurs sources de données. Ce processus est parfois appelé couplage d'enregistrements . Ma métaphore préférée pour ce processus a été écrite par Dunn (1946) dans le tout premier paragraphe du tout premier article sur le couplage d'enregistrements:

"Chaque personne dans le monde crée un livre de vie. Ce livre commence avec la naissance et se termine par la mort. Ses pages sont constituées d'enregistrements des principaux événements de la vie. Le couplage d'enregistrements est le nom donné au processus d'assemblage des pages de ce livre en un volume. "

Quand Dunn a écrit ce passage, il s'imaginait que le Livre de Vie pourrait inclure des événements majeurs de la vie comme la naissance, le mariage, le divorce et la mort. Cependant, maintenant que tant d'informations sur les personnes sont enregistrées, le Livre de Vie pourrait être un portrait incroyablement détaillé, si ces différentes pages (c'est-à-dire nos traces numériques) peuvent être liées ensemble. Ce livre de vie pourrait être une excellente ressource pour les chercheurs. Mais, on pourrait aussi l'appeler une base de données de ruines (Ohm 2010) , qui pourrait être utilisée pour toutes sortes d'objectifs contraires à l'éthique, comme je le décrirai au chapitre 6 (Éthique).