3.6.1 enrichie

Dans une demande enrichie, les données d'enquête construisent le contexte autour d'une grande source de données qui contient des mesures importantes mais en manque d'autres.

Une façon de combiner les données d'enquête et les sources de données volumineuses est un processus que je qualifierai d' enrichi . Dans une demande enrichie, une grande source de données contient des mesures importantes, mais il manque d'autres mesures, de sorte que le chercheur recueille ces mesures manquantes dans une enquête, puis relie les deux sources de données ensemble. Un exemple de demande enrichie est l'étude de Burke and Kraut (2014) sur la question de savoir si l'interaction sur Facebook augmente la force de l'amitié, que j'ai décrite dans la section 3.2). Dans ce cas, Burke et Kraut ont combiné les données d'enquête avec les données du journal Facebook.

Le cadre dans lequel Burke et Kraut travaillaient, cependant, signifiait qu'ils n'avaient pas à faire face à deux gros problèmes que les chercheurs qui enrichissent posent généralement face à. Premièrement, relier ensemble les ensembles de données individuels, un processus appelé couplage d'enregistrements , peut être difficile s'il n'y a pas d'identificateur unique dans les deux sources de données pouvant être utilisé pour garantir que l'enregistrement correct d'un jeu de données correspond au bon enregistrement dans l'autre ensemble de données. Le deuxième problème majeur avec la demande enrichie est que la qualité de la source de données volumineuses sera souvent difficile à évaluer pour les chercheurs car le processus par lequel les données sont créées peut être propriétaire et pourrait être sujet à de nombreux problèmes décrits au chapitre 2. En d'autres termes, une demande enrichie impliquera fréquemment un enchaînement d'enquêtes sujettes aux erreurs afin de mettre en boîte noire des sources de données de qualité inconnue. Malgré ces problèmes, cependant, des demandes enrichies peuvent être utilisées pour mener d'importantes recherches, comme l'ont démontré Stephen Ansolabehere et Eitan Hersh (2012) dans leurs recherches sur les tendances électorales aux États-Unis.

Le taux de participation a fait l'objet de recherches approfondies en science politique et, par le passé, la compréhension par les chercheurs de qui a voté et pourquoi a généralement été basée sur l'analyse des données d'enquête. Voter aux États-Unis, cependant, est un comportement inhabituel dans la mesure où le gouvernement enregistre si chaque citoyen a voté (bien sûr, le gouvernement ne consigne pas pour qui chaque citoyen vote). Pendant de nombreuses années, ces dossiers de vote gouvernementaux étaient disponibles sur des formulaires papier, éparpillés dans divers bureaux du gouvernement local à travers le pays. Cela a rendu très difficile, mais pas impossible, pour les politologues d'avoir une image complète de l'électorat et de comparer ce que les gens disent dans les sondages sur le vote avec leur comportement de vote réel (Ansolabehere and Hersh 2012) .

Mais ces dossiers de vote ont maintenant été numérisés, et un certain nombre de sociétés privées les ont systématiquement collectées et fusionnées pour produire des fichiers complets de vote par correspondance qui contiennent le comportement de vote de tous les Américains. Ansolabehere et Hersh se sont associés à l'une de ces sociétés, la LCC catalane, afin d'utiliser leur fichier de vote principal pour aider à développer une meilleure image de l'électorat. De plus, parce que leur étude s'appuyait sur des documents numériques recueillis et conservés par une entreprise ayant investi des ressources substantielles dans la collecte et l'harmonisation des données, elle offrait un certain nombre d'avantages par rapport aux efforts antérieurs sans l'aide des entreprises.

Comme beaucoup des grandes sources de données du chapitre 2, le fichier principal cataliste n'incluait pas la plupart des informations démographiques, comportementales et comportementales dont Ansolabehere et Hersh avaient besoin. En fait, ils étaient particulièrement intéressés à comparer le comportement de vote rapporté dans les enquêtes avec un comportement de vote validé (c'est-à-dire, les informations dans la base de données Catalyst). Donc, Ansolabehere et Hersh ont recueilli les données qu'ils voulaient comme une vaste enquête sociale, le CCES, mentionnée plus tôt dans ce chapitre. Ensuite, ils ont donné leurs données à Catalist, et Catalist leur a remis un fichier de données fusionné qui comprenait le comportement de vote validé (de Catalist), le comportement de vote autodéclaré (du CCES) et la démographie et les attitudes des répondants (du CCES) (figure 3.13). En d'autres termes, Ansolabehere et Hersh ont combiné les données des enregistrements de vote avec les données d'enquête afin de faire des recherches qui n'étaient pas possibles avec l'une ou l'autre source de données individuellement.

Figure 3.13: Schéma de l'étude réalisée par Ansolabehere et Hersh (2012). Pour créer le fichier de données maître, Catalist combine et harmonise les informations de nombreuses sources différentes. Ce processus de fusion, peu importe la prudence, propage les erreurs dans les sources de données d'origine et introduit de nouvelles erreurs. Une deuxième source d'erreurs est le couplage d'enregistrements entre les données d'enquête et le fichier de données maître. Si chaque personne avait un identifiant unique et stable dans les deux sources de données, alors le couplage serait trivial. Mais, Catalist a dû faire le lien en utilisant des identifiants imparfaits, dans ce cas, le nom, le sexe, l'année de naissance, et l'adresse du domicile. Malheureusement, dans de nombreux cas, il peut y avoir des informations incomplètes ou inexactes; un électeur nommé Homer Simpson pourrait apparaître comme Homer Jay Simpson, Homie J Simpson, ou même Homer Sampsin. Malgré le potentiel d'erreurs dans le fichier de données maître Catalyst et les erreurs dans le couplage d'enregistrements, Ansolabehere et Hersh ont pu établir la confiance dans leurs estimations grâce à différents types de contrôles.

Figure 3.13: Schéma de l'étude réalisée par Ansolabehere and Hersh (2012) . Pour créer le fichier de données maître, Catalist combine et harmonise les informations de nombreuses sources différentes. Ce processus de fusion, peu importe la prudence, propage les erreurs dans les sources de données d'origine et introduit de nouvelles erreurs. Une deuxième source d'erreurs est le couplage d'enregistrements entre les données d'enquête et le fichier de données maître. Si chaque personne avait un identifiant unique et stable dans les deux sources de données, alors le couplage serait trivial. Mais, Catalist a dû faire le lien en utilisant des identifiants imparfaits, dans ce cas, le nom, le sexe, l'année de naissance, et l'adresse du domicile. Malheureusement, dans de nombreux cas, il peut y avoir des informations incomplètes ou inexactes; un électeur nommé Homer Simpson pourrait apparaître comme Homer Jay Simpson, Homie J Simpson, ou même Homer Sampsin. Malgré le potentiel d'erreurs dans le fichier de données maître Catalyst et les erreurs dans le couplage d'enregistrements, Ansolabehere et Hersh ont pu établir la confiance dans leurs estimations grâce à différents types de contrôles.

Avec leur fichier de données combiné, Ansolabehere et Hersh sont arrivés à trois conclusions importantes. Premièrement, la surdéclaration du vote est endémique: près de la moitié des non-votants ont déclaré avoir voté, et si quelqu'un a déclaré avoir voté, il y a seulement 80% de chances qu'ils aient effectivement voté. Deuxièmement, la surdéclaration n'est pas aléatoire: la surdéclaration est plus fréquente chez les partisans à revenu élevé et instruits qui sont engagés dans les affaires publiques. En d'autres termes, les personnes les plus susceptibles de voter sont aussi les plus susceptibles de mentir au sujet du vote. Troisièmement, et surtout, en raison de la nature systématique de la surdéclaration, les différences réelles entre les électeurs et les non-votants sont plus faibles qu'elles ne semblent l'être à partir des enquêtes. Par exemple, les titulaires d'un baccalauréat sont environ 22% plus susceptibles de déclarer avoir voté, mais ils ne sont que 10% plus susceptibles de voter. Il semble, peut-être sans surprise, que les théories actuelles du vote fondées sur les ressources permettent de prédire plus clairement qui notifiera le vote (les données que les chercheurs ont utilisées dans le passé) que de prédire qui vote réellement. Ainsi, la découverte empirique d' Ansolabehere and Hersh (2012) appelle de nouvelles théories pour comprendre et prédire le vote.

Mais combien devrions-nous faire confiance à ces résultats? Rappelez-vous que ces résultats dépendent d'une liaison sujette à l'erreur à des données de boîte noire avec des quantités inconnues d'erreur. Plus spécifiquement, les résultats s'articulent autour de deux étapes clés: (1) la capacité du Cataliste à combiner plusieurs sources de données disparates pour produire un fichier de données maître précis et (2) la capacité du Cataliste à relier les données d'enquête à son fichier de données maître. Chacune de ces étapes est difficile, et des erreurs dans l'une ou l'autre étape pourraient mener les chercheurs à de mauvaises conclusions. Cependant, le traitement des données et le couplage sont essentiels à la pérennité de Catalist en tant que société, de sorte qu'il peut investir des ressources dans la résolution de ces problèmes, souvent à une échelle qu'aucun chercheur universitaire ne peut égaler. Dans leur article, Ansolabehere et Hersh passent par plusieurs étapes pour vérifier les résultats de ces deux étapes - même si certaines d'entre elles sont propriétaires - et ces vérifications pourraient être utiles pour d'autres chercheurs souhaitant lier les données d'enquête à la boîte noire. sources.

Quelles sont les leçons générales que les chercheurs peuvent tirer de cette étude? Tout d'abord, il y a une valeur énorme à la fois en enrichissant les sources de données volumineuses avec des données d'enquête et en enrichissant les données d'enquête avec de grandes sources de données (vous pouvez voir cette étude de toute façon). En combinant ces deux sources de données, les chercheurs ont été en mesure de faire quelque chose qui était impossible avec l'un ou l'autre. La deuxième leçon générale est que, bien qu'agrégées, les sources de données commerciales, telles que les données de Catalist, ne doivent pas être considérées comme une «vérité de terrain», dans certains cas, elles peuvent être utiles. Les sceptiques comparent parfois ces sources de données commerciales agrégées avec la vérité absolue et soulignent que ces sources de données sont insuffisantes. Cependant, dans ce cas, les sceptiques font une fausse comparaison: toutes les données utilisées par les chercheurs sont en deçà de la vérité absolue. Au lieu de cela, il est préférable de comparer des sources de données commerciales agrégées avec d'autres sources de données disponibles (par exemple, le comportement de vote autodéclaré), qui comportent invariablement également des erreurs. Enfin, la troisième leçon générale de l'étude d'Ansolabehere et Hersh est que dans certaines situations, les chercheurs peuvent bénéficier des énormes investissements que de nombreuses entreprises privées effectuent pour collecter et harmoniser des ensembles de données sociales complexes.