3.6.2 demandé Enriched

Cette traduction a été créé par un ordinateur. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.6.2 demandé Enriched

Même si elle peut être salissant, demandant enrichi peut être puissant.

Une approche différente de traiter avec l'incomplétude des données de trace numérique est de l' enrichir directement avec les données d'enquête, un processus que je vais appeler demandé enrichi. Un exemple de se demander enrichi est l'étude de Burke and Kraut (2014) , qui je l' ai décrit plus tôt dans le chapitre (section 3.2), à savoir si l' interaction sur Facebook augmente la force de l' amitié. Dans ce cas, Burke et Kraut combiné les données de l'enquête avec Facebook données du journal.

Le paramètre que Burke et Kraut travaillaient dans, cependant, signifie qu'ils ne doivent faire face à deux grands problèmes que les chercheurs font face à demander enrichi. Tout d' abord, en fait reliant les ensembles-a données processus appelé couplage d' enregistrements, la mise en correspondance d'un enregistrement dans un jeu de données avec l'enregistrement approprié dans l'autre ensemble de données-peut être difficile et sujette aux erreurs (nous allons voir un exemple de ce problème ci - dessous ). Le deuxième problème principal demandé enrichi est que la qualité des traces numériques sera souvent difficile pour les chercheurs d'évaluer. Par exemple, parfois le processus par lequel elle est recueillie est propriétaire et pourrait être sensible à un grand nombre des problèmes décrits au chapitre 2. En d'autres termes, demandant enrichi impliquera fréquemment liaison sujette aux erreurs d'enquêtes aux sources de données de boîte noire de inconnue qualité. Malgré les préoccupations que ces deux problèmes introduisent, il est possible d'effectuer des recherches importantes avec cette stratégie comme cela a été démontré par Stephen Ansolabehere et Eitan Hersh (2012) dans leurs recherches sur les habitudes de vote aux États - Unis. Il vaut la peine d'aller sur cette étude en détail parce que beaucoup de stratégies qui Ansolabehere et Hersh développées seront utiles dans d'autres applications de demander enrichi.

Le taux de participation a fait l'objet de recherches approfondies en sciences politiques, et dans le passé, la compréhension des chercheurs de qui vote et pourquoi a généralement été basée sur l'analyse des données d'enquête. Le vote aux États-Unis, cependant, est un comportement inhabituel en ce que les dossiers du gouvernement si chaque citoyen a voté (bien sûr, le gouvernement ne comptabilise pas qui chaque citoyen vote pour). Pendant de nombreuses années, ces documents de vote gouvernementales étaient disponibles sur des formulaires papier, dispersés dans divers bureaux gouvernementaux locaux à travers le pays. Cela a rendu difficile, mais pas impossible, pour les scientifiques politiques d'avoir une image complète de l'électorat et de comparer ce que les gens disent dans les sondages sur le vote à leur comportement de vote réel (Ansolabehere and Hersh 2012) .

Mais, maintenant ces enregistrements de vote ont été numérisés, et un certain nombre d'entreprises privées ont systématiquement collectées et a fusionné ces dossiers de vote pour produire des fichiers maîtres de vote complets qui enregistrent le comportement de vote de tous les Américains. Ansolabehere et Hersh en partenariat avec une de ces sociétés-Catalist LCC-pour utiliser leur dossier de vote maître pour aider à développer une meilleure image de l'électorat. De plus, parce qu'elle reposait sur des documents numériques collectées et organisée par une entreprise, il a offert un certain nombre d'avantages par rapport aux efforts précédents par des chercheurs qui avaient été faites sans l'aide des entreprises et en utilisant des enregistrements analogiques.

Comme beaucoup de sources d'oligo-numériques dans le chapitre 2, le fichier maître Catalist n'a pas inclus la plupart des informations démographiques, des attitudes et des comportements que Ansolabehere et Hersh nécessaires. En plus de ces informations, Ansolabehere et Hersh ont été particulièrement intéressés à comparer le comportement de vote rapporté au comportement de vote validé (ie, les informations contenues dans la base de données Catalist). Ainsi, les chercheurs ont recueilli les données qu'ils voulaient dans le cadre de l'étude coopérative du Congrès Election (CCES), une vaste enquête sociale. Ensuite, les chercheurs ont donné ces données à Catalist et Catalist ont donné aux chercheurs un fichier fusionné de données inclus validé comportement de vote (de Catalist), le comportement de vote auto-déclarée (de CCES) et les données démographiques et les attitudes des répondants (de CCES ). En d'autres termes, Ansolabehere et Hersh ont enrichi les données de vote avec des données d'enquête, et le fichier fusionné résultant leur permet de faire quelque chose que ni fichier activé individuellement.

En enrichissant le fichier de données de base Catalist avec des données d'enquête, Ansolabehere et Hersh sont venus à trois conclusions importantes. Tout d'abord, sur-déclaration du vote est endémique: près de la moitié des non-votants ont droit de vote. Ou, une autre façon de le regarder est si quelqu'un a rapporté le vote, il y a seulement une chance de 80% qu'ils ont effectivement voté. Deuxièmement, sur-déclaration est pas aléatoire; sur-déclaration est plus fréquente chez les hauts revenus, bien éduqués, partisans qui sont engagés dans les affaires publiques. En d'autres termes, les personnes qui sont les plus susceptibles de voter sont également plus susceptibles de mentir au sujet du vote. Troisièmement, et plus important encore, en raison de la nature systématique de la sur-déclaration, les différences réelles entre les électeurs et les non-votants sont plus petites qu'elles apparaissent juste à partir d'enquêtes. Par exemple, ceux qui ont un baccalauréat sont environ 22 points de pourcentage plus susceptibles de déclarer le vote, mais ne sont que 10 points de pourcentage plus susceptibles de vote réel. En outre, les théories basées sur les ressources existantes de vote sont beaucoup mieux à prédire qui fera rapport de vote à qui en fait votes, une constatation empirique qui appelle à de nouvelles théories pour comprendre et prédire le vote.

Mais, combien devrions-nous faire confiance à ces résultats? Rappelez-vous ces résultats dépendent de liaison d'erreurs aux données de boîte noire avec des quantités inconnues d'erreur. Plus précisément, les résultats reposent sur deux étapes clés: 1) la capacité de Catalist de combiner plusieurs sources de données disparates pour produire un fichier de données maître précis et 2) la capacité de Catalist pour relier les données de l'enquête à son maître datafile. Chacune de ces étapes est assez difficile et les erreurs à une ou l'autre étape pourrait conduire les chercheurs à des conclusions erronées. Cependant, à la fois le traitement des données et d'appariement sont essentiels à l'existence continue de Catalist comme une entreprise afin qu'elle puisse investir des ressources dans la résolution de ces problèmes, souvent à une échelle qui ne chercheur universitaire ou un groupe de chercheurs peuvent égaler. Dans la lecture plus loin à la fin du chapitre, je décris ces problèmes de manière plus détaillée et comment Ansolabehere et Hersh renforcer la confiance dans leurs résultats. Bien que ces informations sont spécifiques à cette étude, des questions semblables à celles-ci se posent pour d'autres chercheurs qui souhaitent faire un lien vers les sources de données trace numérique de boîte noire.

Quels sont les enseignements généraux chercheurs peuvent tirer de cette étude? Tout d'abord, il y a une valeur énorme d'enrichir les traces numériques avec des données d'enquête. Deuxièmement, même si ceux-ci agrégés, sources de données commerciales ne devraient pas être considérés comme "vérité terrain", dans certains cas, ils peuvent être utiles. En fait, il est préférable de comparer ces sources de données non à la vérité absolue (à partir de laquelle ils seront toujours en deçà). Au contraire, il est préférable de les comparer à d'autres sources de données disponibles, qui ont toujours des erreurs aussi.