2.4.1 choses de comptage

Comptage simple peut être intéressant si vous combinez une bonne question avec de bonnes données.

Bien qu'il soit rédigé dans un langage sophistiqué, beaucoup de recherches sociales ne font que compter. À l'ère des mégadonnées, les chercheurs peuvent compter plus que jamais, mais cela ne signifie pas qu'ils devraient commencer à compter au hasard. Au lieu de cela, les chercheurs devraient demander: Quelles sont les choses qui valent la peine d'être comptées? Cela peut sembler être une question entièrement subjective, mais il y a quelques modèles généraux.

Souvent, les étudiants motivent leur recherche en disant: Je vais compter quelque chose que personne n'a jamais compté auparavant. Par exemple, un étudiant pourrait dire que beaucoup de gens ont étudié des migrants et beaucoup de gens ont étudié des jumeaux, mais personne n'a étudié les jumeaux migrants. D'après mon expérience, cette stratégie, que j'appelle la motivation par l'absence , ne mène généralement pas à de bonnes recherches. La motivation par l'absence est un peu comme dire qu'il y a un trou là-bas, et je vais travailler très dur pour le remplir. Mais pas tous les trous doivent être remplis.

Au lieu de motiver par l'absence, je pense qu'une meilleure stratégie consiste à rechercher des questions de recherche qui sont importantes ou intéressantes (ou idéalement les deux). Ces deux termes sont un peu difficiles à définir, mais une façon de penser à une recherche importante est qu'elle a un impact mesurable ou qu'elle alimente une décision importante des décideurs. Par exemple, il est important de mesurer le taux de chômage car c'est un indicateur de l'économie qui détermine les décisions politiques. En général, je pense que les chercheurs ont une bonne idée de ce qui est important. Donc, dans le reste de cette section, je vais vous donner deux exemples où je pense que le comptage est intéressant. Dans chaque cas, les chercheurs ne comptaient pas au hasard; ils comptaient plutôt dans des contextes très particuliers révélant des idées importantes sur des idées plus générales sur le fonctionnement des systèmes sociaux. En d'autres termes, beaucoup de ce qui rend ces exercices de comptage particuliers intéressants n'est pas les données elles-mêmes, elles proviennent de ces idées plus générales.

Un exemple du simple pouvoir de compter vient de l'étude de Henry Farber (2015) sur le comportement des chauffeurs de taxis de New York. Bien que ce groupe ne semble pas intrinsèquement intéressant, c'est un site de recherche stratégique pour tester deux théories concurrentes en économie du travail. Aux fins de la recherche de Farber, il y a deux caractéristiques importantes de l'environnement de travail des chauffeurs de taxi: (1) leur salaire horaire fluctue d'un jour à l'autre, en fonction de facteurs météorologiques, et (2) le nombre d'heures le travail peut fluctuer chaque jour en fonction de leurs décisions. Ces caractéristiques conduisent à une question intéressante sur la relation entre les salaires horaires et les heures travaillées. Les modèles néoclassiques en économie prédisent que les chauffeurs de taxi travailleront davantage les jours où ils ont des salaires horaires plus élevés. Alternativement, les modèles de l'économie comportementale prédisent exactement le contraire. Si les conducteurs fixent un objectif de revenu particulier - disons 100 $ par jour - et travaillent jusqu'à ce que cet objectif soit atteint, les conducteurs finiront par travailler moins d'heures les jours où ils gagnent plus. Par exemple, si vous étiez un salarié cible, vous pourriez finir par travailler quatre heures par jour (25 $ l'heure) et cinq heures par jour (20 $ l'heure). Ainsi, les conducteurs travaillent-ils plus d'heures les jours avec des salaires horaires plus élevés (comme prévu par les modèles néoclassiques) ou plus d'heures les jours avec des salaires horaires plus bas (comme prévu par les modèles économiques comportementaux)?

Pour répondre à cette question, Farber a obtenu des données sur chaque trajet en taxi effectué par les taxis de New York de 2009 à 2013, données qui sont maintenant disponibles au public. Ces données - recueillies par des compteurs électroniques que la ville exige des taxis - comprennent des informations sur chaque voyage: heure de départ, lieu de départ, heure de fin, lieu de fin, tarif et pourboire (si le pourboire a été payé avec une carte de crédit) . En utilisant ces données de compteurs de taxis, Farber a constaté que la plupart des conducteurs travaillent davantage les jours où les salaires sont plus élevés, conformément à la théorie néoclassique.

En plus de cette découverte principale, Farber a pu utiliser la taille des données pour une meilleure compréhension de l'hétérogénéité et de la dynamique. Il a constaté qu'au fil du temps, les nouveaux conducteurs apprennent progressivement à travailler plus d'heures les jours où les salaires sont élevés (p. Ex., Ils apprennent à se comporter comme le prévoit le modèle néoclassique). Et les nouveaux conducteurs qui se comportent davantage comme des bénéficiaires cibles sont plus susceptibles de cesser d'être chauffeurs de taxi. Ces deux découvertes plus subtiles, qui aident à expliquer le comportement observé des pilotes actuels, n'étaient possibles qu'en raison de la taille de l'ensemble de données. Ils étaient impossibles à détecter dans les études antérieures qui utilisaient des feuilles de voyage papier d'un petit nombre de chauffeurs de taxi sur une courte période de temps (Camerer et al. 1997) .

L'étude de Farber était proche d'un scénario optimiste pour une recherche utilisant une grande source de données car les données collectées par la ville étaient assez proches des données que Farber aurait recueillies (une différence est que Farber aurait voulu des données sur le total les salaires et les pourboires, mais les données sur la ville ne comprennent que les pourboires payés par carte de crédit). Cependant, les données seules n'étaient pas suffisantes. La clé de la recherche de Farber était d'apporter une question intéressante aux données, une question qui a des implications plus larges au-delà de ce cadre spécifique.

Un deuxième exemple de comptage provient des recherches de Gary King, Jennifer Pan et Molly Roberts (2013) sur la censure en ligne par le gouvernement chinois. Dans ce cas, cependant, les chercheurs ont dû collecter leurs propres données volumineuses et ils ont dû faire face au fait que leurs données étaient incomplètes.

King et ses collègues étaient motivés par le fait que les médias sociaux en Chine sont censurés par un énorme appareil d'État qui devrait inclure des dizaines de milliers de personnes. Les chercheurs et les citoyens, cependant, ont peu de sens sur la façon dont ces censeurs décident quel contenu devrait être supprimé. Les chercheurs chinois ont des attentes contradictoires quant aux types de postes les plus susceptibles d'être supprimés. Certains pensent que les censeurs se concentrent sur les postes qui critiquent l'État, alors que d'autres pensent qu'ils se concentrent sur des messages qui encouragent un comportement collectif, comme les manifestations. Déterminer laquelle de ces attentes est correcte a des implications sur la façon dont les chercheurs comprennent la Chine et d'autres gouvernements autoritaires qui se livrent à la censure. Par conséquent, King et ses collègues ont voulu comparer les publications qui ont été publiées et ensuite supprimées avec les publications qui ont été publiées et qui n'ont jamais été supprimées.

La collecte de ces postes implique l'exploit d'ingénierie incroyable de ramper plus de 1000 sites Web chinois-chacun de médias sociaux différentes présentations de page d'enquête messages pertinents, puis revenir sur ces messages pour voir ce qui a été supprimé par la suite. En plus des problèmes d'ingénierie normaux associés à grande échelle web-crawling, ce projet avait le défi ajouté qu'il avait besoin d'être extrêmement rapide parce que beaucoup de messages censurés sont prises dans moins de 24 heures. En d'autres termes, un robot lent manquerait beaucoup de messages qui ont été censurés. En outre, les robots avaient à faire tout ce recueil de données tout en évitant la détection de peur que les sites de médias sociaux bloquent l'accès ou autrement modifier leurs politiques en réponse à l'étude.

Au moment où cette énorme tâche d'ingénierie avait été achevée, King et ses collègues avaient obtenu environ 11 millions de messages sur 85 sujets présélectionnés différents, chacun avec un niveau de sensibilité supposé. Par exemple, un sujet de grande sensibilité est Ai Weiwei, l'artiste dissident; un sujet de sensibilité moyenne est l'appréciation et la dévaluation de la monnaie chinoise, et un sujet de faible sensibilité est la Coupe du monde. Sur ces 11 millions de postes, environ 2 millions ont été censurés. De façon assez surprenante, King et ses collègues ont constaté que les messages sur des sujets hautement sensibles étaient censurés seulement un peu plus souvent que les messages sur des sujets de sensibilité moyenne ou faible. En d'autres termes, les censeurs chinois sont à peu près aussi susceptibles de censurer un poste qui mentionne Ai Weiwei comme un poste qui mentionne la Coupe du monde. Ces résultats ne soutiennent pas l'idée que le gouvernement censure tous les messages sur des sujets sensibles.

Ce simple calcul du taux de censure par sujet pourrait cependant être trompeur. Par exemple, le gouvernement pourrait censurer les postes qui soutiennent Ai Weiwei, mais laisser des postes qui sont critiques à son égard. Afin de distinguer plus soigneusement les messages, les chercheurs devaient mesurer le sentiment de chaque poste. Malheureusement, malgré beaucoup de travail, les méthodes entièrement automatisées de détection des sentiments à l'aide de dictionnaires préexistants ne sont toujours pas très efficaces dans de nombreuses situations (rappelons les problèmes de création d'un calendrier émotionnel du 11 septembre 2001 décrit à la section 2.3.9). Par conséquent, King et ses collègues avaient besoin d'un moyen d'étiqueter leurs 11 millions de messages sur les médias sociaux pour savoir s'ils étaient (1) critiques de l'État, (2) favorables à l'État ou (3) rapports non pertinents ou factuels sur les événements. Cela semble un travail énorme, mais ils l'ont résolu en utilisant une astuce puissante qui est courante en science des données mais relativement rare en sciences sociales: l' apprentissage supervisé ; voir la figure 2.5.

Tout d'abord, dans une étape généralement appelée prétraitement , les chercheurs ont converti les messages des médias sociaux en une matrice de termes documentaires , où il y avait une ligne pour chaque document et une colonne indiquant si le message contenait un mot spécifique (par exemple, protestation ou trafic) . Ensuite, un groupe d'assistants de recherche a étiqueté à la main le sentiment d'un échantillon de postes. Ensuite, ils ont utilisé ces données étiquetées à la main pour créer un modèle d'apprentissage automatique qui pourrait déduire le sentiment d'un poste en fonction de ses caractéristiques. Enfin, ils ont utilisé ce modèle pour estimer le sentiment de l'ensemble des 11 millions de postes.

Ainsi, plutôt que de lire et d'étiqueter manuellement 11 millions de messages - ce qui serait logistiquement impossible - King et ses collègues ont étiqueté manuellement un petit nombre de publications et ont ensuite utilisé l'apprentissage supervisé pour estimer le sentiment de tous les postes. Après avoir terminé cette analyse, ils ont pu conclure que, de manière quelque peu surprenante, la probabilité de suppression d'un poste n'était pas liée à la critique de l'état ou au soutien de l'État.

Figure 2.5: Schéma simplifié de la procédure utilisée par King, Pan et Roberts (2013) pour estimer le sentiment de 11 millions de messages de médias sociaux chinois. Tout d'abord, dans une étape de prétraitement, les chercheurs ont converti les messages des médias sociaux en une matrice de termes documentaires (voir Grimmer et Stewart (2013) pour plus d'informations). Deuxièmement, ils ont codé à la main les sentiments d'un petit échantillon de postes. Troisièmement, ils ont formé un modèle d'apprentissage supervisé pour classer le sentiment des postes. Quatrièmement, ils ont utilisé le modèle d'apprentissage supervisé pour estimer le sentiment de tous les postes. Voir King, Pan et Roberts (2013), annexe B pour une description plus détaillée.

Figure 2.5: Schéma simplifié de la procédure utilisée par King, Pan, and Roberts (2013) pour estimer le sentiment de 11 millions de messages de médias sociaux chinois. Tout d'abord, dans une étape de prétraitement , les chercheurs ont converti les messages des médias sociaux en une matrice de termes documentaires (voir Grimmer and Stewart (2013) pour plus d'informations). Deuxièmement, ils ont codé à la main les sentiments d'un petit échantillon de postes. Troisièmement, ils ont formé un modèle d'apprentissage supervisé pour classer le sentiment des postes. Quatrièmement, ils ont utilisé le modèle d'apprentissage supervisé pour estimer le sentiment de tous les postes. Voir King, Pan, and Roberts (2013) , annexe B pour une description plus détaillée.

Finalement, King et ses collègues ont découvert que seulement trois types de postes étaient régulièrement censurés: la pornographie, la critique des censeurs, et ceux qui avaient un potentiel d'action collective (c.-à-d. La possibilité de mener à des protestations à grande échelle). En observant un grand nombre de messages qui ont été supprimés et des messages qui n'ont pas été supprimés, King et ses collègues ont pu apprendre comment fonctionnent les censeurs en regardant et en comptant. En outre, préfigurant un thème qui se produira tout au long de ce livre, l'approche d'apprentissage supervisé qu'ils ont utilisé - étiquetant certains résultats et ensuite construire un modèle d'apprentissage automatique pour marquer le reste - s'avère très commun dans la recherche sociale à l'ère numérique . Vous verrez des images très similaires à la figure 2.5 dans les chapitres 3 (poser des questions) et 5 (créer une collaboration de masse); C'est l'une des rares idées qui apparaissent dans plusieurs chapitres.

Ces exemples - le comportement de travail des chauffeurs de taxis à New York et le comportement de censure des médias sociaux du gouvernement chinois - montrent qu'un comptage relativement simple des grandes sources de données peut, dans certaines situations, mener à des recherches intéressantes et importantes. Dans les deux cas, cependant, les chercheurs ont dû apporter des questions intéressantes à la grande source de données; les données en elles-mêmes n'étaient pas suffisantes.