Activités

Cette traduction a été créé par un ordinateur. ×

Activités

degré de difficulté: facile , moyen , difficile , très dur
nécessite des maths ( $nécessite des maths$ )
nécessite un codage ( )
collecte de données ( )
mes favoris ( )

[ , La confusion algorithmique était un problème avec Google Flu Trends. Lire l'article de Lazer et al. (2014) , et écrivez un email court et clair à un ingénieur chez Google expliquant le problème et offrant une idée de la façon de le réparer.
[ ] Bollen, Mao, and Zeng (2011) affirment que les données de Twitter peuvent être utilisées pour prédire le marché boursier. Cette découverte a mené à la création d'un fonds de couverture - Derwent Capital Markets - pour investir dans le marché boursier à partir des données recueillies sur Twitter (Jordan 2010) . Quelle preuve voudriez-vous voir avant de mettre votre argent dans ce fonds?
[ Bien que certains défenseurs de la santé publique considèrent les cigarettes électroniques comme une aide efficace à l'arrêt du tabac, d'autres mettent en garde contre les risques potentiels, tels que les niveaux élevés de nicotine. Imaginez qu'un chercheur décide d'étudier l'opinion publique à l'égard des cigarettes électroniques en recueillant des messages Twitter sur les cigarettes électroniques et en effectuant une analyse des sentiments.
1. Quels sont les trois biais possibles qui vous préoccupent le plus dans cette étude?
2. Clark et al. (2016) mené une telle étude. D'abord, ils ont recueilli 850 000 tweets qui utilisaient des mots clés liés à l'e-cigarette de janvier 2012 à décembre 2014. Une inspection plus approfondie leur a permis de constater que bon nombre de ces tweets étaient automatisés (c.-à-d. publicités. Ils ont développé un algorithme de détection humaine pour séparer les tweets automatisés des tweets organiques. En utilisant cet algorithme de détection humaine, ils ont trouvé que 80% des tweets étaient automatisés. Est-ce que cette conclusion change votre réponse à la partie (a)?
3. Quand ils ont comparé le sentiment dans les tweets organiques et automatisés, ils ont trouvé que les tweets automatisés étaient plus positifs que les tweets organiques (6,17 contre 5,84). Est-ce que cette conclusion change votre réponse à (b)?
[ ] En novembre 2009, Twitter a changé la question dans la boîte de tweet de "Que faites-vous?" À "Qu'est-ce qui se passe?" (Https://blog.twitter.com/2009/whats-happening).
1. Comment pensez-vous que le changement d'invites affectera qui tweets et / ou ce qu'ils tweetent?
2. Nommez un projet de recherche pour lequel vous préféreriez l'invite «Que faites-vous?» Expliquez pourquoi.
3. Nommez un projet de recherche pour lequel vous préférez l'invite "Qu'est-ce qui se passe?" Expliquez pourquoi.
[ ] "Retweets" sont souvent utilisés pour mesurer l'influence et la propagation de l'influence sur Twitter. Au départ, les utilisateurs devaient copier et coller le tweet qu'ils aimaient, étiqueter l'auteur original avec son pseudonyme et taper manuellement «RT» avant le tweet pour indiquer qu'il s'agissait d'un retweet. Puis, en 2009, Twitter a ajouté un bouton "retweet". En juin 2016, Twitter a permis aux utilisateurs de retweeter leurs propres tweets (https://twitter.com/twitter/status/742749353689780224). Pensez-vous que ces changements devraient affecter la façon dont vous utilisez les «retweets» dans votre recherche? Pourquoi ou pourquoi pas?
[ , , , ] Dans un article largement discuté, Michel et ses collègues (2011) analysé le contenu de plus de cinq millions de livres numérisés dans le but d'identifier les tendances culturelles à long terme. Les données qu'ils ont utilisées sont maintenant publiées sous la forme de l'ensemble de données Google NGrams, et nous pouvons donc utiliser les données pour répliquer et étendre une partie de leur travail.

Dans l'un des nombreux résultats de l'article, Michel et ses collègues ont fait valoir que nous oublions de plus en plus vite. Pour une année donnée, disons "1883", ils ont calculé la proportion de 1 grammes publiée chaque année entre 1875 et 1975 qui étaient "1883". Ils ont estimé que cette proportion est une mesure de l'intérêt pour les événements qui ont eu lieu cette année-là. Dans leur figure 3a, ils ont tracé les trajectoires d'utilisation pendant trois ans: 1883, 1910 et 1950. Ces trois années partagent un schéma commun: peu utilisé avant cette année, puis un pic, puis décroissance. Ensuite, pour quantifier le taux de décroissance pour chaque année, Michel et ses collègues ont calculé la «demi-vie» de chaque année pour toutes les années entre 1875 et 1975. Dans leur figure 3a (encart), ils ont montré que la demi-vie de chaque l'année est en baisse, et ils ont fait valoir que cela signifie que nous oublions le passé de plus en plus vite. Ils ont utilisé la version 1 du corpus de langue anglaise, mais par la suite Google a publié une deuxième version du corpus. Veuillez lire toutes les parties de la question avant de commencer le codage.

Cette activité vous permettra d'écrire du code réutilisable, d'interpréter des résultats et de résoudre des problèmes de données (comme travailler avec des fichiers difficiles et gérer des données manquantes). Cette activité vous aidera également à vous lancer avec un ensemble de données riche et intéressant.
1. Obtenez les données brutes à partir du site Web Google Livres NGram Viewer. En particulier, vous devez utiliser la version 2 du corpus de langue anglaise, qui a été publié le 1er juillet 2012. Non compressé, ce fichier est de 1,4 Go.
2. Recréer la partie principale de la figure 3a de Michel et al. (2011) . Pour recréer cette figure, vous aurez besoin de deux fichiers: celui que vous avez téléchargé dans la partie (a) et le fichier "total count", que vous pouvez utiliser pour convertir les nombres bruts en proportions. Notez que le fichier des comptes totaux a une structure qui peut rendre la lecture un peu difficile. La version 2 des données NGram produit-elle des résultats similaires à ceux présentés dans Michel et al. (2011) , basés sur les données de la version 1?
3. Maintenant, vérifiez votre graphique par rapport au graphique créé par NGram Viewer.
4. Recréez la figure 3a (figure principale), mais changez l'axe $y$ pour qu'il soit le compte de la mention brute (pas le taux de mentions).
5. Est-ce que la différence entre (b) et (d) vous amène à réévaluer l'un des résultats de Michel et al. (2011). Pourquoi ou pourquoi pas?
6. Maintenant, en utilisant la proportion de mentions, reproduisez l'encart de la figure 3a. C'est-à-dire, pour chaque année entre 1875 et 1975, calculer la demi-vie de cette année. La demi-vie est définie comme étant le nombre d'années qui s'écoulent avant que la proportion de mentions atteigne la moitié de sa valeur maximale. Notez que Michel et al. (2011) font quelque chose de plus compliqué pour estimer la demi-vie - voir la section III.6 de l'Information en ligne de soutien - mais ils affirment que les deux approches produisent des résultats similaires. La version 2 des données NGram produit-elle des résultats similaires à ceux présentés dans Michel et al. (2011) , basés sur les données de la version 1? (Indice: Ne soyez pas surpris si ce n'est pas le cas.)
7. Y a-t-il eu des années aberrantes telles que des années oubliées particulièrement rapidement ou particulièrement lentement? Faites une brève spéculation sur les raisons possibles de ce modèle et expliquez comment vous avez identifié les valeurs aberrantes.
8. Reproduisez maintenant ce résultat pour la version 2 des données NGrams en chinois, français, allemand, hébreu, italien, russe et espagnol.
9. En comparant toutes les langues, y a-t-il eu des années aberrantes, comme des années oubliées particulièrement rapidement ou particulièrement lentement? Spéculer brièvement sur les raisons possibles de ce modèle.
[ , , , ] Penney (2016) examiné si la publicité généralisée sur la surveillance NSA / PRISM (les révélations de Snowden) en juin 2013 était associée à une baisse soudaine et brusque du trafic vers les articles de Wikipédia sur des sujets qui soulèvent des problèmes de confidentialité. Si c'est le cas, ce changement de comportement serait compatible avec un effet paralysant résultant de la surveillance de masse. L'approche de Penney (2016) est parfois appelée une conception de série temporelle interrompue , et elle est liée aux approches décrites dans la section 2.4.3.

Pour choisir les mots-clés du sujet, Penney s'est référé à la liste utilisée par le département américain de la sécurité intérieure pour le suivi et la surveillance des médias sociaux. La liste DHS catégorise certains termes de recherche dans un éventail de questions, à savoir «Préoccupation pour la santé», «Sécurité des infrastructures» et «Terrorisme». Pour le groupe d'étude, Penney a utilisé les 48 mots clés associés au «Terrorisme». ). Il a ensuite agrégé le nombre de vues d'articles de Wikipedia sur une base mensuelle pour les 48 articles de Wikipédia correspondants sur une période de 32 mois, de début janvier à fin août 2014. Pour renforcer son argument, il a également créé plusieurs groupes de comparaison vues d'articles sur d'autres sujets.

Maintenant, vous allez reproduire et étendre Penney (2016) . Toutes les données brutes dont vous aurez besoin pour cette activité sont disponibles sur Wikipedia. Ou vous pouvez l'obtenir à partir du paquet R wikipediatrend (Meissner and R Core Team 2016) . Lorsque vous écrivez vos réponses, veuillez noter quelle source de données vous avez utilisée. (Notez que cette même activité figure également au chapitre 6.) Cette activité vous donnera l'occasion de vous entraîner dans la recherche de données et de réfléchir aux expériences naturelles dans les sources de données volumineuses. Il vous permettra également de démarrer avec une source de données potentiellement intéressante pour les futurs projets.
1. Lisez Penney (2016) et reproduisez sa figure 2 qui montre les pages vues pour les pages «Terrorisme» avant et après les révélations de Snowden. Interpréter les résultats.
2. Ensuite, reproduisez la figure 4A, qui compare le groupe d'étude (articles «Terrorisme») avec un groupe de comparaison en utilisant des mots clés classés sous «DHS & autres organismes» dans la liste DHS (voir le tableau 10 de l'annexe et la note 139). Interpréter les résultats.
3. Dans la partie (b), vous avez comparé le groupe d'étude avec un groupe de comparaison. Penney a également comparé deux autres groupes de comparaison: les articles liés à la «sécurité des infrastructures» (tableau annexe 11) et les pages populaires de Wikipédia (tableau annexe 12). Venez avec un groupe comparateur alternatif, et testez si les résultats de la partie (b) sont sensibles à votre choix de groupe de comparaison. Quel choix de fait est le plus logique? Pourquoi?
4. Penney a déclaré que les mots clés relatifs au «terrorisme» ont été utilisés pour sélectionner les articles de Wikipédia parce que le gouvernement américain a cité le terrorisme comme une justification clé pour ses pratiques de surveillance en ligne. Pour vérifier ces 48 mots-clés liés au «terrorisme», Penney (2016) également mené une enquête sur MTurk, demandant aux répondants de noter chacun des mots-clés ht en termes de problèmes gouvernementaux, de respect de la vie privée et d'évitement (tableaux 7 et 8 en annexe). ). Répliquez l'enquête sur MTurk et comparez vos résultats.
5. D'après les résultats de la partie (d) et votre lecture de l'article, êtes-vous d'accord avec le choix des mots-clés de Penney dans le groupe d'étude? Pourquoi ou pourquoi pas? Sinon, que suggérez-vous plutôt?
[ ] Efrati (2016) rapporté, sur la base d'informations confidentielles, que le «partage total» sur Facebook avait diminué d'environ 5,5% d'une année sur l'autre alors que le «partage de diffusion original» était en baisse de 21% d'une année sur l'autre. Cette baisse a été particulièrement sensible chez les utilisateurs de Facebook de moins de 30 ans. Le rapport attribue la baisse à deux facteurs. La première est la croissance du nombre d'amis sur Facebook. L'autre est que certaines activités de partage se sont déplacées vers la messagerie et vers des concurrents tels que Snapchat. Le rapport a également révélé les tactiques que Facebook avait essayé d'améliorer le partage, y compris les réglages de l'algorithme de flux de nouvelles qui rendent les messages originaux plus importants, ainsi que des rappels périodiques des messages originaux avec la fonctionnalité "On This Day". Quelles sont les implications, le cas échéant, de ces résultats pour les chercheurs qui veulent utiliser Facebook comme source de données?
[ ] Quelle est la différence entre un sociologue et un historien? Selon Goldthorpe (1991) , la principale différence est le contrôle de la collecte de données. Les historiens sont obligés d'utiliser des reliques, tandis que les sociologues peuvent adapter leur collecte de données à des fins spécifiques. Lisez Goldthorpe (1991) . Comment la différence entre la sociologie et l'histoire est-elle liée à l'idée de custommades et readymades?
[ Cela s'appuie sur la question précédente. Goldthorpe (1991) attiré un certain nombre de réponses critiques, dont une de Nicky Hart (1994) qui remettait en question le dévouement de Goldthorpe pour les données personnalisées. Pour clarifier les limites potentielles des données sur mesure, Hart a décrit le projet sur les travailleurs aisés, une vaste enquête visant à mesurer la relation entre la classe sociale et le vote menée par Goldthorpe et ses collègues au milieu des années 1960. Comme on pouvait s'y attendre d'un chercheur qui privilégiait les données conçues sur des données trouvées, le projet sur les travailleurs aisés collectait des données adaptées à une théorie récemment proposée sur l'avenir de la classe sociale à une époque où le niveau de vie augmentait. Mais, Goldthorpe et ses collègues ont en quelque sorte «oublié» de recueillir des informations sur le comportement de vote des femmes. Voici comment Nicky Hart (1994) résume tout l'épisode:

"... il est difficile d'éviter la conclusion que les femmes ont été omises parce que cet ensemble de données" sur mesure "était confiné par une logique paradigmatique qui excluait l'expérience des femmes. Animés par une vision théorique de la conscience de classe et de l'action comme préoccupations masculines ..., Goldthorpe et ses collègues ont construit un ensemble de preuves empiriques qui nourrissaient et nourrissaient leurs propres hypothèses théoriques au lieu de les exposer à un test d'adéquation valide.

Hart a poursuivi:

«Les résultats empiriques du projet sur les travailleurs aisés nous en apprennent davantage sur les valeurs masculinistes de la sociologie du milieu du siècle qu'ils n'informent les processus de stratification, de politique et de vie matérielle.

Pouvez-vous penser à d'autres exemples où la collecte de données sur mesure a intégré les préjugés du collecteur de données? Comment cela se compare-t-il à la confusion algorithmique? Quelles sont les implications que cela pourrait avoir lorsque les chercheurs devraient utiliser readymades et quand ils devraient utiliser custommades?
[ ] Dans ce chapitre, j'ai comparé les données recueillies par les chercheurs pour les chercheurs avec les dossiers administratifs créés par les entreprises et les gouvernements. Certaines personnes appellent ces données administratives des «données trouvées», qu'elles contrastent avec des «données conçues». Il est vrai que les dossiers administratifs sont trouvés par les chercheurs, mais ils sont également très bien conçus. Par exemple, les entreprises technologiques modernes travaillent très dur pour collecter et gérer leurs données. Ainsi, ces dossiers administratifs sont à la fois trouvés et conçus, cela dépend simplement de votre point de vue (figure 2.12).

Figure 2.12: L'image est à la fois un canard et un lapin; Ce que vous voyez dépend de votre point de vue. Les sources de données volumineuses sont à la fois trouvées et conçues. encore une fois, ce que vous voyez dépend de votre point de vue. Par exemple, les enregistrements de données d'appels collectés par une entreprise de téléphonie mobile sont des données trouvées du point de vue d'un chercheur. Mais, ces mêmes enregistrements sont exactement des données conçues du point de vue de quelqu'un qui travaille dans le département de facturation de la compagnie de téléphone. Source: Popular Science Monthly (1899) / Wikimedia Commons .

Fournissez un exemple de source de données où le voir à la fois trouvé et conçu est utile lors de l'utilisation de cette source de données pour la recherche.
[ ] Dans un essai réfléchi, Christian Sandvig et Eszter Hargittai (2015) divisé la recherche numérique en deux grandes catégories selon que le système numérique est un «instrument» ou un «objet d'étude». Un exemple du premier type - où le système est un instrument - est la recherche de Bengtsson et ses collègues (2011) sur l'utilisation des données de téléphones mobiles pour suivre la migration après le tremblement de terre en Haïti en 2010. Un exemple du deuxième type - où le système est un objet d'étude - est la recherche de Jensen (2007) sur la manière dont l'introduction des téléphones portables à travers le Kerala, en Inde, a eu un impact sur le fonctionnement du marché du poisson. Je trouve cette distinction utile car elle clarifie que les études utilisant des sources de données numériques peuvent avoir des objectifs très différents même si elles utilisent le même type de source de données. Afin de clarifier davantage cette distinction, décrivez quatre études que vous avez vues: deux qui utilisent un système numérique comme instrument et deux qui utilisent un système numérique comme objet d'étude. Vous pouvez utiliser des exemples de ce chapitre si vous le souhaitez.