Activités

Cette traduction a été créé par un ordinateur. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

Activités

Clé:

degré de difficulté: facile , moyen , difficile , très dur
exige des mathématiques ( $exige des mathématiques$ )
exige le codage ( )
collecte de données ( )
mes favoris ( )

[ , ] Confusion Algorithmic avait un problème avec Google Flu Trends. Lire l'article de Lazer et al. (2014) , et écrire un court courriel clair pour un ingénieur de Google expliquant le problème et en offrant une idée de la façon de résoudre le problème.
[ ] Bollen, Mao, and Zeng (2011) affirme que les données de Twitter peuvent être utilisées pour prédire le marché boursier. Cette constatation a conduit à la création d'un fonds de couverture-Derwent Capital Markets à investir dans le marché boursier basé sur les données recueillies à partir de Twitter (Jordan 2010) . Quelles preuves voulez-vous voir avant de mettre votre argent dans ce fonds?
[ ] Alors que certains défenseurs de la santé publique saluent les cigarettes électroniques comme une aide efficace pour arrêter de fumer, d'autres mettent en garde contre les risques potentiels, tels que les hauts niveaux de nicotine. Imaginez qu'un chercheur décide d'étudier l'opinion publique vers e-cigarettes en recueillant les messages Twitter liés à l'e-cigarette et la réalisation d'analyses de sentiment.
1. Quels sont les trois biais possibles que vous êtes plus inquiet au sujet de cette étude?
2. Clark et al. (2016) a couru une telle étude. Tout d'abord, ils ont recueilli 850.000 tweets qui ont utilisé des mots-clés liés à l'e-cigarette à partir de Janvier 2012 à Décembre 2014. Lors de l'inspection de plus près, ils ont réalisé que beaucoup de ces tweets ont été automatisées (et non produit par les humains) et beaucoup de ces tweets automatisés étaient essentiellement publicités. Ils ont développé un algorithme de détection humaine pour séparer les tweets automatisés de tweets organiques. En utilisant cette Human Détecter Algorithme ils ont constaté que 80% des tweets ont été automatisés. Est-ce que cette conclusion changer votre réponse à la partie (a)?
3. Quand ils ont comparé le sentiment dans les tweets organiques et automatisés ils ont constaté que les tweets automatisés sont plus positifs que les tweets organiques (6,17 contre 5,84). Est-ce que cette conclusion changer votre réponse à (b)?
[ ] En Novembre 2009, Twitter a changé la question dans la zone de tweet de "Que fais-tu?" À "Qu'est-ce qui se passe?" (Https://blog.twitter.com/2009/whats-happening).
1. Comment pensez-vous que le changement d'invites affectera qui gazouillent et / ou ce qu'ils gazouillent?
2. Nommez un projet de recherche pour lequel vous préférez l'invite "Que faites-vous?" Expliquez pourquoi.
3. Nommez un projet de recherche pour lequel vous préférez l'invite «Qu'est-ce qui se passe?" Expliquez pourquoi.
[ ] Kwak et al. (2010) ont analysé 41,7 millions de profils d'utilisateurs, 1,47 milliards de relations sociales, 4262 sujets tendances, et 106 millions de tweets entre le 6 Juin et le 31 Juin, 2009. Sur la base de cette analyse , ils ont conclu que Twitter sert plus comme un nouveau moyen de partage de l' information d'un réseau social.
1. Considérant la conclusion de Kwak et al, quel type de recherche feriez-vous avec les données de Twitter? Quel type de recherche ne serait pas vous faire avec les données de Twitter? Pourquoi?
2. En 2010, Twitter a ajouté un Who Pour suivre le service faisant la suggestion sur mesure pour les utilisateurs. Trois recommandations sont présentés à la fois sur la page principale. Les recommandations sont souvent tirées de un "amis-de-amis» et les contacts mutuels sont également affichés dans la recommandation. Les utilisateurs peuvent actualiser pour voir une nouvelle série de recommandations ou visiter une page avec une liste plus longue de recommandations. Pensez-vous que cette nouvelle fonctionnalité serait changer votre réponse à la partie a)? Pourquoi ou pourquoi pas?
3. Su, Sharma, and Goel (2016) ont évalué l'effet de Who To Follow service et constaté que tandis que les utilisateurs à travers le spectre de popularité bénéficié des recommandations, les utilisateurs les plus populaires ont profité beaucoup plus que la moyenne. Est-ce que cette conclusion changer votre réponse à la partie b)? Pourquoi ou pourquoi pas?
[ ] "Retweets" sont souvent utilisés pour mesurer l'influence et la propagation de l'influence sur Twitter. Initialement, les utilisateurs devaient copier et coller le tweet qu'ils ont aimé, marquer l'auteur original avec son / sa poignée, et tapez manuellement "RT" avant le tweet pour indiquer qu'il est un retweet. Puis, en 2009 Twitter a ajouté un bouton "retweet". En Juin 2016, Twitter a permis aux utilisateurs de retweet leurs propres tweets (https://twitter.com/twitter/status/742749353689780224). Pensez-vous que ces changements devraient affecter la façon dont vous utilisez «retweets» dans votre recherche? Pourquoi ou pourquoi pas?
[ , , ] Michel et al. (2011) ont construit un corpus émergeant de l'effort de Google pour numériser les livres. Utilisation de la première version du corpus, qui a été publié en 2009 et contenait plus de 5 millions de livres numérisés, les auteurs ont analysé la fréquence d'utilisation mot pour étudier les changements linguistiques et tendances culturelles. Bientôt le Google Livres Corpus est devenu une source de données populaire pour les chercheurs, et une 2ème version de la base de données a été publié en 2012.

Cependant, Pechenick, Danforth, and Dodds (2015) a mis en garde que les chercheurs doivent caractériser le processus d'échantillonnage du corpus avant de l' utiliser pour tirer des conclusions générales. Le principal problème est que le corpus est une bibliothèque semblable, contenant un de chaque livre. En conséquence, un individu, auteur prolifique est capable d'insérer de nouvelles phrases sensiblement dans le lexique Google Livres. En outre, les textes scientifiques constituent une partie de plus en plus de fond du corpus tout au long des années 1900. En outre, en comparant deux versions des jeux de données fiction anglais, Pechenick et al. trouvé des preuves que le filtrage insuffisant a été utilisé dans la production de la première version. Toutes les données nécessaires à l'activité est disponible ici: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. Dans l' article original de Michel et al. (2011) , ils ont utilisé la 1ère version de l'ensemble de données en anglais, tracé la fréquence d'utilisation des années "1880", "1912" et "1973", et a conclu que «nous sommes oublier notre passé plus vite avec chaque année qui passe "(Fig. 3A, Michel et al.). Répliquer la même parcelle en utilisant 1) 1ère version du corpus, ensemble de données en anglais (identique à la Fig. 3A, Michel et al.)
2. Maintenant reproduire la même parcelle avec la 1ère version, la fiction anglaise dataset.
3. Maintenant reproduire la même parcelle avec la 2ème version du corpus, Anglais dataset.
4. Enfin, reproduire le même terrain avec la 2ème version, la fiction anglaise dataset.
5. Décrire les différences et les similitudes entre ces quatre parcelles. Êtes-vous d'accord avec l'interprétation originale de Michel et al. De la tendance observée? (Indice: c) et d) devrait être la même que la figure 16 dans Pechenick et al).
6. Maintenant que vous avez répliqué ce une conclusion différente en utilisant Google Livres corpora, choisissez un autre changement linguistique ou phénomènes culturels présentés dans le document original de Michel et al.. Êtes-vous d'accord avec leur interprétation à la lumière des limitations présentées dans Pechenick et al.? Pour rendre votre argument plus fort, essayez de reproduire le même graphique en utilisant des versions différentes de définir comme données ci-dessus.
[ , , , ] Penney (2016) examine si la publicité généralisée sur la surveillance / PRISM NSA ( à savoir les révélations Snowden) en Juin 2013 est associée à une diminution forte et soudaine du trafic vers les articles de Wikipedia sur des sujets qui soulèvent des problèmes de confidentialité. Si oui, ce changement de comportement serait compatible avec un effet dissuasif résultant de la surveillance de masse. L'approche de Penney (2016) est parfois appelé une conception de séries chronologiques interrompues et est en relation avec les approches dans le chapitre sur le rapprochement des expériences à partir des données d' observation (section 2.4.3).

Pour choisir les mots-clés sujet, Penney fait référence à la liste utilisée par le Département américain de la Sécurité intérieure pour le suivi et la surveillance des médias sociaux. La liste DHS catégorise certains termes de recherche dans une gamme de questions, à savoir «problème de santé», «Sécurité des infrastructures» et «terrorisme». Pour le groupe d'étude, Penney a utilisé les quarante-huit mots-clés liés au «terrorisme» (voir le tableau 8 Annexe). Il a ensuite agrégé article de Wikipedia le nombre de vues sur une base mensuelle pour les quarante-huit articles de Wikipedia correspondant sur une période de 32 mois, depuis le début de Janvier 2012 pour la fin de Août 2014. Pour renforcer son argumentation, il a également créé plusieurs comparaison groupes de suivi vues article sur d'autres sujets.

Maintenant, vous allez répliquer et étendre Penney (2016) . Toutes les données brutes que vous aurez besoin pour cette activité est disponible à partir de Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Ou vous pouvez l' obtenir à partir du wikipediatrend package R (Meissner and Team 2016) . Lorsque vous écrivez-up vos réponses, s'il vous plaît noter que la source de données que vous avez utilisé. (Note: Cette même activité apparaît également dans le chapitre 6)
1. Lire Penney (2016) et de reproduire la figure 2 qui montre les pages vues pour "terrorisme" pages concernant la PI avant et après la révélation Snowden. Interpréter les résultats.
2. Ensuite, reproduire la figure 4A, qui compare le groupe d'étude ( «terrorisme» des articles concernant la PI) avec un groupe de comparaison en utilisant des mots-clés classés sous la rubrique «EDS et autres organismes" de la liste DHS (voir tableau annexe 10). Interpréter les résultats.
3. Dans la partie b) vous avez comparé le groupe d'étude à un groupe de comparaison. Penney a également comparé à deux autres groupes de comparaison: "Sécurité des infrastructures" (annexe articles concernant la PI Tableau 11) et des pages de Wikipédia populaires (Annexe tableau 12). Venez avec un groupe de comparaison alternatif, et de tester si les conclusions de la partie b) est sensible à votre choix de groupe de comparaison. Quel choix du groupe de comparaison fait plus de sens? Pourquoi?
4. L'auteur a déclaré que les mots clés relatifs à «terrorisme» ont été utilisés pour sélectionner les articles de Wikipedia parce que le gouvernement des États-Unis a cité le terrorisme comme une des principales justifications de ses pratiques de surveillance en ligne. Comme un contrôle de ces 48 «terrorisme» des mots - clés concernant la PI, Penney (2016) a également mené une enquête sur les MTurk demandant aux répondants d'évaluer chacun des mots - clés en termes de Trouble gouvernement, Privacy-sensible, et prévention (tableau annexe 7 et 8). Répliquer l'enquête sur MTurk et comparez vos résultats.
5. Sur la base des résultats dans le cadre d) et votre lecture de l'article, ne vous d'accord avec le choix de l'auteur du sujet des mots-clés dans le groupe d'étude? Pourquoi ou pourquoi pas? Si non, que suggérez-vous à la place?
[ ] Efrati (2016) rapports, fondés sur des renseignements confidentiels, que «partage total» sur Facebook avait diminué d'environ 5,5% sur un an alors que « le partage de diffusion originale" a diminué l' année de 21% en glissement annuel. Cette baisse a été particulièrement aigu avec les utilisateurs de Facebook de moins de 30 ans. Le rapport a attribué la baisse à deux facteurs. La première est la croissance du nombre de «amis» les gens ont sur Facebook. L'autre est que certaines activités de partage a changé à la messagerie et à des concurrents tels que Snapchat. Le rapport a également révélé plusieurs tactiques Facebook avait essayé de stimuler le partage, y compris les Nouvelles Flux tweaks algorithme qui rendent les messages originaux plus important, ainsi que des rappels périodiques des originaux utilisateurs des messages «En ce jour" il y a plusieurs années. Quelles conséquences, le cas échéant, ne ces résultats ont pour les chercheurs qui veulent utiliser Facebook comme une source de données?
[ ] Tumasjan et al. (2010) ont rapporté que la proportion de tweets mentionnant un parti politique correspondait à la proportion de votes ce parti a reçu lors de l'élection parlementaire allemande en 2009 (figure 2.9). En d'autres termes, il est apparu que vous pouvez utiliser Twitter pour prédire l'élection. Au moment où cette étude a été publiée, il a été considéré comme extrêmement intéressant, car il semblait suggérer une utilisation précieuse pour une source commune de données importantes.

Compte tenu des mauvaises caractéristiques des grandes données, cependant, vous devez immédiatement être sceptique de ce résultat. Allemands sur Twitter en 2009 étaient un groupe tout à fait non représentatif, et les partisans de l'une des parties pourrait tweet sur la politique plus souvent. Ainsi, il semble surprenant que tous les biais possibles que vous pourriez imaginer serait en quelque sorte annuler. En effet, les résultats de Tumasjan et al. (2010) avéré être trop beau pour être vrai. Dans leur article, Tumasjan et al. (2010) a examiné six partis politiques: démocrates - chrétiens (CDU), chrétiens sociaux - démocrates (CSU), SPD, libéraux (FDP), La Gauche (Die Linke), et le Parti Vert (Grüne). Cependant, le plus mentionné parti politique allemand sur Twitter à ce moment-là était le Parti Pirate (Piraten), un parti qui combat la réglementation gouvernementale de l'Internet. Lorsque le Parti Pirate a été inclus dans l'analyse, Twitter mentionne devient un prédicteur terrible des résultats des élections (figure 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Figure 2.9: Twitter mentionne semblent prédire les résultats de l'élection allemande 2009 (Tumasjan et al. 2010) , (Jungherr, Jürgens, and Schoen 2012) (Tumasjan et al. 2010) , mais ce résultat se révèle dépendre des choix arbitraires et injustifiées (Jungherr, Jürgens, and Schoen 2012) .

Par la suite, d' autres chercheurs du monde entier ont utilisé des méthodes telles fantaisistes que l' utilisation de l' analyse des sentiments pour distinguer entre positif et négatif mentionne des parties dans le but d'améliorer la capacité des données Twitter pour prédire une variété de différents types d'élections (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Voici comment Huberty (2015) a résumé les résultats de ces tentatives pour prédire les élections:

"Toutes les méthodes de prévision connues basées sur les médias sociaux ont échoué lorsqu'ils sont soumis aux exigences de la vraie prévision électorale prospective. Ces échecs semblent être dues à des propriétés fondamentales des médias sociaux, plutôt que des difficultés méthodologiques ou algorithmiques. En bref, les médias sociaux ne sont pas, et ne sera probablement jamais, offrir une étable impartiale, image, représentant de l'électorat; et des échantillons de convenance des médias sociaux manquent de données suffisantes pour résoudre ces problèmes post-hoc ".

Lisez quelques - unes des recherches qui mènent Huberty (2015) à cette conclusion, et d' écrire une seule page mémo à un candidat politique décrivant si et comment Twitter devrait être utilisé pour prévoir des élections.
[ ] Quelle est la différence entre un sociologue et historien? Selon Goldthorpe (1991) , la principale différence entre un sociologue et historien est le contrôle de la collecte de données. Les historiens sont obligés d'utiliser des reliques alors que les sociologues peuvent adapter leur collecte de données à des fins spécifiques. Lire Goldthorpe (1991) . Comment la différence entre la sociologie et l'histoire est liée à l'idée de Custommades et Readymades?
[ ] Construire sur la question précédente, Goldthorpe (1991) a attiré un certain nombre de réponses critiques, y compris celle de Nicky Hart (1994) qui a contesté la dévotion de Goldthorpe pour adapter les données faites. Afin de clarifier les limites potentielles de données sur mesure, Hart a décrit le projet Travailleur Influents, une grande enquête pour mesurer la relation entre la classe sociale et le vote qui a été menée par Goldthorpe et ses collègues dans le milieu des années 1960. Comme on pouvait s'y attendre d'un savant qui favorisaient conçu des données sur les données trouvées, le projet travailleur Influents a recueilli des données qui a été adaptée à aborder une théorie proposée récemment à propos de l'avenir de la classe sociale à une époque de plus en plus du niveau de vie. Mais, Goldthorpe et ses collègues en quelque sorte «oublié» de recueillir des informations sur le comportement de vote des femmes. Voici comment Nicky Hart (1994) résumés tout l' épisode:

». . . il [est] difficile d'éviter la conclusion que les femmes ont été omises parce que ce 'sur mesure' ensemble de données a été limitée par une logique paradigmatique qui excluait l'expérience des femmes. Poussé par une vision théorique de la conscience de classe et de l'action que les préoccupations des hommes. . . , Goldthorpe et ses collègues ont construit un ensemble de preuves empiriques qui ont alimenté et nourri leurs propres hypothèses théoriques au lieu de les exposer à un test valide d'adéquation. "

Hart a continué:

"Les résultats empiriques du projet des travailleurs Influents nous disent plus sur les valeurs masculinistes de la sociologie du milieu du siècle qu'ils informent les processus de stratification, la politique et la vie matérielle."

Pouvez-vous penser à d'autres exemples où la collecte de données sur mesure a les biais du collecteur de données construit en elle? Comment cela se compare à confusion algorithmique? Quelles conséquences cela pourrait avoir pour quand les chercheurs devraient utiliser Readymades et quand ils doivent utiliser Custommades?
[ ] Dans ce chapitre, je comparais les données recueillies par les chercheurs pour les chercheurs avec les dossiers administratifs créés par les entreprises et les gouvernements. Certaines personnes appellent ces dossiers administratifs "ont trouvé des données,» qu'ils contrastent avec "données conçues." Il est vrai que les dossiers administratifs sont trouvés par des chercheurs, mais ils sont également très conçus. Par exemple, les entreprises de technologie modernes passent énormément de temps et de ressources pour recueillir et prendre soin de leurs données. Ainsi, ces dossiers administratifs sont tous deux trouvés et conçus, cela dépend de votre point de vue (Figure 2.10).

Figure 2.10: L'image est à la fois un canard et un lapin; ce que vous voyez dépend de votre point de vue. Gouvernementaux et d'affaires des dossiers administratifs sont tous deux trouvés et conçus; ce que vous voyez dépend de votre point de vue. Par exemple, les enregistrements de données d'appel recueillies par une compagnie de téléphone cellulaire se trouvent les données du point de vue d'un chercheur. Mais, ces mêmes dossiers exacts sont conçus point de vue des données d'une personne travaillant dans le service de facturation de la compagnie de téléphone. Source: Wikimedia Commons

Fournir un exemple de source de données où le voir à la fois que l'on trouve et conçu est utile lors de l'utilisation de cette source de données pour la recherche.
[ ] Dans un essai réfléchi, Christian Sandvig et Eszter Hargittai (2015) décrivent deux types de recherche numérique, où le système numérique est «instrument» ou «objet d'étude». Un exemple du premier type d'étude est où Bengtsson et ses collègues (2011) ont utilisé des données de téléphonie mobile pour suivre la migration après le séisme en Haïti en 2010. Un exemple du deuxième type est là Jensen (2007) étudie comment l'introduction de téléphones mobiles à travers le Kerala, en Inde affecté le fonctionnement du marché du poisson. Je trouve cela utile car elle précise que des études utilisant des sources de données numériques peuvent avoir tout à fait différents objectifs, même si elles utilisent le même genre de source de données. Afin de clarifier cette distinction, décrire quatre études que vous avez vu: deux qui utilisent un système numérique comme un instrument et deux qui utilisent un système numérique comme un objet d'étude. Vous pouvez utiliser des exemples de ce chapitre si vous voulez.