Activités

  • degré de difficulté: facile facile , moyen moyen , difficile difficile , très dur très dur
  • nécessite des maths ( nécessite des maths )
  • nécessite un codage ( nécessite un codage )
  • collecte de données ( collecte de données )
  • mes favoris ( mon préféré )
  1. [ très dur , nécessite un codage , collecte de données , mon préféré ] L'une des revendications les plus excitantes de la recherche de Benoît et de ses collègues (2016) sur le codage de foule des manifestes politiques est que les résultats sont reproductibles. Merz, Regel, and Lewandowski (2016) donnent accès au Manifeste Corpus. Essayez de reproduire la figure 2 de Benoit et al. (2016) utilisant des travailleurs d'Amazon Mechanical Turk. À quel point vos résultats étaient-ils similaires?

  2. [ moyen ] Dans le cadre du projet InfluenzaNet, un groupe de bénévoles fait état de l'incidence, de la prévalence et du comportement de recherche de santé liés à la maladie (Tilston et al. 2010; Noort et al. 2015) .

    1. Comparez et comparez la conception, les coûts et les erreurs probables dans InfluenzaNet, Google Tendances de la grippe et les systèmes traditionnels de suivi de la grippe.
    2. Considérez un moment instable, comme une épidémie d'une nouvelle forme de grippe. Décrivez les erreurs possibles dans chaque système.
  3. [ difficile , nécessite un codage , collecte de données ] The Economist est un magazine d'information hebdomadaire. Créer un projet de calcul humain pour voir si le rapport entre les femmes et les hommes sur la couverture a changé au fil du temps.

    1. Le magazine peut avoir différentes couvertures dans huit régions différentes (Afrique, Asie-Pacifique, Europe, Union européenne, Amérique latine, Moyen-Orient, Amérique du Nord et Royaume-Uni) et ils peuvent tous être téléchargés sur le site Web du magazine. Choisissez l'une de ces régions et effectuez l'analyse. Assurez-vous de décrire vos procédures avec assez de détails pour qu'elles puissent être répliquées par quelqu'un d'autre.

    Cette question a été inspirée par un projet similaire de Justin Tenuto, un chercheur de données de CrowdFlower, une société de crowdsourcing: voir "Time Magazine aime vraiment Dudes" (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ très dur , nécessite un codage , collecte de données ] Sur la base de la question précédente, effectuez maintenant l'analyse pour les huit régions.

    1. Quelles différences avez-vous trouvées dans les régions?
    2. Combien de temps et d'argent avez-vous mis pour étendre votre analyse aux huit régions?
    3. Imaginez que The Economist ait 100 couvertures différentes chaque semaine. Estimez combien de temps et d'argent il faudrait pour augmenter votre analyse à 100 couvertures par semaine.
  5. [ difficile , nécessite un codage ] Il existe plusieurs sites Web qui hébergent des projets d'appels ouverts, tels que Kaggle. Participez à l'un de ces projets et décrivez ce que vous avez appris sur ce projet en particulier et sur les appels ouverts en général.

  6. [ moyen ] Regardez dans un numéro récent d'un journal dans votre domaine. Y a-t-il des documents qui auraient pu être reformulés en tant que projets d'appel ouvert? Pourquoi ou pourquoi pas?

  7. [ facile ] Purdam (2014) décrit une collecte de données distribuée sur la mendicité à Londres. Résumez les forces et les faiblesses de ce plan de recherche.

  8. [ moyen ] La redondance est un moyen important d'évaluer la qualité de la collecte de données distribuées. Windt and Humphreys (2016) développé et testé un système de collecte de rapports d'événements de conflit de la part des populations de l'est du Congo. Lisez le papier.

    1. Comment leur conception assure-t-elle la redondance?
    2. Ils ont proposé plusieurs approches pour valider les données collectées à partir de leur projet. Résumez-les. Lequel était le plus convaincant pour toi?
    3. Proposer une nouvelle façon de valider les données. Les suggestions devraient essayer d'augmenter la confiance que vous auriez dans les données d'une manière qui soit rentable et éthique.
  9. [ moyen ] Karim Lakhani et ses collègues (2013) lancé un appel ouvert pour solliciter de nouveaux algorithmes pour résoudre un problème en biologie computationnelle. Ils ont reçu plus de 600 soumissions contenant 89 nouvelles approches de calcul. Parmi les soumissions, 30 ont dépassé la performance du MegaBLAST des National Institutes of Health des États-Unis, et la meilleure soumission a atteint une plus grande précision et rapidité (1 000 fois plus rapide).

    1. Lisez leur article, puis proposez un problème de recherche sociale qui pourrait utiliser le même type de concours ouvert. En particulier, ce type de concours ouvert est axé sur l'accélération et l'amélioration de la performance d'un algorithme existant. Si vous ne pouvez pas penser à un problème comme celui-ci dans votre domaine, essayez d'expliquer pourquoi.
  10. [ moyen , mon préféré ] De nombreux projets de calcul humain s'appuient sur des participants d'Amazon Mechanical Turk. Inscrivez-vous pour devenir un travailleur sur Amazon Mechanical Turk. Passez une heure à travailler là-bas. Comment cela influence-t-il vos réflexions sur la conception, la qualité et l'éthique des projets de calcul humain?