activiteiten

  • moeilijkheidsgraad: eenvoudig gemakkelijk , medium medium , moeilijk hard , heel moeilijk heel moeilijk
  • vereist wiskunde ( vereist wiskunde )
  • vereist codering ( vereist codering )
  • gegevensverzameling ( gegevensverzameling )
  • mijn favorieten ( mijn favoriet )
  1. [ heel moeilijk , vereist codering , gegevensverzameling , mijn favoriet ] Een van de meest opwindende beweringen van het onderzoek van Benoit en collega's (2016) naar crowd-coding van politieke manifesten is dat de resultaten reproduceerbaar zijn. Merz, Regel, and Lewandowski (2016) bieden toegang tot het Manifest Corpus. Probeer figuur 2 te reproduceren van Benoit et al. (2016) met behulp van werknemers van Amazon Mechanical Turk. Hoe vergelijkbaar waren je resultaten?

  2. [ medium ] In het InfluenzaNet-project rapporteert een vrijwilligerspanel over de incidentie, prevalentie en gezondheidszoekend gedrag gerelateerd aan influenza-achtige ziekte (Tilston et al. 2010; Noort et al. 2015) .

    1. Vergelijk en contrasteer het ontwerp, de kosten en waarschijnlijke fouten in InfluenzaNet, Google Grieptrends en traditionele influenza-volgsystemen.
    2. Overweeg een onzekere tijd, zoals het uitbreken van een nieuwe vorm van griep. Beschrijf de mogelijke fouten in elk systeem.
  3. [ hard , vereist codering , gegevensverzameling ] The Economist is een wekelijks nieuwsmagazine. Maak een menselijk rekenproject om te zien of de verhouding tussen vrouwen en mannen op de cover in de loop van de tijd is veranderd.

    1. Het magazine kan verschillende covers hebben in acht verschillende regio's (Afrika, Azië-Pacific, Europa, Europese Unie, Latijns-Amerika, het Midden-Oosten, Noord-Amerika en het Verenigd Koninkrijk) en ze kunnen allemaal worden gedownload van de website van het tijdschrift. Kies een van deze regio's en voer de analyse uit. Zorg ervoor dat u uw procedures beschrijft met voldoende details zodat ze door iemand anders kunnen worden gerepliceerd.

    Deze vraag is geïnspireerd door een vergelijkbaar project van Justin Tenuto, een data-wetenschapper bij crowdsourcing-bedrijf CrowdFlower: zie "Time Magazine Really Likes Dudes" (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ heel moeilijk , vereist codering , gegevensverzameling ] Bouw voort op de vorige vraag, voer nu de analyse uit voor alle acht regio's.

    1. Welke verschillen vond je tussen regio's?
    2. Hoeveel extra tijd en geld had je nodig om je analyse op te schalen naar alle acht regio's?
    3. Stel je voor dat de Economist elke week 100 verschillende covers heeft. Schat in hoeveel extra tijd en geld het zou kosten om uw analyse op te schalen naar 100 covers per week.
  5. [ hard , vereist codering ] Er zijn verschillende websites die open oproepprojecten hosten, zoals Kaggle. Neem deel aan een van deze projecten en beschrijf wat u over dat specifieke project leert en over open oproepen in het algemeen.

  6. [ medium ] Bekijk een recent nummer van een tijdschrift in uw vakgebied. Zijn er papieren die kunnen worden geherformuleerd als open call-projecten? Waarom of waarom niet?

  7. [ gemakkelijk ] Purdam (2014) beschrijft een gedistribueerde gegevensverzameling over bedelen in Londen. Vat de sterke en zwakke punten van dit onderzoeksontwerp samen.

  8. [ medium ] Redundantie is een belangrijke manier om de kwaliteit van gedistribueerde gegevensverzameling te beoordelen. Windt and Humphreys (2016) hebben een systeem ontwikkeld en getest om meldingen van conflictgebeurtenissen van mensen in Oost-Congo te verzamelen. De krant lezen.

    1. Hoe zorgt hun ontwerp voor redundantie?
    2. Ze boden verschillende benaderingen om de gegevens die ze uit hun project hadden verzameld te valideren. Vat ze samen. Wat was het meest overtuigend voor jou?
    3. Stel een nieuwe manier voor waarop de gegevens kunnen worden gevalideerd. Suggesties moeten proberen het vertrouwen dat u in de gegevens zou hebben te vergroten op een manier die kosteneffectief en ethisch is.
  9. [ medium ] Karim Lakhani en collega's (2013) creëerden een open oproep om nieuwe algoritmen te zoeken om een ​​probleem in de computationele biologie op te lossen. Ze ontvingen meer dan 600 inzendingen die 89 nieuwe computationele benaderingen bevatten. Van de inzendingen overtroffen er 30 de prestaties van de MegaBLAST van het National Institute of Health, en de beste inzending behaalde zowel grotere nauwkeurigheid als snelheid (1.000 keer sneller).

    1. Lees hun paper en stel vervolgens een sociaal onderzoeksprobleem voor dat dezelfde soort open wedstrijd zou kunnen gebruiken. In het bijzonder is dit soort open wedstrijd gericht op het versnellen en verbeteren van de prestaties van een bestaand algoritme. Als je zo'n probleem in je vakgebied niet kunt bedenken, probeer dan uit te leggen waarom niet.
  10. [ medium , mijn favoriet ] Veel menselijke rekenprojecten steunen op deelnemers van Amazon Mechanical Turk. Meld je aan om een ​​werknemer te worden op Amazon Mechanical Turk. Besteed een uur daar te werken. Welke invloed heeft dit op uw gedachten over het ontwerp, de kwaliteit en de ethiek van menselijke rekenprojecten?