aktiwiteite

  • moeilikheidsgraad: maklik maklik , medium medium , hard hard , baie hard baie hard
  • vereis wiskunde ( vereis wiskunde )
  • vereis kodering ( vereis kodering )
  • data-insameling ( data-insameling )
  • my Gunstelinge ( my gunsteling )
  1. [ baie hard , vereis kodering , data-insameling , my gunsteling ] Een van die opwindendste aansprake van Benoit en kollegas (2016) navorsing oor die skare-kodering van politieke manifes is dat die resultate reproduceerbaar is. Merz, Regel, and Lewandowski (2016) bied toegang tot die Manifesto Corpus. Probeer figuur 2 van Benoit et al. (2016) met behulp van werkers van Amazon Mechanical Turk. Hoe soortgelyk was jou resultate?

  2. [ medium ] In die InfluenzaNet-projek meld 'n vrywillige paneel mense die voorkoms, voorkoms en gesondheidsoekende gedrag wat verband hou met griepagtige siekte (Tilston et al. 2010; Noort et al. 2015) .

    1. Vergelyk en kontrasteer die ontwerp, koste en waarskynlik foute in InfluenzaNet, die Griekse neigings van die griep, en tradisionele griepopsporingstelsels.
    2. Oorweeg 'n onbepaalde tyd, soos die uitbreek van 'n nuwe vorm van griep. Beskryf die moontlike foute in elke stelsel.
  3. [ hard , vereis kodering , data-insameling ] Die Economist is 'n weeklikse nuusblad. Skep 'n menslike berekeningprojek om te sien of die verhouding van vroue tot mans op die voorblad met verloop van tyd verander het.

    1. Die tydskrif kan verskillende dekke hê in agt verskillende streke (Afrika, Asië, Stille Oseaan, Europa, Europese Unie, Latyns-Amerika, die Midde-Ooste, Noord-Amerika en die Verenigde Koninkryk) en hulle kan almal afgelaai word van die tydskrif se webwerf. Kies een van hierdie streke en voer die analise uit. Maak seker dat u prosedures met genoeg detail beskryf word dat hulle deur iemand anders herhaal kan word.

    Hierdie vraag is geïnspireer deur 'n soortgelyke projek deur Justin Tenuto, 'n data-wetenskaplike by die crowdsourcing maatskappy CrowdFlower: sien "Time Magazine Really Like Dudes" (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ baie hard , vereis kodering , data-insameling ] Gebaseer op die vorige vraag, doen nou die analise vir al agt streke.

    1. Watter verskille het jy oor streke gevind?
    2. Hoeveel ekstra tyd en geld het dit gedoen om jou analise na al agt van die streke te vergroot?
    3. Stel jou voor dat die ekonoom elke week 100 verskillende dekkings het. Skat hoeveel ekstra tyd en geld dit sal neem om jou analise na 100 deksels per week te vergroot.
  5. [ hard , vereis kodering ] Daar is verskeie webwerwe wat oopoproepprojekte aanbied, soos Kaggle. Neem deel aan een van daardie projekte en beskryf wat jy leer oor die spesifieke projek en oor oproepe in die algemeen.

  6. [ medium ] Kyk deur 'n onlangse uitgawe van 'n joernaal in jou veld. Is daar enige vraestelle wat as oproepprojekte herformuleer kon word? Hoekom of hoekom nie?

  7. [ maklik ] Purdam (2014) beskryf 'n verspreide data-insameling oor bedel in Londen. Som die sterkte en swakpunte van hierdie navorsingsontwerp op.

  8. [ medium ] Redundansie is 'n belangrike manier om die gehalte van verspreide data-insameling te evalueer. Windt and Humphreys (2016) het 'n stelsel ontwikkel en getoets om verslae van konflikgebeurtenisse van mense in Oos-Kongo in te samel. Lees die vraestel.

    1. Hoe verseker hul ontwerp ontslag?
    2. Hulle het verskeie benaderings aangebied om die data wat uit hul projek ingesamel is, te bekragtig. Som hulle op. Wat was jou oortuigendste?
    3. Stel 'n nuwe manier voor waarop die data gevalideer kan word. Voorstelle moet probeer om die vertroue wat jy in die data wil hê op 'n manier wat koste-effektief en eties is, te verhoog.
  9. [ medium ] Karim Lakhani en kollegas (2013) het 'n oproep geskep om nuwe algoritmes te vra om 'n probleem in rekenaarbiologie op te los. Hulle het meer as 600 voorleggings ontvang wat 89 nuwe berekeningsbenaderings bevat. Van die voorleggings het 30 die prestasie van die Amerikaanse National Institutes of Health's MegaBLAST oorskry, en die beste voorlegging het beide groter akkuraatheid en spoed (1000 keer vinniger) behaal.

    1. Lees hul referaat en stel dan 'n sosiale navorsingsprobleem voor wat dieselfde soort oopwedstryd kan gebruik. In die besonder, hierdie soort oop wedstryd is gefokus op die bespoediging en verbetering van die prestasie van 'n bestaande algoritme. As jy nie kan dink aan so 'n probleem in jou veld nie, probeer om te verduidelik waarom nie.
  10. [ medium , my gunsteling ] Baie menslike berekeningsprojekte maak staat op deelnemers van Amazon Mechanical Turk. Sluit aan om 'n werker op Amazon Mechanical Turk te word. Spandeer een uur daar. Hoe beïnvloed dit jou gedagtes oor die ontwerp, kwaliteit en etiek van menslike berekeningsprojekte?