aktiwiteite

sleutel:

  • moeilikheidsgraad: maklik maklik , medium medium , hard hard , baie hard baie hard
  • vereis wiskunde ( vereis wiskunde )
  • vereis kodering ( vereis kodering )
  • data-insameling ( data-insameling )
  1. [ baie hard , vereis kodering , data-insameling ] Een van die mees opwindende eise van Benoit et al. (2015) op skare-kodering van politieke manifeste is dat die resultate is reproduceerbare. Merz, Regel, and Lewandowski (2016) bied toegang tot die manifes Corpus. Probeer om Fig 2 reproduseer van Benoit et al. (2015) met behulp van werkers from Amazon Meganiese Turk. Hoe soortgelyke was jou resultate?

  2. [ medium ] In die InfluenzaNet projekverslag 'n vrywilliger paneel van mense die voorkoms, voorkoms, en gesondheid op soek gedrag wat verband hou met die griep-soos-siekte (ILI) (Tilston et al. 2010; Noort et al. 2015) .

    1. Vergelyk en kontrasteer die ontwerp, koste, en waarskynlik foute in InfluenzaNet, Google Flu Trends, en tradisionele griep dop stelsels.
    2. Oorweeg 'n onafgehandelde tyd, soos die varkgriep uitbraak. Beskryf die moontlike foute in elke stelsel.
  3. [ hard , vereis kodering , data-insameling ] The Economist is 'n weeklikse tydskrif. Skep 'n menslike berekening projek om te sien of die verhouding van vroue aan mans op die voorblad met verloop van tyd toegeneem het.

    1. Die tydskrif kan verskillende voorblaaie in agt verskillende streke (Afrika, Asië-Stille Oseaan, Europa, die Europese Unie, Latyns-Amerika, die Midde-Ooste, Noord-Amerika, en die Verenigde Koninkryk) het en hulle kan almal afgelaai word vanaf die webwerf van The Economist . Kies een van hierdie gebiede en die analise uit te voer. Maak seker dat jy jou prosedures beskryf met genoeg detail wat hulle kon herhaal word deur iemand anders.

    Hierdie vraag is geïnspireer deur 'n soortgelyke projek deur Justin Tenuto, 'n data wetenskaplike by die crowdsourcing maatskappy CrowdFlower , sien "Time Magazine regtig hou van Dudes" .

  4. [ baie hard , vereis kodering , data-insameling ] Gebou op die vraag hierbo, nou die analise uit te voer vir al agt streke.

    1. Watter verskille het jy oor streke?
    2. Hoeveel ekstra tyd en geld het dit volgens skaal-up jou analise vir al agt van die streke?
    3. Stel jou voor dat die Economist het 100 verskillende voorblaaie elke week. Skat hoeveel ekstra tyd en geld sal dit neem om op te gradeer jou analise 100 dek per week.
  5. [ hard , vereis kodering ] [Kaggle] (https://www.kaggle.com/) is 'n webwerf wat oop gesprek projekte huisves. Neem deel aan een van hierdie projekte.

  6. [ medium ] Kyk deur 'n onlangse uitgawe van 'n tydskrif in jou veld. Is daar enige vraestelle wat kon gewees het geherformuleer as oop oproep projekte? Hoekom of hoekom nie?

  7. [ maklik ] Purdam (2014) beskryf 'n verspreide data-insameling oor bedel in Londen. Maak 'n opsomming van die sterk- en swakpunte van hierdie navorsingsontwerp.

  8. [ medium ] Oortolligheid is 'n belangrike manier om die kwaliteit van die verspreide data-insameling te evalueer. Windt and Humphreys (2016) ontwikkel en te toets 'n stelsel om verslae van konflik gebeure van mense in Oos-Kongo in te samel. Lees die koerant gesê.

    1. Hoe hul ontwerp verseker ontslag?
    2. Hulle bied verskeie benaderings tot die versamel van hul projek data te valideer. Maak 'n opsomming van hulle. Wat mees oortuigende vir jou?
    3. Stel 'n nuwe manier waarop die data kan word bekragtig. Voorstelle moet probeer om die vertroue wat jy in die data in 'n manier wat koste-effektiewe en etiese sal verhoog.
  9. [ medium ] Karim Lakhani en kollegas (2013) geskep 'n oop gesprek te nuwe algoritmes werf om 'n probleem in computational biologie te los. Hulle het meer as 600 voorleggings met 89 roman computational benaderings. Van die voorleggings, ontvang hulle 30 dat die prestasie van die Amerikaanse National Institutes of Health se Mega Blast oorskry, en die beste voorlegging bereik beide groter akkuraatheid en spoed (1000 keer vinniger).

    1. Lees hulle papier, en dan stel 'n sosiale navorsingsprobleem wat dieselfde soort oop wedstryd kon gebruik. In die besonder, is hierdie soort van 'n oop wedstryd fokus op die bespoediging en verbetering van die prestasie van 'n bestaande algoritme. As jy nie kan dink probleem soos hierdie in jou veld, probeer om te verduidelik hoekom nie.
  10. [ medium ] Baie menslike berekening projekte staatmaak op deelnemers from Amazon Meganiese Turk. Teken-up 'n werker op Amazon Meganiese Turk geword. Spandeer 'n uur daar werk. Wat beteken dit vir jou gedagtes oor die ontwerp, gehalte, en etiek van menslike compuation projekte?