aktiviteter

  • svårighetsgrad: lätt lätt , medium medium , hård hård , väldigt hårt väldigt hårt
  • kräver matte ( kräver matte )
  • kräver kodning ( kräver kodning )
  • datainsamling ( datainsamling )
  • mina favoriter ( min favorit )
  1. [ väldigt hårt , kräver kodning , datainsamling , min favorit ] En av de mest spännande påståenden från Benoit och kollegas (2016) forskning om publikkodning av politiska manifest är att resultaten är reproducerbara. Merz, Regel, and Lewandowski (2016) ger tillgång till Manifesto Corpus. Försök att reproducera figur 2 från Benoit et al. (2016) hjälp av arbetstagare från Amazon Mechanical Turk. Hur liknade dina resultat?

  2. [ medium ] I InfluenzaNet-projektet rapporterar en frivillig panel av personer förekomsten, förekomsten och hälsosökande beteende som är relaterade till influensaliknande sjukdomar (Tilston et al. 2010; Noort et al. 2015) .

    1. Jämför och kontrastera design, kostnader och sannolika fel i InfluenzaNet, Google Flu Trend och traditionella influensa spårningssystem.
    2. Tänk på en oupphörlig tid, som ett utbrott av en ny form av influensa. Beskriv eventuella fel i varje system.
  3. [ hård , kräver kodning , datainsamling ] The Economist är en veckovis tidning. Skapa ett mänskligt beräkningsprojekt för att se om förhållandet mellan kvinnor och män på omslaget har förändrats över tiden.

    1. Magasinet kan ha olika omslag i åtta olika regioner (Afrika, Asien, Stillahavsområdet, Europa, Europeiska unionen, Latinamerika, Mellanöstern, Nordamerika och Förenade kungariket) och de kan alla laddas ner från tidnings hemsida. Välj en av dessa regioner och utför analysen. Var noga med att beskriva dina procedurer med tillräckligt noggrannhet att de skulle kunna replikeras av någon annan.

    Denna fråga inspirerades av ett liknande projekt av Justin Tenuto, en datavetenskapare vid crowdsourcing-företaget CrowdFlower: se "Time Magazine Really Like Dudes" (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ väldigt hårt , kräver kodning , datainsamling ] Bygg på den tidigare frågan, utför nu analysen för alla åtta regioner.

    1. Vilka skillnader hittade du mellan regioner?
    2. Hur mycket extra tid och pengar tog det för att skala upp din analys till alla åtta av regionerna?
    3. Föreställ dig att Economist har 100 olika omslag varje vecka. Uppskatta hur mycket extra tid och pengar det skulle ta för att skala upp din analys till 100 omslag per vecka.
  5. [ hård , kräver kodning ] Det finns flera webbplatser som är värd för öppna samtalsprojekt, som Kaggle. Delta i ett av dessa projekt och beskriv vad du lär dig om det aktuella projektet och om öppna samtal i allmänhet.

  6. [ medium ] Titta igenom en nyhet av en journal i ditt fält. Finns det några papper som kunde ha omformulerats som öppna samtalsprojekt? Varför eller varför inte?

  7. [ lätt ] Purdam (2014) beskriver en distribuerad datainsamling om tiggeri i London. Sammanfattar styrkan och svagheterna i denna forskningsdesign.

  8. [ medium ] Redundans är ett viktigt sätt att bedöma kvaliteten på distribuerad datainsamling. Windt and Humphreys (2016) utvecklade och testade ett system för att samla rapporter om konflikthändelser från människor i östra Kongo. Läs tidningen.

    1. Hur säkerställer deras design redundans?
    2. De erbjöd flera tillvägagångssätt för att validera de uppgifter som samlats in från sitt projekt. Summera dem Vilket var övertygande för dig?
    3. Föreslå ett nytt sätt att uppgifterna skulle kunna valideras. Förslag bör försöka öka det förtroende som du skulle ha i data på ett sätt som är kostnadseffektivt och etiskt.
  9. [ medium ] Karim Lakhani och kollegor (2013) skapade ett öppet samtal för att söka nya algoritmer för att lösa ett problem i beräkningsbiologi. De fick mer än 600 inlägg som innehåller 89 nya beräkningsmetoder. Av inlagorna överträffade 30 prestationerna hos US National Institutes of Health's MegaBLAST, och den bästa inlämningen uppnådde både större noggrannhet och snabbhet (1000 gånger snabbare).

    1. Läs deras papper och föreslå sedan ett socialt forskningsproblem som kan använda samma typ av öppna tävlingar. I synnerhet är denna typ av öppen tävling inriktad på att påskynda och förbättra prestanda hos en befintlig algoritm. Om du inte kan tänka på ett sådant problem i ditt fält, försök att förklara varför inte.
  10. [ medium , min favorit ] Många mänskliga beräkningsprojekt är beroende av deltagare från Amazon Mechanical Turk. Anmäl dig för att bli en arbetare på Amazon Mechanical Turk. Tillbringa en timme som arbetar där. Hur påverkar detta dina tankar om design, kvalitet och etik för mänskliga beräkningsprojekt?