dejavnosti

  • stopnja težavnosti: enostavno enostavno , srednja srednje , težko težko , zelo težko zelo težko
  • zahteva matematiko ( zahteva matematiko )
  • zahteva kodiranje ( zahteva kodiranje )
  • Zbiranje podatkov ( Zbiranje podatkov )
  • moji najljubši ( moj najljubši )
  1. [ zelo težko , zahteva kodiranje , Zbiranje podatkov , moj najljubši ] Ena izmed najbolj razburljivih zahtevkov raziskave Benoita in kolegov (2016) o množičnem kodiranju političnih manifestov je, da so rezultati ponovljivi. Merz, Regel, and Lewandowski (2016) omogočajo dostop do Manifesta Corpusa. Poskusite reproducirati sliko 2 iz Benoit et al. (2016) z delavci Amazon Mechanical Turk. Kako podobni so bili vaši rezultati?

  2. [ srednje ] V projektu InfluenzaNet skupina prostovoljcev poroča o incidenci, razširjenosti in vedenju zdravja, povezanih z gripi podobno boleznijo (Tilston et al. 2010; Noort et al. 2015) .

    1. Primerjajte in kontrastirajte oblikovanje, stroške in verjetne napake v InfluenzaNet, Googlovih trendih gripe in tradicionalnih sistemih sledenja gripi.
    2. Razmislite o neurejenem času, na primer o izbruhu nove oblike gripe. Opišite možne napake v vsakem sistemu.
  3. [ težko , zahteva kodiranje , Zbiranje podatkov ] Ekonomist je tedenski časopisni časopis. Ustvarite projekt človeškega izračuna, da ugotovite, ali se je razmerje med ženskami in moškimi na platnicah sčasoma spremenilo.

    1. Revija ima lahko različne naslove v osmih različnih regijah (Afrika, Azija, Tihi ocean, Evropa, Evropska unija, Latinska Amerika, Bližnji vzhod, Severna Amerika in Združeno kraljestvo) in jih lahko prenesete s spletne strani revije. Izberite eno od teh regij in izvedite analizo. Bodite prepričani, da svoje postopke opišete dovolj podrobno, da jih lahko nekdo drug posname.

    To vprašanje je navdihnil podoben projekt Justin Tenuta, podatkovni znanstvenik v podjetju CrowdFlower za množično urejanje: glej časopis Magazine Really Likes Dudes (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ zelo težko , zahteva kodiranje , Zbiranje podatkov ] Na podlagi prejšnjega vprašanja zdaj izvedite analizo za vseh osem regij.

    1. Katere razlike ste našli med regijami?
    2. Koliko časa in denarja je bilo potrebno za povečanje vaše analize v vseh osmih regijah?
    3. Predstavljajte si, da ima Ekonomist vsak teden 100 različnih naslovov. Ocenite, koliko dodatnega časa in denarja potrebujete za povečanje vaše analize na 100 naslovov na teden.
  5. [ težko , zahteva kodiranje ] Obstaja več spletnih mest, ki gostijo projekte odprtega klica, kot je Kaggle. Sodelujte v enem od teh projektov in opišite, kaj se boste naučili o tem konkretnem projektu in o odprtih klicih na splošno.

  6. [ srednje ] Preglejte nedavno izdajo revije na svojem področju. Ali obstajajo dokumenti, ki bi jih bilo mogoče preoblikovati kot projekte odprtega klica? Zakaj ali zakaj ne?

  7. [ enostavno ] Purdam (2014) opisuje zbirko porazdeljenih podatkov o prosjačenju v Londonu. Povzetek prednosti in pomanjkljivosti tega raziskovalnega načrta.

  8. [ srednje ] Redundanca je pomemben način za ocenjevanje kakovosti zbiranja porazdeljenih podatkov. Windt and Humphreys (2016) razvila in preizkusila sistem zbiranja poročil o konfliktnih dogodkih ljudi v vzhodnem Kongu. Preberi papir.

    1. Kako njihovo oblikovanje zagotavlja odpuščanje?
    2. Ponudili so več pristopov za potrjevanje podatkov, zbranih pri njihovem projektu. Povzemite jih. Kateri ste bili najbolj prepričljivi?
    3. Predlagajte nov način, da bi bili podatki lahko validirani. Predlogi morajo poskušati povečati zaupanje, ki bi ga imeli v podatke na način, ki je stroškovno učinkovit in etičen.
  9. [ srednje ] Karim Lakhani in sodelavci (2013) ustvarili javni poziv, da bi zahtevali nove algoritme za reševanje problema računalniške biologije. Prejeli so več kot 600 prispevkov, ki so vsebovali 89 novih računskih pristopov. Od predložitev je 30 preseglo uspešnost ameriškega MegaBLASTa ameriških nacionalnih zdravstvenih zavodov, najboljša predložitev pa je dosegla večjo natančnost in hitrost (1.000 krat hitreje).

    1. Preberite njihov prispevek in nato predlagajte socialni raziskovalni problem, ki bi lahko uporabil isto vrsto odprtih tekmovanj. Zlasti je ta vrsta odprtega tekmovanja osredotočena na pospešitev in izboljšanje delovanja obstoječega algoritma. Če ne morete zamisliti takšnega problema na svojem področju, poskusite razložiti, zakaj ne.
  10. [ srednje , moj najljubši ] Veliko človeških računskih projektov se opira na udeležence Amazon Mechanical Turk. Prijavite se, da postanete delavec na Amazonskem mehaničnem Turku. Preživite eno uro, ki dela tam. Kako to vpliva na vaše misli o oblikovanju, kakovosti in etiki človeških računskih projektov?