aktivity

  • stupeň obtížnosti: snadné snadný , médium střední , tvrdé tvrdý , velmi obtížné velmi obtížné
  • vyžaduje matematiku ( vyžaduje matematiku ).
  • vyžaduje kódování ( vyžaduje kódování ).
  • sběr dat ( sběr dat ).
  • můj oblíbený ( můj oblíbený ).
  1. [ velmi obtížné , vyžaduje kódování , sběr dat , můj oblíbený ] Jedním z nejvíce vzrušujících tvrzení Benoita a kolegů (2016) o davu-kódování politických manifestů je to, že výsledky jsou reprodukovatelné. Merz, Regel, and Lewandowski (2016) umožňují přístup do Manifest Corpus. Pokuste se reprodukovat obrázek 2 od Benoit et al. (2016) pomocí pracovníků z Amazon Mechanical Turk. Jak byly vaše výsledky podobné?

  2. [ střední ] V projektu InfluenzaNet uvádí dobrovolná skupina lidí výskyt, prevalenci a chování v oblasti chřipkového onemocnění (Tilston et al. 2010; Noort et al. 2015) .

    1. Porovnejte a kontrastujte návrh, náklady a pravděpodobné chyby v systému InfluenzaNet, Google Chřipkové trendy a tradiční systémy pro sledování chřipky.
    2. Zvažte neurčitý čas, jako je vypuknutí nové formy chřipky. Popište případné chyby v každém systému.
  3. [ tvrdý , vyžaduje kódování , sběr dat ] The Economist je týdenní zpravodajský časopis. Vytvořte projekt lidských výpočtů, abyste zjistili, zda se poměr žen k mužům na krytu změnil v průběhu času.

    1. Časopis může mít různé kryty v osmi různých regionech (Afrika, Asie, Tichomoří, Evropa, Evropská unie, Latinská Amerika, Střední východ, Severní Amerika a Spojené království) a všechny je možné stáhnout z webových stránek časopisu. Vyberte jednu z těchto oblastí a proveďte analýzu. Ujistěte se, že popisujete své postupy dostatečně podrobně, aby mohly být replikovány někým jiným.

    Tato otázka byla inspirována podobným projektem Justina Tenuta, vědeckého pracovníka v oboru crowdsourcing společnosti CrowdFlower: viz časopis "Time Magazine Really likes Dudes" (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ velmi obtížné , vyžaduje kódování , sběr dat ] Na základě předchozí otázky nyní proveďte analýzu všech osmi regionů.

    1. Jaké rozdíly jste zjistili v jednotlivých regionech?
    2. Kolik dodatečného času a peněz bylo zapotřebí k rozšíření analýzy na všech osm regionů?
    3. Představte si, že každý týden má Economist 100 různých obalů. Odhadněte, kolik dodatečného času a peněz bude potřebovat k tomu, aby se vaše analýza zvýšila na 100 obálek týdně.
  5. [ tvrdý , vyžaduje kódování ] Existuje několik webových stránek, které hostí otevřené projekty volání, například Kaggle. Zapojte se do jednoho z těchto projektů a popište, co se dozvíte o konkrétním projektu a o otevřených voláních obecně.

  6. [ střední ] Podívejte se na nejnovější vydání časopisu ve vašem oboru. Existují nějaké dokumenty, které by mohly být přeformulovány jako projekty otevřených výzev? Proč nebo proč ne?

  7. [ snadný ] Purdam (2014) popisuje distribuovaný soubor dat o žebrání v Londýně. Shrnout silné a slabé stránky tohoto návrhu výzkumu.

  8. [ střední ] Redundance je důležitý způsob, jak posoudit kvalitu distribuovaných dat. Windt and Humphreys (2016) vyvinuli a testovali systém sběru zpráv o konfliktních událostech od lidí ve východním Kongu. Přečti noviny.

    1. Jak jejich design zajišťuje redundanci?
    2. Nabídly několik přístupů k ověření údajů shromážděných z jejich projektu. Shrňte je. Který byl pro vás nejpřesvědčivější?
    3. Navrhněte nový způsob, jak lze data ověřit. Návrhy by se měly snažit zvýšit důvěru, kterou byste měli v datech způsobem, který je nákladově efektivní a etický.
  9. [ střední ] Karim Lakhani a jeho kolegové (2013) vytvořili otevřenou výzvu k získání nových algoritmů k vyřešení problému v počítačové biologii. Dostali více než 600 příspěvků obsahujících 89 nových výpočetních přístupů. Z předložených příspěvků 30 překročilo výkonnost MegaBLASTu Spojených států v rámci národních institucí a nejlepší podání dosáhlo vyšší přesnosti i rychlosti (1000 krát rychlejší).

    1. Přečtěte si jejich příspěvek a pak navrhněte problém společenského výzkumu, který by mohl použít stejný druh otevřené soutěže. Konkrétně je tento druh otevřené soutěže zaměřen na urychlení a zlepšení výkonu stávajícího algoritmu. Nemůžete-li si myslet na problém, jako je tohle ve svém oboru, zkuste vysvětlit proč ne.
  10. [ střední , můj oblíbený ] Mnoho lidských výpočetních projektů se spoléhá na účastníky z Amazon Mechanical Turk. Přihlaste se, abyste se stali pracovníky na Amazon Mechanical Turk. Strávit hodinu práce. Jak to ovlivňuje vaše myšlenky na design, kvalitu a etiku lidských výpočetních projektů?