Zajęcia

  • stopień trudności: łatwy łatwo , średni średni , ciężko ciężko , bardzo trudny bardzo trudny
  • wymaga matematyki ( wymaga matematyki )
  • wymaga kodowania ( wymaga kodowania )
  • zbieranie danych ( zbieranie danych )
  • moje ulubione ( mój ulubiony )
  1. [ bardzo trudny , wymaga kodowania , zbieranie danych , mój ulubiony ] Jednym z najbardziej ekscytujących stwierdzeń z badań Benoit i współpracowników (2016) nad kodowaniem tłumu w manifestach politycznych jest to, że wyniki są powtarzalne. Merz, Regel, and Lewandowski (2016) zapewniają dostęp do Manifesto Corpus. Spróbuj odtworzyć rysunek 2 z Benoit et al. (2016) wykorzystaniem pracowników z Amazon Mechanical Turk. Jak podobne były twoje wyniki?

  2. [ średni W projekcie InfluenzaNet zespół ochotników zgłasza zachorowalność, chorobowość i zachowania prozdrowotne związane z chorobą grypopodobną (Tilston et al. 2010; Noort et al. 2015) .

    1. Porównaj i kontrastuj projekt, koszty i prawdopodobne błędy w InfluenzaNet, Google Flu Trends i tradycyjnych systemach śledzenia grypy.
    2. Rozważ nieokreślony czas, taki jak wybuch nowej formy grypy. Opisz możliwe błędy w każdym systemie.
  3. [ ciężko , wymaga kodowania , zbieranie danych ] The Economist to cotygodniowy magazyn informacyjny. Stwórz ludzki projekt obliczeniowy, aby sprawdzić, czy stosunek kobiet do mężczyzn na okładce zmienił się z czasem.

    1. Magazyn może mieć różne okładki w ośmiu różnych regionach (Afryka, Azja, Pacyfik, Europa, Unia Europejska, Ameryka Łacińska, Bliski Wschód, Ameryka Północna i Wielka Brytania) i wszystkie można pobrać ze strony internetowej magazynu. Wybierz jeden z tych regionów i przeprowadź analizę. Pamiętaj, aby opisać procedury z dostateczną liczbą szczegółów, które mogłyby być replikowane przez kogoś innego.

    To pytanie zostało zainspirowane podobnym projektem autorstwa Justina Tenuto, naukowca zajmującego się danymi w crowdsourcingowej firmie CrowdFlower: patrz "Czas magazyn naprawdę lubi Dudesa" (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ bardzo trudny , wymaga kodowania , zbieranie danych ] W oparciu o poprzednie pytanie, wykonaj teraz analizę dla wszystkich ośmiu regionów.

    1. Jakie różnice zaobserwowałeś w regionach?
    2. Ile czasu i pieniędzy potrzeba na rozszerzenie analizy do wszystkich ośmiu regionów?
    3. Wyobraź sobie, że The Economist ma 100 różnych okładek każdego tygodnia. Oszacuj, ile dodatkowego czasu i pieniędzy potrzeba, aby zwiększyć skalę analizy do 100 okładek tygodniowo.
  5. [ ciężko , wymaga kodowania ] Istnieje kilka witryn internetowych, które obsługują projekty otwartych połączeń, takie jak Kaggle. Weź udział w jednym z tych projektów i opisz, czego dowiadujesz się o tym konkretnym projekcie i ogólnie o otwartych połączeniach.

  6. [ średni ] Przejrzyj ostatnie wydanie czasopisma w swojej dziedzinie. Czy istnieją jakieś dokumenty, które mogłyby zostać przeformułowane jako projekty otwarte? Dlaczego lub dlaczego nie?

  7. [ łatwo ] Purdam (2014) opisuje rozproszony zbiór danych o żebractwie w Londynie. Podsumuj mocne i słabe strony tego projektu badawczego.

  8. [ średni ] Redundancja jest ważnym sposobem oceny jakości rozproszonego gromadzenia danych. Windt and Humphreys (2016) opracowali i przetestowali system do zbierania raportów o zdarzeniach konfliktowych od ludzi we Wschodnim Kongo. Przeczytaj artykuł.

    1. W jaki sposób ich konstrukcja zapewnia redundancję?
    2. Zaproponowali kilka podejść do weryfikacji danych zebranych z ich projektu. Podsumuj je. Które było dla ciebie najbardziej przekonujące?
    3. Zaproponuj nowy sposób sprawdzania poprawności danych. Sugestie powinny starać się zwiększyć zaufanie do danych w sposób opłacalny i etyczny.
  9. [ średni ] Karim Lakhani i jego współpracownicy (2013) stworzyli otwarte zaproszenie do poszukiwania nowych algorytmów do rozwiązania problemu w biologii obliczeniowej. Otrzymali ponad 600 zgłoszeń zawierających 89 nowatorskich podejść obliczeniowych. Spośród zgłoszeń, 30 przekroczyło wyniki MegaBLAST w amerykańskim National Institutes of Health, a najlepsze zgłoszenie osiągnięto zarówno z większą dokładnością i szybkością (1000 razy szybciej).

    1. Przeczytaj ich artykuł, a następnie zaproponuj problem z badaniami społecznymi, który mógłby wykorzystać ten sam rodzaj otwartego konkursu. W szczególności ten rodzaj otwartego konkursu koncentruje się na przyspieszeniu i poprawie wydajności istniejącego algorytmu. Jeśli nie możesz wymyślić takiego problemu w swojej dziedzinie, spróbuj wyjaśnić, dlaczego nie.
  10. [ średni , mój ulubiony ] Wiele ludzkich projektów obliczeniowych opiera się na uczestnikach z Amazon Mechanical Turk. Zarejestruj się, aby zostać pracownikiem na Amazon Mechanical Turk. Spędź tam godzinę pracy. W jaki sposób wpływa to na twoje przemyślenia na temat projektu, jakości i etyki ludzkich projektów obliczeniowych?