Zajęcia

Klawisz:

  • Stopień trudności: łatwe łatwo , średni średni , ciężko ciężko , bardzo trudny bardzo trudny
  • wymaga matematyki ( wymaga matematyki )
  • Wymaga kodowania ( wymaga kodowania )
  • zbieranie danych ( zbieranie danych )
  • moje ulubione ( mój ulubiony )
  1. [ średni , mój ulubiony ] Algorytmiczne mylących był problem z Google Flu Trends. Czytaj gazetę przez Lazer et al. (2014) , a następnie napisz krótką, jasną wiadomość inżynier w Google wyjaśniającą problem i oferuje pomysł jak rozwiązać ten problem.

  2. [ średni ] Bollen, Mao, and Zeng (2011) twierdzi, że dane z Twitter może być stosowany do przewidywania rynku akcji. To odkrycie doprowadziło do powstania funduszu hedge-Derwent Capital Markets-inwestować na giełdzie na podstawie danych zebranych z Twittera (Jordan 2010) . Jakie dowody będą chcesz zobaczyć przed włożeniem pieniędzy w ten fundusz?

  3. [ łatwo ] Chociaż niektórzy zwolennicy zdrowia publicznego grad e-papierosa jako skutecznej pomocy na rzecz zaprzestania palenia, inni ostrzegają o potencjalnych zagrożeniach, takich jak wysokich poziomów nikotyny. Wyobraźmy sobie, że badacz postanawia zbadać opinię publiczną w kierunku e-papierosów zbierając związanych z e-papierosy posty na Twitterze i przeprowadzenie analizy nastrojów.

    1. Jakie są trzy możliwe uprzedzenia, które są najbardziej martwi w tym badaniu?
    2. Clark et al. (2016) prowadził właśnie takie badania. Po pierwsze, są zbierane 850.000 tweets, które używane związane e-papieros-słowo od stycznia 2012 do grudnia 2014. Po bliższym przyjrzeniu się, zdali sobie sprawę, że wiele z tych tweets zostały zautomatyzowane (czyli nie są produkowane przez człowieka), a wiele z tych automatycznych tweets były zasadniczo reklam. Oni opracowali algorytm wykrywania Human oddzielić od zautomatyzowanych tweety tweety organicznych. Korzystanie z tej ludzkiej Detect algorytmu okazało się, że 80% z tweets zostały zautomatyzowane. Czy to odkrycie zmienić odpowiedź na części (a)?
    3. Kiedy porównał nastroje w tweets organicznych i zautomatyzowanych odkryli, że zautomatyzowane tweety są bardziej pozytywne niż tweets organicznych (6,17 w porównaniu do 5,84). Czy to odkrycie zmienić odpowiedź (b)?
  4. [ łatwo ] W listopadzie 2009 roku, Twitter zmienił pytanie w polu tweet z "Co robisz?" Do "Co się dzieje?" (Https://blog.twitter.com/2009/whats-happening).

    1. Jak myślisz, jak zmiana wpłynie podpowiedzi którzy ćwierkać i / lub co ćwierkać?
    2. Imię jednego projektu badawczego, do którego wolisz monitu "Co robisz?" Wyjaśnij dlaczego.
    3. Imię jednego projektu badawczego, do którego wolisz monit "Co się dzieje?" Wyjaśnij dlaczego.
  5. [ średni ] Kwak et al. (2010) przeanalizował 41,7 mln profili użytkowników, 1,47 mld stosunki społeczne, 4262 tematy trendów, oraz 106 mln tweets pomiędzy 6 czerwca do 31 czerwca 2009. Na podstawie tej analizy stwierdzono, że oni Twitter służy bardziej jako nowe medium wymiany informacji niż sieć społeczna.

    1. Biorąc pod uwagę ustalenia Kwak i wsp, w jaki rodzaj badań byś zrobił z danymi Twitterze? Jaki rodzaj badań będzie nie zrobić z danymi Twitterze? Czemu?
    2. W 2010 roku, Twitter dodano Who To Follow usługę tworzenia dostosowanych sugestie użytkowników. Trzy zalecenia są przedstawione na raz na stronie głównej. Zalecenia są często zaczerpnięte z czyichś "przyjaciół-of-przyjaciół", a wzajemne kontakty są również wyświetlane w zaleceniu. Użytkownicy mogą odświeżyć, aby zobaczyć nowy zestaw zaleceń lub odwiedzić stronę z dłuższą listą zaleceń. Czy uważasz, że ta nowa funkcja zmieni swoją odpowiedź na część A)? Dlaczego lub dlaczego nie?
    3. Su, Sharma, and Goel (2016) oceniano wpływ Who To Follow obsługę i stwierdził, że podczas gdy użytkownicy z całego spektrum popularność skorzystał z zaleceniami, najpopularniejsze użytkownicy skorzystali znacznie więcej niż średnia. Czy to odkrycie zmienić swoją odpowiedź do części B)? Dlaczego lub dlaczego nie?
  6. [ łatwo ] "Retweets" są często stosowane do pomiaru wpływu i rozprzestrzeniania wpływu na Twitterze. Początkowo użytkownicy musieli kopiować i wklejać tweet lubili, oznacz oryginalnego autora z jego / jej rączki i ręcznie wpisać "RT" przed tweet, aby wskazać, że jest to retweet. Następnie, w 2009 roku Twitter dodał "retweet" przycisk. W czerwcu 2016, Twitter umożliwił użytkownikom retweet swoje tweety (https://twitter.com/twitter/status/742749353689780224). Czy uważasz, że zmiany te powinny wpłynąć na sposób korzystania z "Retweets" w badaniach? Dlaczego lub dlaczego nie?

  7. [ średni , zbieranie danych , wymaga kodowania ] Michel et al. (2011) skonstruował corpus wyłaniający się z wysiłkiem Google nad digitalizacją książek. Korzystanie z pierwszej wersji korpusu, który został opublikowany w 2009 roku i zawierała ponad 5 milionów zdigitalizowanych książek, autorzy analizowane słowo częstotliwość użycia w celu zbadania zmian językowych i trendy kulturowe. Wkrótce Książki Corpus Google stał się popularnym źródłem danych dla naukowców i 2nd wersja bazy danych został wydany w 2012 roku.

    Jednak Pechenick, Danforth, and Dodds (2015) ostrzegł, że naukowcy muszą w pełni scharakteryzować proces próbkowania korpusu przed użyciem go do rysowania ogólnych wniosków. Głównym problemem jest to, że korpus jest podobny do biblioteki, zawierające jeden z każdej książki. W rezultacie, osoba, płodny autor jest w stanie wyraźnie wstawić nowe frazy do słownika Google Books. Ponadto, teksty naukowe stanowią coraz merytoryczną część korpusu w całym 1900 roku. Ponadto, porównując dwie wersje angielskich zbiorach danych fikcja, Pechenick et al. Znaleziono dowody, że niewystarczające filtrowanie została wykorzystana w produkcji pierwszej wersji. Wszystkie dane potrzebne do działania jest dostępna tutaj: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. W Michela wsp. W pracy oryginalnej (2011) , używali 1st wersję zestawu danych w języku angielskim, wykreślono częstotliwość użytkowania lata "1880", "1912" i "1973", i stwierdził, że "jesteśmy zapominając naszej przeszłości szybciej z każdym rokiem "(fig. 3A, Michel i in.). Replikacji tej samej powierzchni przy użyciu 1) 1. wersji angielskiej korpusu, zbiorze (taki sam jak na Fig. 3A, Michel i in).
    2. Teraz powtórzyć tę samą działkę z 1 wersji, angielski fiction zestawu danych.
    3. Teraz powtórzyć tę samą działkę z 2 wersji angielskiej corpus, zbiorze.
    4. Wreszcie, powtórzyć tę samą działkę z 2 wersji, angielski fiction zestawu danych.
    5. Opisać różnice i podobieństwa między tymi czterema działek. Czy zgadzasz się z Michelem wsp. W oryginalnej interpretacji obserwowanego trendu? (Wskazówka: c) i d) powinna być taka sama jak na Figurze 16 Pechenick et al).
    6. Teraz, gdy już to jedno stwierdzenie replikowane przy użyciu różnych książkach Google korpusów, wybierz inną zmianę językową lub zjawiska kulturowe przedstawione w Michela wsp. W pracy oryginalnej. Czy zgadzasz się z ich interpretacji w świetle ograniczeń przedstawionych w Pechenick wsp.? Aby uczynić silniejszym argumentem, spróbuj powtórzyć ten sam wykres za pomocą różnych wersji zestawu danych jak wyżej.
  8. [ bardzo trudny , zbieranie danych , wymaga kodowania , mój ulubiony ] Penney (2016) bada, czy powszechny rozgłos o NSA nadzoru / PRISM (tj rewelacje Snowden) w czerwcu 2013 roku jest związany z nagłym i gwałtownym spadkiem ruchu do artykułów Wikipedii na tematy, które budzą obawy związane z prywatnością. Jeśli tak, to ta zmiana w zachowaniu byłoby zgodne z chłodni efektu wynikającego z nadzoru masowej. Podejście Penney (2016) nazywa się czasem przerwanej konstrukcję szeregów czasowych i jest związany z podejść w rozdziale o zbliżenie eksperymenty z danych obserwacyjnych (sekcja 2.4.3).

    Aby wybrać słowa kluczowe tematycznych, Penney, o których mowa w wykazie używanym przez US Department of Homeland Security do śledzenia i monitorowania mediów społecznościowych. Lista DHS kategoryzuje pewnych haseł do szeregu kwestii, czyli "problemem zdrowia", "Bezpieczeństwo Infrastruktura" i "terroryzm". W grupie badanej, Penney stosować czterdzieści osiem słów kluczowych związanych z "terroryzmem" (patrz tabela 8 Dodatek). Potem agregowane Wikipedii Zobacz artykuł liczy na bazie miesięcznej dla odpowiednich czterdziestu ośmiu artykułów Wikipedii w okresie trzydziestu dwóch miesięcy, od początku stycznia 2012 roku do końca sierpnia 2014. Aby wzmocnić swoją argumentację, stworzył także kilka porównania grupy Śledząc poglądy artykułów na inne tematy.

    Teraz idziesz do replikacji i przedłużyć Penney (2016) . Wszystkie surowe dane, które będą potrzebne dla tej działalności jest dostępna z Wikipedii (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Albo można je dostać od wikipediatrend pakietu R (Meissner and Team 2016) . Podczas zapisu swoje odpowiedzi, proszę zauważyć, których dane źródłowe użyte. (Uwaga: ta sama działalność pojawia się również w rozdziale 6)

    1. Czytaj Penney (2016) i replikować Rysunek 2 pokazującego odsłon dla "terroryzm" związane z modelem stron przed i po objawieniu Snowden. Zinterpretować wyniki.
    2. Następnie replikować figury 4A, w porównaniu do grupy badania ( "terroryzm" Artykuły związane z modelem) z grupy porównawczej z użyciem słów kluczowych skategoryzowane pod "DHS i innych agencji" z listy DHS (patrz załącznik tabela 10). Zinterpretować wyniki.
    3. W części b) Czy porównano grupę studyjną w jednej grupie porównawczej. Penney porównano również do dwóch innych grupach porównawczych: "Bezpieczeństwo infrastruktury" artykułów kondensatorem (Załącznik Tabela 11) oraz popularnych stron Wikipedii (dodatek tabela 12). Wymyślić alternatywne grupie porównawczej i sprawdzić, czy wyniki z części B) jest wrażliwy na swoim wyborem grupy porównawczej. Który wybór grupie porównawczej największy sens? Czemu?
    4. Autor stwierdził, że słowa kluczowe odnoszące się do "terroryzmu" zostały wykorzystane w celu wybrania artykułów z Wikipedii, bo rząd USA cytowany terroryzmem jako kluczowy usprawiedliwienia dla swoich internetowych praktyk nadzoru. W celu sprawdzenia tych 48 "terroryzm" związane z modelem słów kluczowych, Penney (2016) przeprowadziła również badanie na temat MTurk respondentów poproszono, aby ocenić każdego z kluczowych pod względem ucisku Rządu Prywatność wrażliwych i unikanie (załącznik tabela 7 i 8). Powtórzyć badanie na MTurk i porównać swoje wyniki.
    5. W oparciu o wyniki w części D) i czytanie tego artykułu, czy zgadzają się z wyborem autora tematu słów kluczowych w grupie badanej? Dlaczego lub dlaczego nie? Jeśli nie, to co proponujesz w zamian?
  9. [ łatwo ] Efrati (2016) raporty na podstawie informacji poufnej, że "całkowity podział" na Facebooku spadła o około 5,5% rok do roku, podczas gdy "oryginał udostępnianie audycji" był spadek o 21% rok do roku. Spadek ten był szczególnie dotkliwy z użytkowników Facebooka poniżej 30 roku życia. Raport przypisuje spadek do dwóch czynników. Jednym z nich jest wzrost liczby "przyjaciół" Ludzie na Facebooku. Drugim jest to, że niektóre działalność dzielenie przesunął się do wiadomości i konkurentów, takich jak snapchat. Raport ujawnił również kilka taktyk Facebook próbowali zwiększyć wymianę, w tym News Feed algorytmu usprawnień, które sprawiają, oryginalne posty bardziej widoczne, a także okresowe przypomnienia pierwotnych użytkowników posty "w tym dniu" kilka lat temu. Jakie ewentualne konsekwencje, czy wyniki te mają dla naukowców, którzy chcą korzystać z Facebooka jako źródła danych?

  10. [ średni ] Tumasjan et al. (2010) poinformował, że część tweets wymieniających partię polityczną dobrane proporcje głosów, że strona otrzymała w niemieckim wyborach parlamentarnych w 2009 roku (rysunek 2.9). Innymi słowy, okazało się, że można korzystać z Twittera, aby przewidzieć wybory. W czasie tego badania zostały opublikowane zostało uznane za bardzo ekscytujące, ponieważ wydawało się sugerować cennego pożytku wspólnego źródła dużych danych.

    Ze względu na złe cechy dużych danych, jednak użytkownik powinien natychmiast być sceptyczni tego wyniku. Niemcy na Twitterze w 2009 roku były dość non-reprezentatywna grupa, a zwolennicy jednej partii może ćwierkać o polityce częściej. Tak więc, wydaje się zaskakujące, że wszystkie ewentualne uprzedzenia, że ​​można sobie wyobrazić, że jakoś znoszą się. W rzeczywistości powoduje Tumasjan et al. (2010) okazał się zbyt piękne, aby mogło być prawdziwe. W swoim artykule Tumasjan et al. (2010) uważany sześć partii politycznych: chadeków (CDU), Christian socjaldemokraci (CSU), SPD, liberałów (FDP), Lewica (Die Linke), i Partia Zielonych (Grüne). Jednak najbardziej wymienionym niemieckim partia polityczna na Twitterze był w tym czasie Partia Piratów (Piraten), partia, która walczy rozporządzenie rządu z Internetu. Kiedy Partia Piratów została uwzględniona w analizie, Twitter wspomina się fatalny predyktorem wyników wyborów (rysunek 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Rysunek 2.9: Twitter wzmianki pojawiają się przewidzieć wyniki wyborów niemieckiej 2009 (Tumasjan et al 2010)., Ale wynik ten okazuje się zależeć od pewnych arbitralnych i nieuzasadnionych wyborów (Jungherr, Jürgens i Schoen 2012).

    Rysunek 2.9: Twitter wzmianki pojawiają się przewidzieć wyniki wyborów niemieckiej 2009 (Tumasjan et al. 2010) , Ale wynik ten okazuje się zależeć od pewnych arbitralnych i nieuzasadnionych wyborów (Jungherr, Jürgens, and Schoen 2012) .

    Następnie innych badaczy na całym świecie stosowane bardziej wyszukane sposoby, takie jak z zastosowaniem analizy nastrojów odróżnić pozytywne i negatywne wymienia stron-, w celu poprawy zdolności danych Twitterze przewidzieć wiele różnych typów wyborów (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Oto jak Huberty (2015) podsumowano wyniki tych prób przewidywania wyborów:

    "Wszystkie znane metody prognozowania w oparciu o social media zawiodły, gdy poddane wymogom prawdziwego perspektywicznej prognozy wyborczej. Te awarie wydają się być spowodowane podstawowych właściwości social media, zamiast metodologicznych lub algorytmicznych trudności. W skrócie, social media nie, i prawdopodobnie nigdy nie będzie oferować stabilne, bezstronnej, reprezentatywny obraz elektoratu; a próbki wygody mediów społecznych brak wystarczających danych, aby naprawić te problemy post hoc ".

    Przeczytałem kilka badań, które prowadzą Huberty (2015) do tego wniosku i napisać jedną stronę notatkę opisującą kandydata politycznego czy i jak Twitter powinien być stosowany do przewidywania wyborów.

  11. [ średni ] Jaka jest różnica między socjologa i historyka? Według Goldthorpe (1991) , główna różnica pomiędzy socjologa i historyka jest kontrola nad zbieraniem danych. Historycy są zmuszeni do korzystania relikwie zaś socjologowie mogą dostosować swój zbiór danych do konkretnych celów. Czytaj Goldthorpe (1991) . Jak jest różnica między socjologią i historią wiąże się z ideą Custommades i Readymades?

  12. [ ciężko ] Opierając się na poprzednie pytanie, Goldthorpe (1991) zwrócił szereg reakcji krytycznych, w tym jeden z Nicky Hart (1994) , że zakwestionowane oddanie Goldthorpe do Tailor Made danych. W celu wyjaśnienia ewentualnych ograniczeń dostosowanych danych Hart opisał zamożnych Pracownik projektu, duże badania, aby zmierzyć zależność między klasą społeczną i głosowania, które zostało przeprowadzone przez Goldthorpe i współpracowników w połowie 1960 roku. Jak można było oczekiwać od uczonego, który opowiedziała zaprojektowanej danych przez znajdując danych, bogatej Pracownik projektu zebrano dane, które zostały dostosowane do rozwiązania zaproponowanego niedawno teorię o przyszłości klasy społecznej w dobie rosnącego poziomu życia. Ale Goldthorpe i współpracownicy jakoś "zapomniał", aby zebrać informacje na temat zachowań wyborczych kobiet. Oto jak Nicky Hart (1994) podsumowuje cały epizod:

    ". , , że [jest] trudno nie dojść do wniosku, że kobiety zostały pominięte, ponieważ ta "szyte na miarę" zestaw danych był ograniczony przez paradygmatycznej logiki, która wykluczała żeński doświadczenia. Kierowany przez teoretycznej wizji klasowej świadomości i działania jako męskiej troski. , , , Goldthorpe i jego współpracownicy zbudowali szereg dowodów empirycznych, które karmione i pielęgnowane własnych założeń teoretycznych zamiast wystawiania ich do ważnego testu adekwatności ".

    Hart kontynuował:

    "Te empiryczne wyniki zamożnych Pracownik Projektu powiedzieć nam więcej o masculinist wartości średniej wieku socjologii niż informują procesy stratyfikacji, polityki i życia materialnego."

    Można myśleć o innych przykładów, gdzie szyte na miarę zbierania danych ma uprzedzeń z kolektora danych wbudowane w nią? Jak to porównać do algorytmicznego mylenia? Jakie konsekwencje może to mieć dla gdy naukowcy powinni stosować Readymades i kiedy powinny korzystać Custommades?

  13. [ średni ] W tym rozdziale I przeciwstawia dane zebrane przez naukowców dla naukowców z rejestrów administracyjnych utworzonych przez przedsiębiorstwa i rządy. Niektórzy nazywają te zapisy administracyjne "znaleziono danych", które kontrastują z "zaprojektowanych danych." Prawdą jest, że rejestry administracyjne są uznane przez badaczy, ale są również bardzo zaprojektowane. Na przykład, nowoczesne tech spędzają ogromne ilości czasu i zasobów do gromadzenia i uzdrowienia swoich danych. Tak więc, te rejestry administracyjne, zarówno znalezione i zaprojektowane, to zależy od punktu widzenia (rysunek 2.10).

    Rysunek 2.10: Obraz jest zarówno kaczki i królika; co widzisz, zależy od punktu widzenia. Rządowe i biznesowe rejestry administracyjne, zarówno znalezione i zaprojektowane; co widzisz, zależy od punktu widzenia. Na przykład, zapisy danych wywołanie zebrane przez firmę telefonu komórkowego znajdują się dane z punktu widzenia badacza. Ale dokładnie te same zapisy są przeznaczone danych perspektywy kogoś pracującego w dziale rozliczeń firmy telefonicznej. Źródło: Wikimedia Commons

    Rysunek 2.10: Obraz jest zarówno kaczki i królika; co widzisz, zależy od punktu widzenia. Rządowe i biznesowe rejestry administracyjne, zarówno znalezione i zaprojektowane; co widzisz, zależy od punktu widzenia. Na przykład, zapisy danych wywołanie zebrane przez firmę telefonu komórkowego znajdują się dane z punktu widzenia badacza. Ale dokładnie te same zapisy są przeznaczone danych perspektywy kogoś pracującego w dziale rozliczeń firmy telefonicznej. Źródło: Wikimedia Commons

    Stanowią przykład źródła danych, gdzie widząc go zarówno jako znaleziony i przeznaczona jest pomocne podczas korzystania z tego źródła danych dla badań.

  14. [ łatwo ] W przemyślany eseju Christian Sandvig i Eszter Hargittai (2015) opisują dwa rodzaje badań cyfrowej, gdzie system cyfrowy jest "instrumentem" lub "przedmiot badań." Przykładem pierwszego rodzaju studiów jest gdzie Bengtsson i współpracownicy (2011) wykorzystali dane telefonów komórkowych do śledzenia migracji po trzęsieniu ziemi na Haiti w 2010 roku przykładem drugiego rodzaju jest, gdy Jensen (2007) badania, w jaki sposób wprowadzenie telefonów komórkowych na całym Kerala, Indie miały wpływ na funkcjonowanie rynku ryb. Uważam to pomocne, ponieważ wyjaśnia, że ​​badania z użyciem cyfrowych źródeł danych może mieć zupełnie inne cele, nawet jeśli są one za pomocą tego samego rodzaju źródła danych. W celu dalszego wyjaśnienia tego rozróżnienia, opisują cztery badania, które widziałeś: dwa, które wykorzystują system cyfrowego jako instrument i dwa, które wykorzystują system cyfrowego jako przedmiot badań. Można użyć przykładów z tego rozdziału, jeśli chcesz.