2.4.1 Liczenie rzeczy

Proste liczenie może być interesujące, jeśli łączą dobre pytanie z dobrymi danymi.

Mimo że jest on wyposażony w wyrafinowany język, wiele badań społecznych naprawdę po prostu liczy. W dobie dużych danych badacze mogą liczyć bardziej niż kiedykolwiek, ale to nie znaczy, że powinni zacząć liczyć przypadkowo. Zamiast tego naukowcy powinni zadać sobie pytanie: jakie rzeczy warto liczyć? Może to wydawać się całkowicie subiektywną kwestią, ale istnieją pewne ogólne wzorce.

Często uczniowie motywują swoje badania liczące, mówiąc: "Zliczę coś, czego nikt nigdy wcześniej nie policzył". Na przykład uczeń może powiedzieć, że wielu badało migrantów, a wielu badało bliźnięta, ale nikt nie badał bliźniaków migrantów. Z mojego doświadczenia wynika, że ​​ta strategia, którą nazywam motywacją przez nieobecność , zwykle nie prowadzi do dobrych badań. Motywacja przez nieobecność jest jak stwierdzenie, że jest tam dziura i zamierzam bardzo ciężko pracować, aby ją wypełnić. Ale nie każda dziura musi być wypełniona.

Zamiast motywowania przez nieobecność, myślę, że lepszą strategią jest szukanie pytań badawczych, które są ważne lub interesujące (lub najlepiej obie). Oba te pojęcia są nieco trudne do zdefiniowania, ale jednym ze sposobów myślenia o ważnych badaniach jest to, że ma ono wymierny wpływ lub stanowi źródło ważnych decyzji decydentów. Na przykład mierzenie wskaźnika bezrobocia jest ważne, ponieważ jest wskaźnikiem gospodarki, który kieruje decyzjami politycznymi. Ogólnie uważam, że naukowcy mają dość dobre wyczucie tego, co jest ważne. W dalszej części tej sekcji przedstawię dwa przykłady, w których uważam, że liczenie jest interesujące. W każdym przypadku badacze nie liczyli się przypadkowo; raczej liczyły się w bardzo konkretnych warunkach, które ujawniły ważne spostrzeżenia na temat bardziej ogólnych koncepcji funkcjonowania systemów społecznych. Innymi słowy, wiele rzeczy, które sprawiają, że te konkretne ćwiczenia liczące są interesujące, nie są danymi, lecz wynikają z tych bardziej ogólnych idei.

Jeden z przykładów prostej potęgi liczenia pochodzi z badań Henry'ego Farbera (2015) nad zachowaniem taksówkarzy z Nowego Jorku. Chociaż ta grupa może nie wydawać się z natury interesująca, jest to strona badań strategicznych do testowania dwóch konkurencyjnych teorii w ekonomii pracy. Dla celów badań Farbera istnieją dwie ważne cechy dotyczące środowiska pracy kierowców taksówek: (1) ich stawka godzinowa waha się z dnia na dzień, w zależności od czynników takich jak pogoda oraz (2) liczba godzin, które oni praca może wahać się każdego dnia w oparciu o ich decyzje. Te cechy prowadzą do interesującego pytania o związek między godzinowymi płacami a przepracowanymi godzinami. Modele neoklasyczne w ekonomii przewidują, że taksówkarze będą pracować więcej w dniach, w których mają wyższe stawki godzinowe. Alternatywnie, modele z ekonomii behawioralnej przewidują dokładnie odwrotnie. Jeśli kierowcy ustawiają określony cel w zakresie dochodów - powiedzmy 100 USD za dzień - i pracują, dopóki ten cel nie zostanie osiągnięty, wtedy kierowcy będą pracowali mniej godzin w dniach, w których zarabiają więcej. Na przykład, jeśli jesteś odbiorcą docelowym, możesz skończyć pracę przez cztery godziny w dobrym dniu (25 USD za godzinę) i 5 godzin w złym dniu (20 USD za godzinę). Czy więc kierowcy pracują więcej godzin w dni o wyższych stawkach godzinowych (zgodnie z przewidywaniami modeli neoklasycznych) lub więcej godzin w dni o niższych stawkach godzinowych (zgodnie z przewidywaniami modeli ekonomicznych zachowań)?

Aby odpowiedzieć na to pytanie, Farber uzyskał dane na temat każdej podróży taksówkami wykonanej przez taksówki w Nowym Jorku w latach 2009-2013, która jest teraz publicznie dostępna. Te dane, które zostały zebrane za pomocą liczników elektronicznych, które miasto wymaga użycia taksówek, zawierają informacje o każdej podróży: czas rozpoczęcia, miejsce rozpoczęcia, godzinę zakończenia, lokalizację końcową, opłatę i wskazówkę (jeśli wskazówka została opłacona kartą kredytową) . Korzystając z danych z tego licznika, Farber stwierdził, że większość kierowców pracuje więcej w dniach, kiedy płace są wyższe, zgodnie z teorią neoklasyczną.

Oprócz tego głównego odkrycia, Farber był w stanie wykorzystać wielkość danych dla lepszego zrozumienia heterogeniczności i dynamiki. Odkrył, że z biegiem czasu nowi kierowcy stopniowo uczą się pracować więcej godzin w dni o wysokich płacach (np. Uczą się zachowywać zgodnie z przewidywaniami modelu neoklasycznego). A nowi kierowcy, którzy zachowują się bardziej jak ci, którzy zarabiają na celu, częściej przestają być taksówkarzami. Oba te bardziej subtelne wnioski, które pomagają wyjaśnić zaobserwowane zachowanie obecnych kierowców, były możliwe tylko z powodu rozmiaru zbioru danych. Nie można było ich wykryć we wcześniejszych badaniach, w których przez krótki czas stosowano arkusze papieru (Camerer et al. 1997) od niewielkiej liczby taksówkarzy (Camerer et al. 1997) .

Studium Farbera było bliskie scenariuszowi najlepszego przypadku dla badań wykorzystujących duże źródło danych, ponieważ dane zebrane przez miasto były dość zbliżone do danych, które zebrał Farber (jedna różnica polega na tym, że Farber chciałby danych o sumie zarobki - opłaty i wskazówki - ale dane o mieście zawierają tylko wskazówki płacone kartą kredytową). Jednak same dane nie wystarczą. Kluczem do badań Farbera było dostarczenie interesujących pytań do danych, które mają większe implikacje poza tym konkretnym ustawieniem.

Drugi przykład liczenia rzeczy pochodzi z badań Gary'ego Kinga, Jennifer Pan i Molly Roberts (2013) na temat internetowej cenzury chińskiego rządu. W tym przypadku jednak naukowcy musieli zebrać własne duże dane i musieli sobie poradzić z tym, że ich dane były niekompletne.

King i współpracownicy byli motywowani faktem, że posty w mediach społecznościowych w Chinach są cenzurowane przez ogromny aparat państwowy, który ma obejmować dziesiątki tysięcy ludzi. Jednak badacze i obywatele mają niewielkie pojęcie o tym, w jaki sposób ci cenzorzy decydują, która treść powinna zostać usunięta. Badacze chińscy mają sprzeczne oczekiwania co do tego, które posty zostaną najprawdopodobniej usunięte. Niektórzy uważają, że cenzorzy skupiają się na stanowiskach krytycznych wobec państwa, podczas gdy inni uważają, że koncentrują się na postach, które zachęcają do zbiorowego zachowania, takiego jak protesty. Ustalenie, które z tych oczekiwań jest poprawne, ma wpływ na to, jak naukowcy rozumieją Chiny i inne autorytarne rządy, które angażują się w cenzurę. Dlatego King i współpracownicy chcieli porównać posty, które zostały opublikowane, a następnie usunięte ze stanowiskami, które zostały opublikowane i nigdy nie usunięte.

Zbieranie tych stanowisk zaangażowanych niesamowity wyczyn inżynierii indeksowania ponad 1000 chińskich stron internetowych-each social media z innej strony układy rozpoznawczej odpowiednich stanowisk, a następnie ponowne te posty aby zobaczyć, które następnie zostały usunięte. Oprócz normalnych problemów technicznych związanych z dużą skalę internetowej indeksowania, projekt ten miał dodatkową wyzwanie, które trzeba ją bardzo szybko, ponieważ wiele ocenzurowane stanowisk zdjęty w czasie krótszym niż 24 godziny. Innymi słowy, powolny robot minie wiele stanowisk, które zostały ocenzurowane. Ponadto, roboty musiał wykonać całą tę kolekcję danych przy jednoczesnym unikaniu wykrycia bo na stronach internetowych mediów społecznych zablokowania dostępu lub w inny sposób zmienić swoją politykę w odpowiedzi na badania.

Do czasu ukończenia tego ogromnego zadania inżynieryjnego King i współpracownicy uzyskali około 11 milionów postów na 85 różnych wstępnie zdefiniowanych tematach, z których każdy miał założony poziom czułości. Na przykład tematem wysokiej wrażliwości jest Ai Weiwei, artysta dysydencki; tematem średniej wrażliwości jest aprecjacja i dewaluacja chińskiej waluty, a tematem niskiej wrażliwości jest Puchar Świata. Z tych 11 milionów stanowisk ocenzurowano około 2 miliony osób. Nieco zaskakujące, że King i współpracownicy stwierdzili, że posty na bardzo wrażliwych tematach były cenzurowane tylko nieznacznie częściej niż posty na tematy średnio- i mało czułe. Innymi słowy, chińscy cenzorzy prawdopodobnie będą cenzurować stanowisko, które wymienia Ai Weiwei jako post, który wspomina o Pucharze Świata. Odkrycia te nie potwierdzają idei, że rząd cenzuruje wszystkie stanowiska dotyczące drażliwych tematów.

To proste obliczenie wskaźnika cenzury według tematu może jednak być mylące. Na przykład, rząd może cenzurować posty, które wspierają Ai Weiwei, ale pozostawiają stanowiska, które są dla niego krytyczne. W celu dokładniejszego rozróżnienia stanowisk, naukowcy musieli zmierzyć sentyment każdego posta. Niestety, pomimo dużej ilości pracy, w pełni zautomatyzowane metody detekcji sentymentów za pomocą wcześniej istniejących słowników wciąż nie są zbyt dobre w wielu sytuacjach (pomyśl o problemach tworząc emocjonalny harmonogram z 11 września 2001 roku opisany w sekcji 2.3.9). Dlatego King i współpracownicy potrzebowali sposobu, aby oznaczyć swoje 11 milionów postów w mediach społecznościowych, czy są (1) krytyczni wobec państwa, (2) popierają państwo, (3) nieistotne lub rzeczowe raporty na temat wydarzeń. Brzmi to jak ogromna praca, ale rozwiązali ją przy użyciu potężnej sztuczki, która jest powszechna w naukach o danych, ale stosunkowo rzadka w naukach społecznych: nadzorowana nauka ; patrz ilustracja 2.5.

Po pierwsze, w etapie typowo zwanym przetwarzaniem wstępnym , naukowcy przekształcili posty w mediach społecznościowych w macierz terminów dokumentów , gdzie był jeden wiersz dla każdego dokumentu i jedna kolumna, która rejestrowała, czy wpis zawierał określone słowo (np. Protest lub ruch) . Następnie grupa asystentów naukowców ręcznie oznaczała uczucia dotyczące próbki postów. Następnie użyli tych ręcznie oznakowanych danych, aby stworzyć model uczenia maszynowego, który może wywnioskować sentyment postu w oparciu o jego charakterystykę. Wreszcie, wykorzystali ten model do oszacowania nastrojów wszystkich 11 milionów postów.

Dlatego zamiast ręcznie czytać i etykietować 11 milionów postów - co byłoby logistycznie niemożliwe - King i współpracownicy ręcznie oznaczali niewielką liczbę postów, a następnie wykorzystali nadzorowane uczenie, aby oszacować sentyment wszystkich postów. Po ukończeniu tej analizy udało im się dojść do wniosku, że - nieco zaskakująco - prawdopodobieństwo, że usunięto stanowisko, nie miało związku z tym, czy było ono krytyczne w stosunku do stanu lub wsparcia państwa.

Rysunek 2.5: Uproszczony schemat procedury zastosowanej przez King, Pan i Roberts (2013) w celu oszacowania nastrojów 11 milionów chińskich stanowisk w mediach społecznościowych. Po pierwsze, na etapie przetwarzania wstępnego naukowcy przekształcili posty w mediach społecznościowych w macierz terminów dokumentów (patrz Grimmer and Stewart (2013), aby uzyskać więcej informacji). Po drugie, zakodowali ręcznie sentymenty małej próbki postów. Po trzecie, wyszkolili nadzorowany model uczenia się, aby sklasyfikować nastroje stanowisk. Po czwarte, wykorzystali nadzorowany model uczenia się do oszacowania nastrojów wszystkich stanowisk. Zobacz King, Pan i Roberts (2013), dodatek B, aby uzyskać bardziej szczegółowy opis.

Rysunek 2.5: Uproszczony schemat procedury zastosowanej przez King, Pan, and Roberts (2013) celu oszacowania nastrojów 11 milionów chińskich stanowisk w mediach społecznościowych. Po pierwsze, na etapie przetwarzania wstępnego naukowcy przekształcili posty w mediach społecznościowych w macierz terminów dokumentów (patrz Grimmer and Stewart (2013) aby uzyskać więcej informacji). Po drugie, zakodowali ręcznie sentymenty małej próbki postów. Po trzecie, wyszkolili nadzorowany model uczenia się, aby sklasyfikować nastroje stanowisk. Po czwarte, wykorzystali nadzorowany model uczenia się do oszacowania nastrojów wszystkich stanowisk. Zobacz King, Pan, and Roberts (2013) , dodatek B, aby uzyskać bardziej szczegółowy opis.

Ostatecznie King i współpracownicy odkryli, że tylko trzy typy postów były regularnie cenzurowane: pornografia, krytyka cenzorów i te, które miały wspólny potencjał działania (tj. Możliwość doprowadzenia do protestów na dużą skalę). Obserwując ogromną liczbę usuniętych postów i postów, które nie zostały usunięte, King i współpracownicy mogli dowiedzieć się, jak działają cenzorzy po prostu obserwując i licząc. Co więcej, zapowiadając temat, który pojawi się w tej książce, nadzorowane podejście do uczenia się, którego używali - ręczne oznaczanie niektórych wyników, a następnie budowanie modelu uczenia maszynowego w celu oznaczenia reszty - okazuje się być bardzo powszechne w badaniach społecznych w erze cyfrowej . Zobaczysz zdjęcia bardzo podobne do rysunku 2.5 w rozdziałach 3 (Zadawanie pytań) i 5 (Tworzenie masowej współpracy); jest to jeden z niewielu pomysłów, który pojawia się w wielu rozdziałach.

Te przykłady - zachowania robocze kierowców taksówek w Nowym Jorku i zachowania cenzury mediów społecznościowych chińskiego rządu - pokazują, że stosunkowo proste liczenie dużych źródeł danych może w niektórych sytuacjach prowadzić do interesujących i ważnych badań. W obu przypadkach jednak naukowcy musieli zadać interesujące pytania dużemu źródłu danych; same dane nie wystarczą.