2.3.1 Duży

Duże zbiory danych są środkiem do celu; nie są celem samym w sobie.

Najbardziej rozpowszechnioną cechą dużych źródeł danych jest to, że są DUŻE. Na przykład wiele artykułów zaczyna od dyskusji - a czasami przechwalania się - o ilości analizowanych danych. Na przykład artykuł opublikowany w " Science" badający trendy używania słów w korpusie Google Books zawierał następujące informacje (Michel et al. 2011) :

"[Nasz] korpus zawiera ponad 500 miliardów słów, w języku angielskim (361 miliardów), francuskim (45 miliardów), hiszpańskim (45 miliardów), niemieckim (37 miliardów), chińskim (13 miliardów), rosyjskim (35 miliardów) i hebrajskim (2 miliardy). Najstarsze prace zostały opublikowane w 1500 roku. Pierwsze dziesięciolecia reprezentuje zaledwie kilka książek rocznie, w tym kilkaset tysięcy słów. Do roku 1800 korpus rośnie do 98 milionów słów rocznie; do 1900 r. 1,8 mld; a do 2000 roku 11 miliardów. Korpus nie może być odczytany przez człowieka. Jeśli próbowałeś czytać tylko anglojęzyczne wpisy z roku 2000, w rozsądnym tempie 200 słów / min, bez przerw na jedzenie lub sen, zajęłoby to 80 lat. Sekwencja liter jest 1000 razy dłuższa niż ludzki genom: jeśli napiszesz ją w linii prostej, osiągnie ona Księżyc i cofnie się 10 razy. "

Skala tych danych jest niewątpliwie imponująca i wszyscy mamy szczęście, że zespół Google Books udostępnił te dane publicznie (w rzeczywistości niektóre z działań pod koniec tego rozdziału wykorzystują te dane). Ale za każdym razem, gdy zobaczysz coś takiego, powinieneś zapytać: czy wszystkie dane naprawdę robią cokolwiek? Czy mogliby zrobić te same badania, gdyby dane mogły dotrzeć do Księżyca iz powrotem tylko raz? Co by się stało, gdyby dane dotarły tylko na szczyt Mount Everest lub na szczyt Wieży Eiffla?

W tym przypadku ich badania mają w rzeczywistości pewne odkrycia, które wymagają ogromnego zbioru słów w długim okresie czasu. Na przykład, jedna rzecz, którą badają to ewolucja gramatyki, w szczególności zmiany w szybkości nieregularnego odmiany czasownika. Ponieważ niektóre nieregularne czasowniki są dość rzadkie, potrzebna jest duża ilość danych do wykrywania zmian w czasie. Zbyt często jednak badacze zdają się traktować rozmiar dużego źródła danych jako "koniec" - patrz, ile danych mogę zepsuć - a nie jako środek do ważniejszego celu naukowego.

Z mojego doświadczenia wynika, że ​​badanie rzadkich zdarzeń jest jednym z trzech konkretnych celów naukowych, na które pozwalają duże zestawy danych. Drugim jest badanie heterogeniczności, co może zilustrować studium przeprowadzone przez Raj Chetty i współpracowników (2014) dotyczące mobilności społecznej w Stanach Zjednoczonych. W przeszłości wielu badaczy badało mobilność społeczną poprzez porównywanie wyników życiowych rodziców i dzieci. Spójne odkrycie z tej literatury mówi, że uprzywilejowani rodzice mają zazwyczaj dzieci uprzywilejowane, ale siła tego związku zmienia się z czasem w różnych krajach (Hout and DiPrete 2006) . Niedawno jednak Chetty i współpracownicy mogli wykorzystać zapisy podatkowe od 40 milionów ludzi do oszacowania niejednorodności mobilności międzypokoleniowej w regionach w Stanach Zjednoczonych (rysunek 2.1). Stwierdzili na przykład, że prawdopodobieństwo, że dziecko osiągnie najwyższy kwintyl dochodu narodowego, począwszy od rodziny w dolnym kwintylu wynosi około 13% w San Jose w Kalifornii, ale tylko około 4% w Charlotte w Północnej Karolinie. Jeśli spojrzysz na rysunek 2.1 na chwilę, możesz zacząć zastanawiać się, dlaczego mobilność międzypokoleniowa jest w niektórych miejscach wyższa niż w innych. Chetty i jego koledzy mieli dokładnie to samo pytanie i stwierdzili, że obszary o wysokiej mobilności mają mniej segregacji mieszkaniowej, mniej nierówności dochodów, lepsze szkoły podstawowe, większy kapitał społeczny i większą stabilność rodziny. Oczywiście same te korelacje nie pokazują, że czynniki te powodują większą mobilność, ale sugerują możliwe mechanizmy, które można zbadać w dalszych pracach, co dokładnie zrobili Chetty i współpracownicy w późniejszej pracy. Zwróć uwagę, jak rozmiar danych był naprawdę ważny w tym projekcie. Gdyby Chetty i jego koledzy korzystali z dokumentacji podatkowej 40 tysięcy ludzi zamiast 40 milionów, nie byliby w stanie oszacować regionalnej heterogeniczności i nigdy nie byliby w stanie przeprowadzić kolejnych badań, aby spróbować zidentyfikować mechanizmy, które powodują tę zmianę.

Rycina 2.1: Szacunki szans dziecka na osiągnięcie 20% najlepszego rozkładu dochodów w przypadku rodziców w najniższym 20% (Chetty i wsp. 2014). Szacunki na poziomie regionalnym, które wykazują heterogeniczność, w naturalny sposób prowadzą do interesujących i ważnych pytań, które nie wynikają z pojedynczego szacunku na poziomie krajowym. Te szacunki na poziomie regionalnym były możliwe częściowo dlatego, że badacze korzystali z dużego źródła dużych danych: dokumentów podatkowych 40 milionów ludzi. Utworzono z danych dostępnych na stronie http://www.equality-of-opportunity.org/.

Rycina 2.1: Szacunki szans dziecka na osiągnięcie 20% najlepszego rozkładu dochodów w przypadku rodziców w najniższym 20% (Chetty et al. 2014) . Szacunki na poziomie regionalnym, które wykazują heterogeniczność, w naturalny sposób prowadzą do interesujących i ważnych pytań, które nie wynikają z pojedynczego szacunku na poziomie krajowym. Te szacunki na poziomie regionalnym były możliwe częściowo dlatego, że badacze korzystali z dużego źródła dużych danych: dokumentów podatkowych 40 milionów ludzi. Utworzono z danych dostępnych na stronie http://www.equality-of-opportunity.org/.

Wreszcie, oprócz studiowania rzadkich zdarzeń i badania heterogeniczności, duże zbiory danych umożliwiają także naukowcom wykrywanie niewielkich różnic. W rzeczywistości duży nacisk na duże zbiory danych w branży dotyczy tych niewielkich różnic: niezawodne wykrywanie różnicy między 1% a 1,1% współczynników klikalności reklamy może przekładać się na dodatkowe dochody milionów dolarów. Jednak w niektórych kontekstach naukowych takie niewielkie różnice mogą nie być szczególnie ważne, nawet jeśli są statystycznie istotne (Prentice and Miller 1992) . Jednak w niektórych ustawieniach zasad mogą stać się ważne, gdy są oglądane zbiorczo. Na przykład, jeśli istnieją dwie interwencje w zakresie zdrowia publicznego, a jedna jest nieco bardziej skuteczna od drugiej, wówczas wybór skuteczniejszej interwencji może ostatecznie uratować tysiące dodatkowych istnień.

Chociaż wielkość jest zazwyczaj dobrą właściwością, gdy jest używana poprawnie, zauważyłem, że czasami może to prowadzić do błędu koncepcyjnego. Z jakiegoś powodu, bigness wydaje się prowadzić badaczy do ignorowania tego, jak generowane są ich dane. Podczas gdy bigness redukuje potrzebę martwienia się o przypadkowy błąd, to faktycznie zwiększa potrzebę martwienia się o systematyczne błędy, rodzaje błędów, które opiszę poniżej, które wynikają z odchyleń w sposobie tworzenia danych. Na przykład w projekcie, który opiszę w dalszej części tego rozdziału, naukowcy wykorzystali wiadomości wygenerowane 11 września 2001 r., Aby stworzyć emocjonalny harmonogram wysokiej rozdzielczości reakcji na atak terrorystyczny (Back, Küfner, and Egloff 2010) . Ponieważ badacze posiadali dużą liczbę wiadomości, tak naprawdę nie musieli się martwić, czy zaobserwowane przez nich wzorce - narastający gniew w ciągu dnia - można wytłumaczyć przypadkową zmiennością. Było tak dużo danych, a wzór był tak wyraźny, że wszystkie statystyczne testy statystyczne sugerowały, że jest to prawdziwy wzór. Ale te testy statystyczne nie znały sposobu tworzenia danych. Okazało się, że wiele wzorców można przypisać pojedynczemu botowi, który generował coraz więcej bezsensownych wiadomości w ciągu dnia. Usunięcie tego jednego bota całkowicie zniszczyło niektóre z kluczowych ustaleń zawartych w pracy (Pury 2011; Back, Küfner, and Egloff 2011) . Po prostu naukowcy, którzy nie myślą o systematycznym błędzie, narażają się na ryzyko użycia dużych zbiorów danych, aby uzyskać precyzyjne oszacowanie nieistotnej ilości, na przykład emocjonalnej treści bezsensownych komunikatów generowanych przez zautomatyzowanego bota.

Podsumowując, duże zbiory danych nie są celem samym w sobie, ale mogą umożliwić pewne rodzaje badań, w tym badanie rzadkich zdarzeń, oszacowanie niejednorodności i wykrywanie niewielkich różnic. Wielkie zbiory danych również powodują, że niektórzy badacze ignorują sposób tworzenia danych, co może doprowadzić do dokładnego oszacowania nieistotnej ilości danych.