2.3.1 Velký

Velké datové sady jsou prostředkem k dosažení cíle; nejsou samoúčelné.

Nejrozšířenějším rysem velkých zdrojů dat je, že jsou BIG. Mnoho dokumentů například začíná tím, že diskutuje - a někdy se chlubí - o tom, kolik údajů analyzovalo. Například článek publikovaný ve Vědě, který studuje trendy ve využití slov v korpusu Knihy Google, obsahoval následující (Michel et al. 2011) :

"[Naše] korpus obsahuje přes 500 miliard slov, v angličtině (361 miliard), francouzštině (45 miliardách), španělštině (45 miliardách), německé (37 miliardy), čínské (13 miliardy) (2 miliardy). Nejstarší díla vyšla v roce 1500. Počáteční desetiletí představuje pouze několik knih za rok, které obsahují několik set tisíc slov. Do roku 1800 se korpus ročně zvýší na 98 milionů slov; do roku 1900, 1,8 miliardy; a do roku 2000 11 miliard. Korpus nemůže číst člověk. Pokud jste se snažili číst pouze anglické jazykové záznamy od roku 2000, za rozumné tempo 200 slov / min, bez přerušení jídla nebo spánku, to bude trvat 80 let. Sekvence písmen je 1000 krát delší než lidský genom: Pokud jste to napsali rovně, dosáhli by na Měsíci a zpět 10krát zpět. "

Rozsah těchto údajů je nepochybně působivý a my jsme všichni šťastní, že tým Knih Google vydal tato data veřejnosti (ve skutečnosti některé z aktivit na konci této kapitoly využívají tato data). Ale kdykoli vidíte něco takového, měli byste se zeptat: je, že všechna data opravdu dělají něco? Mohli by udělali stejný výzkum, kdyby se data mohla dostat na Měsíc a zpět jen jednou? Co kdyby se data mohla dostat až na vrchol Mount Everestu nebo na vrchol Eiffelovy věže?

V tomto případě mají jejich výzkum ve skutečnosti nějaké poznatky, které vyžadují obrovský soubor slov po dlouhou dobu. Jedna věc, kterou prozkoumávají, je například vývoj gramatiky, zejména změny rychlosti konjugace nepravidelných sloves. Vzhledem k tomu, že některé nepravidelné slovesa jsou poměrně vzácné, je třeba, aby bylo v průběhu času zaznamenáno velké množství dat. Příliš často se však zdá, že vědci považují velikost velkého zdroje dat za koncový - "podívej se, kolik údajů mohu kritizovat" - než je to pro nějaký důležitější vědecký cíl.

Podle mých zkušeností je studie o vzácných událostech jedním ze tří specifických vědeckých cílů, které dávají rozsáhlé datasety. Druhá je studie heterogenity, jak dokládá studie Raj Chetty a kolegů (2014) o sociální mobilitě ve Spojených státech. V minulosti mnoho vědců studovalo sociální mobilitu porovnáním životních výsledků rodičů a dětí. Důsledné zjištění z této literatury spočívá v tom, že zvýhodnění rodiče mají tendenci mít zvýhodněné děti, avšak síla těchto vztahů se mění v čase a v různých zemích (Hout and DiPrete 2006) . V poslední době však Chetty a jeho kolegové mohli využít daňových záznamů od 40 milionů lidí k odhadu heterogenity mezigenerační mobility mezi regiony ve Spojených státech (obrázek 2.1). Zjistili například, že pravděpodobnost, že dítě dosáhne horního kvintilu rozdělení národního příjmu z rodiny v dolním kvintile je přibližně 13% v San Jose, Kalifornie, ale pouze asi 4% v Charlotte v Severní Karolíně. Pokud se na chvíli podíváte na obrázek 2.1, začnete se divit, proč je mezigenerační mobilita na některých místech vyšší než ostatní. Chetty a kolegové měli přesně stejnou otázku a zjistili, že oblasti s vysokou mobilitou mají menší segregaci v rezidenční oblasti, nižší nerovnost v příjmech, lepší základní školy, větší sociální kapitál a větší stabilitu rodiny. Samotné tyto korelace samozřejmě neprokazují, že tyto faktory způsobují vyšší mobilitu, ale naznačují možné mechanismy, které lze zkoumat v další práci, což je přesně to, co Chetty a kolegové učinili v následných pracích. Všimněte si, jak velikost dat byla v tomto projektu opravdu důležitá. Kdyby Chetty a kolegové používali daňové záznamy 40 000 lidí než 40 milionů lidí, nemohli by odhadnout regionální heterogenitu a nikdy by nebyli schopni uskutečnit další výzkum, aby se pokusili identifikovat mechanismy, které tuto změnu vytvářejí.

Obr. 2.1: Odhady pravděpodobnosti, že dítě dosáhne 20% nejvyššího rozdělení příjmů vzhledem k rodičům v nejnižších 20% (Chetty a kol., 2014). Odhady regionální úrovně, které vykazují heterogenitu, přirozeně vedou k zajímavým a důležitým otázkám, které nevyplývají z jediného odhadu na národní úrovni. Tyto odhady regionální úrovně byly zčásti možné, protože výzkumníci používali velký velký zdroj dat: daňové záznamy o 40 milionech osob. Vytvořeno z údajů dostupných na http://www.equality-of-opportunity.org/.

Obr. 2.1: Odhady pravděpodobnosti, že dítě dosáhne 20% nejvyššího rozdělení příjmů vzhledem k rodičům v nejnižších 20% (Chetty et al. 2014) . Odhady regionální úrovně, které vykazují heterogenitu, přirozeně vedou k zajímavým a důležitým otázkám, které nevyplývají z jediného odhadu na národní úrovni. Tyto odhady regionální úrovně byly zčásti možné, protože výzkumníci používali velký velký zdroj dat: daňové záznamy o 40 milionech osob. Vytvořeno z údajů dostupných na http://www.equality-of-opportunity.org/.

Konečně, kromě studia vzácných událostí a studia heterogenity, rozsáhlé datové množiny také umožňují výzkumníkům odhalit malé rozdíly. Ve skutečnosti se velká část důrazu na velké údaje v průmyslu týká těchto malých rozdílů: spolehlivé zjištění rozdílu mezi 1% až 1,1% míry prokliku reklamy na reklamu může přinést dodatečné příjmy do milionů dolarů. V některých vědeckých podmínkách však takové malé rozdíly nemusí být zvlášť důležité, i když jsou statisticky významné (Prentice and Miller 1992) . V některých nastaveních zásad však mohou být při souhrnném pohledu důležité. Například pokud existují dvě intervence v oblasti veřejného zdraví a jedna je o něco efektivnější než druhá, pak vybírání efektivnějšího zásahu by nakonec mohlo ušetřit tisíce dalších životů.

Ačkoli je bigness obecně dobrá vlastnost při správném použití, všiml jsem si, že to někdy může vést k koncepční chybě. Z nějakého důvodu zdá se, že vedomost vede k tomu, že výzkumníci ignorují, jak byly jejich údaje generovány. Zatímco sblížení snižuje potřebu starosti o náhodnou chybu, ve skutečnosti se zvyšuje potřeba obávat se systematických chyb, druhů chyb, které níže popsám, které vznikají z předsudků o způsobu vytváření dat. Například v projektu, který podrobněji popsám v této kapitole, vědci použili zprávy generované 11. září 2001, aby vytvořily emoční časový rozvrh reakce na teroristický útok s vysokým rozlišením (Back, Küfner, and Egloff 2010) . Vzhledem k tomu, že vědci měli velké množství zpráv, nemuseli se skutečně starat o to, zda vzory, které pozorovali - vzrůstající hněv v průběhu dne - mohly být vysvětleny náhodnou variací. Bylo tolik údajů a vzorek byl tak jasný, že všechny statistické statistické testy naznačovaly, že se jedná o skutečný vzor. Tyto statistické testy však nevěděly, jak byly data vytvořena. Ve skutečnosti se ukázalo, že mnoho vzorků bylo připisováno jedinému botu, který generoval stále více bezvýznamných zpráv po celý den. Odstranění tohoto botu zcela zničilo některé z klíčových zjištění v příspěvku (Pury 2011; Back, Küfner, and Egloff 2011) . Jednoduše řečeno, vědci, kteří nemyslí na systematickou chybu, čelí riziku použití velkých datových souborů, aby získali přesný odhad nedůležitého množství, jako je emoční obsah bezvýznamných zpráv vytvořených automatizovaným botem.

Závěrem je, že velké datové množiny nejsou samy o sobě cílem, ale mohou umožnit určitý druh výzkumu, včetně studie o vzácných událostech, odhadu heterogenity a zjištění malých rozdílů. Zdá se, že velké datové sady vedou některé výzkumníky k tomu, že ignorují, jak byly jejich údaje vytvořeny, což jim může vést k přesnému odhadu nedůležitého množství.