2.3.1 Veľký

Veľké dátové sady sú prostriedkom na dosiahnutie cieľa; nie sú samoúčelné.

Najrozšírenejšou črtou veľkých zdrojov údajov je to, že sú BIG. Mnohé príspevky napríklad začínajú diskutovaním - a niekedy chvástaním - o tom, koľko údajov analyzovali. Napríklad v publikácii Science, ktorá sa zaoberá trendmi v používaní slov v korpusoch služby Google Books, boli publikované nasledujúce (Michel et al. 2011) :

"Naša korpus obsahuje viac ako 500 miliárd slov, v angličtine (361 miliárd), vo francúzštine (45 miliárd), španielskych (45 miliárd), nemeckých (37 miliárd), čínskych (13 miliárd), ruských (35 miliárd) (2 miliardy). Najstaršie diela boli uverejnené v roku 1500. Počiatočné desaťročia predstavujú len niekoľko kníh ročne, pozostávajúcich z niekoľkých stoviek tisíc slov. Do roku 1800 roste počet korpusov na 98 miliónov slov; do roku 1900, 1,8 miliardy; a do roku 2000 11 miliárd. Korpus nemôže človek čítať. Ak ste sa pokúsili čítať len anglické jazykové záznamy od roku 2000, za rozumnú rýchlosť 200 slov / min, bez prerušenia stravovania alebo spánku, to bude trvať 80 rokov. Séria písmen je 1000 krát dlhšia ako ľudský genóm: ak ste to napísali rovno, dosiahli by sa na Mesiaci a vrátili sa 10 krát. "

Rozsah týchto údajov je nepochybne pôsobivý a všetci sme šťastní, že tím služby Knihy Google sprístupnil tieto údaje verejnosti (v skutočnosti niektoré aktivity na konci tejto kapitoly využívajú tieto údaje). Ale kedykoľvek uvidíte niečo také, mali by ste sa opýtať: je, že všetky tieto údaje skutočne robia čokoľvek? Mohli by urobili ten istý výskum, ak by sa údaje mohli dostať na Mesiac a späť iba raz? Čo ak by sa údaje mohli dostať až na vrchol Mount Everestu alebo na vrchol Eiffelovej veže?

V tomto prípade ich výskum má v skutočnosti určité nálezy, ktoré vyžadujú obrovský súbor slov po dlhú dobu. Napríklad jedna vec, ktorú skúmajú, je vývoj gramatiky, najmä zmeny v rýchlosti nepravidelného konjugácie slovesa. Pretože niektoré nepravidelné slovesá sú pomerne zriedkavé, je potrebné zistiť veľké množstvo údajov v priebehu času. Príliš často sa zdá, že výskumníci považujú veľkosť veľkého zdroja údajov za koncovú - "pozrite sa, koľko údajov môžem kričať" - a to ako prostriedok na niektoré dôležitejšie vedecké ciele.

Podľa mojich skúseností je štúdium zriedkavých udalostí jedným z troch špecifických vedeckých zámerov, ktoré umožňujú veľké množiny údajov. Druhým je štúdium heterogenity, ako to dokazuje štúdia Raja Chetty a kolegov (2014) o sociálnej mobilite v Spojených štátoch. V minulosti mnohí výskumníci študovali sociálnu mobilitu porovnaním životných výsledkov rodičov a detí. Dôsledné zistenie z tejto literatúry spočíva v tom, že zvýhodnení rodičia majú tendenciu mať zvýhodnené deti, ale silu tohto vzťahu sa mení v priebehu času a medzi jednotlivými krajinami (Hout and DiPrete 2006) . V poslednej dobe však Chetty a jeho kolegovia dokázali použiť daňové záznamy od 40 miliónov ľudí na odhad heterogenity medzigeneračnej mobility medzi regiónmi v Spojených štátoch (obrázok 2.1). Zistili napríklad, že pravdepodobnosť, že dieťa dosiahne horný quintil rozdelenia národného príjmu počnúc rodinou v spodnom kvintile je asi 13% v San Jose v Kalifornii, ale iba asi 4% v Charlotte v Severnej Karolíne. Ak sa na chvíľu pozrieme na obrázok 2.1, možno sa začnete pýtať, prečo je medzigeneračná mobilita na niektorých miestach vyššia ako ostatné. Chetty a kolegovia mali presne tú istú otázku a zistili, že oblasti s vysokou mobilitou majú menšiu segregáciu v rezidenčnom sektore, menšiu nerovnosť v príjmoch, lepšie základné školy, väčší sociálny kapitál a väčšiu stabilitu rodiny. Samozrejme, tieto korelácie samy o sebe nepreukazujú, že tieto faktory spôsobujú vyššiu mobilitu, ale naznačujú možné mechanizmy, ktoré je možné preskúmať v ďalšej práci, čo práve to urobili Chetty a kolegovia v nasledujúcich prácach. Všimnite si, ako veľkosť údajov je v tomto projekte skutočne dôležitá. Keby Chetty a kolegovia použili daňové záznamy 40 000 ľudí a nie 40 miliónov, nebudú schopní odhadnúť regionálnu heterogenitu a nikdy by neboli schopní vykonať ďalší výskum, aby sa pokúsili identifikovať mechanizmy, ktoré vytvárajú túto zmenu.

Obrázok 2.1: Odhady šance detí dosiahnuť 20% najvyššieho podielu rozdelenia príjmov, pričom rodičia majú 20% (Chetty a kol., 2014). Odhady regionálnej úrovne, ktoré vykazujú rôznorodosť, prirodzene vedú k zaujímavým a dôležitým otázkam, ktoré nevyplývajú z jediného odhadu na vnútroštátnej úrovni. Tieto odhady regionálnej úrovne boli čiastočne možné, pretože výskumníci využívali veľký zdroj údajov: daňové záznamy 40 miliónov ľudí. Vytvorené z údajov dostupných na http://www.equality-of-opportunity.org/.

Obrázok 2.1: Odhady šance detí dosiahnuť 20% najvyššieho podielu rozdelenia príjmov, pričom rodičia majú 20% (Chetty et al. 2014) . Odhady regionálnej úrovne, ktoré vykazujú rôznorodosť, prirodzene vedú k zaujímavým a dôležitým otázkam, ktoré nevyplývajú z jediného odhadu na vnútroštátnej úrovni. Tieto odhady regionálnej úrovne boli čiastočne možné, pretože výskumníci využívali veľký zdroj údajov: daňové záznamy 40 miliónov ľudí. Vytvorené z údajov dostupných na http://www.equality-of-opportunity.org/.

Napokon, okrem štúdia zriedkavých udalostí a skúmania heterogenity, rozsiahle súbory údajov umožňujú výskumníkom zistiť aj malé rozdiely. V skutočnosti sa veľká časť zamerania na veľké údaje v priemysle týka týchto malých rozdielov: spoľahlivé zisťovanie rozdielu medzi 1% a 1,1% miery prekliknutia na reklamu môže premeniť na milióny dolárov dodatočných príjmov. V niektorých vedeckých prostrediach však také malé rozdiely nemusia byť osobitne dôležité, aj keď sú štatisticky významné (Prentice and Miller 1992) . Ale v niektorých nastaveniach politík môžu byť dôležité, keď sa zhromaždia. Napríklad, ak existujú dve zásahy v oblasti verejného zdravia a jedna je o niečo účinnejšia ako druhá, potom vyzdvihnutie efektívnejšej intervencie by mohlo viesť k záchrane tisícov ďalších životov.

Aj keď je bigness vo všeobecnosti dobrou vlastnosťou, keď sa používa správne, všimol som si, že to môže niekedy viesť k koncepčnej chybe. Z nejakého dôvodu zdá sa, že vedomosť vedie vedcov k tomu, aby ignorovali, ako boli ich údaje generované. Zatiaľ čo bigness znižuje potrebu obávať sa náhodnej chyby, v skutočnosti zvyšuje potrebu obávať systematických chýb, druhov chýb, ktoré budem opísať nižšie, ktoré vychádzajú z predsudkov o spôsobe vytvárania údajov. Napríklad v projekte, ktorý opisujem neskôr v tejto kapitole, výskumníci použili správy vytvorené 11. septembra 2001 s cieľom vytvoriť emocionálnu časovú líniu reakcie na teroristický útok s vysokým rozlíšením (Back, Küfner, and Egloff 2010) . Keďže vedci mali veľké množstvo správ, nemuseli sa skutočne obávať, či vzory, ktoré pozorovali - zvyšujúci sa hnev v priebehu dňa - by mohli byť vysvetlené náhodnou variáciou. Existovalo toľko údajov a vzor bol taký jasný, že všetky štatistické štatistické testy naznačovali, že ide o skutočný vzor. Tieto štatistické testy však nevedeli o tom, ako boli údaje vytvorené. V skutočnosti sa ukázalo, že mnohé z týchto vzorov možno pripísať jedinému botu, ktorý generuje stále viac nezmyselných správ počas celého dňa. Odstránenie tohto jedného robota úplne zničilo niektoré z hlavných zistení v príspevku (Pury 2011; Back, Küfner, and Egloff 2011) . Jednoducho, výskumníci, ktorí nemyslí na systematickú chybu, čelia riziku použitia svojich rozsiahlych súborov údajov na získanie presného odhadu nedôležitého množstva, ako je emocionálny obsah bezvýznamných správ produkovaných automatizovaným botom.

Na záver, veľké množiny údajov nie sú samy osebe, ale môžu umožniť určité druhy výskumu vrátane štúdií vzácnych udalostí, odhadu heterogenity a zisťovania malých rozdielov. Zdá sa, že veľké súbory údajov vedú niektorých výskumníkov, aby ignorovali, ako boli ich údaje vytvorené, čo im môže viesť k presnému odhadu nedôležitého množstva.