2.1 Úvod

V analógového veku, zber dát o správaní, kto čo robí, keď-bolo drahé, a preto je pomerne vzácne. Teraz, v digitálnom veku, je správanie miliárd ľudí sú zaznamenané, uchovávané, a analyzable. Napríklad zakaždým, keď kliknete na webové stránky, volať na mobilný telefón, alebo platiť za niečo s vašej kreditnej karty, digitálny záznam o svojom správaní je vytvorený a uložený podniku. Pretože tieto údaje sú vedľajším produktom každodenných činností ľudí, oni sú často nazývaní digitálne stopy. Okrem týchto stôp držaných podniky, vlády majú tiež neuveriteľne bohaté údaje o ľudí i podniky, údaje, ktoré sú často digitalizovaná a analyzable. Dohromady tieto obchodné a vládne záznamy sú často nazývané veľkých objemov dát.

Stále stúpa záplava spracovanie veľkých objemov dát znamená, že sme sa posunuli zo sveta, kde behaviorálne dáta boli vzácna do sveta, kde behaviorálne dáta sú hojné. Ale pretože tieto typy dát sú relatívne nové, nešťastné množstvo výskumu ich použitie vyzerá vedcov slepo naháňa dostupných údajov. V tejto kapitole, namiesto toho ponúka principiálny prístup k pochopeniu rôzne zdroje dát a ako môžu byť použité. Tento bohatšie pochopenie by malo pomôcť lepšie zodpovedali vašim výskumné otázky príslušných zdrojov údajov. Alebo, ak sa tieto existujúce zdroje chýba, presvedčiť zhromažďovať svoje dáta pomocou myšlienok v budúcich kapitolách.

Prvým krokom k učeniu sa z veľkého údajov je uvedomiť si, že to je súčasťou širšieho kategórie údajov, ktorý bol použitý pre sociálny výskum na mnoho rokov: pozorovacích dát. Zhruba observačnej údaje sú všetky údaje, ktoré vyplýva z pozorovaní sociálny systém bez zásahu do nejakým spôsobom. Surový spôsob, ako premýšľať o tom, že observačná údaje je všetko, čo nezahŕňa hovoriť s ľuďmi (napr prieskumy, téma kapitoly 3) alebo meniace sa prostredie ľudí (napr experimenty, téma kapitoly 4). Teda, okrem obchodných a vládnych záznamov, observačná dáta zahŕňajú aj veci, ako textu novinových článkov a satelitných snímok.

Táto kapitola sa skladá z troch častí. Po prvé, v časti 2.2, popisujem veľkých objemov dát podrobnejšie a objasniť zásadný rozdiel medzi ním a údaje, ktoré boli všeobecne používaného pre sociálny výskum v minulosti. Potom, v bode 2.3, opisujem desať spoločné črty veľkých dátových zdrojov. Pochopenie týchto vlastností nám umožňuje rýchlo rozpoznať silné a slabé stránky existujúcich zdrojov a pomôže nám využiť nové zdroje, ktoré budú vytvorené v budúcnosti. A konečne, v oddiele 2.4, popíšem tri hlavné výskumné stratégie, ktoré môžete použiť na poučiť z pozorovacích dát: Počítanie vecí, predpovedanie vecí a zbližovanie experiment.