2.2 zpracování velkých objemů dat

Velké údaje vytvářejí a shromažďují společnosti a vlády za účelem jiného než výzkumu. Použití těchto údajů pro výzkum proto vyžaduje opakování.

Prvním způsobem, jakým se v digitálním věku setká mnoho lidí se sociálním výzkumem, je tím, co se často nazývá velkými daty . Navzdory rozšířenému používání tohoto výrazu neexistuje konsenzus o tom, jaké velké údaje jsou dokonce. Nicméně jedna z nejběžnějších definic velkých dat se zaměřuje na "3 Vs": objem, rozmanitost a rychlost. Zhruba je spousta dat v různých formátech a je vytvářena neustále. Někteří fanoušci velkých dat také přidávají další "Vs" jako Veracity a Value, zatímco někteří kritici přidávají Vs jako Vague a Vacuous. Spíše než 3 "Vs" (nebo 5 "Vs" nebo 7 "Vs"), pro účely sociálního výzkumu, myslím, že lepší místo je začít 5 "Ws": Kdo, co, , a proč. Ve skutečnosti si myslím, že mnohé výzvy a příležitosti vytvořené velkými zdroji dat vyplývají z jediného "W": Proč.

V analogickém věku byla většina dat, která byla použita pro společenský výzkum, vytvořena za účelem výzkumu. V digitálním věku však podniky a vlády vytvářejí obrovské množství údajů pro jiné účely, než je výzkum, jako je poskytování služeb, vytváření zisku a správa zákonů. Kreativní lidé, nicméně, si uvědomili, že můžete opakovaně využít tento firemní a vládní data pro výzkum. Přemýšlejíc zpět o analogii umění v kapitole 1, stejně jako Duchamp přemýšlel o nalezeném předmětu k vytvoření umění, vědci nyní mohou repurpovat nalezené údaje pro vytvoření výzkumu.

Zatímco existují nepochybně obrovské možnosti pro reproposing, použití dat, která nebyla vytvořena pro účely výzkumu, představuje také nové výzvy. Porovnejte například službu sociálních médií, jako je Twitter, s tradičním průzkumem veřejného mínění, jako je obecný sociální průzkum. Cílem Twitter je poskytnout službu svým uživatelům a dosáhnout zisku. Obecný sociální přehled je na druhé straně zaměřen na vytváření obecně účelových dat pro sociální výzkum, zejména pro výzkum veřejného mínění. Tento rozdíl v cílech znamená, že údaje vytvořené Twitterem a vytvořené obecným sociálním průzkumem mají různé vlastnosti, ačkoli oba mohou být použity pro studium veřejného mínění. Twitter pracuje v měřítku a rychlosti, že obecný sociální průzkum nemůže odpovídat, ale na rozdíl od obecného sociálního průzkumu Twitter neprohlíží uživatele pečlivě a tvrdě nepracuje, aby udržel srovnatelnost v průběhu času. Vzhledem k tomu, že tyto dva zdroje dat jsou natolik odlišné, nemá smysl říkat, že obecný sociální průzkum je lepší než Twitter nebo naopak. Pokud chcete hodinové míry globální nálady (např. Golder and Macy (2011) ), Twitter je nejlepší. Na druhou stranu, pokud chcete chápat dlouhodobé změny v polarizaci postojů ve Spojených státech (např. DiMaggio, Evans, and Bryson (1996) ), pak je nejlepší volbou Obecný sociální průzkum. Obecněji, spíše než snažit se tvrdit, že velké zdroje dat jsou lepší nebo horší než jiné typy dat, tato kapitola se pokusí objasnit, na jaké druhy výzkumných otázek mají velké zdroje dat atraktivní vlastnosti a na jaké druhy otázek nemusí být ideál.

Při přemýšlení o velkých zdrojích dat se mnozí badatelé soustředí na on-line data vytvořená a shromážděná společnostmi, jako jsou protokoly vyhledávačů a příspěvky v sociálních médiích. Toto úzké zaměření však zanechává dva další důležité zdroje velkých dat. Za prvé, stále větší objem firemních zdrojů dat pochází z digitálních zařízení ve fyzickém světě. Například v této kapitole vám řeknu studii, že údaje o odchodu z supermarketu se změnily, aby se zjistilo, jak je produktivita pracovníků ovlivněna produktivitou svých kolegů (Mas and Moretti 2009) . V pozdějších kapitolách vám řeknu o výzkumných pracovnících, kteří používali záznamy o hovorech z mobilních telefonů (Blumenstock, Cadamuro, and On 2015) a fakturační údaje vytvořené elektrickými zařízeními (Allcott 2015) . Jak ilustrují tyto příklady, velké firemní zdroje dat jsou více než jen on-line chování.

Druhým důležitým zdrojem velkých dat, které chybělo úzké zaměření na chování online, jsou data vytvořená vládami. Tyto vládní údaje, které výzkumníci nazývají vládní administrativní záznamy , zahrnují věci jako daňové záznamy, školní záznamy a záznamy o životních statistikách (např. Registru porodů a úmrtí). Vlády vytvářejí tyto údaje pro některé stovky let a sociální vědci je využívají takřka tak dlouho, dokud jsou sociální vědci. Co se však změnilo, je digitalizace, která drasticky usnadnila vládám shromažďování, přenos, ukládání a analýzu dat. Například v této kapitole vám povím o studii, která převzala údaje z digitálních taxi metrů měny vlády New Yorku, aby se řešila základní debata v ekonomice práce (Farber 2015) . V pozdějších kapitolách vám řeknu, jak byly v průzkumu (Ansolabehere and Hersh 2012) a v experimentu (Bond et al. 2012) použity vládní záznamy o hlasování.

Myslím, že myšlenka repurposingu je zásadní pro učení se z velkých datových zdrojů, a proto než se konkrétněji budeme zabývat vlastnostmi velkých datových zdrojů (oddíl 2.3) a jakým způsobem je lze využít při výzkumu (oddíl 2.4), rád bych nabídnout dvě obecné rady ohledně reproposingu. Za prvé, může být lákavé přemýšlet o kontrastu, který jsem nastavil jako mezi "nalezenými" daty a "navrženými" daty. To je blízko, ale není to úplně pravda. Přestože se z pohledu výzkumných pracovníků objevují velké zdroje dat, nespadají jen z oblohy. Namísto toho zdroje dat, které "našli" výzkumníci, jsou navrženi někým pro nějaký účel. Vzhledem k tomu, že "nalezená" data jsou navržena někým, vždy doporučuji, abyste se pokoušeli co nejvíce porozumět lidem a procesům, které vytvořily vaše data. Zadruhé, když přepočítáváte data, je často velmi užitečné si představit ideální datovou sadu pro váš problém a pak porovnat ideální datovou sadu s tou, kterou používáte. Pokud jste své údaje sami sbírali, pravděpodobně budou k dispozici významné rozdíly mezi tím, co chcete a co máte. Pozorování těchto rozdílů vám pomůže objasnit to, co můžete a nemůžete se naučit z údajů, které máte, a mohlo by vám navrhnout nová data, která byste měli shromažďovat.

Podle mých zkušeností se sociální vědci a vědci v oblasti údajů snaží přistupovat k různým změnám. Sociální vědci, kteří jsou zvyklí pracovat s daty určenými pro výzkum, zpravidla rychle upozorňují na problémy s opakovanými údaji a zároveň ignorují své silné stránky. Na druhou stranu vědci v oblasti dat obvykle zpravidla rychle poukazují na výhody opravených dat a zároveň ignorují své slabiny. Samozřejmě, nejlepším přístupem je hybrid. To znamená, že vědci potřebují pochopit vlastnosti velkých datových zdrojů - a to jak dobré, tak špatné - a pak zjistit, jak se z nich učit. A to je plán pro zbytek této kapitoly. V další části popisuji deset společných charakteristik velkých zdrojů dat. Poté v následujícím oddíle budu popisovat tři přístupy výzkumu, které mohou s těmito daty dobře fungovat.