2.2 spracovanie veľkých objemov dát

Veľké údaje vytvárajú a zhromažďujú spoločnosti a vlády na iné účely ako výskum. Použitie týchto údajov na výskum preto vyžaduje opätovné usporiadanie.

Prvý spôsob, ako sa mnohí ľudia stretávajú s sociálnym výskumom v digitálnom veku, je tým, čo sa často nazýva veľké údaje . Napriek rozšírenému používaniu tohto výrazu neexistuje konsenzus o tom, aké veľké údaje sú dokonca. Jedna z najbežnejších definícií veľkých údajov sa však zameriava na "3 Vs": objem, rozmanitosť a rýchlosť. Zhruba existuje veľa dát v rôznych formátoch a vytvára sa neustále. Niektorí fanúšikovia veľkých dát tiež pridávajú ďalšie "Vs" ako Veracity a Value, zatiaľ čo niektorí kritici pridávajú Vs ako Vague a Vacuous. Skôr než 3 "Vs" (alebo 5 "Vs" alebo 7 "Vs"), pre účely sociálneho výskumu, myslím, že lepšie miesto na začiatku je 5 "Ws": Kto, čo, , a prečo. Myslím si, že mnohé výzvy a príležitosti vytvorené veľkými zdrojmi údajov vyplývajú len z jedného "W": Prečo.

V analogickom veku sa väčšina údajov, ktoré boli použité na sociálny výskum, vytvorila na účely výskumu. V digitálnom veku však podniky a vlády vytvárajú obrovské množstvo údajov na iné účely ako výskum, ako napríklad poskytovanie služieb, generovanie zisku a spravovanie zákonov. Kreatívni ľudia, však, si uvedomili, že môžete opakovane využiť tento firemné a vládne dáta pre výskum. Keď sa vrátime k umeleckej analógii v kapitole 1, rovnako ako Duchamp presviedol nájdený objekt na vytvorenie umenia, vedci teraz môžu opätovne použiť nájdené dáta na vytvorenie výskumu.

Aj keď sú nepochybne obrovské príležitosti na opätovné použitie, používanie údajov, ktoré neboli vytvorené na účely výskumu, predstavuje aj nové výzvy. Porovnajte napríklad službu sociálnych médií, napríklad Twitter, s tradičným prieskumom verejnej mienky, ako je všeobecný sociálny prieskum. Cieľom Twitter je poskytnúť službu svojim používateľom a dosiahnuť zisk. Všeobecný sociálny prieskum sa na druhej strane zameriava na vytvorenie všeobecných účelových údajov pre sociálny výskum, najmä pre výskum verejnej mienky. Tento rozdiel v cieľoch znamená, že údaje vytvorené prostredníctvom služby Twitter a vytvorené v rámci všeobecného sociálneho prieskumu majú iné vlastnosti, hoci obidva môžu byť použité na štúdium verejnej mienky. Twitter funguje v mierke a rýchlosti, že všeobecný sociálny prieskum sa nedá porovnať, ale na rozdiel od všeobecného sociálneho prieskumu, Twitter nie pozorne ukážku používateľov a nepracuje tvrdo na udržanie porovnateľnosti v čase. Keďže tieto dva zdroje údajov sú také odlišné, nedáva zmysel povedať, že všeobecné sociálne zisťovanie je lepšie ako Twitter alebo naopak. Ak chcete hodinové merania globálnej nálady (napr. Golder and Macy (2011) ), Twitter je najlepšie. Na druhej strane, ak chcete chápať dlhodobé zmeny polarizácie postojov v Spojených štátoch (napr. DiMaggio, Evans, and Bryson (1996) ), potom je najlepší voľbou všeobecný sociálny prieskum. Vo všeobecnosti skôr než sa pokúšať tvrdiť, že veľké zdroje údajov sú lepšie alebo horšie ako iné typy údajov, táto kapitola sa pokúsi objasniť, pre ktoré druhy výskumných otázok majú veľké zdroje údajov atraktívne vlastnosti a pre aké druhy otázok by nemuseli byť ideálne.

Pri rozmýšľaní o veľkých zdrojoch údajov sa mnohí vedci bezprostredne zameriavajú na online údaje vytvorené a zhromaždené spoločnosťami, ako sú denníky vyhľadávacích nástrojov a príspevky sociálnych médií. Toto úzke zameranie však vynecháva ďalšie dva dôležité zdroje veľkých údajov. Po prvé, čoraz väčšie firemné zdroje údajov pochádzajú z digitálnych zariadení vo fyzickom svete. Napríklad v tejto kapitole vám poviem o štúdii, v ktorej sa nachádzajú údaje o odbúraní supermarketov, aby ste zistili, ako je produktivita pracovníkov ovplyvnená produktivitou svojich rovesníkov (Mas and Moretti 2009) . Potom v neskorších kapitolách vám poviem o výskumných pracovníkoch, ktorí používali záznamy hovorov z mobilných telefónov (Blumenstock, Cadamuro, and On 2015) a fakturačné údaje vytvorené elektrickými zariadeniami (Allcott 2015) . Ako ilustrujú tieto príklady, firemné veľké zdroje údajov predstavujú viac ako on-line správanie.

Druhým dôležitým zdrojom veľkých údajov, ktoré zmeškali úzke zameranie na správanie online, sú údaje vytvorené vládami. Tieto vládne údaje, ktoré výskumníci nazývajú vládne administratívne záznamy , zahŕňajú také veci, ako sú daňové záznamy, školské záznamy a dôležité štatistické záznamy (napr. Registre narodení a úmrtí). Vlády vytvárajú takéto údaje v niektorých prípadoch stovky rokov a sociálni vedci ich využívajú takmer tak dlho, kým existujú sociálni vedci. Zmenilo sa však digitalizácia, čo dramaticky uľahčilo vládam zbierať, prenášať, ukladať a analyzovať údaje. Napríklad v tejto kapitole vám poviem o štúdii, ktorá opätovne nasmerovala údaje z digitálnych taxi metrov vláda New Yorku s cieľom riešiť zásadnú diskusiu o ekonomike práce (Farber 2015) . Potom v neskorších kapitolách vám poviem, ako sa v prieskume (Ansolabehere and Hersh 2012) a v experimente (Bond et al. 2012) použili vládne záznamy o hlasovaní.

Myslím si, že myšlienka repurposingu je základom učenia sa z veľkých dátových zdrojov, a preto predtým, než sa budem konkrétnejšie zaoberať vlastnosťami veľkých dátových zdrojov (časť 2.3) a ako ich možno použiť vo výskume (časť 2.4), rád by som ponúknuť dve časti všeobecných rád o oprave. Po prvé, môže byť lákavé zamyslieť sa nad kontrastom, ktorý som nastavil ako medzi "nájdenými" a "navrhnutými" údajmi. To je blízko, ale nie je to úplne správne. Napriek tomu, že z hľadiska výskumných pracovníkov sa "nájdu" veľké zdroje údajov, nemusia len spadnúť z neba. Namiesto toho zdroje údajov, ktoré "našli" výskumní pracovníci, navrhol niekto na nejaký účel. Keďže "nájdené" údaje sú navrhnuté niekým, vždy odporúčam, aby ste sa pokúsili pochopiť čo najviac ľudí a procesov, ktoré vytvorili vaše údaje. Po druhé, keď preformulujete dáta, je často veľmi užitočné si predstaviť ideálnu množinu údajov pre váš problém a porovnať ideálnu množinu dát s tou, ktorú používate. Ak ste svoje údaje nevyzdvihli sami, pravdepodobne dôjde k významným rozdielom medzi tým, čo chcete a čo máte. Pozorovanie týchto rozdielov vám pomôže objasniť to, čo môžete a nemôžete sa naučiť z dát, ktoré máte, a mohlo by vám navrhnúť nové údaje, ktoré by ste mali zbierať.

Podľa mojich skúseností sociálni vedci a vedci z oblasti údajov majú tendenciu pristupovať k tomu, že sa budú opakovane meniť inak. Sociálni vedci, ktorí sú zvyknutí pracovať s údajmi určenými na výskum, zvyčajne rýchlo poukazujú na problémy s opakovanými údajmi, pričom ignorujú svoje silné stránky. Na druhej strane vedci v oblasti údajov zvyčajne rýchlo poukazujú na výhody opätovne získaných údajov, pričom ignorujú svoje slabosti. Samozrejme, najlepší prístup je hybrid. To znamená, že vedci potrebujú pochopiť charakteristiky veľkých zdrojov údajov - dobrej i zlej - a potom zisťovať, ako sa z nich učiť. A to je plán pre zvyšok tejto kapitoly. V ďalšej časti opíšem desať spoločných charakteristík veľkých zdrojov údajov. Potom v ďalšej časti opíšem tri výskumné prístupy, ktoré môžu s takýmito údajmi dobre fungovať.