2.3.2.1 Neúplné

Bez ohľadu na to, ako "veľký" vaše "spracovanie veľkých objemov dát" to asi nemá informácie, ktoré chcete.

Väčšina veľkých zdroje dát sú neúplné v tom zmysle, že nemajú informácie, ktoré budete chcieť pre svoj ​​výskum. To je spoločný rys údajov, ktoré boli vytvorené na účely iné ako výskumné účely. Mnoho sociálnych vedcov už mali skúsenosti s riešením neúplnosti, ako je súčasné vyšetrovanie, ktoré neboli položiť otázku, čo ste chceli. Bohužiaľ, problémy neúplnosti majú tendenciu byť viac extrémne vo veľkých dát. Podľa mojich skúseností, spracovanie veľkých objemov dát tendenciu chýbať tri druhy informácií, ktoré sú užitočné pre sociálny výskum: demografiu, správanie na iných platformách a údaje uviesť do praxe teoretických konštruktov.

Všetky tieto tri formy neúplnosti sú znázornené v štúdii Gueorgi Kossinets a Duncan Watts (2006) o vývoji sociálnej siete na vysokej škole. Kossinets a Watts začala s e-mailových protokolov z univerzity, ktorý mal presné informácie o tom, kto poslal e-maily na koho v akom čase (výskumníci nemali prístup k obsahu e-mailov). Tieto e-mailové záznamy znieť ako úžasnú dátovej sady, ale sú-napriek svojej veľkosti a granularity-zásadne neúplné. Napríklad e-mailové protokoly nezahŕňajú údaje o demografickej charakteristiky študentov, ako je pohlavie a vek. Ďalej, e-mailové protokoly neobsahujú údaje o komunikáciu prostredníctvom ďalších médií, ako sú telefónne hovory, textové správy, alebo face-to-face rozhovorov. A konečne, e-mailové protokoly nie sú priamo uvedené informácie o vzťahoch, teoretických konštruktov v mnohých existujúcich teórií. Neskôr v tejto kapitole, keď hovorím o výskumných stratégií, uvidíte, ako Kossinets a Watts vyriešil tieto problémy.

Z troch druhov neúplnosti, problém neúplných údajov uviesť do praxe teoretických konštruktov je najťažšie riešiť, a podľa mojich skúseností, to je často prehliadaná náhodne dátovými vedci. Zhruba teoretické konštrukty sú abstraktné myšlienky, že sociálne vedci študujú, ale bohužiaľ, tieto konštrukty nedá vždy jednoznačne definované a merané. Napríklad, poďme si predstaviť snažia empiricky testovať zdanlivo jednoduché tvrdenie, že ľudia, ktorí sú inteligentnejší zarobiť viac peňazí. Na otestovanie tvrdenie by bolo treba merať "inteligenciu." Ale to, čo je inteligencia? Napríklad Gardner (2011) tvrdil, že tam sú vlastne osem rôznych foriem inteligencie. A, existujú postupy, ktoré by mohli presne zmerať niektoré z týchto foriem inteligencie? Cez enormné množstvo práce zo strany psychológov, tieto otázky stále nemajú jednoznačné odpovede. Preto aj relatívne jednoduchý claim-ľudia, ktorí sú inteligentnejší zarábať viac peňazí, môže byť ťažké posúdiť empiricky, pretože to môže byť ťažké uviesť do praxe teoretických konštruktov v dátach. Iné príklady teoretických konštruktov, ktoré sú dôležité, ale ťažko uviesť do praxe zahŕňajú "normy", "sociálny kapitál" a "demokracia". Sociálna vedci nazývajú zápas medzi teoretických konštruktov a údaje konstruktové platnosti (Cronbach and Meehl 1955) . A ako tento zoznam konštruktov napovedá, postaviť platnosť je problém, že sociálne vedci snažili sa po veľmi dlhú dobu, aj keď oni pracovali s dátami, ktorá bola zhromaždených na účely výskumu. Pri práci s dátami zbierajú na iné účely ako výskumné účely, problémy konštruktu platnosti sú ešte náročnejšie (Lazer 2015) .

Pri čítaní výskum papier, jeden rýchly a užitočný spôsob, ako posúdiť obavy konstruktové platnosti je, aby hlavný tvrdenia v novinách, ktorý je zvyčajne vyjadrené konštruktov, a znovu vyjadriť čo sa týka použitých údajov. Zvážte napríklad dve hypotetické štúdie, ktoré tvrdia, že ukazujú, že viac inteligentní ľudia zarábajú viac peňazí:

  • Štúdia 1: ľudia, ktorí dobre zvládajú na Raven Progresívne Matice Test dobre študované testom analytické inteligencie (Carpenter, Just, and Shell 1990) ✔ majte vyššie nahlásené príjmy na svojich daňových priznaniach
  • Štúdia 2: ľudia na Twitteri, ktorí používajú dlhšie slová majú väčšiu šancu spomenúť luxusných značiek

V oboch prípadoch by výskumní pracovníci mohli tvrdiť, že sa ukázalo, že viac inteligentní ľudia získať peniaze. Ale v prvej štúdii teoretickej konštrukty sú tiež realizované dátami, a v druhej nie sú. Ďalej, ako ukazuje tento príklad, ďalšie dáta nie sú automaticky riešiť problémy s konštruktom platnosti. By ste mali pochybovať o tom výsledky štúdie 2, či išlo o milión tweetov, miliardy tweety alebo bilión tweety. Pre výskumníkov nie sú oboznámení s myšlienkou konstruktové platnosti, Tabuľka 2.2 uvádza niektoré príklady štúdií, ktoré operacionalizován teoretické konštrukty pomocou digitálne dáta trasovania.

Tabuľka 2.2: Príklady digitálnych stôp, ktoré sa používajú ako opatrenie viac abstraktných teoretických konceptov. Sociológovia nazývajú tento zápas konštruktu platnosť, a to je veľký problém s použitím veľkých dátových zdrojov pre sociálny výskum (Lazer 2015) .
Digitálne stopy teoretická konštrukt citácie
e-mailové protokoly z univerzity (iba meta-data) sociálne vzťahy Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
príspevkov na sociálne médiá Weibo občianska angažovanosť Zhang (2016)
e-mailové protokoly od firmy (meta-dát a kompletný text) Kultúrne fit v organizácii Goldberg et al. (2015)

Hoci problém neúplných údajov pre operationalizing teoretických konštruktov je dosť ťažké riešiť, existujú tri spoločné riešenia tohto problému neúplných demografických údajov a neúplným informáciám o správaní na iných platformách. Prvým z nich je vlastne zbierať dáta, ktoré potrebujú; Poviem ti o príklad, ktorý v kapitole 3, keď som ti o prieskumy. Bohužiaľ, tento spôsob zberu dát nie je vždy možné. Druhým hlavným riešením je to, čo vedci nazývajú dátové užívateľsky atribút záver a čo sociológovia nazývajú imputácie. V tomto prístupe, výskumníci používajú informácie, ktoré majú na niektorých ľudí odvodiť vlastnosti iných ľudí. Tretím možným riešením, jeden používal Kossinets a Watts, bolo spojiť viac zdrojov dát. Tento proces je niekedy nazývaný zlúčenie alebo záznam väzba. Moja obľúbená metafora pre tento proces bolo navrhnuté v prvom odseku hneď v prvom príspevku kedy bola napísaná na rekordné väzbou (Dunn 1946) :

"Každý človek na svete vytvára Book of Life. Táto kniha začína narodením a končí smrťou. Jeho stránky sú tvorené záznamov princípe udalostí v živote. Záznam väzba je meno danej k procesu zostavovania stránkami tejto knihy do zväzku. "

Táto pasáž bola napísaná v roku 1946, a v tej dobe boli ľudia myslia, že kniha života by mohli zahŕňať významné životné udalosti, ako je narodenie, sobáš, rozvod, a smrť. Avšak teraz, keď toľko informácií o ľuďoch je zaznamenané, kniha života by mohol byť neuveriteľne detailný portrét, pokiaľ tieto jednotlivé stránky (tj našu digitálne Traces), môžu byť zviazané. Táto kniha života by mohol byť skvelý zdroj pre výskumníkov. Ale kniha života by mohla byť tiež nazývaný databázu skazy (Ohm 2010) , ktorý by mohol byť použitý pre všetky druhy neetické účely, ako je popísané viac nižšie, keď hovorím o citlivú povahu informácií zhromaždených veľkými dátovými zdrojmi nižšie a v kapitole 6 (etika).