2.2 Big data

Store data er opprettet og samlet av bedrifter og myndigheter for andre formål enn forskning. Bruk av disse dataene for forskning krever derfor gjenopptakelse.

Den første måten at mange mennesker møter sosial forskning i den digitale tidsalderen, er gjennom det som ofte kalles store data . Til tross for den utbredte bruken av dette begrepet, er det ingen konsensus om hvilke store data som er. Men en av de vanligste definisjonene av store data fokuserer på "3 Vs": Volum, Variety og Velocity. Grovt, det er mye data, i en rekke formater, og det blir stadig skapt. Noen fans av store data legger også til andre "Vs" som Veracity and Value, mens noen kritikere legger til Vs som Vague og Vacuous. I stedet for 3 "Vs" (eller 5 "Vs" eller 7 "Vs"), mener jeg med et samfunnsforskning at et bedre sted å starte er 5 "Ws": Hvem, Hva, Hvor, Når , og hvorfor. Faktisk tror jeg at mange av utfordringene og mulighetene som er opprettet av store datakilder, følger av bare en "W": Hvorfor.

I den analoge alderen ble de fleste dataene som ble brukt til samfunnsforskning opprettet for å gjøre forskning. I den digitale tidsalderen blir imidlertid en stor mengde data opprettet av bedrifter og myndigheter for andre formål enn forskning, for eksempel å yte tjenester, generere fortjeneste og administrere lover. Kreative mennesker har imidlertid innsett at du kan omarbeide disse bedrifts- og regeringsdataene for forskning. Å tenke tilbake til kunstanalogen i kapittel 1, akkurat som Duchamp repurposed et funnet objekt for å skape kunst, kan forskere nå omforme funnet data for å skape forskning.

Selv om det er utvilsomt store muligheter for repurposing, presenteres også nye utfordringer ved bruk av data som ikke ble opprettet for forskning. Sammenlign, for eksempel, en sosial mediatjeneste, som for eksempel Twitter, med en tradisjonell offentlig opinionsundersøkelse, for eksempel General Social Survey. Twitters hovedmål er å tilby kundene en tjeneste og å tjene penger. Den generelle samfunnsundersøkelsen er derimot fokusert på å skape generelle data for samfunnsforskning, spesielt for offentlig opinionsundersøkelse. Denne forskjellen i mål betyr at dataene som er opprettet av Twitter og den som er opprettet av General Social Survey, har forskjellige egenskaper, selv om begge kan brukes til å studere den offentlige mening. Twitter opererer i en skala og hastighet som det generelle samfunnsundersøkelsen ikke kan samsvare med, men i motsetning til General Social Survey, prøver Twitter ikke nøye brukere og jobber ikke hardt for å opprettholde sammenlignbarhet over tid. Fordi disse to datakilder er så forskjellige, er det ikke fornuftig å si at den generelle sosiale undersøkelsen er bedre enn Twitter eller omvendt. Hvis du vil ha timelige tiltak av global stemning (f.eks. Golder and Macy (2011) ), er Twitter best. På den annen side, hvis du vil forstå langsiktige endringer i polariseringen av holdninger i USA (for eksempel DiMaggio, Evans, and Bryson (1996) ), så er den generelle sosiale undersøkelsen det beste valget. Mer generelt, i stedet for å forsøke å argumentere for at store datakilder er bedre eller verre enn andre typer data, vil dette kapittelet forsøke å klargjøre for hvilke typer forskningsspørsmål store datakilder har attraktive egenskaper og hvilke typer spørsmål de kanskje ikke er ideelt.

Når man tenker på store datakilder, fokuserer mange forskere umiddelbart på nettdata som er opprettet og samlet av selskaper, for eksempel søkemotorlogger og sosiale medier. Men dette smale fokuset utelater to andre viktige kilder til store data. For det første kommer stadig større bedriftskilder fra digitale enheter i den fysiske verden. I dette kapittelet vil jeg for eksempel fortelle deg om en studie som repurposed supermarked check-out data for å studere hvordan en arbeiders produktivitet påvirkes av produktiviteten til sine jevnaldrende (Mas and Moretti 2009) . Deretter, i senere kapitler, vil jeg fortelle deg om forskere som brukte samtaleoppføringer fra mobiltelefoner (Blumenstock, Cadamuro, and On 2015) og faktureringsdata opprettet av elektriske verktøy (Allcott 2015) . Som disse eksemplene illustrerer, handler store store datakilder om mer enn bare online oppførsel.

Den andre viktige kilden til store data savnet av et smalt fokus på Internett-oppførsel er data opprettet av regjeringer. Disse regjeringsdataene, som forskere kaller regjeringens administrative poster , inkluderer ting som skatteoppgaver, skoleopplysninger og vitale statistikkregistre (f. Eks. Register over fødsler og dødsfall). Regjeringene har skapt denne typen data for i noen tilfeller hundrevis av år, og samfunnsvitenskapsmenn har utnyttet dem i nesten så lenge som det har vært samfunnsvitenskapsmenn. Det som er endret, er imidlertid digitalisering, noe som har gjort det dramatisk lettere for regjeringer å samle, overføre, lagre og analysere data. For eksempel, i dette kapitlet, vil jeg fortelle deg om en studie som repurposed data fra New York City regjeringens digitale taxi meter for å møte en grunnleggende debatt i arbeidskraft økonomi (Farber 2015) . Deretter, i senere kapitler, vil jeg fortelle deg hvordan regjeringsinnsamlede stemmeopptegnelser ble brukt i en undersøkelse (Ansolabehere and Hersh 2012) og et eksperiment (Bond et al. 2012) .

Jeg tror at ideen om omstilling er grunnleggende for å lære fra store datakilder, og så, før jeg snakker mer spesifikt om egenskapene til store datakilder (avsnitt 2.3) og hvordan disse kan brukes i forskning (avsnitt 2.4), vil jeg gjerne å tilby to deler av generell rådgivning om repurposing. For det første kan det være fristende å tenke på kontrasten som jeg har satt opp som mellom "funnet" data og "designet" data. Det er nært, men det er ikke helt riktig. Selv om store datakilder er "funnet", fra forskernes synspunkt, faller de ikke bare fra himmelen. I stedet er datakilder som er "funnet" av forskere designet av noen til noe formål. Fordi "funnet" data er designet av noen, anbefaler jeg alltid at du prøver å forstå så mye som mulig om personene og prosessene som opprettet dataene dine. For det andre, når du repurposing data, er det ofte svært nyttig å forestille seg det ideelle datasettet for ditt problem og deretter sammenligne det ideelle datasettet med det du bruker. Hvis du ikke samler dataene dine selv, er det sannsynlig å være viktige forskjeller mellom det du vil ha og hva du har. Å merke seg disse forskjellene vil bidra til å avklare hva du kan og ikke kan lære av dataene du har, og det kan foreslå nye data du bør samle.

I min erfaring har sosialforskere og datavitenskapere en tendens til å nærme seg repurposing veldig annerledes. Sosialforskere, som er vant til å jobbe med data utviklet for forskning, er vanligvis raske til å påpeke problemene med repurposed data mens de ignorerer dets styrker. På den annen side er dataforskere vanligvis raske til å påpeke fordelene med repurposed data mens de ignorerer svakhetene. Naturligvis er den beste tilnærmingen en hybrid. Det vil si forskere trenger å forstå egenskapene til store datakilder - både gode og dårlige - og deretter finne ut hvordan man lærer av dem. Og det er planen for resten av dette kapitlet. I neste avsnitt vil jeg beskrive ti vanlige egenskaper ved store datakilder. I det følgende avsnittet vil jeg beskrive tre forskningsmetoder som kan fungere godt med slike data.