2.2 Big data

Store data oprettes og indsamles af virksomheder og regeringer til andre formål end forskning. Brug af disse data til forskning kræver derfor genoptagelse.

Den første måde, at mange mennesker støder på social forskning i den digitale tidsalder, er gennem det, der ofte kaldes store data . På trods af den udbredte anvendelse af dette udtryk er der ingen konsensus om, hvilke store data der endda er. Men en af ​​de mest almindelige definitioner af store data fokuserer på "3 Vs": Volumen, Variety og Velocity. Groft er der mange data i forskellige formater, og det skabes konstant. Nogle fans af store data tilføjer også andre "Vs" som Veracity and Value, mens nogle kritikere tilføjer Vs som Vague og Vacuous. I stedet for 3 "Vs" (eller 5 "Vs" eller 7 "Vs"), mener jeg med henblik på social forskning, at et bedre sted at starte er de 5 "Ws": hvem, hvad, hvor, hvornår , og hvorfor. Faktisk tror jeg, at mange af de udfordringer og muligheder, der skabes af store datakilder, følger af kun en "W": Hvorfor.

I den analoge alder blev de fleste af de data, der blev anvendt til social forskning, skabt med det formål at foretage forskning. I den digitale tidsalder skabes imidlertid en stor mængde data af virksomheder og regeringer til andre formål end forskning, såsom levering af tjenester, generering af overskud og administration af love. Kreative mennesker har dog indset, at du kan omformulere disse virksomheds- og regeringsdata til forskning. Tænker tilbage til kunstanalogi i kapitel 1, ligesom Duchamp genoptog et fundet objekt for at skabe kunst, kan forskere nu omformulere fundne data for at skabe forskning.

Selv om der er utvivlsomt store muligheder for genoptagelse, udnytter data, der ikke er oprettet til forskning, også nye udfordringer. Sammenlign f.eks. En social medietjeneste, som f.eks. Twitter, med en traditionel offentlig meningsmåling, som f.eks. Den generelle sociale undersøgelse. Twitters vigtigste mål er at yde en tjeneste til sine brugere og at tjene penge. Den generelle sociale undersøgelse er derimod fokuseret på at skabe generelle data for social forskning, især for den offentlige opinionsundersøgelse. Denne forskel i mål betyder, at de data, der er oprettet af Twitter og den, der er oprettet af den generelle sociale undersøgelse, har forskellige egenskaber, selvom begge kan bruges til at studere den offentlige mening. Twitter arbejder i en skala og hastighed, som den generelle sociale undersøgelse ikke kan matche, men i modsætning til den generelle sociale undersøgelse bruger Twitter ikke omhyggeligt brugere og arbejder ikke hårdt på at opretholde sammenligneligheden over tid. Fordi disse to datakilder er så forskellige, er det ikke fornuftigt at sige, at den generelle sociale undersøgelse er bedre end kvidre eller omvendt. Hvis du vil have timeløsninger af globalt humør (fx Golder and Macy (2011) ), er Twitter bedst. På den anden side, hvis du vil forstå langsigtede ændringer i polariseringen af ​​holdninger i USA (f.eks. DiMaggio, Evans, and Bryson (1996) ), så er den generelle sociale undersøgelse det bedste valg. Mere generelt end at forsøge at argumentere for, at store datakilder er bedre eller værre end andre typer data, vil dette kapitel forsøge at klarlægge for hvilke typer forskningsspørgsmål store datakilder har attraktive egenskaber og for hvilke slags spørgsmål de måske ikke er ideel.

Når man tænker på store datakilder, fokuserer mange forskere øjeblikkeligt på online data oprettet og indsamlet af virksomheder, såsom søgemaskine logfiler og sociale medier. Men dette smalle fokus efterlader to andre vigtige kilder til store data. For det første kommer stadig større virksomheders store datakilder fra digitale enheder i den fysiske verden. I dette kapitel vil jeg for eksempel fortælle dig om en undersøgelse om, at repurposed supermarked check-out data for at studere hvordan en arbejders produktivitet påvirkes af produktionen af ​​sine jævnaldrende (Mas and Moretti 2009) . Derefter vil jeg i senere kapitler fortælle dig om forskere, der brugte opkaldsposter fra mobiltelefoner (Blumenstock, Cadamuro, and On 2015) og faktureringsdata oprettet af elværktøjer (Allcott 2015) . Som disse eksempler illustrerer, handler store store datakilder om mere end blot onlineadfærd.

Den anden vigtige kilde til store data savnet af et smalt fokus på onlineadfærd er data skabt af regeringer. Disse regeringsdata, som forskere kalder regeringsadministratorer , omfatter ting som skattejournaler, skolejournaler og vitale statistiske poster (fx registreringsdatabaser og dødsfald). Regeringer har skabt disse slags data for i nogle tilfælde hundreder af år, og socialforskere har udnyttet dem i næsten lige så længe som der har været socialforskere. Hvad der er ændret, er imidlertid digitalisering, hvilket har gjort det dramatisk lettere for regeringerne at indsamle, transmittere, gemme og analysere data. I dette kapitel vil jeg for eksempel fortælle dig om en undersøgelse, der genoprettede data fra New York Citys regeringens digitale taxamåler for at imødegå en grundlæggende debat om arbejdskraftøkonomi (Farber 2015) . Derefter vil jeg i senere kapitler fortælle dig om, hvordan regeringsindsamlede (Ansolabehere and Hersh 2012) blev brugt i en undersøgelse (Ansolabehere and Hersh 2012) og et eksperiment (Bond et al. 2012) .

Jeg synes, at ideen om genindstilling er afgørende for at lære fra store datakilder, og derfor, før jeg snakker mere specifikt om egenskaberne af store datakilder (afsnit 2.3) og hvordan disse kan bruges i forskning (afsnit 2.4), vil jeg gerne at tilbyde to stykker af generel rådgivning om omlægning. For det første kan det være fristende at tænke på den kontrast, som jeg har oprettet som mellem "fundne" data og "designet" data. Det er tæt, men det er ikke helt rigtigt. Selvom store datakilder er "fundet" fra forskernes synspunkt, falder de ikke bare fra himlen. I stedet er datakilder, som "findes" af forskere, designet af nogen til en eller anden grund. Fordi "fundne" data er designet af nogen, anbefaler jeg altid, at du forsøger at forstå så meget som muligt om de mennesker og processer, der skabte dine data. For det andet, når du gentager data, er det ofte yderst nyttigt at forestille dig det ideelle datasæt til dit problem og derefter sammenligne det ideelle datasæt med det, du bruger. Hvis du selv ikke indsamlede dine data, er der sandsynligvis vigtige forskelle mellem, hvad du vil have, og hvad du har. At bemærke disse forskelle vil hjælpe med at præcisere, hvad du kan og ikke kan lære af de data, du har, og det kan foreslå nye data, som du skal indsamle.

I min erfaring har socialforskere og datavidenskabere en tendens til at nærme sig genoptagelse meget anderledes. Socialforskere, der er vant til at arbejde med data designet til forskning, er typisk hurtige til at påpege problemerne med repurposed data, mens de ignorerer dets styrker. På den anden side er dataforskere typisk hurtige til at påpege fordelene ved repurposed data, mens de ignorerer sine svagheder. Naturligvis er den bedste tilgang en hybrid. Det vil sige, forskere skal forstå karakteristikken ved store datakilder - både gode og dårlige - og find ud af, hvordan man lærer af dem. Og det er planen for resten af ​​dette kapitel. I det næste afsnit beskriver jeg ti fælles karakteristika ved store datakilder. Derefter vil jeg i det følgende afsnit beskrive tre forskningsmetoder, som kan fungere godt med sådanne data.