2.3.1.1 Big

Store datasett er et middel til en slutt; de er ikke et mål i seg selv.

Den første av de tre gode egenskapene til store data blir mest diskutert: disse er store data. Disse datakildene kan være stor på tre forskjellige måter: mange mennesker, masse informasjon per person, eller mange observasjoner over tid. Å ha et stort datasett gjør at enkelte typer forskning-måling heterogenitet, studere sjeldne hendelser, oppdager små forskjeller, og gjøre årsaks estimater fra observasjonsdata. Det ser også ut til å føre til en bestemt type slurv.

Det første som størrelsen er spesielt nyttig beveger seg utover gjennomsnitt for å lage estimater for bestemte undergrupper. For eksempel, Gary konge, Jennifer Pan, og Molly Roberts (2013) målte sannsynligheten for at sosiale medier innlegg i Kina ville bli sensurert av regjeringen. Av seg selv dette gjennomsnittet sannsynligheten for sletting er ikke veldig nyttig for å forstå hvorfor regjeringen sensurerer noen innlegg, men ikke andre. Men, fordi deres datasettet inkludert 11 millioner innlegg, Kongen og kolleger også produsert anslag for sannsynligheten for sensur for innlegg på 85 separate kategorier (for eksempel pornografi, Tibet, og trafikken i Beijing). Ved å sammenligne sannsynligheten for sensur for stillinger i ulike kategorier, var de i stand til å forstå mer om hvordan og hvorfor myndighetene sensurerer visse typer innlegg. Med 11 tusen innlegg (snarere enn 11 millioner innlegg), ville de ikke ha vært i stand til å produsere disse kategorispesifikke estimater.

For det andre er størrelsen spesielt nyttig for studerer av sjeldne hendelser. For eksempel, Goel og kolleger (2015) ønsket å studere de ulike måtene tweets kan gå viral. Fordi store kaskader av re-tweets er ekstremt sjeldne om en i en 3000-de trengte for å studere mer enn en milliard tweets for å finne nok store kaskader for sin analyse.

For det tredje, store datasett aktivere forskere å oppdage små forskjeller. Faktisk er mye av fokuset på store data i bransjen om disse små forskjeller: pålitelig detektere forskjellen mellom 1% og 1,1% klikkfrekvenser på en annonse kan oversette til millioner av dollar i ekstra inntekter. I noen vitenskapelig innstillinger, kan slike små forskjeller ikke være særlig viktig (selv om de er statistisk signifikant). Men i noen policyinnstillinger, kan slike små forskjeller blir viktig når de vises samlet. For eksempel, hvis det er to folkehelsen intervensjoner og en er litt mer effektiv enn den andre, og deretter bytte til mer effektiv intervensjon kan ende opp med å spare tusenvis av ekstra liv.

Til slutt, store datasett i stor grad øke vår evne til å gjøre årsaks estimater fra observasjonsdata. Selv om store datasett ikke fundamentalt endre problemene med å lage kausal slutning fra observasjonsdata, matchende og naturlige eksperimenter-to teknikker som forskere har utviklet for å gjøre årsaks krav fra observasjonsdata både stor nytte av store datasett. Jeg skal forklare og illustrere denne påstanden i større detalj senere i dette kapitlet når jeg beskrive forskningsstrategier.

Selv bigness er generelt en god egenskap når de brukes riktig, har jeg lagt merke til at bigness ofte fører til en konseptuell feil. For noen grunn, synes bigness å lede forskere å ignorere hvordan deres data ble generert. Mens bigness ikke redusere behovet for å bekymre seg for tilfeldige feil, faktisk øker behovet for å bekymre seg for systematiske feil, typene feil som jeg vil beskrive i mer nedenfor som oppstår fra skjevheter i hvordan data er opprettet og samlet. I en liten datasett, kan både tilfeldige feil og systematiske feil være viktig, men i et stort datasett tilfeldig feilen kan midles bort og systematiske feil dominerer. Forskere som ikke tenker om systematisk feil vil ende opp med å bruke sine store datasett for å få et presist anslag på feil ting; de vil være nøyaktig unøyaktig (McFarland and McFarland 2015) .