2.3.1.1 Big

Stora datamängder är ett medel till ett slut; de är inte ett mål i sig.

Den första av de tre goda egenskaper hos stora uppgifter är mest diskuteras: dessa är stora uppgifter. Dessa datakällor kan vara stor på tre olika sätt: många människor, massor av uppgifter per person, eller flera observationer över tiden. Att ha en stor datamängd kan vissa typer av forskning mätnings heterogenitet, studera sällsynta händelser, upptäcka små skillnader, och att orsaks uppskattningar från observationsdata. Det verkar också att leda till en viss typ av slarv.

Det första för vilken storlek är särskilt användbar går bortom genomsnitt att göra uppskattningar för specifika undergrupper. Till exempel, Gary King Jennifer Pan, och Molly Roberts (2013) mätte sannolikheten att sociala medier inlägg i Kina skulle censureras av regeringen. Av sig själv denna genomsnittliga sannolikheten för radering är inte till stor hjälp för att förstå varför regeringen censurerar vissa tjänster men inte andra. Men eftersom deras dataset ingår 11 miljoner inlägg, kungen och kollegor producerade också uppskattningar för sannolikheten för censur för inläggen på 85 olika kategorier (t.ex. pornografi, Tibet, och trafiken i Beijing). Genom att jämföra sannolikheten för censur för tjänster inom olika kategorier, de kunde förstå mer om hur och varför regeringen censurerar vissa typer av tjänster. Med 11 tusen inlägg (snarare än 11 ​​miljoner poster), skulle de inte ha kunnat producera dessa kategorispecifika uppskattningar.

För det andra är storlek speciellt användbar för studerar av sällsynta händelser. Till exempel, Goel och kollegor (2015) ville studera de olika sätt som tweets kan gå viral. Eftersom stora kaskader av re-tweets är extremt sällsynta ungefär en i en 3000-de behövde för att studera mer än en miljard tweets för att hitta tillräckligt stora kaskader för deras analys.

För det tredje, stora datamängder gör det möjligt för forskare att upptäcka små skillnader. I själva verket är en stor del av fokus på stora uppgifter inom industrin om dessa små skillnader: tillförlitligt upptäcka skillnaden mellan ett% och 1,1% klickfrekvenser på en annons kan leda till miljontals dollar i extra intäkter. I vissa vetenskapliga inställningar kan sådana små skillnader inte vara särskilt viktigt (även om de är statistiskt signifikant). Men i vissa principinställningar kan sådana små skillnader blir viktiga när de ses sammantaget. Till exempel, om det finns två folkhälsoinsatser och en är något mer effektiv än den andra, sedan byta till effektivare insatser kan hamna spara ytterligare tusentals liv.

Slutligen, stora datamängder i hög grad öka vår förmåga att göra kausala uppskattningar från observationsdata. Även om stora datamängder i grunden inte ändrar problemen med att göra orsaks slutsats från observationsdata, matchning och naturliga experiment-två tekniker som forskare har utvecklat för att göra orsaks krav från observationsdata, både stor nytta av stora datamängder. Jag ska förklara och illustrera detta påstående mer i detalj senare i detta kapitel när jag beskriver forskningsstrategier.

Även bigness är i allmänhet en bra egenskap när de används på rätt sätt, har jag märkt att bigness leder vanligen till en konceptuell fel. Av någon anledning verkar bigness att leda forskare att ignorera hur deras data togs fram. Medan bigness gör minska behovet av att oroa sig för slumpmässiga fel, faktiskt ökar behovet av att oroa sig för systematiska fel, vilka typer av fel som jag beskriver i mer nedan som härrör från fördomar i hur data skapas och samlas. I en liten datamängd, kan både slumpmässiga fel och systematiska fel vara viktigt, men i en stor datamängd slumpfel är kan genomsnitt bort och systematiska fel dominerar. Forskare som inte tänker på systematiska fel kommer att sluta upp med sina stora datamängder för att få en exakt uppskattning av fel sak; de kommer att vara exakt felaktig (McFarland and McFarland 2015) .