2.3.1.1 Big

Veliki podatkovni nizi so sredstvo za dosego cilja; niso same sebi namen.

Prvi izmed treh dobrih lastnosti velikih podatkov najbolj razpravlja: to so veliki podatkov. Ti viri podatkov lahko velik na tri različne načine: veliko ljudi, veliko informacij na osebo, ali veliko opazovanj v daljšem časovnem obdobju. Ob velik nabor podatkov, omogoča nekatere posebne vrste-raziskovalnega merjenje heterogenosti, preučevanje redkih dogodkov, odkrivanje majhne razlike, in tako vzročno ocen iz opazovalnih podatkov. Prav tako se zdi, da vodi na določeno vrsto površnosti.

Prva stvar, za katero je velikost še posebej koristno je preseganje povprečja, da se ocene za posamezne podskupine. Na primer, Gary King, Jennifer Pan, in Molly Roberts (2013) merijo verjetnost, da bi se socialni medijske objave na Kitajskem cenzuriran s strani vlade. Sam po sebi ta povprečna verjetnost izbrisa ni zelo koristno za razumevanje, zakaj je vlada cenzurira nekatere prispevke drugih, vendar ni. Ampak, ker je njihov nabor podatkov, vključenih 11 milijonov delovnih mest, King s sodelavci pripravila tudi ocene za verjetnost cenzure za delovna mesta na 85 ločenih kategorij (npr, pornografija, Tibet in prometa v Pekingu). S primerjavo verjetnost cenzure za delovna mesta v različnih kategorijah, so bili sposobni razumeti več o tem, kako in zakaj je vlada cenzurira določene vrste delovnih mest. Z 11 tisoč delovnih mest (namesto 11 milijonov delovnih mest), da ne bi bili sposobni proizvajati teh ocen kategorije specifične.

Drugič, velikost je še posebej koristno za preučuje redkih dogodkov. Na primer, Goel in sodelavci (2015) je želel, da preuči različne načine, da se lahko tweets gredo virusne. Ker so velike kaskade ponovnega tweets zelo redkih približno ena na 3000-ti potrebni za študij več kot milijardo tweets, da bi našli dovolj velike kaskade za njihovo analizo.

Tretjič, obsežnih podatkovnih bazah raziskovalcem omogočil odkrivanje majhnih razlik. Dejstvo je, veliko je poudarek na velikih podatkov v industriji, je o teh majhnih razlikah: zanesljivo odkrivanje razliko med 1% in 1,1% in kliki na oglas se lahko prevede v milijone dolarjev dodatnih prihodkov. V nekaterih znanstvenih okoljih, tako majhne razlike ne bi bilo še posebej pomembno (čeprav so statistično značilni). Vendar pa v nekaterih okoljih politike, lahko take majhne razlike postalo pomembno, gledano kot celota. Na primer, če obstajata dve javni zdravstveni posegi in eno nekoliko bolj učinkovit kot drugi, nato pa prehod na bolj učinkoviti intervenciji lahko na koncu varčevanja več tisoč dodatnih življenj.

Končno, velikih zbirk podatkov močno poveča našo sposobnost, da vzročno ocene iz opazovalnih podatkov. Čeprav se velika nabori podatkov ni bistveno spremenila težav z izdelavo vzročno sklepati iz opazovalnih podatkov, usklajevanje in naravni poskusi-dve tehnike, ki so raziskovalci razvili za izdelavo vzročnih terjatve iz podatkov o opazovanjih, tako velike koristi od velikih podatkovnih bazah. Bom razložiti in ponazoritev te trditve podrobneje v nadaljevanju tega poglavja, ko sem opisati raziskovalnih strategij.

Čeprav bigness je na splošno dobra lastnost, če se uporablja pravilno, sem opazil, da bigness pogosto vodi do konceptualne napake. Zaradi neznanega razloga, se zdi, bigness vodi raziskovalce, da prezreti, kako je nastalo njihovi podatki. Medtem ko bigness ne zmanjša treba skrbeti za naključne napake, to dejansko poveča potreba skrbeti sistemskih napak, vrste napak, da bom opisujejo v bolj spodaj, ki izhajajo iz odstopanj, kako se podatki ustvarili in zbrani. V majhnem nabor podatkov, lahko tudi naključna napaka in sistematična napaka pomembna, vendar v veliki CCD naključne napake se lahko povprečna proč in sistematična napaka prevladuje. Raziskovalci, ki ne razmišljajo o tem, sistematične napake bo na koncu s pomočjo svoje velike nabore podatkov, da bi dobili natančno oceno napačno stvar; da bodo prav netočen (McFarland and McFarland 2015) .