2.3.1.1 Big

Velikih skupova podataka su sredstvo za postizanje cilja; oni nisu kraj u sebi.

Prvi od tri dobre karakteristike velikog podataka se najviše raspravljati: to su veliki podataka. Ovi izvori podataka mogu biti veliki na tri različita načina: Mnogi ljudi, puno informacija po osobi, ili mnogim opažanjima tijekom vremena. Nakon što je veliki skup podataka omogućuje neke specifične vrste istraživanja za mjerenje heterogenosti, proučavajući rijetke događaje, otkrivanje male razlike, i čineći uzročne procjene iz opservacijskih podataka. Također se čini da bi došlo do određenog tipa neurednost.

Prva stvar za koju veličinu je posebno korisno se kreće izvan prosjeka kako bi procjene za specifične podskupine. Na primjer, Gary King, Jennifer Pan, i Molly Roberts (2013) izmjerena je vjerojatnost da su društveni mediji postove u Kini će biti cenzurirani od strane vlade. Sama po sebi ova prosječna vjerojatnost brisanja nije vrlo korisno za razumijevanje zašto je vlada cenzura neke postove ali drugi ne. Ali, jer im je skup podataka uključen 11 milijuna postova, kralj i njegovi kolege također producirao procjene vjerojatnosti cenzure za postovima na 85 zasebne kategorije (npr pornografija, Tibet, a promet u Pekingu). Usporedbom vjerojatnost cenzure za radna mjesta u različitim kategorijama, oni su bili u stanju razumjeti više o tome kako i zašto je vlada cenzura određene vrste radnih mjesta. Sa 11 tisuća radnih mjesta (umjesto 11 milijuna postova), oni ne bi bili u stanju proizvesti ove procjene određenu kategoriju.

Drugo, veličina je posebno korisno za studira rijetkih događaja. Na primjer, Goel i suradnici (2015) željela studirati različite načine na koje tweetova može ići virusne. Zbog velike kaskade ponovnih tweetova su izuzetno rijetke oko jedan u 3000-im je potrebno učiti više od milijardu tweetova kako bi se pronašli dovoljno veliki kaskade za njihovu analizu.

Treće, velikih skupova podataka omogućuju istraživačima da otkriju male razlike. U stvari, mnogo je fokus na velikim podataka u industriji je o tim malim razlikama: pouzdano ustanoviti razliku između stope klik-kroz 1% i 1,1% na oglas može prevesti u milijunima dolara u dodatni prihod. U nekim znanstvenim postavkama, takve male razlike ne bi moglo biti posebno važno (čak i ako su statistički značajna). No, u nekim postavkama pravila, takve male razlike mogu postati važno kada se gleda u agregatu. Na primjer, ako postoje dva javnozdravstvene intervencije i jedan je nešto učinkovitiji od drugih, a zatim prelazi na učinkovitiju intervenciju mogao završiti snimanja tisuća dodatnih života.

Konačno, veliki skupovi podataka uvelike povećati našu sposobnost da uzročne procjene iz opservacijskih podataka. Iako velikih skupova podataka ne iz temelja promijeniti problema s izradu uzročnu zaključak iz opservacijskih podataka, usklađivanje i fizičke eksperimente i dvije tehnike koje su znanstvenici razvili za izradu kauzalne tvrdnje iz promatranja podataka-i uvelike koristi od velikih skupova podataka. Ja ću objasniti i ilustrirati ovu tvrdnju detaljnije kasnije u ovom poglavlju, kada sam opisao istraživačkih strategija.

Iako transparenticima je općenito dobar imovine ako se koristi ispravno, primijetio sam da transparenticima obično dovodi do konceptualne pogreške. Iz nekog razloga, transparenticima čini se da će dovesti znanstvenike da se ignorira kako njihov podaci su dobiveni. Dok transparenticima ne umanjuje potrebu brinuti o slučajnom pogreškom, to zapravo povećava potrebu brinuti o sustavnih pogrešaka, vrste pogrešaka koje ću opisati u više i niže proizlaze iz predrasuda u tome kako su podaci stvorio i uzima. U malom skupu podataka, i slučajna pogreška i sustavna pogreška može biti važno, ali u veliki skup podataka slučajnih pogrešaka se može u prosjeku daleko i sustavna pogreška dominira. Istraživači koji ne razmišljaju o sustavnom pogreškom će završiti korištenjem njihovih velikih skupova podataka kako bi dobili točnu procjenu krivu stvar; oni će biti upravo netočna (McFarland and McFarland 2015) .