2.3.1.1 Big

Lielas datu kopas ir līdzeklis mērķa sasniegšanai; tie nav pašmērķis.

Pirmo trīs labas īpašības lielo datu visvairāk apspriesta: tie ir lielie dati. Šīs datu avoti var būt liels trīs dažādos veidos: Daudzi cilvēki, daudz informācijas par personu, vai daudzi novērojumiem laika gaitā. Ņemot lielu datu kopu ļauj dažas īpašas veida pētniecības mērīšanas neviendabīgumu, pētot retus notikumus, atklāt nelielas atšķirības, un padarot cēloņsakarības aplēses no novērojumu datiem. Šķiet arī izraisīt īpaša veida nolaidības.

Pirmā lieta, par kuru izmērs ir īpaši noderīga virzās tālāk vidējiem rādītājiem veikt aprēķinus par konkrētiem apakšgrupās. Piemēram, Gary King, Jennifer Pan, un Molly Roberts (2013) mēra varbūtību, ka sociālo mediju ziņojumi Ķīnā būtu cenzēta valdība. Pats par sevi šis vidējais varbūtība dzēšanu nav ļoti noderīga, lai saprastu, kāpēc valdība cenzori dažas amata vietas, bet ne citi. Bet, jo to datu kopa iekļauti 11 miljoni amatus, King un kolēģi arī ražo aplēses varbūtību cenzūras amatos, par 85 atsevišķās kategorijās (piemēram, pornogrāfija, Tibeta, un satiksmes Pekinā). Salīdzinot varbūtību cenzūras uz amatiem dažādās kategorijās, viņi varēja saprast vairāk par to, kā un kāpēc valdība cenzori noteiktu veidu amatiem. Ar 11 tūkstošiem amatu (nevis 11 miljoni ziņojumi), viņi nebūtu varējuši uzrādīt šos kategorijas specifiskās aplēses.

Otrkārt, izmērs ir īpaši noderīga mācās retu notikumu. Piemēram, Goel un kolēģi (2015) vēlējās studēt dažādos veidos, ka tweets var iet vīrusu. Jo lielās kaskādes atkārtotas tweets ir ļoti reti, aptuveni viens no 3000-tie nepieciešami, lai izpētītu vairāk nekā miljards tweets Lai palīdzētu atrast pietiekami lielu kaskādēm par to analīzi.

Treškārt, lielas datu kopas ļauj pētniekiem atklāt nelielas atšķirības. Patiesībā, daudz koncentrējoties uz lieliem datiem rūpniecībā ir par šiem mazajiem atšķirībām: droši atklāt atšķirību starp 1% un 1,1% klikšķu skaitu uz reklāmas var tulkot miljoniem dolāru papildu ieņēmumus. Dažos zinātniskos uzstādījumus šādas nelielas atšķirības var nebūt īpaši svarīgs (pat tad, ja tās ir statistiski nozīmīgas). Bet, dažās politikas uzstādījumiem, šādas nelielas atšķirības var kļūt svarīgs, skatoties kopumā. Piemēram, ja ir divas sabiedrības veselības pasākumus, un viens ir nedaudz efektīvāka nekā citi, tad pārejot uz efektīvāku iejaukšanās varētu beigties ietaupīt tūkstošiem papildu dzīvību.

Visbeidzot, lieli datu kopas ievērojami palielināt mūsu spējas veikt cēloņsakarības aplēses no novērojumu datiem. Lai gan lielas datu kopas nav būtiski mainīt problēmas ar pieņemšanas cēlonisko secināt no novērojumu datiem, saskaņošanas un dabas eksperimenti-divas metodes, ka pētnieki ir izstrādājuši, lai padarītu cēloņsakarības pretenzijas no Novērojumu dati, gan liels labums no lielām datu kopām. Es paskaidrošu un ilustrētu šo apgalvojumu sīkāk vēlāk šajā nodaļā, kad es aprakstīt pētniecības stratēģijas.

Kaut bigness kopumā ir laba manta, ja to izmanto pareizi, es esmu ievērojis, ka bigness parasti noved pie konceptuālu kļūdu. Kādu iemeslu dēļ, bigness šķiet novest pētniekus ignorēt kā viņu dati tika radīts. Kaut bigness tas samazina jāuztraucas par izlases kļūdas, tā faktiski palielina jāuztraucas par sistemātisku kļūdu, tad kļūdu, ka es ņemšu raksturo vairāk zem veidi rodas no aizspriedumiem, cik dati tiek radīti un vākti. In nelielu datu kopu, gan gadījuma kļūda un sistemātiskā kļūda var būt svarīgi, bet lielā datu kopā izlases kļūda ir iespējams vidēji prom un sistemātiska kļūda dominē. Pētnieki, kas nedomā par sistemātiskas kļūdas galu galā, izmantojot savus lielos datu kopas, lai iegūtu precīzu tāmi nepareizu lieta; tie būs precīzi neprecīzs (McFarland and McFarland 2015) .