2.3.1.1 Big

Datasets kbar huma mezz fi tmiemu; mhumiex għan fihom infushom.

L-ewwel mit-tliet karatteristiċi tajbin ta 'data kbar huwa l-aktar mument diskuss: din hija data kbar. Dawn is-sorsi tad-data jistgħu jkunu kbar fi tliet modi differenti: ħafna nies, lottijiet ta 'informazzjoni għal kull persuna, jew bosta osservazzjonijiet matul iż-żmien. Wara dataset big jippermetti xi tipi speċifiċi ta 'eteroġeneità li jkejjel il-riëerka, l-istudju avvenimenti rari, kxif differenzi żgħar, u jagħmlu stimi kawżali mid data ta' osservazzjoni. Jidher ukoll li twassal għal tip speċifiku ta 'sloppiness.

L-ewwel ħaġa li għaliha daqs huwa partikolarment utli huwa superazzjoni medji biex jagħmlu stimi għall sottogruppi speċifiċi. Per eżempju, Gary Re, Jennifer Pan, u Molly Roberts (2013) imkejjel il-probabbiltà li l-postijiet tal-midja soċjali fiċ-Ċina se jkunu mġiegħla mill-gvern. Minnu nnifsu dan il-probabbiltà medja ta 'tħassir mhijiex utli ħafna għall-fehim għaliex il-gvern censors xi postijiet imma mhux oħrajn. Iżda, minħabba li CCD tagħhom inklużi 11-il miljun postijiet, ir-Re u l-kollegi wkoll prodotti estimi għall-probabbiltà ta 'ċensura għal postijiet fuq 85 kategoriji separati (eż, il-pornografija, Tibet, u Traffiku f'Beijing). Billi jitqabblu l-probabbiltà ta 'ċensura għal postijiet fil-kategoriji differenti, huma kienu f'pożizzjoni li jifhmu aktar dwar kif u għaliex il-gvern censors ċerti tipi ta' karigi. Fil-11 elf postijiet (aktar minn 11-il miljun postijiet), huma ma kinux ikunu kapaċi jipproduċu dawn l-estimi speċifiċi għall-kategorija.

It-tieni, id-daqs huwa partikolarment utli għal qiegħda tistudja ta 'avvenimenti rari. Per eżempju, Goel u l-kollegi (2015) riedu biex tistudja l-modi differenti li tweets tista 'tmur virali. Minħabba kaskati kbar ta 'tweets mill-ġdid huma estremament rari-madwar wieħed fil 3,000-huma meħtieġa biex jistudjaw aktar minn biljun tweets sabiex isibu biżżejjed kaskati kbar għall-analiżi tagħhom.

It-tielet, ġabriet kbar tippermetti lir-riċerkaturi biex tiskopri differenzi żgħar. Fil-fatt, ħafna mill-enfasi fuq data kbar fl-industrija hija dwar dawn id-differenzi żgħar: affidabbli iskoperta d-differenza bejn l-1% u 1.1% click permezz ta 'rati fuq bażi ad jistgħu jittraduċu ruħhom fi miljuni ta' dollari fi dħul addizzjonali. F'xi settings xjentifiċi, dawn id-differenzi żgħar jistgħu ma jkunux partikolari importanti (anke jekk huma statistikament sinifikanti). Iżda, f'xi settings politika, dawn id-differenzi żgħar jistgħu jsiru importanti meta wieħed jaraha fl-aggregat. Per eżempju, jekk ikun hemm żewġ interventi tas-saħħa pubblika u wieħed ikun ftit aktar effikaċi mill-ieħor, allura jaqilbu l-intervent aktar effikaċi jista 'jispiċċa iffrankar eluf ta' ħajjiet addizzjonali.

Fl-aħħarnett, settijiet ta 'data kbar ħafna tiżdied l-abilità tagħna li jagħmlu stimi kawżali mid data ta' osservazzjoni. Għalkemm ġabriet kbar ma jibdilx fundamentalment il-problemi ma jagħmlu inferenza kawżali mid data ta 'osservazzjoni, tqabbil u esperimenti-żewġ naturali tekniki li r-riċerkaturi żviluppaw biex isiru talbiet kawżali mir osservazzjoni tad-data' kemm tibbenefika ferm mill datasets kbar. I ser jispjegaw u juru din it-talba f'aktar dettall aktar tard f'dan il-kapitolu I meta jiddeskrivu l-istrateġiji tar-riċerka.

Għalkemm bigness hija ġeneralment proprjetà tajba meta wżati kif imiss, stajt ndunat li bigness spiss twassal għal żball kunċettwali. Għal xi raġuni, bigness jidher li jwassal lir-riċerkaturi biex jinjoraw kif id-dejta tagħhom kien iġġenerat. Filwaqt bigness ma jnaqqsu l-bżonn ninkwetaw dwar żball każwali, attwalment żżid il-bżonn ninkwetaw dwar żbalji sistematiċi, it-tipi ta 'żbalji li jien ser jiddeskrivu f'aktar taħt dak jinqalgħu minn preġudizzji fil-mod kif id-data huma maħluqa u miġbura. Fi dataset żgħir, kemm żball każwali u żball sistematiku jista 'jkun importanti, iżda fi żball każwali kbir CCD hija tista' tiġi medja bogħod u żball sistematiku jiddomina. Riċerkaturi li ma jaħsbu dwar żball sistematiku se jispiċċaw jużaw ġabriet kbar tagħhom biex jiksbu stima preċiża tal-ħaġa ħażina; dawn se jkunu preċiżament mhux eżatta (McFarland and McFarland 2015) .