2.3.1.1 Granda

Grandaj datumaroj estas rimedo al fino; ne celo en si mem.

La unua de la tri bonajn karakterizaĵojn de grandaj datumoj la plej diskutitaj; tio estas granda datumo. Tiuj datumoj fontoj povas esti grandaj en tri malsamaj manieroj: multaj personoj, multajn informojn por persono, aŭ multaj observoj super tempo. Havante granda aro de datumoj ebligas iuj specifaj tipoj de esploro-mezuranta heterogeneco, studante maloftaj okazaĵoj, detektante malgrandaj diferencoj, kaj farante kaŭza taksoj de observaj datumoj. Ĝi ankaŭ ŝajnas konduki al specifa tipo de sloppiness.

La unua afero por kiu esas aparte utila movas preter mezumoj fari taksojn por specifaj subgrupoj. Ekzemple, Gary King, Jennifer Pano kaj Molly Roberts (2013) mezuris la probablo ke socia amaskomunikilaro afiŝojn en Ĉinio estus cenzurita de la registaro. Per sin tiu mezumo probablo de forigo ne estas tre helpemaj por kompreni kial la registaro cenzuras iun afiŝojn sed ne aliaj. Sed, ĉar ilia datumaro inkludas 11 milionoj afiŝojn, King kaj kolegoj ankaŭ produktis taksoj por la probablo de cenzuras por afiŝojn sur 85 apartaj kategorioj (ekzemple pornografio, Tibeto, kaj Trafiko en Pekino). Komparante la probablo de cenzuras por afiŝojn en malsamaj kategorioj, ili povis kompreni pli pri kiel kaj kial la registaro cenzuras iujn tipojn de poŝtoj. Kun 11 mil postenoj (prefere ol 11 milionoj afiŝojn), ili ne povis produkti tiujn kategorio-specifa taksoj.

Dua, grandeco estas aparte utila por studas de maloftaj okazaĵoj. Ekzemple, Goel kaj kolegoj (2015) volis studi la malsamajn manierojn ke tweets povas iri viral. Ĉar grandaj akvofaloj de re-tweets estas ekstreme maloftaj pri unu en 3000-ili bezonis studi pli ol unu miliardo tweets por trovi sufiĉe grandaj akvofaloj por lia analizo.

Tria, granda datumaroj ebligi esploristoj detekti malgrandajn diferencojn. Fakte, multe de la fokuso sur grandaj datumoj en industrio estas ĉirkaŭ tiuj malgrandaj diferencoj: fidinde detekti la diferencon inter 1% kaj 1.1% klako-tra impostoj sur ad povas traduki en milionoj de dolaroj en ekstra enspezoj. En iuj sciencaj difinoj, ekzemple malgrandaj diferencoj povus esti aparta grava (eĉ se ili estas statistike signifa). Sed, en iuj politiko agordojn, tiaj malgrandaj diferencoj povas iĝi grava kiam vidita en agregaĵo. Ekzemple, se ekzistas du publikaj sano intervenoj kaj unu estas iomete pli efika ol la aliaj, tiam ŝanĝi al la pli efika interveno povus fini ŝparante miloj da kromaj vivoj.

Fine, grandaj datenaroj multigos nia kapablo fari kaŭza taksoj de observaj datumoj. Kvankam grandaj datumaroj ne fundamente ŝanĝas la problemoj kun faranta kaŭza inferenco de observaj datumoj, egalante kaj naturaj eksperimentoj du teknikoj kiuj esploristoj evoluigis por fari kaŭza asertoj de observaj datumoj ambaŭ tre profitus el grandaj datumaroj. Mi klarigos kaj ilustri ĉi aserto pli detale poste en tiu ĉapitro kiam mi priskribas esploro strategioj.

Kvankam same dikan estas ĝenerale bona posedaĵo kiam uzita korekte, mi rimarkis ke la staturo komune portas al koncepta eraro. Ial, la staturo ŝajnas konduki esploristoj ignori kiel ilia datumoj estis generitaj. Dum la staturo faras redukti la bezonon zorgi pri hazardaj eraro, ĝi efektive pliigas la bezonon zorgi pri sistema eraroj, la specoj de eraroj kiujn mi priskribu en pli sube kiuj ŝprucas de antaŭjuĝoj en kiel datumoj estas kreitaj kaj kolektitaj. En malgranda aro de datumoj, ambaŭ hazarda eraro kaj sistema eraro povas esti grava, sed en granda aro de datumoj hazarda eraro povas averaĝis for kaj sistema eraro regas. Esploristoj, kiuj ne pensas pri sistema eraro finos uzante siajn grandajn datumaroj akiri precizan takson de la malĝusta afero; ili estos precize malpreciza (McFarland and McFarland 2015) .