2.3.1.1 Big

See tõlge loodi arvuti. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.3.1.1 Big

Suur andmekogud on vahend eesmärgi saavutamiseks; nad ei ole eesmärk omaette.

Esimene kolme head omadust suur andmed on kõige arutatud: need on suured andmeid. Need andmed allikateks võivad olla suured kolmel erineval viisil: paljud inimesed, palju informatsiooni inimese kohta, või paljud tähelepanekud aja jooksul. Võttes suur andmestik võimaldab mõned kindlat tüüpi uuringute mõõtmise heterogeensus, õppimine harva sündmusi, avastada väikesi erinevusi, ja teha põhjuslikku hinnangute vaatlusandmeid. Samuti tundub, et viia teatud tüüpi pealiskaudsust.

Esimene asi, mille suurus on eriti kasulik liigub kaugemale keskmised teha prognoose kindlate alagruppides. Näiteks Gary King, Jennifer Pan ja Molly Roberts (2013) mõõdetakse tõenäosust, et sotsiaalse meedia teateid Hiinas oleks tsenseeritud valitsuse poolt. Iseenesest see keskmine tõenäosus kustutamine ei ole väga kasulik mõista, miks valitsus tsenseerib mõned postitused teised aga mitte. Aga, kuna nende andmestik sisaldas 11 miljoni teated, King ja tema kolleegid toodetakse ka prognoosi tõenäosus tsensuuri ametikohta 85 erinevasse kategooriasse (nt pornograafia, Tiibetis, ja liiklus Pekingis). Võrreldes tõenäosus tsensuuri postitusi erinevates kategooriates olid nad võimelised mõistma lähemalt, kuidas ja miks valitsus tsenseerib teatud ametikohta. Mis 11000 postitust (mitte 11 miljonit ametikohta), nad ei oleks suutnud toota neid kategooriapõhiste hinnanguid.

Teiseks suurus on eriti kasulik õpib haruldaste sündmusi. Näiteks Goel ja tema kolleegid (2015) tahtis õppida erinevaid viise, tweets võib minna viiruse. Kuna suur kaskaadide uuesti tweets on väga haruldased, umbes üks 3000-neil on vaja õppida rohkem kui miljardi tweets, et leida piisavalt suur kaskaade nende analüüs.

Kolmandaks, suurte andmekogude võimaldada teadlastel tuvastada väikesed erinevused. Tegelikult palju keskenduda suur andmete tööstuses on umbes need väikesed erinevused: usaldusväärselt tuvastada vahe 1% ja 1,1% kliki kaudu määrad reklaam võib tõlkida miljoneid dollareid lisatulu. Mõnel teaduslikud seadeid, näiteks väikesed erinevused ei pruugi olla eriti oluline (isegi kui nad on statistiliselt oluline). Aga mõnel poliitika seaded, nagu väikesed erinevused võivad muutuda oluline, kui vaadelda üheskoos. Näiteks, kui on olemas kaks rahva tervise sekkumisi ja üks on veidi efektiivsem kui teised, siis üleminek tõhusam sekkumine võib lõpuks säästes tuhandeid täiendava elu.

Lõpuks suure andmekogumi oluliselt suurendada meie võimet teha põhjuslikku hinnangute vaatlusandmeid. Kuigi suurte andmekogumite ei muuda oluliselt esineb probleeme põhjuslik järeldada alates vaatlusandmeid, sobitamine ja looduslikud eksperimendid-kaks tehnikat, et teadlased on välja töötanud tegemise põhjuslik tulenevate nõuete vaatlusandmete-nii palju kasu suurte andmekogumite. Ma seletan ja illustreerivad seda väidet täpsemalt juttu veidi hiljem, kui ma kirjeldada teadusuuringute strateegiad.

Kuigi bigness on üldiselt hea omadus, kui seda kasutatakse õigesti, ma olen märganud, et bigness tekitab tavaliselt kontseptuaalne viga. Mingil põhjusel bigness sugeneb teadlased ignoreerida, kuidas nende andmete loomisel. Kuigi bigness ei vähendaks vaja muretseda juhuslik viga, siis tegelikult suurendab vajadust muretseda süstemaatilised vead, mis laadi vead, mis ma kirjeldavad allpool, mis tulenevad peensusi, kuidas andmed on loodud ja kogutud. Väikeses andmekogumi juhuslik viga ja süstemaatiline viga võib olla oluline, kuid suure andmekogumi juhuslikku viga saab keskmiselt ära ja süstemaatiline viga domineerib. Teadlased, kes ei mõtle süstemaatiline viga lõpuks kasutades oma suurte andmekogumite saada täpse hinnangu vale asi; nad on täpselt ebatäpne (McFarland and McFarland 2015) .