2.3.1 Suur

Suur andmekogud on vahend eesmärgi saavutamiseks; nad ei ole eesmärk omaette.

Suurte andmeallikate kõige laialdasemalt arutatav omadus on see, et need on suured. Näiteks on paljud dokumendid alustuseks arutlusega ja mõnikord meelelahutusega, kui palju neid andmeid analüüsiti. Näiteks Google'i raamatute korpuses sõnas kasutatavaid suundumusi käsitlevas teaduses avaldatud paber sisaldab järgmist (Michel et al. 2011) :

"Meie korpus sisaldab üle 500 miljardi sõna inglise keeles (361 miljardit), prantsuse (45 miljardit), hispaania (45 miljardit), saksa (37 miljardit), hiina (13 miljardit), vene (35 miljardit) ja heebrea (2 miljardit eurot). Vanimad teosed ilmusid 1500. aastatel. Esimesed aastakümned on esindatud vaid mõne raamatuga aastas, mis koosneb mitusada tuhat sõna. Aastaks 1800 kasvab korpus 98 miljoni sõna aastas; 1900. aastaks 1,8 miljardit; ja aastaks 2000 11 miljardit eurot. Korpust ei saa lugeda inimene. Kui te üritasite lugeda ainult ingliskeelsetest kirjetest alates aastast 2000 üksi, mõistlikus tempos 200 sõna minutis, katkestamata toitu või magada, kulub 80 aastat. Tähtede järjestus on inimese genoomi 1000 korda pikem kui: kui te seda sirgjoonest välja kirjutasite, ulatub see kuu ja tagasi 10 korda. "

Nende andmete ulatus on kahtlemata muljetavaldav, ja meil on kõik õnneks, et Google Booksi meeskond on need andmed üldsusele avaldanud (tegelikult mõned käesoleva peatüki lõpus toodud tegevused kasutavad neid andmeid). Kuid kui sa näed midagi sellist, siis peaksite küsima: kas kõik need andmed tõesti midagi muud teevad? Kas nad oleksid teinud sama uuringut, kui andmed võiksid jõuda Kuuni ja tagasi ainult üks kord? Mis siis, kui andmed võiksid jõuda ainult Mount Everest'i tippu või Eiffeli torni tippu?

Sel juhul on nende uurimistööl tegelikult mõned leiud, mis nõuavad suurt sõnavara pikka aega. Näiteks üks asi, mida nad uurivad, on grammatika areng, eriti ebaregulaarse verbi konjugatsiooni muutuste sagedus. Kuna mõned ebaregulaarsed verbid on üsna haruldased, on aja jooksul muutuste tuvastamiseks vaja palju andmeid. Kuid teadlased leiavad liiga tihti, et suurte andmeallikate suurust käsitletakse lõpuks - "vaata, kui palju andmeid ma võin kukutada" - pigem mõne olulisema teadusliku eesmärgi kui vahendina.

Minu kogemuse kohaselt on haruldaste sündmuste uurimine üks kolmest spetsiifilisest teaduslikust otsast, mida suured andmekogumid võimaldavad. Teine on heterogeensuse uurimine, mida illustreerib Raj Chetty ja tema kolleegide (2014) uuring sotsiaalse liikuvuse kohta Ameerika Ühendriikides. Varem on paljud teadlased õppinud sotsiaalset liikuvust, võrdled vanemate ja laste elutingimusi. Selles kirjanduses on järjepidev järeldus, et soodsas olukorras olevatel vanematel on tavaliselt soodsad lapsed, kuid selle suhte tugevus aja jooksul ja riikide (Hout and DiPrete 2006) varieerub (Hout and DiPrete 2006) . Veel hiljuti võisid Chetty ja tema kolleegid 40 miljoni inimese maksutulusid kasutada, et hinnata põlvkondadevahelise liikuvuse heterogeensust Ameerika Ühendriikide piirkondades (joonis 2.1). Nad leidsid näiteks, et tõenäosus, et laps jõuab ülalt-kvintiilile rahvamajanduse kogutoodangust, alustades põhikvintiili perekonnast, on San Jose's, Californias umbes 13%, kuid Charlotte'is, Põhja-Carolinas vaid umbes 4%. Kui mõnd hetk vaadates joonist 2.1, võite hakata mõtlema, miks põlvkondadevaheline mobiilsus on mõnes kohas suurem kui teised. Chetty ja kolleegidega oli täpselt sama küsimus ja nad leidsid, et suure liikuvusega aladel on väiksem eluruumide eraldatus, väiksem sissetulekute ebavõrdsus, paremad algkoolid, suurem sotsiaalne kapital ja suurem perede stabiilsus. Loomulikult ei näita need korrelatsioonid üksinda, et need tegurid põhjustavad kõrgemat liikuvust, kuid pakuvad välja võimalikud mehhanismid, mida saab uurida edasises töös, mida Chetty ja tema kolleegid on järgnevas töös teinud. Pange tähele, et antud projekti suurus oli tõepoolest oluline. Kui Chetty ja tema kolleegid oleksid kasutanud maksutulud 40 000 inimese kohta, mitte 40 miljonit, ei oleks nad suutnud hinnata piirkondlikku heterogeensust ja nad ei oleks kunagi suutnud teha järgnevaid uuringuid, et püüda tuvastada mehhanisme, mis seda erinevust loovad.

Joonis 2.1: hinnangud lapse võimaluste kohta jõuda 20% -ni sissetulekute levikust, mille vanemad on 20% -l (Chetty jt, 2014). Piirkondliku tasandi hinnangud, mis näitavad heterogeensust, põhjustavad loomulikult huvitavaid ja olulisi küsimusi, mis ei tulene ühest riikliku tasandi hinnangust. Need piirkondliku tasandi hinnangud tehti osaliselt võimalikuks, kuna teadlased kasutasid suuri andmekogusid: 40 miljoni inimese maksudokumendid. Loodud andmetelt aadressil http://www.equality-of-opportunity.org/.

Joonis 2.1: hinnangud lapse võimaluste kohta jõuda 20% -ni sissetulekute levikust, mille vanemad on 20% -l (Chetty et al. 2014) . Piirkondliku tasandi hinnangud, mis näitavad heterogeensust, põhjustavad loomulikult huvitavaid ja olulisi küsimusi, mis ei tulene ühest riikliku tasandi hinnangust. Need piirkondliku tasandi hinnangud tehti osaliselt võimalikuks, kuna teadlased kasutasid suuri andmekogusid: 40 miljoni inimese maksudokumendid. Loodud andmetelt aadressil http://www.equality-of-opportunity.org/.

Lõpuks, lisaks haruldaste sündmuste uurimisele ja heterogeensuse uurimisele võimaldavad ka suured andmekogumid teadlastel väikseid erinevusi tuvastada. Tegelikult keskendub tööstuse suurtele andmetele neid väikseid erinevusi: usaldusväärselt tuvastatakse vahe 1% ja 1,1% kliki-pakkumise määrade vahel, mis reklaami võib tuua täiendavatesse tuludesse miljoneid dollareid. Mõnes teaduslikes tingimustes ei pruugi sellised väikesed erinevused olla eriti olulised, isegi kui need on statistiliselt olulised (Prentice and Miller 1992) . Kuid mõnes poliitikasätetes võivad need koondaruandes vaadates olla olulised. Näiteks kui on olemas kaks rahvatervise sekkumist ja üks on mõnevõrra tõhusam kui teine, võib tõhusama sekkumise valimine tuua kokku tuhandeid täiendavaid elusid.

Kuigi täiesti korralikult kasutatav element on tavaliselt hea omadus, olen märganud, et see võib mõnikord kaasa tuua kontseptuaalse vea. Mingil põhjusel näib, et väidetav jõud viib teadlasi ignoreerida nende andmete loomist. Ehkki hulk vähendab vajadust muretseda juhusliku vea pärast, suurendab see tegelikult vajadust muretseda süstemaatiliste vigade pärast, seda tüüpi vigu, mida ma allpool kirjeldan, tulenevad eelarvamustest andmete loomisega. Näiteks projektis, mida ma kirjeldan hiljem selles peatükis, kasutasid teadlased 11. septembril 2001 loodud sõnumeid terrorirünnakute reaktsiooni kõrge resolutsiooniga emotsionaalse ajaskaala saamiseks (Back, Küfner, and Egloff 2010) . Kuna teadlastel oli suur hulk sõnumeid, ei pidanud nad tegelikult muretsema selle pärast, kas nende poolt täheldatud mustreid - päeva jooksul tekkivat viha - võib seletada juhusliku variatsiooniga. Seal oli nii palju andmeid ja muster oli nii selge, et kõik statistilised statistilised testid näitasid, et see oli tõeline muster. Kuid need statistilised testid ei teadnud, kuidas andmeid loodi. Tegelikult selgus, et paljud mustrid olid seotud ühe botiga, mis kogu päeva jooksul tekitas üha enam mõttetuid sõnumeid. Selle ühe bot eemaldamine hävitas mõned dokumendi peamised leiud (Pury 2011; Back, Küfner, and Egloff 2011) . Lihtsalt, teadlased, kes ei mõelnud süstemaatilisest veast, näevad ette suurte andmekogumite kasutamise ohu, et saada täpset hinnangut tähtsusetu koguse kohta, näiteks automatiseeritud botti mõttetu sõnumite emotsionaalne sisu.

Kokkuvõtteks võib öelda, et suured andmekogumid ei ole iseenesest otstarbekas, vaid võivad võimaldada teatavat tüüpi uuringuid, sealhulgas haruldasi sündmusi, heterogeensuse hindamist ja väikeste erinevuste tuvastamist. Samuti tundub, et suured andmekogumid viivad mõned teadlased ignoreerivad nende andmete loomist, mis võib anda neile ebatäpse koguse täpse hinnangu.