2.3.1 Veliko

Veliki podatkovni nizi so sredstvo za dosego cilja; niso same sebi namen.

Najpogosteje obravnavana značilnost velikih virov podatkov je, da so BIG. Mnogi dokumenti, na primer, začnejo z razpravljanjem - in včasih s hvalitvijo - o tem, koliko podatkov analizirajo. Na primer, članek, objavljen v " Science", ki je preučeval trende uporabe besedil v korpusu Google Books, je vseboval naslednje (Michel et al. 2011) :

"[Naš] korpus vsebuje več kot 500 milijard besed, v angleščini (361 milijard), francoščina (45 milijard), španščina (45 milijard), nemščina (37 milijard), kitajščina (13 milijard), ruska (35 milijard) in hebrejščina (2 milijardi EUR). Najstarejša dela so bila objavljena v 1500-ih. V zgodnjih desetletjih predstavljajo le nekaj knjig na leto, ki obsegajo več sto tisoč besed. Do 1800, korpus raste na 98 milijonov besed na leto; do leta 1900 1,8 milijarde; in za 2000, 11 milijard. Korpusa ne more prebrati človeka. Če ste poskušali prebrati samo vnose v angleščino iz leta 2000 samo z razumno hitrostjo 200 besed / min, brez prekinjanja hrane ali spanja, bi trajalo 80 let. Zaporedje črk je 1000-krat daljše od človeškega genoma: če ste ga napisali v ravni črti, bi prišel do Lune in nazaj 10 krat več. "

Obseg teh podatkov je nedvomno impresiven in vsi smo srečni, da je skupina Google Knjig objavila te podatke javnosti (dejansko nekatere dejavnosti na koncu tega poglavja uporabljajo te podatke). Toda, ko boste videli nekaj takega, bi se morali vprašati: ali vsi ti podatki res počnejo kaj? Ali bi lahko naredili enako raziskavo, če bi podatki lahko dosegli na Luni in nazaj le enkrat? Kaj, če bi podatki lahko dosegli samo vrh Everesta ali vrh Eifflovega stolpa?

V tem primeru njihove raziskave dejansko imajo nekaj ugotovitev, ki zahtevajo velik korpus besed v daljšem časovnem obdobju. Na primer, ena stvar, ki jo raziskujejo, je razvoj slovnice, zlasti sprememb v stopnji nepravilne konjugacije glagola. Ker so nekateri nepravilni glagoli precej redki, je potrebna velika količina podatkov za zaznavanje sprememb v daljšem časovnem obdobju. Vendar pa se zdi, da raziskovalci velikokrat velik vir podatkov obravnavajo kot končni »videz, koliko podatkov lahko krčim«, kot sredstvo za nekaj pomembnejšega znanstvenega cilja.

Po mojih izkušnjah je študija redkih dogodkov eden od treh specifičnih znanstvenih ciljev, ki jih velik obseg podatkov omogoča. Druga je preučevanje heterogenosti, kar lahko ponazori študija Raj Chetty in kolegov (2014) o družbeni mobilnosti v ZDA. V preteklosti so mnogi raziskovalci preučevali družbeno mobilnost s primerjavo življenjskih izidov staršev in otrok. Konstantna ugotovitev iz te literature je, da imajo prednostne (Hout and DiPrete 2006) prednost pred otroki, vendar se moč tega odnosa s časom in med državami razlikuje (Hout and DiPrete 2006) . V zadnjem času pa je Chetty in sodelavci lahko uporabili davčne evidence od 40 milijonov ljudi, da bi ocenili heterogenost medgeneracijske mobilnosti po regijah v Združenih državah (slika 2.1). Ugotovili so, na primer, da je verjetnost, da otrok doseže najvišji kvintil nacionalne dohodkovne porazdelitve, ki izhaja iz družine v spodnjem kvintilu, okoli 13% v San Joseju v Kaliforniji, le v približno 4% v Charlotte v Severni Karolini. Če za trenutek pogledate sliko 2.1, se boste morda začeli spraševati, zakaj je medgeneracijska mobilnost v nekaterih krajih večja od drugih. Četi in kolegi so imeli popolnoma enako vprašanje, ugotovili pa so, da imajo območja z visoko mobilnostjo manjšo segregacijo prebivalstva, manj dohodkovne neenakosti, boljše osnovne šole, večji družbeni kapital in večjo družinsko stabilnost. Seveda te korelacije same ne kažejo, da ti dejavniki povzročajo večjo mobilnost, vendar predlagajo možne mehanizme, ki jih je mogoče raziskati pri nadaljnjem delu, kar je točno to, kar sta Chetty in kolegi naredila pri nadaljnjem delu. Upoštevajte, kako velikost podatkov je bila v tem projektu zelo pomembna. Če bi Chetty in kolegi uporabili davčne evidence za 40 tisoč ljudi in ne 40 milijonov, ne bi mogli oceniti regionalne heterogenosti in nikoli ne bi mogli opraviti naknadnih raziskav, da bi poskušali ugotoviti mehanizme, ki ustvarjajo to spremembo.

Slika 2.1: Ocene otrokovih možnosti, da dosežejo največ 20% porazdelitve dohodka staršev na dnu 20% (Chetty et al., 2014). Ocene na regionalni ravni, ki kažejo heterogenost, seveda vodijo k zanimivim in pomembnim vprašanjem, ki ne izhajajo iz enotne ocene na nacionalni ravni. Te ocene na regionalni ravni so bile deloma omogočene, ker raziskovalci uporabljajo velik vir podatkov: davčne evidence 40 milijonov ljudi. Ustvarjena iz podatkov, ki so na voljo na http://www.equality-of-opportunity.org/.

Slika 2.1: Ocene otrokovih možnosti, da dosežejo največ 20% porazdelitve dohodka staršev na dnu 20% (Chetty et al. 2014) . Ocene na regionalni ravni, ki kažejo heterogenost, seveda vodijo k zanimivim in pomembnim vprašanjem, ki ne izhajajo iz enotne ocene na nacionalni ravni. Te ocene na regionalni ravni so bile deloma omogočene, ker raziskovalci uporabljajo velik vir podatkov: davčne evidence 40 milijonov ljudi. Ustvarjena iz podatkov, ki so na voljo na http://www.equality-of-opportunity.org/.

Končno, poleg študij redkih dogodkov in preučevanja heterogenosti, veliki podatkovni nizi omogočajo tudi raziskovalcem, da zaznajo majhne razlike. Pravzaprav je velik poudarek na velikih podatkih v industriji glede teh majhnih razlik: zanesljivo zaznavanje razlike med 1% in 1,1% razmerij med prikazi in kliki na oglasu lahko prevede v milijone dolarjev v dodatne prihodke. V nekaterih znanstvenih okoljih pa takšne majhne razlike morda niso posebno pomembne, tudi če so statistično značilne (Prentice and Miller 1992) . Toda v nekaterih nastavitvah politike lahko postanejo pomembni, če jih gledamo skupaj. Če na primer obstajata dve javni zdravstveni intervenciji in eden je nekoliko učinkovitejši od drugega, lahko izbiranje bolj učinkovite intervencije na koncu reši več tisoč dodatnih življenj.

Čeprav je bigness na splošno dobra lastnost, če se pravilno uporablja, sem opazil, da lahko včasih privede do konceptualne napake. Zdi se, da bigness povzroča, da raziskovalci ignorirajo, kako so bili ustvarjeni njihovi podatki. Medtem ko bigness zmanjšuje potrebo po skrbi za naključno napako, dejansko povečuje potrebo po skrbi za sistematične napake, vrste napak, ki jih bom opisal spodaj, ki izhajajo iz pristranskosti pri ustvarjanju podatkov. Na primer, v projektu, ki ga bom opisal pozneje v tem poglavju, so raziskovalci uporabili sporočila, ki so bila objavljena 11. septembra 2001, da bi ustvarili čustveno časovno obdobje za reakcijo proti terorističnim napadom z visoko ločljivostjo (Back, Küfner, and Egloff 2010) . Ker so raziskovalci imeli veliko sporočil, jim ni bilo treba skrbeti, ali bi vzorci, ki so jih opazili, povečali jezo v teku dneva, mogoče pojasniti z naključnimi spremembami. Toliko je bilo podatkov in vzorec je bil tako jasen, da so vsi statistični statistični testi nakazovali, da je bil to pravi vzorec. Toda ti statistični testi niso vedeli, kako so bili podatki ustvarjeni. Pravzaprav se je izkazalo, da je bilo veliko vzorcev mogoče pripisati enemu botu, ki je skozi ves dan ustvaril vsa večja nesmiselna sporočila. Odstranjevanje tega bot je popolnoma uničilo nekaj ključnih ugotovitev v članku (Pury 2011; Back, Küfner, and Egloff 2011) . Preprosto, raziskovalci, ki ne razmišljajo o sistematičnih napakah, soočeni s tveganjem uporabe velikih podatkovnih nizov, da bi dobili natančno oceno nepomembne količine, kot je čustvena vsebina nesmiselnih sporočil, ki jih je ustvaril avtomatiziran bot.

Skratka, veliki nabori podatkov sami sebi niso sami končni cilji, lahko pa omogočajo določene vrste raziskav, vključno s študijo redkih dogodkov, oceno heterogenosti in odkrivanjem majhnih razlik. Zdi se, da veliki zbirki podatkov vodijo k temu, da nekateri raziskovalci ignorirajo, kako so bili ustvarjeni njihovi podatki, kar lahko vodi k natančni oceni nepomembne količine.