2.3.1 Veliki

Veliki skupovi podataka su sredstvo za postizanje cilja; oni nisu kraj u sebi.

Najčešće razmatrana karakteristika velikih izvora podataka je da su BIG. Na primer, mnogi radovi razmatraju - a ponekad i hvale - o tome koliko podataka analiziraju. Na primjer, rad objavljen u Nauci koji je proučavao trendove korištenja riječi u korpusu Google knjiga uključivao je sljedeće (Michel et al. 2011) :

"[Naš] korpus sadrži preko 500 milijardi reči, na engleskom (361 milijardi), francuskom (45 milijardi), španjolskom (45 milijardi), nemačkom (37 milijardi), kineskom (13 milijardi), ruskom (35 milijardi) i hebrejskom (2 milijarde). Najstariji radovi objavljeni su u 1500-im. Rane decenije predstavljaju samo nekoliko knjiga godišnje, koje obuhvataju nekoliko stotina hiljada reči. Do 1800, korpus raste na 98 miliona reči godišnje; do 1900, 1,8 milijardi; a za 2000, 11 milijardi. Korpusa ne može pročitati čovek. Ako ste pokušali da čitate samo unose na engleskom jeziku samo od 2000. godine, u razumnom tempu od 200 reči / min, bez prekida za hranu ili spavanje, trebalo bi 80 godina. Niz slova je 1000 puta duži od ljudskog genoma: Ako ste to napisali u pravu liniju, doći će do Meseca i 10 puta unazad. "

Skala ovih podataka je nesumnjivo impresivna, i svi smo srećni što je tim Google Books objavio ove podatke javnosti (ustvari, neke od aktivnosti na kraju ovog poglavlja koriste ove podatke). Ali, kad god vidite nešto ovako, trebalo bi da pitate: da li svi ti podaci stvarno rade nešto? Da li su mogli uraditi isto istraživanje ako bi podaci mogli doći do Meseca i nazad samo jednom? Šta ako podaci mogu stići samo na vrh Everesta ili na vrh Ajfelovog tornja?

U ovom slučaju, njihovo istraživanje zapravo ima neke nalaze koji zahtevaju ogroman korpus riječi tokom dužeg vremenskog perioda. Na primjer, jedna stvar koju istražuju je evolucija gramatike, posebno promjena u stopi konvergacije nepravilnih glagola. Pošto su neki neregularni glagoli prilično retki, potrebna je velika količina podataka za otkrivanje promena tokom vremena. Međutim, preterano, čini se, istraživači tretiraju veličinu velikog izvora podataka kao krajnji "pogled na koliko podataka mogu da križu" - u odnosu na sredstvo za neki važniji naučni cilj.

Po mom iskustvu, istraživanje rijetkih događaja je jedan od tri specifična naučna kraja na kojima veliki skupovi podataka često omogućavaju. Druga je studija heterogenosti, što može biti ilustrovano studijom Raj Četija i kolega (2014) o društvenoj mobilnosti u Sjedinjenim Državama. U prošlosti su mnogi istraživači proučavali društvenu pokretljivost upoređivanjem ishoda života roditelja i djece. Konstantan nalaz iz ove literature jeste da prednostni roditelji imaju tendenciju da imaju prednosti dece, ali snaga ovog odnosa varira u vremenu i po zemljama (Hout and DiPrete 2006) . Međutim, nedavno su Četi i kolege uspeli da koriste poreske podatke od 40 miliona ljudi kako bi procijenili heterogenost u međugeneracijskoj mobilnosti u regionima u Sjedinjenim Državama (slika 2.1). Naišli su, na primjer, da je verovatnoća da dijete dostigne najveći kvintil distribucije nacionalnog dohotka, počevši od porodice u donjem kvintilu, oko 13% u San Jose, Kalifornija, ali samo oko 4% u Charlotte, u Sjevernoj Karolini. Ako pogledate sliku 2.1 za trenutak, možda ćete započeti da se pitate zašto je međugeneracijska mobilnost veća u nekim mestima od drugih. Četi i kolege imali su potpuno isto pitanje, a utvrdili su da područja visoke mobilnosti imaju manje rezidentne segregacije, manje neravnopravne prihoda, bolje osnovne škole, veći društveni kapital i veću porodičnu stabilnost. Naravno, samo ove korelacije ne pokazuju da ovi faktori prouzrokuju veću pokretljivost, ali oni sugerišu moguće mehanizme koji se mogu istražiti u daljem radu, što je upravo ono što su Chetty i kolege uradili u narednom radu. Obratite pažnju na to koliko je veličina podataka zaista važna u ovom projektu. Ako su Četi i kolege koristili poreznu evidenciju od 40 hiljada ljudi umjesto 40 miliona, ne bi mogli procijeniti regionalnu heterogenost i nikada ne bi mogli da vrše naknadno istraživanje kako bi pokušali identifikovati mehanizme koji stvaraju ovu varijaciju.

Slika 2.1: Procene šanse djeteta da dostižu najviše 20% raspodjele dohotka dato roditeljima u donjem 20% (Chetty et al., 2014). Procjene na regionalnom nivou, koje pokazuju heterogenost, prirodno dovode do zanimljivih i važnih pitanja koja ne proizilaze iz jedinstvene procjene na nacionalnom nivou. Ove procjene na regionalnom nivou omogućile su dijelom zato što su istraživači koristili veliki izvor podataka: poreznu evidenciju od 40 miliona ljudi. Kreiran je iz podataka dostupnih na http://www.equality-of-opportunity.org/.

Slika 2.1: Procene šanse djeteta da dostižu najviše 20% raspodjele dohotka dato roditeljima u donjem 20% (Chetty et al. 2014) . Procjene na regionalnom nivou, koje pokazuju heterogenost, prirodno dovode do zanimljivih i važnih pitanja koja ne proizilaze iz jedinstvene procjene na nacionalnom nivou. Ove procjene na regionalnom nivou omogućile su dijelom zato što su istraživači koristili veliki izvor podataka: poreznu evidenciju od 40 miliona ljudi. Kreiran je iz podataka dostupnih na http://www.equality-of-opportunity.org/.

Konačno, pored proučavanja retkih događaja i proučavanja heterogenosti, veliki skupovi podataka takođe omogućavaju istraživačima da otkriju male razlike. Zapravo, veliki deo fokusa na velikim podacima u industriji jeste o ovim malim razlikama: pouzdano otkrivanje razlika između 1% i 1,1% klikova kroz oglase može se pretvoriti u milione dolara u ekstra prihod. U nekim naučnim ustanovama, međutim, takve male razlike možda nisu naročito važne, čak i ako su statistički značajne (Prentice and Miller 1992) . Ali, u nekim postavkama politike, oni mogu postati važni kada se posmatraju u zbiru. Na primjer, ako postoje dvije intervencije javnog zdravstva, a jedna je nešto djelotvornija od druge, onda bi odabir efikasnije intervencije mogao na kraju spasiti hiljade dodatnih života.

Iako je bigness obično dobra osobina kada se ispravno koristi, primetio sam da to ponekad može dovesti do konceptualne greške. Iz nekog razloga, izgleda da bigness dovodi istraživače da ignorišu način na koji su njihovi podaci generisani. Iako bigness smanjuje potrebu za brigom o slučajnoj grešci, to ustvari povećava potrebu za brigom o sistematskim greškama, vrstama grešaka koje ću opisati u nastavku, a koje proizlaze iz pristrasnosti u načinu na koji su podaci kreirani. Na primer, u projektu koji ću kasnije opisati u ovom poglavlju, istraživači su koristili poruke koje su generirane 11. septembra 2001. godine kako bi se napravila emocionalna vremenska linija reakcije na teroristički napad visoke rezolucije (Back, Küfner, and Egloff 2010) . Pošto su istraživači imali veliki broj poruka, zaista nisu trebali da brinu o tome da li su obrasci koje su posmatrali - povećavajući bes u toku dana - mogli se objasniti slučajnim varijacijama. Bilo je toliko podataka i obrazac je bio toliko jasan da su svi statistički statistički testovi ukazali da je to bio pravi obrazac. Ali, ovi statistički testovi nisu bili upoznati sa načinom na koji su podaci stvoreni. Zapravo, ispostavilo se da su mnogi obrasci bili pripisani jednom botu koji je tokom dana stvorio sve više besmislenih poruka. Uklanjanje ovog bot-a potpuno je uništilo neke od ključnih nalaza u radu (Pury 2011; Back, Küfner, and Egloff 2011) . Jednostavno, istraživači koji ne razmišljaju o sistematičnoj grešci suočavaju se sa rizikom korišćenja svojih velikih skupova podataka kako bi dobili preciznu procenu nepomične količine, kao što je emocionalni sadržaj besmislenih poruka proizvedenih automatizovanim botom.

U zaključku, veliki skupovi podataka nisu sam po sebi cilj, ali mogu omogućiti određena istraživanja, uključujući proučavanje retkih događaja, procjenu heterogenosti i otkrivanje malih razlika. Izgleda da veliki skupovi podataka dovode do toga da neki istraživači ignorišu način kreiranja njihovih podataka, što ih može dovesti do precizne procjene nebitne količine.