2.3.1 didelis

Tai vertimo buvo sukurtas kompiuterio. ×

2.3.1 didelis

Didelės apimties duomenų bazėms yra priemonė tikslui pasiekti; jie nėra tikslas pats savaime.

Labiausiai aptarta didelių duomenų šaltinių ypatybė yra ta, kad jos yra BIG. Pavyzdžiui, daugelis straipsnių, pradedant diskusijomis ir kartais pasigyrimais, apie tai, kiek duomenų jie išanalizavo. Pavyzdžiui, " Science" knygoje, publikuojamoje "Google Books" knygos teksto naudojimo tendencijose, buvo pateikta ši informacija (Michel et al. 2011) :

"Mūsų korpusas yra daugiau nei 500 milijardų žodžių anglų kalba (361 milijardą), prancūzų (45 milijardai), ispanų (45 milijardai), vokiečių (37 milijardai), kinų (13 milijardų), rusų (35 milijardai) ir hebrajų (2 mlrd.). Seniausi darbai buvo paskelbti 1500-aisiais. Pirmaisiais dešimtmečiais atstovauja tik kelios knygos per metus, apimančios kelis šimtus tūkstančių žodžių. Iki 1800 m. Korpusas kasmet išauga iki 98 milijonų žodžių; iki 1900 m. - 1,8 mlrd. ir iki 2000 m. - 11 mlrd. Korpusas negali būti skaitomas žmogaus. Jei bandėte skaityti tik anglų kalbos įrašus nuo 2000 m., Esant protingam 200 žodžių / min, be pertraukų maisto ar miego, tai užtruks 80 metų. Laiškų seka yra 1000 kartų ilgesnė už žmogaus genomą: jei ją parašėte tiesia linija, ji pasiektų Mėnulį ir 10 kartų daugiau. "

Šių duomenų mastas yra neabejotinai įspūdingas, ir mums visiems pasisekė, kad "Google Books" komanda išleido šiuos duomenis visuomenei (iš tikrųjų kai kurie šio skyriaus pabaigoje pateikti veiksmai naudoja šiuos duomenis). Tačiau, kai pamatysite kažką panašaus, turėtumėte paklausti: ar visi šie duomenys iš tikrųjų ką nors daro? Ar jie galėjo atlikti tą patį tyrimą, jei duomenys galėtų pasiekti Mėnulį ir atgal tik vieną kartą? Ką daryti, jei duomenys būtų pasiekę tik viršutinę Everesto ar Eifelio bokšto viršūnę?

Šiuo atveju jų tyrimai iš tiesų turi tam tikrų išvadų, dėl kurių ilgainiui reikalingas didžiulis žodžių rinkinys. Pavyzdžiui, vienas dalykas, kurį jie tiria, yra gramatikos raida, ypač netaisyklingos veiksmažodžio konjugacijos pasikeitimo dažnumas. Kadangi kai kurie nereguliarieji veiksmažodžiai yra gana retai, daugeliu duomenų reikia aptikti pokyčius laikui bėgant. Tačiau pernelyg dažnai tyrėjai, atrodo, laiko dideliu duomenų šaltiniu kaip galutiniu dydžiu - "pažvelgti, kiek duomenų galiu sugadinti", o ne kaip priemonė tam tikram svarbesniam moksliniam tikslui.

Mano patirtis rodo, kad retų įvykių tyrimas yra vienas iš trijų konkrečių mokslinių uždavinių, kuriuos dideli duomenų rinkiniai leidžia įjungti. Antrasis yra nevienalytiškumo tyrimas, kurį galima parodyti Raj Chetty ir kolegų (2014) Atliktame tyrime dėl socialinio mobilumo Jungtinėse Amerikos Valstijose. Anksčiau daugelis mokslininkų studijavo socialinį judumą, lygindami tėvų ir vaikų gyvenimo rezultatus. Iš nuoseklios šios literatūros išvados matyti, kad palankūs tėvai turi palankių vaikų, tačiau šių santykių stiprumas laikui bėgant ir skirtingose šalyse skiriasi (Hout and DiPrete 2006) . Tačiau visai neseniai Chetty ir jo kolegos galėjo naudotis mokesčių apskaitos dokumentais iš 40 milijonų žmonių, kad įvertintų kartų tarpusavio mobilumo heterogeniškumą Jungtinių Amerikos Valstijų regionuose (2.1 pav.). Pavyzdžiui, jie nustatė, kad tikimybė, kad vaikas pasiekia aukščiausią kvintilią iš nacionalinio pajamų paskirstymo, pradedant nuo šeimos, esančios apatiniame kvintile, yra apie 13% San Chosė, Kalifornijoje, tačiau tik apie 4% Šarlotoje, Šiaurės Karolina. Jei akimirksniu pažvelgsite į 2.1 paveikslą, gali kilti klausimas, kodėl kartų judumas kai kuriose vietovėse yra didesnis nei kiti. Chetty ir kolegos turėjo tokį patį klausimą, ir jie nustatė, kad tokiuose didelės mobilumo zonose gyvena mažiau gyvenvietės, mažėja pajamų nelygybė, geresnės pradinės mokyklos, didesnis socialinis kapitalas ir didesnis šeimos stabilumas. Žinoma, šios vienos sąsajos neparodo, kad šie veiksniai sukelia didesnį mobilumą, tačiau jie rodo galimus mechanizmus, kuriuos galima ištirti tolesniuose darbuose, tai yra būtent tai, ką Chetty ir jo kolegos padarė tolesniuose darbuose. Atkreipkite dėmesį, kaip šiame projekte tikrai buvo svarbus duomenų dydis. Jei "Chetty" ir jo kolegos panaudojo 40 000 žmonių, o ne 40 milijonų mokesčių apskaitos dokumentus, jie nebūtų galėję įvertinti regioninės heterogeniškumo ir niekada nebūtų galėję atlikti tolesnių tyrimų, kad būtų galima nustatyti mechanizmus, kurie sukurtų šį skirtumą.

2.1 diagrama: vaiko galimybės pasiekti 20 proc. Pajamų pasiskirstymą, atsižvelgiant į tėvus, 20 proc. (Chetty ir kt., 2014 m.). Regionų lygmens įverčiai, kurie rodo nevienalytiškumą, savaime sukelia įdomių ir svarbių klausimų, kurie n ÷ ra kilę iš vieno nacionalinio lygio įvertinimo. Šie regioninio lygio įvertinimai buvo įmanomi iš dalies, nes mokslininkai naudojo didelį didelį duomenų šaltinį: 40 mln. Žmonių mokesčių apskaitos dokumentai. Sukurta iš duomenų, esančių http://www.equality-of-opportunity.org/.

2.1 diagrama: vaiko galimybės pasiekti 20 proc. Pajamų pasiskirstymą, atsižvelgiant į tėvus, 20 proc. (Chetty et al. 2014) . Regionų lygmens įverčiai, kurie rodo nevienalytiškumą, savaime sukelia įdomių ir svarbių klausimų, kurie n ÷ ra kilę iš vieno nacionalinio lygio įvertinimo. Šie regioninio lygio įvertinimai buvo įmanomi iš dalies, nes mokslininkai naudojo didelį didelį duomenų šaltinį: 40 mln. Žmonių mokesčių apskaitos dokumentai. Sukurta iš duomenų, esančių http://www.equality-of-opportunity.org/.

Galiausiai, be studijų retų įvykių ir tyrimo heterogeniškumo, dideli duomenų rinkiniai taip pat leidžia mokslininkams aptikti nedidelius skirtumus. Tiesą sakant, daugiausia d ÷ mesio skiriama dideliems pramon ÷ s duomenims apie šiuos nedidelius skirtumus: patikimai nustatant 1,1-1,1% paspaudimų rodiklio skirtumą skelbime gali būti išverstos į milijonus dolerių papildomų pajamų. Tačiau tam tikrose mokslo srityse tokie maži skirtumai gali būti ypač nepriimtini, net jei jie yra statistiškai reikšmingi (Prentice and Miller 1992) . Tačiau kai kuriuose politikos nustatymuose jie gali tapti svarbūs, kai vertinami bendrai. Pvz., Jei yra dvi visuomenės sveikatos intervencijos, o viena yra šiek tiek veiksmingesnė už kitą, tada veiksmingesnio įsikišimo surinkimas gali padėti sutaupyti tūkstančius papildomų gyvenimų.

Nors bigness paprastai yra gera savybė, kai ji naudojama teisingai, aš pastebėjau, kad kartais tai gali sukelti konceptualią klaidą. Dėl kokių nors priežasčių, atrodo, kad begalė tyrinėtojų ignoruoja, kaip jų duomenys buvo sugeneruoti. Nors bigness sumažina poreikį nerimauti dėl atsitiktinės paklaidos, iš tikrųjų padidėja poreikis nerimauti dėl sisteminių klaidų ir klaidų, kurias toliau apibūdinsiu, atsiras dėl šališkumo, kaip kurti duomenis. Pavyzdžiui, šiame projekte, kurį vėliau (Back, Küfner, and Egloff 2010) šiame skyriuje, mokslininkai 2001 m. Rugsėjo 11 d. (Back, Küfner, and Egloff 2010) pranešimus, kuriuose buvo sukurta didelės raiškos reakcija į teroristinį išpuolį (Back, Küfner, and Egloff 2010) . Kadangi mokslininkai turėjo daug pranešimų, jiems iš tikrųjų nereikėjo nerimauti dėl to, ar jie buvo pastebėti, o pernelyg didelis pyktys per dieną. Tai gali būti paaiškinta atsitiktine tvarka. Buvo tiek daug duomenų, o modelis buvo toks aiškus, kad visi statistiniai statistiniai testai parodė, kad tai buvo tikras modelis. Tačiau šie statistiniai testai nežinojo, kaip buvo sukurti duomenys. Tiesą sakant, pasirodė, kad daugelis modelių buvo priskiriami vieninteliam botui, kuris visą dieną atsirado vis daugiau beprasmių pranešimų. Pašalinus šį vieną (Pury 2011; Back, Küfner, and Egloff 2011) visiškai sunaikinti kai kurie pagrindiniai dokumento rezultatai (Pury 2011; Back, Küfner, and Egloff 2011) . Paprasčiausiai mokslininkai, kurie nemano apie sistemingą klaidą, susiduria su rizika, kad jie naudos didelius duomenų rinkinius, norėdami tiksliai apskaičiuoti nesvarbų kiekį, pvz., Automatinio boto sukurtų beprasmių pranešimų emocinį turinį.

Apibendrinant, dideli duomenų rinkiniai savaime nėra tikslas, tačiau jie gali suteikti tam tikrų rūšių tyrimų, įskaitant retų įvykių tyrimą, heterogeniškumo įvertinimą ir nedidelių skirtumų nustatymą. Atrodo, kad didelių duomenų rinkinių mokslininkai neleidžia ignoruoti, kaip buvo sukurti jų duomenys, todėl jie gali tiksliai įvertinti nesvarbų kiekį.