2.3.1 Granda

Grandaj datumaroj estas rimedo al fino; ne celo en si mem.

La plej diskutita trajto de grandaj datumaj fontoj estas, ke ili estas BIG. Multaj paperoj, ekzemple, komenciĝas per diskutado-kaj foje bedaŭrinde kiom da datumoj ili analizis. Ekzemple, papero publikigita en Scienco studanta laŭtendajn tendencojn en la Google Books-corpus inkluzivis la jenan (Michel et al. 2011) :

"[Nia] corpus enhavas pli ol 500 miliardojn da vortoj, en la angla (361 miliardoj), francaj (45 miliardoj), hispanaj (45 miliardoj), germanaj (37 miliardoj), ĉinaj (13 miliardoj), rusaj (35 miliardoj) kaj hebreo (2 miliardoj). La plej malnovaj verkoj estis publikigitaj en la 1500-aj jaroj. La fruaj jardekoj estas reprezentataj de nur kelkaj libroj jare, kun kelkaj mil vortoj. En 1800, la korpuso kreskas ĝis 98 milionoj da vortoj jare; antaŭ 1900, 1.8 miliardoj; kaj de 2000, 11 miliardoj. La korpo ne povas esti legata de homo. Se vi nur volis legi nur anglajn enskribojn de la jaro 2000, ĉe la racia rapido de 200 vortoj / min, sen interrompoj por manĝo aŭ dormo, ĝi daŭros 80 jarojn. La sekvenco de literoj estas 1000 fojojn pli longa ol la homa genomo: se vi skribis ĝin en rekta linio, ĝi atingus la Luno kaj reen 10 fojojn pli. "

La skalo de ĉi tiu datumo estas sendube impresa, kaj ni ĉiuj estas feliĉaj, ke la teamo de Google Books publikigis ĉi tiujn datumojn al la publiko (fakte, iuj de la agadoj ĉe la fino de ĉi tiu ĉapitro uzas ĉi tiun datumon). Sed, se vi vidos ion kiel ĉi tion, vi devas demandi: ĉu ĉio ĉi datumo vere faras ion ajn? Ĉu ili povus fari la saman esploradon se la datumoj povus atingi la Lunon kaj reen nur unufoje? Kio se la datumoj nur povus atingi la supron de Monto Everest aŭ la supro de la Eiffel Tower?

En ĉi tiu kazo, ilia esplorado fakte havas iujn trovojn, kiuj postulas longan tempon de vortoj. Ekzemple, unu afero, kiun ili esplorrigardas, estas la evoluo de gramatiko, precipe ŝanĝoj en la imposto de malregulaj verbaj konjugacioj. Pro tio ke iuj malregulaj verboj estas sufiĉe maloftaj, granda kvanto da datumoj bezonas detekti ŝanĝojn laŭlonge de la tempo. Tro ofte, esploristoj ŝajnas trakti la grandecon de granda fonto de datumoj kiel fino - "rigardu kiom da datumoj mi povas kraĉi" - pli ol rimedo por iu pli grava scienca celo.

En mia sperto, la studado pri maloftaj okazaĵoj estas unu el la tri specifaj sciencaj finoj, kiujn grandaj datasets inklinas ebligi. La dua estas la studo de heterogeneco, kiel ĝi povas esti ilustrita per studo de Raj Chetty kaj kolegoj (2014) pri socia movebleco en Usono. En la pasinteco multaj esploristoj studis socian moveblecon komparante la vivajn rezultojn de gepatroj kaj infanoj. Konsekvenca trovo de ĉi tiu literaturo estas, ke avantaĝaj gepatroj inklinas havi avantaĝajn infanojn, sed la forto de ĉi tiu rilato varias laŭlonge de la tempo kaj trans landoj (Hout and DiPrete 2006) . Pli ĵus, tamen, Chetty kaj kolegoj povis uzi la impostajn registrojn de 40 milionoj da homoj por taksi la heterogenecon en intergeneracia movado trans regionoj en Usono (figuro 2.1). Ili trovis, ekzemple, ke la probablo, ke infano atingas la supran kvintilon de la nacia enspezo distribuanta de familio en la funda quintilo, estas ĉirkaŭ 13% en San Jose, Kalifornio, sed nur ĉirkaŭ 4% en Charlotte, Norda Karolino. Se vi rigardas figuron 2.1 por momento, vi eble povus scivoli, kial intergenera movebleco estas pli alta en iuj lokoj ol aliaj. Chetty kaj kolegoj havis ĝuste la saman demandon, kaj ili trovis, ke tiuj altaj moveblaj areoj havas malpli loĝatan apartigon, malpli enspezan neegalecon, pli bonajn lernejojn, plej grandan socian kapitalon kaj pli grandan familian stabilecon. Kompreneble, ĉi tiuj korelacioj sole ne montras, ke tiuj faktoroj kaŭzas pli altan moveblecon, sed ili sugestas eblajn mekanismojn, kiuj povas esti esploritaj en plua laboro, kio estas ĝuste kio Chetty kaj kolegoj faris en posta laboro. Rimarku, kiel la grandeco de la datumoj estis vere grava en ĉi tiu projekto. Se Chetty kaj kolegoj uzis la impostajn registrojn de 40 mil homoj pli ol 40 milionoj, ili ne povus taksi regionan heterogenecon kaj ili neniam povus sekvi esplorojn por provi identigi la mekanismojn kiuj kreas ĉi tiun variadon.

Figuro 2.1: Takso de la ŝancoj de infano atingi la plej altan 20% de enspezoj distribuitaj de gepatroj en la fundo 20% (Chetty et al. 2014). La regionaj nivelaj taksoj, kiuj montras heterogenecon, kondukas al interesaj kaj gravaj demandoj, kiuj ne ŝprucas de sola nacia nivelo. Ĉi tiuj regionaj nivelaj taksoj ebligis en parto ĉar la esploristoj uzis grandan grandan datumon: la impostajn registrojn de 40 milionoj da homoj. Kreita de datumoj haveblaj ĉe http://www.equality-of-opportunity.org/.

Figuro 2.1: Takso de la ŝancoj de infano atingi la plej altan 20% de enspezoj distribuitaj de gepatroj en la fundo 20% (Chetty et al. 2014) . La regionaj nivelaj taksoj, kiuj montras heterogenecon, kondukas al interesaj kaj gravaj demandoj, kiuj ne ŝprucas de sola nacia nivelo. Ĉi tiuj regionaj nivelaj taksoj ebligis en parto ĉar la esploristoj uzis grandan grandan datumon: la impostajn registrojn de 40 milionoj da homoj. Kreita de datumoj haveblaj ĉe http://www.equality-of-opportunity.org/.

Fine, krom studi maloftajn eventojn kaj studi heterogenecon, grandaj datumaroj ankaŭ ebligas esploristojn detekti malgrandajn diferencojn. Fakte, multe de la fokuso pri grandaj datumoj en la industrio estas pri ĉi tiuj malgrandaj diferencoj: fidinde detektante la diferencon inter 1% kaj 1.1% alklaktaj tarifoj en anonco povas traduki al milionoj da dolaroj en ekstraj enspezoj. En iuj sciencaj agordoj, tamen, tiaj malgrandaj diferencoj eble ne estas specialaj gravaj, eĉ se ili estas statistike signifaj (Prentice and Miller 1992) . Sed, en iuj politikaj agordoj, ili povas fariĝi gravaj kiam oni vidas ilin entute. Ekzemple, se ekzistas du publikaj sanaj intervenoj kaj unu estas iomete pli efika ol la alia, tiam elektante la pli efikan intervenon povus fini ŝparante milojn da pliaj vivoj.

Kvankam bigno estas ĝenerale bona propraĵo kiam oni uzas ĝin ĝuste, mi rimarkis, ke ĝi povas foje konduki al koncepta eraro. Por iu kialo, bigness ŝajnas konduki esploristojn ignori kiom ilia datumo estis generita. Dum bignemo reduktas la bezonon maltrankviligi pri hazarda eraro, ĝi vere pliigas la bezonon maltrankviligi pri sistemaj eraroj, la specoj de eraroj, kiujn mi priskribos sube, kiuj ŝprucas de antaŭjuĝoj en kiel kreiĝas datumoj. Ekzemple, en projekto, kiun mi priskribos poste en ĉi tiu ĉapitro, esploristoj uzis mesaĝojn generitajn la 11-an de septembro 2001 por produkti altan distingan emocian tempon de la reago al la terorisma atako (Back, Küfner, and Egloff 2010) . Ĉar la esploristoj havis multajn mesaĝojn, ili vere ne bezonis zorgi pri ĉu la ŝablonoj, kiujn ili observis, kreskanta kolero dum la tago, povus esti klarigita per hazarda variado. Estis tiom da datumoj kaj la ŝablono estis tiel klara, ke ĉiuj statistikaj statistikaj provoj sugestis, ke ĉi tio estis vera ŝablono. Sed ĉi tiuj statistikaj provoj ne sciis pri kiel kreiĝis la datumo. Fakte, ĝi rezultis, ke multaj el la ŝablonoj estis atribuitaj al ununura bot kiu generis pli kaj pli senutilajn mesaĝojn dum la tuta tago. Forigi ĉi tiun bot tute detruis iujn el la ŝlosilaj trovoj en la papero (Pury 2011; Back, Küfner, and Egloff 2011) . Simple, esploristoj, kiuj ne pensas pri sistema eraro, alfrontas la riskon uzi siajn grandajn datumetojn por akiri precizan takson de nemalhavebla kvanto, kiel la emocia enhavo de senprudentaj mesaĝoj produktitaj de aŭtomata bot.

En konkludo, grandaj datumetoj ne estas fino en si mem, sed ili povas ebligi iujn specojn de esplorado, inkluzive de la studado de maloftaj okazaĵoj, la korinklino de heterogeneco kaj la detekto de malgrandaj diferencoj. Grandaj datformoj ankaŭ ŝajnas konduki iujn esploristojn ignori kiel ilia datumo estis kreita, kiu povas konduki ilin akiri precizan takson de nepra kvanto.