2.3.1 Kbira

Datasets kbar huma mezz fi tmiemu; mhumiex għan fihom infushom.

Il-karatteristika l-aktar diskussa ta 'sorsi ta' dejta kbar hija li huma BIG. Bosta karti, pereżempju, jibdew billi jiddiskutu - u xi drabi jaffrontaw - dwar kemm iddistrawha. Pereżempju, dokument ippubblikat fix- Xjenza li jistudja x -xejriet tal-użu tal-kliem fil-corpus tal-Google Books kien jinkludi dan li ġej (Michel et al. 2011) :

"[Il-corpus tagħna] fih aktar minn 500 biljun kelma, bl-Ingliż (361 biljun), Franċiż (45 biljun), Spanjol (45 biljun), Ġermaniż (37 biljun), Ċiniż (13-il biljun), Russu (35 biljun) (2 biljun). L-eqdem xogħlijiet ġew ippubblikati fis-sena 1500. Id-deċennji bikrin huma rrappreżentati minn ftit kotba kull sena, li jinkludu bosta mijiet ta 'eluf ta' kelmiet. Sa l-1800, il-corpus jikber għal 98 miljun kelma kull sena; sa l-1900, 1.8 biljun; u sa l-2000, 11-il biljun. Il-corpus ma jistax jinqara minn bniedem. Jekk ippruvajt taqra biss entrati fil-lingwa Ingliża mis-sena 2000 biss, bir-ritmu raġonevoli ta '200 kelma / min, mingħajr interruzzjonijiet għall-ikel jew l-irqad, ikun hemm 80 sena. Is-sekwenza ta 'l-ittri hija ta' 1000 darba itwal mill-ġenoma tal-bniedem: Jekk kitebha f'linja dritta, hija ser tilħaq il-Qamar u lura 10 darbiet aktar. "

L-iskala ta 'din id-dejta hija bla dubju impressjonanti, u aħna lkoll xorti li t-tim tal-Google Books ħareġ din id-dejta lill-pubbliku (fil-fatt, uħud mill-attivitajiet fi tmiem dan il-kapitlu jagħmlu użu minn din id-dejta). Iżda, kull meta tara xi ħaġa bħal din għandek issaqsi: hija li dik id-dejta kollha tagħmel verament xi ħaġa? Jistgħu għamlu l-istess riċerka jekk id-dejta tista 'tasal għand il-Qamar u lura darba biss? X'jiġri jekk id-dejta tista 'tasal biss lejn il-quċċata tal-Muntanja Everest jew fuq it-Torri Eiffel?

F'dan il-każ, ir-riċerka tagħhom, fil-fatt, għandha xi sejbiet li jeħtieġu corpus enormi ta 'kliem fuq perjodu ta' żmien twil. Per eżempju, ħaġa waħda li tesplora hija l-evoluzzjoni tal-grammatika, partikolarment bidliet fir-rata ta 'konjugazzjoni tal-verb irregolari. Peress li xi verbi irregolari huma pjuttost rari, hemm bżonn ta 'ammont kbir ta' dejta biex tidentifika bidliet maż-żmien. Wisq drabi, madankollu, ir-riċerkaturi jidhru li jittrattaw id-daqs tas-sorsi tad-data l-kbar bħala għan aħħari - "inħarsu kemm id-data nista 'nikseb" - aktar milli mezz għal xi għan xjentifiku aktar importanti.

Fl-esperjenza tiegħi, l-istudju ta 'avvenimenti rari huwa wieħed mit-tliet għanijiet xjentifiċi speċifiċi li settijiet ta' dejta kbar x'aktarx jippermettu. It-tieni huwa l-istudju tal-eteroġeneità, kif jista 'jintwera permezz ta' studju minn Raj Chetty u kollegi (2014) dwar il-mobilità soċjali fl-Istati Uniti. Fil-passat, ħafna riċerkaturi studjaw il-mobilità soċjali billi qabblu r-riżultati tal-ħajja tal-ġenituri u t-tfal. Sejba konsistenti minn din il-letteratura hija li l-ġenituri vantaġġati għandhom it-tendenza li jkollhom tfal vantaġġati, iżda s-saħħa ta 'din ir-relazzjoni tvarja maż-żmien u bejn il-pajjiżi (Hout and DiPrete 2006) . Iktar reċentement, madankollu, Chetty u l-kollegi setgħu jużaw ir-rekords tat-taxxa minn 40 miljun ruħ biex jistmaw l-eteroġeneità fil-mobilità interġenerazzjonali fir-reġjuni kollha fl-Istati Uniti (figura 2.1). Huma sabu, per eżempju, li l-probabbiltà li tifel jilħaq il-quintile quċċata tad-distribuzzjoni nazzjonali tad-dħul li tibda minn familja fil-quintile tal-qiegħ hija ta 'madwar 13% f'San Jose, California, iżda biss madwar 4% f'C Charlotte, North Carolina. Jekk tħares lejn il-figura 2.1 għal mument, tista 'tibda nistaqsi għaliex il-mobbiltà interġenerazzjonali hija ogħla f'xi postijiet minn oħrajn. Chetty u l-kollegi kellhom eżattament l-istess kwistjoni, u sabu li dawk l-oqsma ta 'mobbiltà għolja għandhom inqas segregazzjoni residenzjali, inqas inugwaljanza fid-dħul, skejjel primarji aħjar, kapital soċjali akbar u stabbiltà akbar fil-familja. Naturalment, dawn il-korrelazzjonijiet waħedhom ma jurux li dawn il-fatturi jikkawżaw mobbiltà ogħla, iżda jissuġġerixxu mekkaniżmi possibbli li jistgħu jiġu esplorati f'ħidma ulterjuri, li huwa eżattament dak li Chetty u l-kollegi għamlu f'ħidma sussegwenti. Avviż kif id-daqs tad-data kien tassew importanti f'dan il-proġett. Jekk Chetty u l-kollegi kienu użaw ir-rekords tat-taxxa ta '40,000 ruħ minflok 40 miljun, ma kinux ikunu jistgħu jistmaw l-eteroġeneità reġjonali u qatt ma kienu kapaċi jagħmlu riċerka sussegwenti biex jippruvaw jidentifikaw il-mekkaniżmi li joħolqu din il-varjazzjoni.

Figura 2.1: Estimi tal-possibbiltajiet tat-tfal li jilħqu l-ogħla 20% tad-distribuzzjoni tad-dħul mogħtija lill-ġenituri fil-qiegħ 20% (Chetty et al., 2014). L-istimi fil-livell reġjonali, li juru l-eteroġeneità, naturalment iwasslu għal mistoqsijiet interessanti u importanti li ma jirriżultawx minn stima waħda fuq livell nazzjonali. Dawn l-istimi fil-livell reġjonali saru parzjalment possibbli minħabba li r-riċerkaturi kienu qed jużaw sors tad-data kbir kbir: ir-rekords tat-taxxa ta '40 miljun ruħ. Maħluq mid-dejta disponibbli fuq http://www.equality-of-opportunity.org/.

Figura 2.1: Estimi tal-possibbiltajiet tat-tfal li jilħqu l-ogħla 20% tad-distribuzzjoni tad-dħul mogħtija lill-ġenituri fil-qiegħ 20% (Chetty et al. 2014) . L-istimi fil-livell reġjonali, li juru l-eteroġeneità, naturalment iwasslu għal mistoqsijiet interessanti u importanti li ma jirriżultawx minn stima waħda fuq livell nazzjonali. Dawn l-istimi fil-livell reġjonali saru parzjalment possibbli minħabba li r-riċerkaturi kienu qed jużaw sors tad-data kbir kbir: ir-rekords tat-taxxa ta '40 miljun ruħ. Maħluq mid-dejta disponibbli fuq http://www.equality-of-opportunity.org/.

Fl-aħħarnett, minbarra l-istudju ta 'avvenimenti rari u l-istudju tal-eteroġeneità, datasets kbar jippermettu wkoll li r-riċerkaturi jsibu differenzi żgħar. Fil-fatt, ħafna mill-enfasi fuq dejta kbira fl-industrija hija dwar dawn id-differenzi żgħar: identifikazzjoni affidabbli tad-differenza bejn rati ta 'klikkjar ta' bejn 1% u 1.1% fuq reklam tista 'tittraduċi f'miljuni ta' dollari f'dollari żejda. F'xi ambjenti xjentifiċi, madankollu, differenzi żgħar bħal dawn jistgħu ma jkunux partikolarment importanti, anke jekk huma statistikament sinifikanti (Prentice and Miller 1992) . Iżda, f'xi settings ta 'politika, jistgħu jsiru importanti meta jitqiesu b'mod aggregat. Pereżempju, jekk ikun hemm żewġ interventi tas-saħħa pubblika u waħda hija ftit iktar effettiva mill-oħra, allura l-irkupru tal-intervent aktar effettiv jista 'jispiċċa iffrankar ta' eluf ta 'ħajjiet addizzjonali.

Għalkemm il-bigness ġeneralment hija proprjetà tajba meta tintuża b'mod korrett, jien innutajt li kultant jista 'jwassal għal żball kunċettwali. Għal xi raġuni, jidher li ċ-ċomb ir-riċerkaturi jinjoraw kif id-data tagħhom ġiet iġġenerata. Filwaqt li bigness ma tnaqqas il-bżonn li tinkwieta dwar żball każwali, fil-fatt iżżid il -bżonn li tinkwieta dwar żbalji sistematiċi, it-tipi ta 'żbalji li se niddeskrivi hawn taħt jirriżultaw minn preġudizzji dwar kif tinħoloq data. Per eżempju, f'proġett ser niddeskrivi aktar tard f'dan il-kapitolu, ir-riċerkaturi użaw messaġġi ġġenerati fl-11 ta 'Settembru, 2001 biex jipproduċu kalendarju emozzjonali ta' riżoluzzjoni għolja għar-reazzjoni għall-attakk terroristiku (Back, Küfner, and Egloff 2010) . Minħabba li r-riċerkaturi kellhom numru kbir ta 'messaġġi, huma ma kellhomx għalfejn joqogħdu jinkwetaw dwar jekk il-mudelli li osservaw - żieda fir-rabja matul il-ġurnata - setgħux jiġu spjegati b'varjazzjoni każwali. Kien hemm daqstant dejta u l-mudell kien tant ċar li t-testijiet statistiċi statistiċi kollha ssuġġerew li dan kien mudell reali. Iżda, dawn it-testijiet statistiċi kienu injorant dwar kif ġiet maħluqa d-data. Fil-fatt, irriżulta li bosta mill-mudelli kienu attribwibbli għal bot wieħed li ġġenera messaġġi bla sinifikat matul il-ġurnata kollha. It-tneħħija ta 'dan il-bot wieħed kompletament meqrud xi wħud mis-sejbiet ewlenin fid-dokument (Pury 2011; Back, Küfner, and Egloff 2011) . Sempliċement, riċerkaturi li ma jaħsbux dwar żball sistematiku jiffaċċjaw ir-riskju li jużaw is-settijiet tad-dejta kbar tagħhom biex jiksbu stima preċiża ta 'kwantità mhux importanti, bħall-kontenut emozzjonali ta' messaġġi bla sens prodotti minn bot awtomatizzata.

Bħala konklużjoni, datasets kbar mhumiex għan fihom infushom, iżda jistgħu jippermettu ċerti tipi ta 'riċerka inkluż l-istudju ta' avvenimenti rari, l-istima tal-eteroġeneità u l-identifikazzjoni ta 'differenzi żgħar. Bosta datasets ukoll jidhru li jwasslu lil xi riċerkaturi biex jinjoraw kif ġiet maħluqa d-dejta tagħhom, li tista 'twassalhom biex jiksbu stima preċiża ta' kwantità mhux importanti.