2.3.1 Mór

Is tacair shonraí mhóra mhodh chun deiridh; nach bhfuil siad deireadh iontu féin.

Is í an ghné is mó a pléadh go forleathan ar fhoinsí sonraí móra ná go bhfuil siad BIG. Tosaíonn go leor páipéir, mar shampla, trí phlé agus uaireanta bragging faoi cé mhéad sonraí a ndearna siad anailís orthu. Mar shampla, bhí páipéar a foilsíodh in Eolaíocht ag déanamh staidéir ar threochtaí úsáide focal i gcorpas Google Books na nithe seo a leanas (Michel et al. 2011) :

"Tá níos mó ná 500 billiún focal i [Corpus], i mBéarla (361 billiún), sa Fhraincis (45 billiún), sa Spáinnis (45 billiún), sa Ghearmáinis (37 billiún), sa tSeineag (13 billiún), sa Rúis (35 billiún) agus san Eabhrais (2 billiún). Foilsíodh na hoibreacha is sine sna 1500í. Ní bhíonn ach cúpla leabhar sa bhliain sna blianta beaga anuas, ina bhfuil roinnt céad míle focal. Faoi 1800, fásann an corpas go 98 milliún focal in aghaidh na bliana; faoi ​​1900, 1.8 billiún; agus faoi 2000, 11 billiún. Ní féidir le duine an corpas a léamh. Má rinne tú iarracht iontrálacha Béarla amháin a léamh ón mbliain 2000 ina n-aonar, ar luas réasúnta 200 focal / min, gan cur isteach ar bhia nó ar chodladh, ghlacfadh sé 80 bliain. Tá an t-ord litreacha 1000 uair níos faide ná an genome daonna: Má scríobh tú amach é i líne dhíreach, bheadh ​​sé ag teacht go dtí an Ghealach agus ar ais 10 n-uaire. "

Gan amhras, tá scála na sonraí seo go hiontach, agus tá áthas orainn go bhfuil na sonraí seo á scaoileadh ag an bhfoireann Google Books don phobal (go deimhin, baineann cuid de na gníomhaíochtaí ag deireadh na caibidle seo úsáid as na sonraí seo). Ach, nuair a fheiceann tú rud éigin mar seo ba chóir duit a iarraidh: an bhfuil na sonraí go léir sin ag déanamh i ndáiríre? An bhféadfadh siad an taighde céanna a dhéanamh má d'fhéadfadh na sonraí teacht ar an nGealach agus ar ais ach uair amháin? Cad a tharlaíonn mura bhféadfadh na sonraí teacht go dtí barr Mount Everest nó barr Túr Eiffel ach amháin?

Sa chás seo, tá a gcuid taighde, i ndáiríre, go bhfuil roinnt torthaí a dteastaíonn corpas ollmhór de fhocail ar feadh tréimhse fhada. Mar shampla, is é rud amháin a dhéanann siad iniúchadh ná éabhlóid na gramadaí, go háirithe athruithe ar ráta comhcheangal neamhrialta na briathar. Ós rud é go bhfuil cuid de na briathra neamhrialta go leor annamh, ní mór go leor sonraí a bhrath le himeacht ama. Go minic, áfach, is cosúil go gcaithfidh taighdeoirí méid na foinse sonraí mór mar "deireadh a chur le cé mhéad sonraí is féidir liom a ghéarchéim" - seachas mar bhealach le cuspóir eolaíoch níos tábhachtaí.

Is é mo thaithí gurb é an staidéar ar imeachtaí neamhchoitianta ná ceann de na trí chonclúidí eolaíocha ar leith a bhfuil claonadh sonraí móra i gceist. Is é an dara staidéar ar ilchineálacht, mar a léiríonn staidéar ag Raj Chetty agus comhghleacaithe (2014) maidir le soghluaisteacht shóisialta sna Stáit Aontaithe. San am atá thart, rinne taighdeoirí go leor staidéar ar shoghluaisteacht shóisialta trí thorthaí beatha tuismitheoirí agus leanaí a chur i gcomparáid. Is éard atá i gceist le teacht leanúnach ón litríocht seo ná go bhfuil leanaí buntáiste ag tuismitheoirí buntáistí, ach go n-athraíonn neart an chaidrimh seo le himeacht ama agus trasna tíortha (Hout and DiPrete 2006) . Níos déanaí, áfach, bhí Chetty agus comhghleacaithe in ann na taifid chánach a úsáid ó 40 milliún duine chun meastachán a dhéanamh ar an ilchineálacht i soghluaisteacht idirghlúine trasna réigiúin sna Stáit Aontaithe (figiúr 2.1). Fuair ​​siad amach, mar shampla, go bhfuil an dóchúlacht go dtéann leanbh an ceintíl barr den dáileadh ioncaim náisiúnta ag tosú ó theaghlach sa cheathrú bunúsach thart ar 13% i San Jose, California, ach níl ach thart ar 4% i Charlotte, Carolina Thuaidh. Má fhéachann tú ar fhigiúr 2.1 ar feadh nóiméad, d'fhéadfá a bheith ag Wonder cén fáth go bhfuil soghluaisteacht idirghlúine níos airde i roinnt áiteanna ná daoine eile. Bhí an cheist chéanna ag Chetty agus comhghleacaithe go díreach, agus fuair siad amach go bhfuil neamhréitíocht níos lú ioncaim, bunscoileanna níos fearr, caipiteal sóisialta níos mó, agus cobhsaíocht teaghlaigh níos mó ag na ceantair ard-soghluaisteachta. Ar ndóigh, ní léiríonn na comhghaolúcháin seo go bhfuil na fachtóirí seo ina chúis le soghluaisteacht níos airde, ach tugann siad le fios go bhféadfaí meicníochtaí a d'fhéadfaí a iniúchadh in obair bhreise, agus is é sin a rinne Chetty agus comhghleacaithe go díreach ina dhiaidh sin. Fógra a thabhairt ar an gcaoi a raibh méid na sonraí ríthábhachtach sa tionscadal seo. Má bhain Chetty agus comhghleacaithe úsáid as na taifid chánach de 40,000 duine seachas 40 milliún, ní bheadh ​​siad in ann meastachán a dhéanamh ar ilchineálacht réigiúnach agus ní bheadh ​​siad in ann taighde a dhéanamh ina dhiaidh sin chun iarracht a dhéanamh na meicníochtaí a chruthaíonn an t-athrú seo a aithint.

Fíor 2.1: Meastacháin ar dheiseanna leanbh an 20% barr den dáileadh ioncaim a bhaint amach a thugtar do thuismitheoirí sa 20% bun (Chetty et al. 2014). Ceadaíonn na meastacháin ar leibhéal réigiúnach, a léiríonn ilchineálacht, ceisteanna nádúrtha agus tábhachtacha nach dtagann as meastachán amháin ar leibhéal náisiúnta. Rinneadh na meastacháin ar leibhéal réigiúnach seo a bheith indéanta i bpáirt toisc go raibh na taighdeoirí ag úsáid foinse sonraí mór mór: na taifid chánach de 40 milliún duine. Cruthaithe ó na sonraí atá ar fáil ag http://www.equality-of-opportunity.org/.

Fíor 2.1: Meastacháin ar dheiseanna leanbh an 20% barr den dáileadh ioncaim a bhaint amach a thugtar do thuismitheoirí sa 20% bun (Chetty et al. 2014) . Ceadaíonn na meastacháin ar leibhéal réigiúnach, a léiríonn ilchineálacht, ceisteanna nádúrtha agus tábhachtacha nach dtagann as meastachán amháin ar leibhéal náisiúnta. Rinneadh na meastacháin ar leibhéal réigiúnach seo a bheith indéanta i bpáirt toisc go raibh na taighdeoirí ag úsáid foinse sonraí mór mór: na taifid chánach de 40 milliún duine. Cruthaithe ó na sonraí atá ar fáil ag http://www.equality-of-opportunity.org/.

Mar fhocal scoir, chomh maith le staidéar a dhéanamh ar imeachtaí neamhchoitianta agus ag déanamh staidéir ar ilchineálacht, cuireann tacar sonraí móra ar chumas taighdeoirí difríochtaí beaga a bhrath. Go deimhin, is é an chuid is mó den fhócas ar shonraí móra sa tionscal ná na difríochtaí beaga seo: is féidir le hiontaofa a bhrath ar an difríocht idir 1% agus 1.1% de rátaí cliceáil ar ad a aistriú isteach i millean dollar in ioncam breise. I roinnt suíomhanna eolaíochta, áfach, d'fhéadfadh nach mbeadh difríochtaí beaga den sórt sin tábhachtach, fiú má tá siad suntasach go staitistiúil (Prentice and Miller 1992) . Ach, i roinnt socruithe beartais, is féidir leo a bheith tábhachtach nuair a dhéantar iad a fheiceáil i gcomhiomlán. Mar shampla, má tá dhá idirghabháil sláinte poiblí ann agus go bhfuil ceann níos éifeachtaí ná an ceann eile, d'fhéadfadh sé go mbainfeadh an t-idirghabháil níos éifeachtaí leis na mílte saol breise a shábháil.

Cé go bhfuil maoin mhaith i gcoitinne i bigness nuair a úsáidtear é i gceart, thug mé faoi deara gur féidir earráid choincheapúil a bheith ann uaireanta. Ar chúis éigin, is cosúil go gcuirfeadh bigness mar thoradh ar thaighdeoirí neamhaird a dhéanamh ar an gcaoi a gineadh a gcuid sonraí. Cé go laghdaíonn bigness an gá atá le imní a dhéanamh faoi earráid randamach, méadóidh sé go mór an gá a bheith buartha faoi earráidí córasacha, agus na cineálacha earráidí a chuirfidh mé síos thíos a thagann chun cinn ó chlaonadh ar conas a cruthaítear sonraí. Mar shampla, i dtionscadal beidh mé ag cur síos níos déanaí sa chaibidil seo, d'úsáid taighdeoirí teachtaireachtaí a ghintear ar 11 Meán Fómhair, 2001 chun líne ama mhothúchánach ard-réiteach a chur ar fáil don imoibriú leis an ionsaí sceimhlitheoireachta (Back, Küfner, and Egloff 2010) . Ós rud é go raibh líon mór teachtaireachtaí ag na taighdeoirí, níor mhór a bheith imní orthu faoi cé acu an bhféadfaí éagsúlacht randamach a mhíniú ar na patrúin a d'fhéach siad ag méadú fearg thar chúrsa an lae. Bhí an oiread sin sonraí ann agus bhí an patrún chomh soiléir gur mhol na tástálacha staidrimh go léir gur patrún fíor é seo. Ach, bhí na tástálacha staidrimh seo aineolach ar an gcaoi a cruthaíodh na sonraí. Go deimhin, d'éirigh sé amach go raibh go leor de na patrúin inchurtha i leith bot amháin a ghin teachtaireachtaí níos mó agus níos mó gan brí ar feadh an lae. Agus an bot seo amháin á scriosadh go hiomlán scriosadh cuid de na príomhthorthaí sa pháipéar (Pury 2011; Back, Küfner, and Egloff 2011) . Go simplí, bíonn riosca ag taighdeoirí nach smaoineamh ar earráid córasach a gcuid tacar sonraí móra a úsáid chun meastachán beacht a fháil ar chainníocht nach beag, mar ábhar mothúchánach teachtaireachtaí gan brí a tháirgeann bot uathoibrithe.

Mar fhocal scoir, níl deireadh le tacar sonraí móra iontu féin, ach is féidir leo cineálacha áirithe taighde a chumasú, lena n-áirítear staidéar ar imeachtaí neamhchoitianta, meastachán ar ilchineálacht, agus difríochtaí beaga a bhrath. Is cosúil go dtiocfadh le taiscí sonraí móra roinnt taighdeoirí neamhaird a dhéanamh ar an gcaoi a ndearnadh a gcuid sonraí a chruthú, rud a d'fhéadfadh a bheith mar thoradh orthu meastachán beacht a fháil ar chainníocht nach beag.