2.3.1.1 Big

Is tacair shonraí mhóra mhodh chun deiridh; nach bhfuil siad deireadh iontu féin.

An chéad cheann de na trí bhuntréith maith sonraí mór é an chuid is mó a pléadh: tá na sonraí mór. Is féidir leis na foinsí sonraí a bheith mór ar thrí bhealach éagsúla: a lán daoine, go leor eolais in aghaidh an duine, nó go leor tuairimí le himeacht ama. Tar éis a tacar sonraí mór ar chumas roinnt cineálacha sonracha de ilchineálacht taighde-a thomhas, ag déanamh staidéir ar imeachtaí annamh, a bhrath difríochtaí beaga, agus ag déanamh meastacháin cúisíoch ó shonraí breathnadóireachta. Dealraíonn sé freisin go dtiocfaidh chineál sonrach sloppiness.

Is é an chéad rud a bhfuil méid an-úsáideach gluaiseacht thar meáin chun meastacháin do fhoghrúpaí sonracha a dhéanamh. Mar shampla, Gary King, Jennifer Pan, agus Molly Roberts (2013) thomhas an dóchúlacht go mbeadh na poist meáin shóisialta sa tSín a censored ag an rialtas. De réir é féin nach bhfuil sé seo an meán dóchúlacht scriosadh an-cabhrach do thuiscint cén fáth áirimh an rialtas roinnt post ach gan daoine eile. Ach, mar gheall ar áireamh ar a sonraí CCD 11 milliún post, Rí agus comhghleacaithe tháirgeadh freisin meastacháin do dóchúlacht chinsireacht do phoist ar 85 chatagóir ar leith (m.sh., pornagrafaíocht, Tibéid, agus Trácht i Beijing). Trí chomparáid a dhéanamh ar an dóchúlacht chinsireacht do phoist i gcatagóirí éagsúla, bhí siad in ann a thuiscint níos mó faoi conas agus cén fáth áirimh rialtas cineálacha áirithe de phoist. Le 11,000 phoist (seachas 11 milliún post), ní bheadh ​​siad in ann a thabhairt ar aird ar na meastacháin catagóir ar leith.

Dara, tá méid úsáideach le haghaidh é ag déanamh staidéir ar imeachtaí annamh. Mar shampla, Goel agus comhghleacaithe (2015) ag iarraidh staidéar a dhéanamh ar na bealaí éagsúla gur féidir le tweets dul víreasach. Toisc go bhfuil cascades móra ath-tweets fíor-annamh-thart amháin i 3,000-siad ag teastáil chun staidéar a dhéanamh níos mó ná billiún tweets d'fhonn a fháil cascades atá mór go leor le haghaidh a n anailíse.

Sa tríú háit, ar chumas tacair mhóra taighdeoirí a bhrath difríochtaí beaga. Go deimhin, tá cuid mhaith den fhócas ar shonraí mór i dtionscal faoi na difríochtaí beaga: hiontaofa bhrath an difríocht idir 1% agus 1.1% rátaí cliceáil-trí ar bhonn ad is féidir a aistriú isteach na milliúin dollar in ioncam breise. I roinnt suíomhanna eolaíochta, ní a d'fhéadfadh difríochtaí beaga den sórt sin ar leith tábhachtach (fiú amháin má tá siad suntasach go staitistiúil). Ach, i roinnt suíomhanna beartais, is féidir difríochtaí beaga den sórt sin a bheith tábhachtach nuair a bhreathnaítear san iomlán. Mar shampla, má tá dhá idirghabhálacha sláinte poiblí agus tá sé ar cheann beagán níos éifeachtaí ná an ceann eile, ansin athrú chuig an idirghabháil níos éifeachtaí a d'fhéadfadh deireadh le coigilt na mílte daoine breise.

Ar deireadh, tacair shonraí mhóra go mór lenár gcumas chun meastacháin cúisíoch ó shonraí breathnadóireachta. Cé nach bhfuil tacair mhóra athrú bunúsach ar na fadhbanna a bhfuil a dhéanamh tátal cúisíoch ó shonraí breathnóireachta, comhoiriúnú agus turgnaimh a dó nádúrtha teicnící a bhfuil taighdeoirí a fhorbairt le haghaidh éilimh cúiseach a lua ó breathnadóireachta Sonraí araon go mór chun tairbhe as tacair shonraí mhóra. Míneoidh mé agus an t-éileamh níos mine léiriú níos déanaí sa chaibidil seo nuair cur síos mé straitéisí taighde.

Cé go bhfuil bigness ginearálta maoin maith nuair a úsáidtear i gceart, tá mé faoi deara go thoradh bigness coitianta ar earráid coincheapúil. Ar chúis éigin, is cosúil bigness do thaighdeoirí mar thoradh ar neamhaird conas a bhí a ghintear a gcuid sonraí. Cé go bhfuil bigness an gá a bheith buartha faoi earráid randamach, méadaíonn sé i ndáiríre ar an ngá a bheith buartha faoi earráidí córasacha, na cineálacha na n-earráidí go mbeidh mé cur síos a dhéanamh i níos mó faoi bhun a eascraíonn as nósanna imeachta chun laofachtaí i conas a sonraí a chruthú agus a bailíodh. I tacar sonraí beag, is féidir an dá earráid randamach agus earráid chórasach a bheith tábhachtach, ach i earráid mór randamach CCD féidir é a mheánú ar shiúl agus dominates earráid córasach. Taighdeoirí nach bhfuil smaoineamh ar earráid córasach beidh suas go deireadh ag baint úsáide as a gcuid tacair mhóra a fháil meastachán beacht ar an rud mícheart; beidh siad beacht míchruinn (McFarland and McFarland 2015) .