2.2 Sonraí Big

Cruthaítear agus bailíonn sonraí móra ag cuideachtaí agus rialtais chun críocha seachas taighde. Ag baint úsáide as na sonraí seo le haghaidh taighde, dá bhrí sin, éilítear athsholáthar.

Is é an chéad bhealach a thagann go leor daoine le taighde sóisialta san aois dhigiteach trí na sonraí móra a dtugtar go minic orthu. In ainneoin úsáid fhorleathan an téarma seo, níl aon chomhdhearcadh ann faoi na sonraí móra atá ann fiú. Mar sin féin, díríonn ceann de na sainmhínithe is coitianta ar shonraí móra ar na "3 Vs": Imleabhar, Éagsúlacht, agus Tráthúlacht. Go gairid, tá a lán sonraí, i bhformáidí éagsúla, agus tá sé á chruthú i gcónaí. Cuirfidh cuid de lucht leanúna sonraí móra "Vs" eile ar nós Veracity and Value, ach cuireann roinnt criticeoirí Vanna ar nós Vague and Vacuous. In ionad na 3 "Vs" (nó na 5 "Vs" nó na 7 "Vs"), chun críocha taighde sóisialta, is dóigh liom go bhfuil áit níos fearr le tosú leis an 5 "Ws": Cé, Cad é, Cathain, Cathain , agus Cén fáth. Go deimhin, sílim go leanann go leor de na dúshláin agus na deiseanna a chruthaíonn foinsí sonraí móra ó "W" amháin: Cén fáth.

San aois chomhchosúil, cruthaíodh an chuid is mó de na sonraí a úsáideadh le haghaidh taighde sóisialta chun taighde a dhéanamh. Sa aois dhigiteach, áfach, tá cuideachtaí agus rialtais ag cruthú mórán sonraí chun críocha seachas taighde, mar shampla seirbhísí a sholáthar, brabús a ghiniúint agus dlíthe a riar. Ach thuig daoine cruthaitheacha gur féidir leat na sonraí corparáideacha agus rialtais seo le haghaidh taighde a athdhíolú . Ag smaoineamh ar ais ar an analaí ealaíne i gcaibidil 1, díreach mar a d'athraigh Duchamp réad aimsithe chun ealaín a chruthú, is féidir le heolaithe a athdhíolú anois sonraí a fháil chun taighde a chruthú.

Cé go bhfuil deiseanna ollmhór ann gan amhras a athdhéanamh, cuirtear dúshláin nua i láthair freisin trí úsáid a bhaint as sonraí nach raibh cruthaithe chun críocha taighde. Déan comparáid idir, mar shampla, seirbhís meáin shóisialta, mar shampla Twitter, le suirbhé tuairimí poiblí traidisiúnta, amhail an Suirbhé Sóisialta Ginearálta. Is iad príomhchuspóirí Twitter ná seirbhís a sholáthar dá úsáideoirí agus brabús a dhéanamh. Tá an Suirbhé Sóisialta Ginearálta, ar an láimh eile, dírithe ar shonraí ginearálta a chruthú le haghaidh taighde sóisialta, go háirithe le haghaidh taighde tuairimí an phobail. Ciallaíonn an difríocht seo i gcuspóirí go bhfuil airíonna éagsúla ag na sonraí a chruthaigh Twitter agus a chruthaigh an Suirbhé Sóisialta Ginearálta, cé gur féidir iad araon a úsáid chun staidéar a dhéanamh ar thuairim an phobail. Feidhmíonn Twitter ar scála agus ar luas nach féidir leis an Suirbhé Sóisialta Ginearálta a mheaitseáil, ach, murab ionann agus an Suirbhé Sóisialta Ginearálta, ní chuireann Twitter samplaí go cúramach ar úsáideoirí agus ní oibríonn sé go crua chun comparáideacht a choimeád le himeacht ama. Toisc go bhfuil an dá fhoinse sonraí sin chomh difriúil, níl sé ciallmhar a rá go bhfuil an Suirbhé Sóisialta Ginearálta níos fearr ná Twitter nó vice versa. Más mian leat bearta gach uair de ghiúmar domhanda (m.sh., Golder and Macy (2011) ), is fearr Twitter. Ar an láimh eile, más mian leat athruithe fadtéarmacha a thuiscint i bpolarú dearcadh sna Stáit Aontaithe (m.sh., DiMaggio, Evans, and Bryson (1996) ), is é an Suirbhé Sóisialta Ginearálta an rogha is fearr. Go ginearálta, seachas ag iarraidh argóint go bhfuil foinsí sonraí móra níos fearr nó níos measa ná cineálacha eile sonraí, déanfaidh an chaibidil seo iarracht soiléiriú a dhéanamh maidir le cén cineál ceisteanna taighde a bhfuil airíonna tarraingteacha acu agus go bhfuil cineálacha ceisteanna acu nach bhféadfadh siad a bheith idéalach.

Agus tú ag smaoineamh ar fhoinsí sonraí móra, díríonn go leor taighdeoirí láithreach ar shonraí ar líne a cruthaíodh agus a bhailigh cuideachtaí, mar shampla logs inneall cuardaigh agus poist sna meáin shóisialta. Mar sin féin, fágann an fócas caol seo dhá fhoinse thábhachtach eile de shonraí móra. Ar dtús, tagann foinsí sonraí móra corparáideacha níos mó ó fheistí digiteacha sa domhan fisiceach. Mar shampla, sa chaibidil seo, inseoidh mé duit faoi staidéar a chuirfeadh sonraí seiceáil amach ollmhargadh chun staidéar a dhéanamh ar an tionchar a bhíonn ag táirgiúlacht a gcomhghleacaithe (Mas and Moretti 2009) ar tháirgiúlacht oibrí. Ansin, i gcaibidlí níos déanaí, inseoidh mé duit faoi thaighdeoirí a d'úsáid taifid glaonna ó fhóin phóca (Blumenstock, Cadamuro, and On 2015) agus sonraí billeála a chruthaigh fóntais leictreacha (Allcott 2015) . Mar a léiríonn na samplaí seo, tá foinsí corparáideacha móra sonraí níos mó ná iompar ar líne amháin.

Is é an dara foinse thábhachtach de shonraí móra a chaill fócas caol ar iompar ar líne ná sonraí a chruthaigh rialtais. Glactar leis na sonraí rialtais seo, a dhéanann taighdeoirí taifid riaracháin rialtais , rudaí cosúil le taifid chánach, taifid scoile, agus taifid staitisticí ríthábhachtacha (m.sh., clárlanna breitheanna agus básanna). Tá na sonraí seo á gcruthú ag na rialtais, i gcásanna áirithe, na céadta bliain, agus tá eolaithe sóisialta ag baint leasa as iad chomh fada agus a bhí eolaithe sóisialta ann. Is é an rud a d'athraigh digitiú, áfach, rud a rinne sé go mór níos éasca do na rialtais sonraí a bhailiú, a tharchur, a stóráil agus a anailísiú. Mar shampla, sa chaibidil seo, inseoidh mé duit faoi staidéar a athdhíoltar sonraí ó mhéadair tacsaí digiteach rialtas Nua-Eabhrac chun dul i ngleic le díospóireacht bhunúsach san eacnamaíocht saothair (Farber 2015) . Ansin, i gcaibidlí níos déanaí, inseoidh mé duit faoi conas a úsáideadh taifid vótála bailithe ag an rialtas i suirbhé (Ansolabehere and Hersh 2012) agus turgnamh (Bond et al. 2012) .

Is dóigh liom go bhfuil an smaoineamh ar athcheapadh bunúsach le foghlaim ó fhoinsí sonraí móra, agus mar sin, sula dtéann tú ag plé níos sainiúla faoi airíonna na bhfoinsí sonraí móra (alt 2.3) agus an chaoi ar féidir iad seo a úsáid i dtaighde (roinn 2.4), ba mhaith liom chun dhá phíosa comhairle ghinearálta a thairiscint faoi athdhíolú. Ar dtús, is féidir é a bheith ag smaoineamh ar smaoineamh ar an gcodarsnacht atá leagtha amach idir sonraí idir "fuair" agus sonraí "deartha". Tá sé sin gar, ach níl sé ceart go leor. Cé go bhfuil, ó thaobh na taighdeoirí, foinsí móra sonraí "le fáil," ní thagann siad as an spéir. Ina áit sin, déantar foinsí sonraí atá "fuair" ag taighdeoirí a dhearadh ag duine éigin chun críche áirithe. Ós rud é go bhfuil na sonraí "aimsithe" deartha ag duine, molaim i gcónaí go dtuigeann tú an oiread agus is féidir a thuiscint faoi na daoine agus na próisis a chruthaigh do chuid sonraí. Ar an dara dul síos, nuair atá tú ag athdhíolú sonraí, is minic a bhíonn sé an-cabhrach an tacar sonraí idéalach a shamhlú ar do fhadhb agus ansin an tacar sonraí idéalach a chur i gcomparáid leis an gceann atá tú ag baint úsáide as. Mura mbailí tú do chuid sonraí féin, is dócha go mbeidh difríochtaí tábhachtacha idir an méid is mian leat agus cad atá agat. Cuideoidh na tréimhsí seo in iúl cad is féidir leat a shoiléiriú agus nach féidir leo a fhoghlaim ó na sonraí atá agat, agus d'fhéadfadh sé go gcuirfí le fios sonraí nua gur chóir duit a bhailiú.

I mo thaithí, bíonn eolaithe sóisialta agus eolaithe sonraí in ann cur chuige a athdhíolú go han-difriúil. De ghnáth, is eolaithe sóisialta iad siúd atá i mbun oibriú le sonraí atá deartha le haghaidh taighde, go tapa na fadhbanna a bhaineann le sonraí athdhéanta a léiriú agus iad ag neamhaird a chuid láidreachtaí. Ar an láimh eile, tá eolaithe sonraí de ghnáth ag cur in iúl na buntáistí a bhaineann le sonraí athdhéanta agus iad ag neamhaird a laigí. Ar ndóigh, tá an cur chuige is fearr ina hibrideach. Is é sin, ní mór do thaighdeoirí saintréithe na bhfoinsí sonraí móra a thuiscint - go maith agus go dona - agus ansin amach conas iad a fhoghlaim uaidh. Agus is é sin an plean don chuid eile den chaibidil seo. Sa chéad chuid eile, cuirfidh mé síos ar dheich shaintréithe coitianta foinsí sonraí móra. Ansin, sa rannóg seo a leanas, cuirfidh mé síos ar thrí chur chuige taighde a d'fhéadfadh a bheith ag obair go maith leis na sonraí sin.