2.2 Big dàta

Tha dàta mòr air an cruthachadh agus air a chruinneachadh le companaidhean agus riaghaltasan airson adhbharan a bharrachd air rannsachadh. Le bhith a 'cleachdadh an dàta seo airson rannsachadh, mar sin, feumar ath-shuidheachadh.

Is e a 'chiad dhòigh anns am bi mòran dhaoine a' tighinn gu rannsachadh sòisealta san aois dhidseatach tro na tha air an ainmeachadh mar fhiosrachadh mòr . A dh 'aindeoin cleachdadh farsaing an teirm seo, chan eil co-aontachd ann mu dè an dàta mòr a th' ann fiù. Ach, tha aon de na mìneachaidhean as cumanta air dàta mòr a 'cuimseachadh air na "3 Vs": Volume, Variety, and Velocity. Gu ìre mhòr, tha mòran dàta ann, ann an diofar chruthan, agus tha e ga chruthachadh daonnan. Bidh cuid de luchd-leantainn de dhàta mòr cuideachd ag iarraidh "Vs" eile leithid Veracity and Value, ach tha cuid de luchd-breithneachaidh a 'cur Vs mar Vague agus Vacuous. An àite na 3 "Vs" (no na 5 "Vs" no na 7 "Vs"), airson adhbharan rannsachadh sòisealta, tha mi a 'smaoineachadh gur e 5 "Ws" àite nas fheàrr a thòisicheas: Cò, Dè, Càite, Cuin , agus Carson. Gu dearbh, tha mi a 'smaoineachadh gu bheil mòran de na dùbhlain agus na cothroman a chruthaich stòran dàta mòra a' leantainn bho aon "W": Carson.

Anns an aois analog, chaidh a 'mhòr-chuid den dàta a chaidh a chleachdadh airson rannsachadh sòisealta a chruthachadh airson rannsachadh a dhèanamh. Anns an aois dhidseatach, ge-tà, tha companaidhean agus riaghaltasan a 'cruthachadh mòran de dhàta airson adhbharan a bharrachd air rannsachadh, leithid a bhith a' solarachadh sheirbheisean, prothaid gineadh, agus a 'riaghladh laghan. Daoine cruthachail, ge-tà, thuig gun urrainn dhut repurpose chorporra seo agus riaghaltas dàta airson rannsachadh. A 'smaointinn air an eadar-mhìneachadh ealain ann an caibideil 1, dìreach mar a dhùisg Duchamp rud a chaidh a lorg airson ealain a chruthachadh, faodaidh luchd-saidheans a-nis ath-thogail a lorg gus dàta a lorg gus rannsachadh a chruthachadh.

Ged nach eil teagamh nach eil cothroman mòra ann airson ath-shuidheachadh, bidh dàta ùr ann cuideachd, a 'cleachdadh dàta nach deach a chruthachadh airson adhbharan rannsachaidh. Dèan coimeas eadar, mar eisimpleir, seirbheis meadhanan sòisealta, leithid Twitter, le suirbhidh bheachdan poblach traidiseanta, leithid an Suirbhidh Shòisealta Coitcheann. Is e prìomh amasan Twitter seirbheis a thoirt dha luchd-cleachdaidh agus prothaid a dhèanamh. Tha an Suirbhidh Shòisealta Coitcheann, air an làimh eile, a 'cuimseachadh air dàta adhbhar coitcheann airson rannsachadh sòisealta a chruthachadh, gu sònraichte airson rannsachadh beachdan poblach. Tha an eadar-dhealachadh seo ann an amasan a 'ciallachadh gu bheil feartan eadar-dhealaichte aig an dàta a chaidh a chruthachadh le Twitter agus a chruthaich an Suirbhidh Shòisealta Coitcheann, ged a dh'fhaodar an dà chuid a chleachdadh airson a bhith a' sgrùdadh beachdan a 'phobaill. Tha Twitter ag obrachadh aig sgèile agus astar nach urrainn don Suirbhidh Sòisealta Coitcheann a mhaidseadh, ach, an taca ris an t-Suirbhidh Sòisealta Coitcheann, chan eil Twitter a 'dèanamh sampall gu cùramach air luchd-cleachdaidh agus chan eil e ag obair gu cruaidh gus coimeas a dhèanamh thar ùine. Leis gu bheil na dà stòras dàta sin cho eadar-dhealaichte, chan eil e ciall a bhith ag ràdh gu bheil an Suirbhidh Sòisealta Coitcheann nas fheàrr na Twitter no a chaochladh. Ma tha thu ag iarraidh ceumannan de thìde cruinneil gach uair (me, Golder and Macy (2011) ), is fheàrr le Twitter. Air an làimh eile, ma tha thu airson atharrachaidhean fad-ùine a thuigsinn ann am polarachadh beachdan anns na Stàitean Aonaichte (me, DiMaggio, Evans, and Bryson (1996) ), is e an Suirbhidh Sòisealta Coitcheann an roghainn as fheàrr. Nas fharsainge, an àite a bhith a 'feuchainn ri argamaid a dhèanamh gu bheil tobraichean dàta nas fheàrr no nas miosa na seòrsachan dàta eile, feuchaidh an caibideil seo ri soilleireachadh airson na seòrsaichean de cheistean rannsachaidh aig a bheil deagh ghoireasan dàta agus airson na seòrsaichean cheistean nach biodh iad fìor mhath.

Nuair a bhios tu a 'smaoineachadh mu stòran dàta mòr, bidh mòran luchd-rannsachaidh a' cuimseachadh air dàta air-loidhne a chaidh a chruthachadh agus a chruinneachadh le companaidhean, leithid logaichean innealan-rannsachaidh agus na meadhanan sòisealta. Ach, tha am fòcas caol seo a 'fàgail dà thùs cudromach de dhàta mòr. An toiseach, tha barrachd stòran dàta corporra a 'sìor fhàs bho innealan didseatach anns an t-saoghal chorporra. Mar eisimpleir, anns a 'chaibideil seo, innsidh mi dhut mu sgrùdadh a dh' iarr dàta dearbhaidh mòr-bhùth air ais gus sgrùdadh a dhèanamh air mar a tha cinneasachd a co-aoisean (Mas and Moretti 2009) toirt buaidh air cinneasachd an neach-obrach. An uairsin, ann an caibideilean nas fhaide, innsidh mi dhut mu luchd-rannsachaidh a chleachd clàran glainne bho fhònaichean-làimhe (Blumenstock, Cadamuro, and On 2015) agus dàta bìdh a chaidh a chruthachadh le goireasan dealanach (Allcott 2015) . Mar a tha na h-eisimpleirean sin a 'sealltainn, tha stòran dàta corporra mòra mu dheidhinn barrachd air dìreach giùlan air-loidhne.

Is e an dàrna stòr cudromach de dhàta mòr a chaill fòcas cumhang air giùlan air-loidhne dàta a chruthaich riaghaltasan. Tha na dàta riaghaltais seo, a tha luchd-rannsachaidh a ' clàradh chlàran rianachd riaghaltais , a' gabhail a-steach rudan mar chlàran cìse, clàran sgoile, agus clàran staitistig deatamach (me, clàran breith agus bàs). Tha riaghaltasan air a bhith a 'cruthachadh an seòrsa dàta seo airson, ann an cuid de chùisean, ceudan de bhliadhnaichean, agus tha luchd-saidheans sòisealta air a bhith gan cleachdadh airson cho fada' s a bha luchd-saidheans sòisealta air a bhith ann. Tha an t-atharrachadh air ge-tà, ach tha e air a dhèanamh nas fhasa dha riaghaltasan dàta a thional, a tharraing, a stòradh, agus a mhion-sgrùdadh. Mar eisimpleir, anns a 'chaibideil seo, innsidh mi dhut mu sgrùdadh a dh' atharraich dàta bho mheataichean tacsaidh digiteach riaghaltas Bhaile New York gus aghaidh a chur ri deasbad bunaiteach ann an eaconomaidh luchd-obrach (Farber 2015) . An uairsin, ann an caibideilean nas fhaide, innsidh mi dhut mu mar a chaidh clàran bhòtaidh a chruinnich an riaghaltas a chleachdadh ann an suirbhidh (Ansolabehere and Hersh 2012) agus deuchainn (Bond et al. 2012) .

Tha mi a 'smaoineachadh gu bheil am beachd air ath-thogail bunaiteach airson ionnsachadh bho stòran dàta mòr, agus mar sin, mus bruidhinn thu gu sònraichte mu fheartan stòrasan dàta mòr (earrann 2.3) agus mar a ghabhas iad sin a chleachdadh ann an rannsachadh (earrann 2.4), bu mhath leam gus dà phìos comhairle coitcheann a thairgsinn mu ath-shuidheachadh. An toiseach, faodaidh e a bhith buailteach smaoineachadh air an eadar-dhealachadh a tha mi air a stèidheachadh eadar dàta "lorg" agus dàta "dealbhaichte". Tha sin faisg, ach chan eil e ceart gu leòr. Ged a tha, bho shealladh luchd-rannsachaidh, tha tobraichean dàta mòr "air an lorg," chan eil iad dìreach a 'tuiteam às an adhar. An àite sin, tha stòran dàta a tha "air an lorg" le luchd-rannsachaidh air an dealbhadh le cuideigin airson adhbhar. Leis gu bheil dàta "lorg" air a dhealbhachadh le cuideigin, tha mi an-còmhnaidh a 'moladh gun feuchaidh thu ri uiread de thuigse a thuigsinn mu na daoine agus na pròiseasan a chruthaich an dàta agad. Anns an dàrna àite, nuair a bhios tu a 'toirt seachad fiosrachadh air ais, tha e gu math cuideachail gu mòr a bhith a' smaoineachadh air an t-suidheachadh freagarrach airson do dhuilgheadas agus an uairsin coimeas a dhèanamh eadar an dàta sin agus an tè a tha thu a 'cleachdadh. Mura h-eil thu a 'cruinneachadh an dàta agad fhèin, tha coltas gum bi eadar-dhealachaidhean cudromach eadar na tha thu ag iarraidh agus na tha agad. Cuidichidh mothachadh do na h-eadar-dhealachaidhean sin soilleireachadh dè as urrainn dhut agus nach urrainn dhut ionnsachadh bhon dàta a tha agad, agus dh'fhaodadh gun toir e seachad dàta ùr a bu chòir dhut a chruinneachadh.

Anns na dh'fhiosraich mi, tha luchd-saidheans sòisealta agus luchd-saidheans dàta buailteach a bhith a 'dol an sàs ann an ath-shuidheachadh gu math eadar-dhealaichte. Mar as trice bidh luchd-saidheans sòisealta, a tha cleachdte ri bhith ag obair le dàta a chaidh a dhealbhadh airson rannsachadh, ag innse na duilgheadasan le dàta a chaidh a thionndadh le bhith a 'toirt aire dha na neartan aice. Air an làimh eile, mar as trice, tha luchd-saidheans dàta mar as trice a 'toirt a-mach na buannachdan a th' ann an dàta a chaidh ath-thilleadh agus iad a 'toirt aire do na laigsean aca. Gu nàdarra, tha an dòigh-obrach as fheàrr dà-fhillte. Is e sin, feumaidh luchd-rannsachaidh tuigsinn na th 'ann de stòran dàta mòr - an dà chuid math agus dona - agus an uairsin a-mach mar a dh'ionnsaich iad bhuapa. Agus, is e sin am plana airson a 'chòrr den chaibideil seo. Anns an ath earrainn, bheir mi cunntas air deich feartan cumanta de stòran dàta mòr. An uairsin, anns an earrainn a leanas, bheir mi cunntas air trì modhan rannsachaidh a dh'fhaodas obrachadh gu math leis an dàta sin.