3.6.1 faighneachd saidhbhir

Ann a bhith a 'faighneachd bheairteas, bidh dàta suirbhidh a' togail co-theacsa timcheall air stòr dàta mòr anns a bheil tomhas cudromach ach a dhìth air feadhainn eile.

Is e aon dòigh air dàta suirbhidh agus stòran dàta mòr a chur còmhla mar phròiseas a dh 'iarr mi air beairteas a' faighneachd . Ann am beairteachadh a 'faighneachd, tha tomhas cudromach aig tobar dàta mòr ach chan eil tomhas eile ann gus am bi an neach-rannsachaidh a' cruinneachadh nan tomhasan sin a tha a dhìth ann an suirbhidh agus an uair sin a 'ceangal an dà stòras dàta còmhla. Is e aon eisimpleir de bhith a 'faighneachd beairteach an sgrùdadh le Burke and Kraut (2014) thaobh a bheil eadar-obrachadh air Facebook a' meudachadh neart càirdeas, a thug mi iomradh ann an earrann 3.2). Anns a 'chùis sin, dàta suirbhidh Burke agus Kraut còmhla ri dàta log Facebook.

Ach bha an suidheachadh anns an robh Burke agus Kraut ag obair, ge-tà, a 'ciallachadh nach robh aca ri dèiligeadh ri dà dhuilgheadas mòr a bhios luchd-rannsachaidh a' dèanamh saidhbhir a 'faighneachd mar as trice. An toiseach, faodaidh a bhith a 'ceangal nan seataichean dàta aig ìre fa leth, pròiseas ris an canar ceangal chlàran , a bhith duilich mura h-eil aithnichear àraidh ann an dà thobar dàta a dh'fhaodar a chleachdadh gus dèanamh cinnteach gu bheil an clàr ceart ann an aon stòras-dàta air a mhaidseadh leis a' chlàr cheart anns an stòras eile. Is e an dàrna prìomh dhuilgheadas le bhith a 'faighneachd saidhbhir gum bi càileachd an stòras dàta mòr gu math doirbh do luchd-rannsachaidh a mheasadh oir is dòcha gum bi am pròiseas tron ​​cruthaichear an dàta na dhìon agus gum faodadh e a bhith buailteach do chuid de na duilgheadasan a chaidh a mhìneachadh ann an caibideil 2. Ann am faclan eile, bidh ceasnachadh beairteach tric a 'toirt a-steach ceangal sgrùdaichte de sgrùdaidhean gu tobraichean dàta bogsa dubh de chàileachd neo-aithnichte. A dh 'aindeoin na duilgheadasan sin, ge-tà, faodar a bhith beairteach a' faighneachd gus rannsachadh cudromach a dhèanamh, mar a chaidh a shealltainn le Stephen Ansolabehere agus Eitan Hersh (2012) anns an rannsachadh aca air pàtranan bhòtaidh anns na Stàitean Aonaichte.

Tha luchd-bhòtaidh air a bhith na chuspair air rannsachadh farsaing ann an saidheans poilitigeach, agus, san àm a dh'fhalbh, tha tuigse luchd-rannsachaidh mu bhòtaichean cò agus mar as trice stèidhichte air mion-sgrùdadh dàta an t-suirbhidh. Ach tha bhòtadh anns na Stàitean Aonaichte giùlan neo-àbhaisteach oir tha an riaghaltas a 'clàradh a bheil gach saoranach air bhòtadh (mar as trice, chan eil an riaghaltas a' clàradh cò a tha a 'bhòtadh airson gach saoranach). Airson mòran bhliadhnaichean, bha na clàran bhòtaidh riaghaltais seo rim faotainn air foirmean pàipeir, air an sgapadh ann an diofar oifisean riaghaltais ionadail air feadh na dùthcha. Rinn seo duilgheadas dha, ach gun a bhith do-dhèanta, airson luchd-saidheans poilitigeach dealbh làn de luchd-bhòtaidh fhaighinn agus coimeas a dhèanamh air na tha daoine ag ràdh ann an suirbhidhean mu bhòtadh leis an giùlan bhòtaidh aca fhèin (Ansolabehere and Hersh 2012) .

Ach tha na clàran bhòtaidh seo a-nis air an cruth didseatach, agus tha grunnan chompanaidhean prìobhaideach air an cruinneachadh gu riaghailteach agus gan co-cheangal gus prìomh fhaidhlichean bhòtaidh coileanta a chruthachadh a tha a 'toirt a-steach giùlan bhòtaidh a h-uile Ameireaganaich. Bha Ansolabehere agus Hersh an co-bhoinn ri aon de na companaidhean sin-Catalist LCC-an-dràsta gus am prìomh fhaidhle bhòtaidh aca a chleachdadh gus cuideachadh le dealbh nas fheàrr fhaighinn air an luchd-bhòtaidh. A bharrachd, a chionn 's gu robh an sgrùdadh aca an urra ri clàran didseatach air an cruinneachadh agus air an cur air dòigh le companaidh a bha air stòrasan mòra a thasgadh ann an cruinneachadh dàta agus co-chòrdadh, thug e grunn bhuannachdan seachad thairis air oidhirpean a rinneadh roimhe gun chuideachadh bho chompanaidhean agus le bhith a' cleachdadh chlàran analog.

Coltach ri mòran de na stòran dàta mòr ann an caibideil 2, cha do chuir am prìomh fhaidhle Catalist a-steach mòran den fhiosrachadh deamografach, beachdan agus giùlain a bha a dhìth air Ansolabehere agus Hersh. Gu dearbh, bha ùidh shònraichte aca ann an coimeas ri giùlan bhòtaidh clàraichte ann an suirbhidhean le giùlan bhòtaidh dearbhaichte (ie, am fiosrachadh ann an stòr-dàta Catalist). Mar sin chruinnich Ansolabehere agus Hersh an dàta a bha iad ag iarraidh mar sgrùdadh mòr sòisealta, CCES, a chaidh ainmeachadh na bu thràithe sa chaibideil seo. An uairsin thug iad seachad an dàta gu Catalyst, agus thug Catalaiseach air ais dhaibh faidhle dàta co-aonaichte a bha a 'gabhail a-steach giùlan bhòtaidh dearbhaichte (bhon Chatalaiche), giùlan bhòtaidh fèin-aithris (CCES) agus sluagh-sluaigh agus beachdan an luchd-fhreagairt (bho CCES) (figear 3.13). Ann am faclan eile, chuir Ansolabehere agus Hersh an dàta clàran bhòtaidh còmhla ri dàta suirbhidh ann an òrdugh rannsachadh nach robh comasach le dà stòr dàta fa leth.

Figear 3.13: Sgeama den sgrùdadh le Ansolabehere agus Hersh (2012). Gus am maighstir dàta dàta a chruthachadh, bidh Catalist a 'ceangal agus a' co-chòrdadh ri fiosrachadh bho iomadh stòr eadar-dhealaichte. Bidh am pròiseas seo airson co-fhilleadh, ge bith dè cho cùramach, a 'gluasad mhearachdan anns na stòran dàta tùsail agus bheir e a-steach mhearachdan ùra. Is e an dàrna stòr de mhearachdan an ceangal chlàraidh eadar dàta an t-suirbhidh agus am prìomh chlàr fiosrachaidh. Nam biodh comharraiche seasmhach, sònraichte air a h-uile duine ann an dà stòras dàta, bhiodh an ceangal gu math falamh. Ach, dh'fheumadh a 'Chatallann an ceangal a dhèanamh a' cleachdadh aithnichearan neo-èifeachdach, anns an t-ainm seo, gnè, bliadhna breith agus seòladh dachaigh. Gu mì-fhortanach, airson mòran chùisean dh'fhaodadh fiosrachadh neo-iomlan no mì-cheart a bhith ann; dh'fhaodadh neach-bhòtaidh air a bheil Homer Simpson nochdadh mar Homer Jay Simpson, Homie J Simpson, no eadhon Homer Sampsin. A dh 'aindeoin comas mearachdan anns an t-siostam dàta Catalistach agus bha mearachdan anns a' cheangal chlàraidh, bha Ansolabehere agus Hersh comasach air misneachd a thogail anns na tuairmsean aca tro dhiofar sheòrsaichean de dheuchainnean.

Figear 3.13: Sgeama den sgrùdadh le Ansolabehere and Hersh (2012) . Gus am maighstir dàta dàta a chruthachadh, bidh Catalist a 'ceangal agus a' co-chòrdadh ri fiosrachadh bho iomadh stòr eadar-dhealaichte. Bidh am pròiseas seo airson co-fhilleadh, ge bith dè cho cùramach, a 'gluasad mhearachdan anns na stòran dàta tùsail agus bheir e a-steach mhearachdan ùra. Is e an dàrna stòr de mhearachdan an ceangal chlàraidh eadar dàta an t-suirbhidh agus am prìomh chlàr fiosrachaidh. Nam biodh comharraiche seasmhach, sònraichte air a h-uile duine ann an dà stòras dàta, bhiodh an ceangal gu math falamh. Ach, dh'fheumadh a 'Chatallann an ceangal a dhèanamh a' cleachdadh aithnichearan neo-èifeachdach, anns an t-ainm seo, gnè, bliadhna breith agus seòladh dachaigh. Gu mì-fhortanach, airson mòran chùisean dh'fhaodadh fiosrachadh neo-iomlan no mì-cheart a bhith ann; dh'fhaodadh neach-bhòtaidh air a bheil Homer Simpson nochdadh mar Homer Jay Simpson, Homie J Simpson, no eadhon Homer Sampsin. A dh 'aindeoin comas mearachdan anns an t-siostam dàta Catalistach agus bha mearachdan anns a' cheangal chlàraidh, bha Ansolabehere agus Hersh comasach air misneachd a thogail anns na tuairmsean aca tro dhiofar sheòrsaichean de dheuchainnean.

Le am faidhle dàta còmhla, thàinig Ansolabehere agus Hersh gu trì co-dhùnaidhean cudromach. Sa chiad àite, tha cus iomradh air bhòtadh an-dràsta: cha mhòr nach do nochd cha mhòr leth de na daoine nach deach a bhòtadh bhòtadh, agus ma tha cuideigin ag aithris bhòtadh, chan eil ach 80% de chomas ann gun bhòt iad. San dara h-àite, chan eil ro-aithris a 'tachairt air thuaiream: tha cus aithris air a dhèanamh nas cumanta am measg àrd-teachd-a-steach, àrd-fhoghlam, pàrtaidh a tha an sàs ann an cùisean poblach. Ann am faclan eile, is dòcha gum bi na daoine as buailtiche bhòtadh a 'laighe mu bhòtadh. San treas àite, agus as motha gu h-èiginneach, air sgàth nàdar riaghailteach an ath-aithris, tha na diofaran eadar luchd-bhòtaidh agus luchd-tadhail nas lugha na tha iad a 'nochdadh dìreach bho sgrùdaidhean. Mar eisimpleir, tha an fheadhainn le ceum baidsealair timcheall air 22 puing sa cheud nas buailtiche aithris a thoirt air bhòtadh, ach chan eil ach 10 puingean sa cheud nas buailtiche bhòtadh. Tha e coltach nach eil e iongantach gu bheil na teòiridhean stèidhichte air stòrasan bhòtaidh mòran nas fheàrr ann a bhith a 'toirt a-mach cò a bheir aithris air bhòtadh (dè an dàta a tha luchd-rannsachaidh air a chleachdadh san àm a dh'fhalbh) na tha iad a' toirt a-mach cò a tha a 'bhòtadh. Mar sin, bidh an lorg empirical de Ansolabehere and Hersh (2012) ag iarraidh teòiridhean ùra gus tuigsinn agus ro-innse bhòtadh.

Ach dè a bu chòir dhuinn earbsa a thoirt air na toraidhean sin? Cuimhnich, tha na toraidhean sin an urra ri ceangal a tha air a shealltainn le mearachd ri dàta bogsa-dubh le tomhas neo-aithnichte de mhearachd. Gu sònraichte, tha na toraidhean a 'bualadh air dà phrìomh cheum: (1) gu bheil comas aig a' Chatalpaich mòran stòran dàta eadar-dhealaichte a chur còmhla gus maighstir dàta measaidh dàta a thoirt gu buil agus (2) comas a 'Chathair-ghairm dàta an t-suirbhidh a cheangal ris a' phrìomh dhuilleag dàta. Tha gach aon de na ceuman sin duilich, agus dh'fhaodadh mearachdan anns gach ceum a bhith a 'stiùireadh rannsachaidhean gu na co-dhùnaidhean ceàrr. Ach, tha an dà phrosnachadh dàta agus ceangal riatanach do bhith a 'cumail a' Chumaltraidh mar chompanaidh, agus mar sin faodaidh e goireasan a thasgadh ann a bhith a 'fuasgladh nan duilgheadasan sin, gu tric aig sgèile nach urrainn do neach-rannsachaidh acadaimigeach sam bith a dhèanamh. Anns a 'phàipear aca, tha Ansolabehere agus Hersh a' dol tro ghrunn cheumannan gus sùil a thoirt air toraidhean an dà cheum sin - ged a tha cuid dhiubh ann an sealbhadaireachd - agus dh'fhaodadh na sgrùdaidhean sin a bhith feumail do luchd-rannsachaidh eile a tha airson dàta suirbhidh a cheangal ri dàta mòr dubh stòran.

Dè na rudan a tha luchd-sgrùdaidh leasain coitcheann a 'tarraing às an sgrùdadh seo? An toiseach, tha luach mòr an dà chuid bho bhith a 'neartachadh stòran dàta mòr le dàta suirbhidh agus bho bhith a' cur ri chèile dàta suirbhidh le tobraichean dàta mòr (chì thu an sgrùdadh seo an dà dhòigh). Le bhith a 'cur an dà stòras dàta sin còmhla, b' urrainn don luchd-rannsachaidh rudeigin a dhèanamh a bha do-dhèanta leotha fhèin. Is e an dàrna leasan coitcheann a th 'ann ged nach eil stòrasan dàta coimeirsealta, mar an dàta bhon Chatraiche, air am meas mar fhìor fhìrinn, ann an cuid de chùisean, faodaidh iad a bhith feumail. Bidh skeptics uaireannan a 'coimeas an tobar dàta coimeirsealta, coimeirsealta le làn-fhìrinn agus a' comharrachadh gu bheil na stòran dàta seo goirid. Ach, anns a 'chùis seo, tha na h-amharasach a' dèanamh a 'choimeas ceàrr: bidh an dàta a tha luchd-rannsachaidh a' cleachdadh a 'tuiteam a-mach à làn-fhìrinn. An àite sin, tha e nas fheàrr coimeas a dhèanamh eadar stòran dàta coimeirsealta, coimeirsealta le stòran dàta a tha ri fhaotainn eile (me, giùlan bhòtaidh fèin-aithris), aig a bheil mearachdan cuideachd. Mu dheireadh, is e an treas leasan coitcheann airson Ansolabehere agus Hersh an sgrùdadh gum faod luchd-rannsachaidh buannachd fhaighinn bho na tasgaidhean mòra a tha mòran chompanaidhean prìobhaideach a 'dèanamh ann a bhith a' cruinneachadh agus a 'co-chòrdadh sheataichean dàta sòisealta iom-fhillte ann an cuid de shuidheachaidhean.