3.6.1 Saibhriú ag iarraidh

Nuair a chuirtear isteach saibhrithe, cuireann sonraí suirbhé comhthéacs ar fud foinse sonraí mór ina bhfuil roinnt tomhais thábhachtacha ach easpa daoine eile.

Is bealach amháin chun sonraí suirbhé agus foinsí sonraí móra a chur le chéile mar phróiseas go n-iarrfaidh mé saibhriú ag iarraidh . I gceart a shaibhriú, tá cuid de thomhais thábhachtacha ag foinse sonraí mór ach níl aon tomhais eile ann ionas go mbailíonn an taighdeoir na tomhais seo ar iarraidh i suirbhé agus ansin nascann sé an dá fhoinse sonraí le chéile. Sampla amháin de cheist saibhrithe is ea Burke and Kraut (2014) staidéar a dhéanamh maidir le cé acu a mhéadaíonn idirghníomhú ar Facebook neart cairdeas, a thuairiscigh mé in alt 3.2). Sa chás sin, sonraí suirbhé Burke agus Kraut le sonraí logáil isteach Facebook.

Ach bhí an suíomh ina raibh Burke agus Kraut ag obair, áfach, nach raibh orthu déileáil le dhá fhadhbanna móra a dhéanann taighdeoirí a shaibhriú ag iarraidh gnách orthu. Ar an gcéad dul síos, is féidir deacair a bheith deacair a bheith deacair nascanna sonraí leibhéal aonair a nascadh le chéile, próiseas ar a dtugtar nasc taifead , mura bhfuil aon aitheantóir uathúil sa dá fhoinse sonraí is féidir a úsáid chun a chinntiú go bhfuil an taifead ceart i mbunachar sonraí amháin comhoiriúnach leis an gclár ceart sa tacar sonraí eile. Is é an dara fadhb is mó le hiarratas saibhrithe go mbeidh caighdeán na foinse sonraí mór go minic deacair do thaighdeoirí measúnú a dhéanamh toisc go bhféadfadh an próiseas trína ndéantar na sonraí a bheith dílseánaigh agus d'fhéadfadh sé go mbeadh sé inmhianaithe go leor de na fadhbanna a thuairiscítear i gCaibidil 2. I bhfocail eile, beidh baint go minic le hiarratas a dhéanamh ar shuirbhéanna a nascadh go príobháideach le foinsí sonraí dubh-bhosca de chaighdeán anaithnid. In ainneoin na fadhbanna seo, áfach, is féidir saibhriú a iarraidh a úsáid chun taighde tábhachtach a dhéanamh, mar a léirigh Stephen Ansolabehere agus Eitan Hersh (2012) ina gcuid taighde maidir le patrúin vótála sna Stáit Aontaithe.

Tá an lucht féachana vótála faoi réir taighde fairsing san eolaíocht pholaitiúil, agus, san am atá caite, tuiscint na dtaighdeoirí maidir le cé a vótaí agus cén fáth a bhí bunaithe go ginearálta ar anailís ar shonraí an tsuirbhé. Is iompar neamhghnách é vótáil sna Stáit Aontaithe, áfach, i dtaifead an rialtas an bhfuil vótáil ag gach saoránach (ar ndóigh, ní thaifeadann an rialtas cé acu a dhéanann vótáil ar gach saoránach). Le blianta fada, bhí na taifid vótála rialtais seo ar fáil ar fhoirmeacha páipéir, scaipthe in oifigí rialtais áitiúil éagsúla ar fud na tíre. Rinne sé seo an-deacair, ach ní raibh sé dodhéanta, go mbeadh pictiúr iomlán ag na heolaithe polaitiúla ar na toghthóirí agus comparáid a dhéanamh idir na daoine a deir i suirbhéanna maidir le vótáil lena n-iompar vótála iarbhír (Ansolabehere and Hersh 2012) .

Ach tá na taifid vótála seo digitithe anois, agus tá roinnt cuideachtaí príobháideacha bailithe go córasach agus comhcheangailte iad chun comhaid mhóra vótála cuimsitheacha a tháirgeadh ina bhfuil iompar vótála na Meiriceánaigh go léir. Bhí Ansolabehere agus Hersh i gcomhpháirt le ceann de na cuideachtaí seo-Catalyst LCC-chun a n-comhad máistreachta vótála a úsáid chun cuidiú le pictiúr níos fearr a fhorbairt ar an toghthóirí. Thairis sin, toisc go raibh an staidéar ag brath ar thaifid dhigiteacha a bhailigh agus a bhí á gcur ar fáil ag cuideachta a d'infheistigh acmhainní suntasacha maidir le bailiú agus comhchuibhiú sonraí, thug sé roinnt buntáistí ar fáil d'iarrachtaí roimhe sin a rinneadh gan cabhair ó chuideachtaí agus trí thaifid aschur a úsáid.

Cosúil le go leor de na foinsí sonraí móra i gCaibidil 2, ní raibh mórán den fhaisnéis déimeagrafach, dearcúil agus iompraíochta a bhí ag teastáil ó Ansolabehere agus Hersh i gcatagóir an mháistir na Catalóige. Go deimhin, bhí suim acu go háirithe i gcomparáid le hiompar vótála tuairiscithe i suirbhéanna le hiompar vótála bailíithe (ie, an fhaisnéis i mbunachar sonraí na Catalaíoch). Mar sin, bhailigh Ansolabehere agus Hersh na sonraí a theastaigh uathu mar shuirbhé mór sóisialta, CCES, a luaitear níos luaithe sa chaibidil seo. Ansin thug siad a gcuid sonraí chuig an gCatalóir, agus thug an Chatalóir comhad sonraí cumaisc ar ais dóibh a raibh iompar vótála bailithe (ón gCatalóir), an iompar vótála féin-thuairiscithe (ó CCES) agus déimeagrafaic agus dearcadh na bhfreagróirí (ó CCES) (figiúr 3.13). I bhfocail eile, chomhcheangail Ansolabehere agus Hersh na sonraí taifid vótála le sonraí suirbhé chun taighde a dhéanamh nach raibh indéanta le foinse sonraí ina n-aonar.

Figiúr 3.13: Scéimeach an staidéir ag Ansolabehere agus Hersh (2012). Chun an t-eolas máistir sonraí a chruthú, déanann an Catalaíoch faisnéis a chomhchuibhiú agus a chomhchuibhiú ó fhoinsí éagsúla. Leis an bpróiseas cumaisc seo, is cuma cé chomh cúramach é, cuirfidh sé earráidí ar bun sna foinsí sonraí bunaidh agus tabharfaidh sé earráidí nua isteach. Is é an dara foinse earráidí ná an nasc taifead idir sonraí an tsuirbhé agus an príomhchlár sonraí. Má bhí aitheantóir cobhsaí, uathúil i ngach duine sa dá fhoinse sonraí, ansin bheadh ​​an nasc fánach. Ach, bhí ar an gCatalóir an nasc a dhéanamh ag baint úsáide as aitheantóirí neamhfhoirfe, sa chás seo ainm, inscne, bliain breithe agus seoladh baile. Ar an drochuair, d'fhéadfadh go mbeadh faisnéis neamhiomlán nó míchruinn le go leor cásanna; d'fhéadfadh vótálaí ar a dtugtar Homer Simpson a bheith mar Homer Jay Simpson, Homie J Simpson, nó fiú Homer Sampsin. In ainneoin an fhéidearthacht a d'fhéadfadh earráidí a bheith i gclár máistir sonraí na Catalóige agus d'fhéadfadh earráidí sa nasc taifead, Ansolabehere agus Hersh muinín a thógáil ina gcuid meastacháin trí chineálacha éagsúla seiceálacha.

Figiúr 3.13: Ansolabehere and Hersh (2012) an staidéir ag Ansolabehere and Hersh (2012) . Chun an t-eolas máistir sonraí a chruthú, déanann an Catalaíoch faisnéis a chomhchuibhiú agus a chomhchuibhiú ó fhoinsí éagsúla. Leis an bpróiseas cumaisc seo, is cuma cé chomh cúramach é, cuirfidh sé earráidí ar bun sna foinsí sonraí bunaidh agus tabharfaidh sé earráidí nua isteach. Is é an dara foinse earráidí ná an nasc taifead idir sonraí an tsuirbhé agus an príomhchlár sonraí. Má bhí aitheantóir cobhsaí, uathúil i ngach duine sa dá fhoinse sonraí, ansin bheadh ​​an nasc fánach. Ach, bhí ar an gCatalóir an nasc a dhéanamh ag baint úsáide as aitheantóirí neamhfhoirfe, sa chás seo ainm, inscne, bliain breithe agus seoladh baile. Ar an drochuair, d'fhéadfadh go mbeadh faisnéis neamhiomlán nó míchruinn le go leor cásanna; d'fhéadfadh vótálaí ar a dtugtar Homer Simpson a bheith mar Homer Jay Simpson, Homie J Simpson, nó fiú Homer Sampsin. In ainneoin an fhéidearthacht a d'fhéadfadh earráidí a bheith i gclár máistir sonraí na Catalóige agus d'fhéadfadh earráidí sa nasc taifead, Ansolabehere agus Hersh muinín a thógáil ina gcuid meastacháin trí chineálacha éagsúla seiceálacha.

Leis an gcomhad sonraí comhcheangailte, tháinig Ansolabehere agus Hersh ar thrí chonclúidí tábhachtacha. Ar an gcéad dul síos, tá ró-thuairisciú ar an vótáil céimitheach: thuairiscigh beagnach leath na n-iarrthóirí vótála, agus má thuairiscigh duine vótáil, níl ach seans 80% acu gur vótáil siad i ndáiríre. Sa dara háit, níl ró-thuairisciú randamach: tá ró-thuairisciú níos coitianta i measc ioncam ard-ioncaim, páirtithe atá ag gabháil do ghnóthaí poiblí. I bhfocail eile, is dóichí go mbeidh na daoine is dóichí vótála faoi vótáil. Tríú, agus an chuid is mó go criticiúil, de bharr nádúr córasach an ró-thuairiscithe, tá na difríochtaí iarbhír idir vótálaithe agus neamhfhógróirí níos lú ná mar a léiríonn siad ach ó shuirbhéanna. Mar shampla, is ionann na daoine a bhfuil céim bhaitsiléara acu agus thart ar 22 pointe céatadáin níos mó seans ann vótáil a thuairisciú, ach ní bhíonn ach 10 pointe céatadáin níos mó seans ann go vótálfaidh siad i ndáiríre. Is cosúil, b'fhéidir nach ionadh é, go bhfuil na teoiricí atá ann cheana féin bunaithe ar acmhainní i bhfad níos fearr ag tuar cé acu a thuairiscíonn vótáil (is é sin na sonraí a d'úsáideoirí taighde san am atá caite) ná mar a bhíonn siad ag tuar cé acu a dhéanann vótaí i ndáiríre. Dá bhrí sin, cuirtear fáil empirical Ansolabehere and Hersh (2012) ar theoiricí nua chun vótáil a thuiscint agus a thuar.

Ach cé mhéad ba cheart dúinn muinín na dtorthaí seo? Cuimhnigh, braitheann na torthaí seo ar nasc seans maith le sonraí dubh-bhosca le méideanna anaithnid earráide. Go sonrach, cuireann na torthaí ar dhá phríomhchéim: (1) an cumas atá ag an gCatalóir le go leor foinsí sonraí difriúla a chomhcheangal le máistirfhoilí sonraí cruinn agus (2) cumas na Cataiseoirí na sonraí suirbhé a nascadh chuig a mháistirbhaile sonraí. Tá gach ceann de na céimeanna seo deacair, agus d'fhéadfadh earráidí i gceachtar chéim taighdeoirí a threorú go dtí na conclúidí mícheart. Mar sin féin, tá an dá phróiseáil sonraí agus nascadh ríthábhachtach don Chatalóir mar chuideachta, mar sin is féidir leis acmhainní a infheistiú chun na fadhbanna seo a réiteach, go minic ar scála nach féidir le taighdeoir acadúla a mheaitseáil. Ina bpáipéar, téann Ansolabehere agus Hersh trí roinnt céimeanna chun torthaí na dá chéime seo a sheiceáil - cé go bhfuil cuid acu dílseánaigh - agus d'fhéadfadh na seiceálacha seo a bheith úsáideach do thaighdeoirí eile ar mian leo sonraí suirbhé a nascadh le sonraí móra dubh-bhosca foinsí.

Cad iad na ceachtanna ginearálta is féidir le taighdeoirí a tharraingt ón staidéar seo? Ar dtús, tá luach ollmhór ó fhoinsí móra sonraí a shaibhriú le sonraí suirbhé agus ó shonraí suirbhé a shaibhriú le foinsí sonraí móra (is féidir leat an staidéar seo a fheiceáil ar bhealach). Trí na dhá fhoinse sonraí seo a chomhcheangal, bhí na taighdeoirí in ann rud nach raibh dodhéanta a dhéanamh ina n-aonar. Is é an dara ceacht ginearálta ná, áfach, nár chóir go gcuirfí foinsí comhiomlánaithe sonraí tráchtála, cosúil leis na sonraí ón gCatalóir, a mheas mar "fhírinne na talún", i gcásanna áirithe, is féidir leo a bheith úsáideach. Is minic a chuireann scepticí an fhoinse comhiomlánaithe sonraí tráchtála seo le fíorfhírinne agus léiríonn siad go dtagann na foinsí sonraí seo go gairid. Mar sin féin, sa chás seo, tá na skeptics ag déanamh an chomparáid mícheart: níl na sonraí go léir a úsáideann taighdeoirí in easnamh ar fhírinne iomlán. Ina áit sin, is fearr comparáid a dhéanamh idir foinsí sonraí comhiomlánaithe, tráchtála le foinsí sonraí eile atá ar fáil (m.sh. iompar vótála féin-thuairiscithe), a bhfuil earráidí ann freisin. Ar deireadh, is é an tríú ceacht ginearálta a bhaineann le staidéar Ansolabehere agus Hersh ná, i gcásanna áirithe, gur féidir le taighdeoirí leas a bhaint as na hinfheistíochtaí móra a dhéanann go leor cuideachtaí príobháideacha chun tacar sonraí socraithe casta a bhailiú agus a chomhchuibhiú.