3.6.1 cyfoethog

Mewn gofyn cyfoethog, mae data'r arolwg yn meithrin cyd-destun o gwmpas ffynhonnell ddata fawr sy'n cynnwys rhai mesuriadau pwysig ond nad oes gan eraill.

Un ffordd o gyfuno data arolwg a ffynonellau data mawr yw proses y byddaf yn galw cyfoethogi yn gofyn amdani . Mewn gofyn cyfoethog, mae ffynhonnell ddata fawr yn cynnwys rhai mesuriadau pwysig ond nid oes llawer o fesuriadau eraill felly mae'r ymchwilydd yn casglu'r mesuriadau sydd ar goll mewn arolwg ac yna'n cysylltu'r ddwy ffynhonnell ddata gyda'i gilydd. Un enghraifft o ofyn cyfoethog yw astudiaeth Burke and Kraut (2014) ynghylch a yw rhyngweithio ar Facebook yn cynyddu cryfder cyfeillgarwch, a ddisgrifiais yn adran 3.2). Yn yr achos hwnnw, mae data arolwg Burke a Kraut ynghyd â data logio Facebook.

Roedd y lleoliad lle roedd Burke a Kraut yn gweithio, fodd bynnag, yn golygu nad oedd yn rhaid iddynt ddelio â dau broblem fawr y mae ymchwilwyr yn ei wneud yn debyg yn wynebu gofyniad cyfoethog. Yn gyntaf, gall fod yn anodd cysylltu â'i gilydd y setiau data lefel unigol, proses a elwir yn gyswllt record , os nad oes dynodwr unigryw yn y ddwy ffynhonnell ddata y gellir eu defnyddio i sicrhau bod y cofnod cywir mewn un set ddata yn cydweddu â'r cofnod cywir yn y set ddata arall. Yr ail brif broblem gyda gofyn cyfoethog yw y bydd ansawdd y ffynhonnell ddata fawr yn aml yn anodd i ymchwilwyr asesu oherwydd y gallai'r broses y caiff y data ei greu fod yn berchen arno ac y gallai fod yn agored i lawer o'r problemau a ddisgrifir ym mhennod 2. Mewn geiriau eraill, bydd gofyn cyfoethog yn aml yn golygu cysylltu arolygon â gwallau i ffynonellau data dwbl o ansawdd anhysbys. Er gwaethaf y problemau hyn, fodd bynnag, gellir defnyddio gofyniad cyfoethog i gynnal ymchwil bwysig, fel y dangoswyd gan Stephen Ansolabehere ac Eitan Hersh (2012) yn eu hymchwil ar batrymau pleidleisio yn yr Unol Daleithiau.

Bu'r pleidleiswyr yn destun ymchwil helaeth mewn gwyddoniaeth wleidyddol, ac, yn y gorffennol, mae dealltwriaeth yr ymchwilwyr o bwy sy'n pleidleisio a pham wedi ei seilio'n gyffredinol ar y dadansoddiad o ddata'r arolwg. Fodd bynnag, mae pleidleisio yn yr Unol Daleithiau yn ymddygiad anarferol gan fod y llywodraeth yn cofnodi a yw pob dinesydd wedi pleidleisio (wrth gwrs, nid yw'r llywodraeth yn cofnodi pwy y mae pob dinesydd yn pleidleisio amdano). Am flynyddoedd lawer, roedd y cofnodion pleidleisio llywodraethol hyn ar gael ar ffurflenni papur, wedi'u gwasgaru mewn amryw o swyddfeydd llywodraeth leol ledled y wlad. Roedd hyn yn ei gwneud yn anodd iawn, ond nid yn amhosibl, i wyddonwyr gwleidyddol gael darlun cyflawn o'r etholwyr a chymharu'r hyn y mae pobl yn ei ddweud mewn arolygon ynghylch pleidleisio â'u hymddygiad pleidleisio gwirioneddol (Ansolabehere and Hersh 2012) .

Ond mae'r cofnodion pleidleisio hyn bellach wedi'u digido, ac mae nifer o gwmnïau preifat wedi eu casglu'n systematig a'u cyfuno i gynhyrchu ffeiliau meistr pleidleisio cynhwysfawr sy'n cynnwys ymddygiad pleidleisio pob Americanwr. Atebodd Ansolabehere a Hersh gydag un o'r cwmnïau hyn-Catalist LCC-er mwyn defnyddio eu prif ffeil bleidleisio i helpu i ddatblygu darlun gwell o'r etholwyr. Ymhellach, oherwydd bod eu hastudiaeth yn dibynnu ar gofnodion digidol a gesglir ac a gynhaliwyd gan gwmni a oedd wedi buddsoddi adnoddau sylweddol mewn casglu data a chysoni, roedd yn cynnig nifer o fanteision dros yr ymdrechion blaenorol a wnaed heb gymorth cwmnïau a thrwy ddefnyddio cofnodion analog.

Fel llawer o'r ffynonellau data mawr ym mhennod 2, nid oedd y prif ffeil Catalistiaid yn cynnwys llawer o'r wybodaeth ddemograffig, ymagweddol ac ymddygiadol sydd ei angen ar Ansolabehere a Hersh. Mewn gwirionedd, roedd ganddynt ddiddordeb arbennig mewn cymharu ymddygiad pleidleisio a adroddwyd mewn arolygon gydag ymddygiad pleidleisio dilysedig (hy, y wybodaeth yn y gronfa ddata Catalistaidd). Felly, casglodd Ansolabehere a Hersh y data yr oeddent ei eisiau fel arolwg cymdeithasol mawr, y CCES, a grybwyllwyd yn gynharach yn y bennod hon. Yna rhoddodd eu data i Gatalydd, a rhoddodd y Catalydd iddynt ffeil ddata cyfuno a oedd yn cynnwys ymddygiad pleidleisio dilysedig (o'r Catalydd), yr ymddygiad pleidleisio hunan-adroddedig (CCES) a demograffeg ac agweddau ymatebwyr (gan CCES) (ffigwr 3.13). Mewn geiriau eraill, cyfunodd Ansolabehere a Hersh y data cofnodion pleidleisio gyda data'r arolwg er mwyn gwneud ymchwil nad oedd yn bosibl gyda ffynhonnell ddata naill ai'n unigol.

Ffigwr 3.13: Cynlluniau'r astudiaeth gan Ansolabehere a Hersh (2012). I greu'r ffeil ddata meistr, mae Catalydd yn cyfuno ac yn cysoni gwybodaeth o sawl ffynhonnell wahanol. Bydd y broses hon o uno, ni waeth pa mor ofalus, yn ysgogi camgymeriadau yn y ffynonellau data gwreiddiol a bydd yn cyflwyno camgymeriadau newydd. Ail ffynhonnell gwallau yw'r cysylltiad cofnod rhwng data'r arolwg a'r prif faeslen ddata. Pe bai gan bob person dynodwr sefydlog, unigryw yn y ddwy ffynhonnell ddata, yna byddai cysylltiad yn ddibwys. Ond, roedd yn rhaid i'r Catalyddydd wneud y cysylltiad gan ddefnyddio dynodwyr amherffaith, yn yr achos hwn, rhyw, blwyddyn genedigaeth a chyfeiriad cartref. Yn anffodus, am lawer o achosion gallai fod gwybodaeth anghyflawn neu anghywir; gallai pleidleisiwr o'r enw Homer Simpson ymddangos fel Homer Jay Simpson, Homie J Simpson, neu hyd yn oed Homer Sampsin. Er gwaethaf y posibilrwydd o wallau yn y ffeil ddata Catalistiaid meistr a gwallau yn y cysylltiad record, roedd Ansolabehere a Hersh yn gallu magu hyder yn eu hamcangyfrifon trwy sawl math o wiriad.

Ffigwr 3.13: Cynlluniau'r astudiaeth gan Ansolabehere and Hersh (2012) . I greu'r ffeil ddata meistr, mae Catalydd yn cyfuno ac yn cysoni gwybodaeth o sawl ffynhonnell wahanol. Bydd y broses hon o uno, ni waeth pa mor ofalus, yn ysgogi camgymeriadau yn y ffynonellau data gwreiddiol a bydd yn cyflwyno camgymeriadau newydd. Ail ffynhonnell gwallau yw'r cysylltiad cofnod rhwng data'r arolwg a'r prif faeslen ddata. Pe bai gan bob person dynodwr sefydlog, unigryw yn y ddwy ffynhonnell ddata, yna byddai cysylltiad yn ddibwys. Ond, roedd yn rhaid i'r Catalyddydd wneud y cysylltiad gan ddefnyddio dynodwyr amherffaith, yn yr achos hwn, rhyw, blwyddyn genedigaeth a chyfeiriad cartref. Yn anffodus, am lawer o achosion gallai fod gwybodaeth anghyflawn neu anghywir; gallai pleidleisiwr o'r enw Homer Simpson ymddangos fel Homer Jay Simpson, Homie J Simpson, neu hyd yn oed Homer Sampsin. Er gwaethaf y posibilrwydd o wallau yn y ffeil ddata Catalistiaid meistr a gwallau yn y cysylltiad record, roedd Ansolabehere a Hersh yn gallu magu hyder yn eu hamcangyfrifon trwy sawl math o wiriad.

Gyda'u ffeil ddata gyfunol, daeth Ansolabehere a Hersh i dri chasgliad pwysig. Yn gyntaf, mae gor-adrodd am y bleidlais yn ddiffygiol: roedd bron i hanner y rhai nad oeddent yn galw am y bleidlais wedi dweud eu bod yn pleidleisio, ac os bydd rhywun yn adrodd am bleidleisio, dim ond 80% o siawns y maent wedi pleidleisio mewn gwirionedd. Yn ail, nid yw gor-adrodd yn hap: mae gor-adrodd yn fwy cyffredin ymysg incwm uchel, sy'n rhan o addysg dda, sy'n rhan o faterion cyhoeddus. Mewn geiriau eraill, mae'r bobl sydd fwyaf tebygol o bleidleisio hefyd yn fwyaf tebygol o orweddu ynghylch pleidleisio. Yn drydydd, ac yn fwyaf beirniadol, oherwydd natur systematig o or-adrodd, mae'r gwahaniaethau gwirioneddol rhwng pleidleiswyr a phobl nad ydynt yn cael eu hanfon yn llai nag y maent yn ymddangos yn unig o arolygon. Er enghraifft, mae'r rhai sydd â gradd baglor tua 22 pwynt canran yn fwy tebygol o adrodd am bleidleisio, ond dim ond 10 pwynt canran sy'n fwy tebygol o bleidleisio mewn gwirionedd. Mae'n ymddangos, efallai nad yw'n syndod, bod y damcaniaethau presennol o ran pleidleisio yn llawer gwell wrth ragfynegi pwy fydd yn adrodd ar bleidleisio (sef y data y mae ymchwilwyr wedi'i ddefnyddio yn y gorffennol) nag y maent yn rhagweld pwy sy'n gwirioneddol yn pleidleisio. Felly, mae'r canfyddiad empirig o Ansolabehere and Hersh (2012) galw am ddamcaniaethau newydd i ddeall a rhagweld pleidleisio.

Ond faint y dylem ymddiried yn y canlyniadau hyn? Cofiwch, mae'r canlyniadau hyn yn dibynnu ar gysylltu â gwall-duedd i ddata blwch-du gyda symiau anhysbys o wall. Yn fwy penodol, mae'r canlyniadau'n gorwedd ar ddau gam allweddol: (1) gallu'r Catalyddydd gyfuno llawer o ffynonellau data gwahanol i gynhyrchu meistr data cywir a (2) gallu y Catalgarydd i gysylltu data'r arolwg i'w faes data meistr. Mae pob un o'r camau hyn yn anodd, a gallai camgymeriadau yn y naill gam neu'r llall arwain ymchwilwyr i'r casgliadau anghywir. Fodd bynnag, mae prosesu data a chysylltu data yn hollbwysig i fodolaeth y Catalyddydd fel cwmni, felly gall fuddsoddi adnoddau wrth ddatrys y problemau hyn, yn aml ar raddfa y gall unrhyw ymchwilydd academaidd ei gydweddu. Yn eu papur, mae Ansolabehere a Hersh yn mynd trwy nifer o gamau i wirio canlyniadau'r ddau gam hyn - er bod rhai ohonynt yn berchnogol - a gallai'r gwiriadau hyn fod yn ddefnyddiol i ymchwilwyr eraill sy'n dymuno cysylltu data arolwg i ddata mawr bocs du ffynonellau.

Beth yw'r gwersi cyffredinol y gall ymchwilwyr eu tynnu o'r astudiaeth hon? Yn gyntaf, mae gwerth aruthrol o gyfoethogi ffynonellau data mawr gyda data arolwg ac o gyfoethogi data arolwg gyda ffynonellau data mawr (gallwch weld yr astudiaeth hon naill ffordd neu'r llall). Drwy gyfuno'r ddwy ffynhonnell ddata hyn, roedd yr ymchwilwyr yn gallu gwneud rhywbeth a oedd yn amhosibl gyda naill ai'n unigol. Yr ail wers gyffredinol yw, er na ddylai ffynonellau data masnachol cyfangrynol, fel y data gan y Catalyddydd, gael eu hystyried yn "wirionedd y ddaear," mewn rhai achosion, gallant fod yn ddefnyddiol. Weithiau mae amheuwyr yn cymharu'r ffynhonnell ddata fasnachol gyfunol hon gyda Truth absoliwt ac yn nodi bod y ffynonellau data hyn yn fyr. Fodd bynnag, yn yr achos hwn, mae'r amheuwyr yn gwneud y cymhariaeth anghywir: mae'r holl ddata y mae ymchwilwyr yn eu defnyddio yn disgyn yn wirioneddol. Yn lle hynny, mae'n well cymharu ffynonellau data masnachol cyfansawdd â ffynonellau data eraill sydd ar gael (ee ymddygiad pleidleisio hunan-adroddedig), sydd yn ddieithriad â chamgymeriadau hefyd. Yn olaf, y drydedd wers gyffredinol o astudiaeth Ansolabehere a Hersh yw, mewn rhai sefyllfaoedd, y gall ymchwilwyr elwa o'r buddsoddiadau enfawr y mae llawer o gwmnïau preifat yn eu gwneud wrth gasglu a chysoni setiau data cymdeithasol cymhleth.