3.6.1 riĉigita petante

En riĉa peto, enketa datumo konstruas kuntekston ĉirkaŭ granda datuma fonto kiu enhavas iujn gravajn mezuradojn sed mankas aliajn.

Unu maniero por kombini enketajn datumojn kaj grandajn datumojn estas procezo, kiun mi vokos riĉigita petante . En riĉa peto, granda datuma fonto enhavas iujn gravajn mezurojn, sed malhavas de aliaj mezuroj, do la esploristo kolektas ĉi tiujn mankajn mezurojn en enketo kaj poste ligas la du datumojn kune. Unu ekzemplo de riĉa demandado estas la studo de Burke and Kraut (2014) pri ĉu interagado en Facebook pliigas amikecon, kiun mi priskribis en sekcio 3.2). En tiu kazo, Burke kaj Kraut kombinis enketajn datumojn kun Facebook-datumaj datumoj.

La fikso en kiu Burke kaj Kraut laboris, tamen, signifis, ke ili ne devis trakti du grandajn problemojn, kiujn esploristoj faras riĉigitajn demandojn, tipe vizaĝajn. Unue, fakte ligi la individuajn datumajn arojn, procezon nomitan registran ligon , povas esti malfacila, se ne ekzistas unika identigilo en ambaŭ datumaj fontoj, kiuj povas esti uzataj por certigi, ke la ĝusta rekordo en unu datumaro estas egale kun la ĝusta rekordo en la alia datumaro. La dua ĉefa problemo pri riĉaj demandoj estas, ke la kvalito de la granda datuma fonto ofte estos malfacile por esploristoj taksi, ĉar la procezo per kiu la datumoj estas kreitaj povas esti posedata kaj povus esti susceptible al multaj el la problemoj priskribitaj en ĉapitro 2. Alivorte, riĉaj demandoj ofte okupos eraron-pritraktan ligon de enketoj al nigraj skatoloj datumaj fontoj de nekonata kvalito. Malgraŭ ĉi tiuj problemoj, tamen, riĉaj demandoj povas esti uzataj por fari gravan esploradon, kiel estis pruvita fare de Stephen Ansolabehere kaj Eitan Hersh (2012) en sia esplorado pri voĉdonaj mastroj en Usono.

Voĉdona balotado estis la temo de ampleksa esplorado en politika scienco kaj, en la pasinteco, esploristoj de komprenado pri kiuj voĉdonas kaj kial ĝenerale baziĝis sur la analizo de enketo. Voĉdonado en Usono tamen estas nekutima konduto, en kiu la registaro registras ĉu ĉiu civitano voĉdonis (kompreneble, la registaro ne registras, ĉu ĉiu civitano voĉdonas). Dum multaj jaroj, ĉi tiuj registaraj balotaj rekordoj estis haveblaj sur paperformoj, disĵetitaj en diversaj lokaj registaraj oficejoj ĉirkaŭ la lando. Ĉi tio faris ĝin tre malfacila, sed neebla, por politikaj scienculoj havi kompletan bildon de la elektantaro kaj kompari kion homoj diras en enketoj pri balotado kun sia reala balotado (Ansolabehere and Hersh 2012) .

Sed ĉi tiuj balotaj rekordoj nun estis ciferecigitaj, kaj kelkaj privataj kompanioj kolektis sisteme kaj kunfandis ilin por produkti ampleksajn marajn voĉdonajn dosierojn kiuj enhavas la voĉdonan konduton de ĉiuj usonanoj. Ansolabehere kaj Hersh partoprenis kun unu el ĉi tiuj kompanioj-Katalunaj LCC-por uzi sian mastruman voĉdonan dosieron por helpi evoluigi pli bonan bildon de la elektantaro. Plie, ĉar ilia studo dependis de ciferecaj rekordoj kolektitaj kaj kuracitaj de kompanio, kiu investis substancajn rimedojn en datumkolektado kaj harmoniigo, ĝi proponis multajn avantaĝojn pri antaŭaj penadoj, kiuj estis faritaj sen la helpo de kompanioj kaj per analogaj registroj.

Kiel multaj el la grandaj datumaj fontoj en ĉapitro 2, la kataluna maŝino ne inkludis multe da la demografiaj, atentaj kaj kondutaj informoj, kiujn bezonis Ansolabehere kaj Hersh. Fakte, ili estis aparte interesataj pri komparado de raportita balotado en enketoj kun validigita balotado (tio estas, la informoj en la Kataluna datumbazo). Do Ansolabehere kaj Hersh kolektis la datumojn, kiujn ili deziris kiel granda socia enketo, la CCES, menciita antaŭe en ĉi tiu ĉapitro. Tiam ili donis iliajn datumojn al Katalunisto, kaj Katalisto redonis al ili fiksitan dosieron-dosieron, kiu inkluzivis validigitan balotan konduton (el Katalunisto), la memreportitan voĉdonan konduton (de CCES) kaj la demografiojn kaj sintenojn de respondantoj (de CCES) (figuro 3.13). Alivorte, Ansolabehere kaj Hersh kombinis la balotajn rekordajn datumojn kun enketaj datumoj por fari esplorojn, kiuj ne eblis kun aŭ datuma fonto individue.

Figuro 3.13: Skemo de la studo de Ansolabehere kaj Hersh (2012). Por krei la majstron de datumbazo, Katalunisto kombinas kaj harmonias informojn de multaj malsamaj fontoj. Ĉi tiu procezo de kuniĝo, ne gravas kiom zorga, propagos erarojn en la originalaj datumoj kaj prezentos novajn erarojn. Dua fonto de eraroj estas la rekorda ligo inter la enketaj datumoj kaj la maŝinforma dosiero. Se ĉiu persono havis stabilan, unikan identigilon en ambaŭ datumaj fontoj, tiam ligo estus banala. Sed, Katalisto devis fari la ligon uzante neperfektajn identigilojn, en ĉi tiu kazo, nomo, sekso, naskiĝjaro kaj hejma adreso. Bedaŭrinde, por multaj kazoj povus esti nekompleta aŭ malĝusta informo; balotanto nomata Homer Simpson povus aperi kiel Homer Jay Simpson, Homie J Simpson, aŭ eĉ Homer Sampsin. Malgraŭ la ebla por eraroj en la kataluna maŝinformilo kaj eraroj en la registra ligo, Ansolabehere kaj Hersh povis konstrui konfidon en siaj taksoj per pluraj malsamaj specoj de ĉekoj.

Figuro 3.13: Skemo de la studo de Ansolabehere and Hersh (2012) . Por krei la majstron de datumbazo, Katalunisto kombinas kaj harmonias informojn de multaj malsamaj fontoj. Ĉi tiu procezo de kuniĝo, ne gravas kiom zorga, propagos erarojn en la originalaj datumoj kaj prezentos novajn erarojn. Dua fonto de eraroj estas la rekorda ligo inter la enketaj datumoj kaj la maŝinforma dosiero. Se ĉiu persono havis stabilan, unikan identigilon en ambaŭ datumaj fontoj, tiam ligo estus banala. Sed, Katalisto devis fari la ligon uzante neperfektajn identigilojn, en ĉi tiu kazo, nomo, sekso, naskiĝjaro kaj hejma adreso. Bedaŭrinde, por multaj kazoj povus esti nekompleta aŭ malĝusta informo; balotanto nomata Homer Simpson povus aperi kiel Homer Jay Simpson, Homie J Simpson, aŭ eĉ Homer Sampsin. Malgraŭ la ebla por eraroj en la kataluna maŝinformilo kaj eraroj en la registra ligo, Ansolabehere kaj Hersh povis konstrui konfidon en siaj taksoj per pluraj malsamaj specoj de ĉekoj.

Kun ilia kombinita dosiero, Ansolabehere kaj Hersh venis al tri gravaj konkludoj. Unue, la raportado pri balotado estas senkuraĝa: preskaŭ duono de la ne-voĉdonantoj raportis voĉdonadon, kaj se iu raportis voĉdonadon, nur 80% eble estas, ke ili fakte voĉdonis. Dua, superreportado ne estas hazarda: superreportado estas pli ofta inter altkreskaj, edukitaj, partianoj, kiuj estas okupitaj en publikaj aferoj. Alivorte, la homoj plej verŝajne voĉdonas ankaŭ plej ofte mensogas pri balotado. Tria, kaj plej kritike, pro la sistema naturo de superreportado, la realaj diferencoj inter voĉdonantoj kaj nevotantoj estas pli malgrandaj ol ili nur aperas de enketoj. Ekzemple, tiuj kun abiturienteco estas proksimume 22 procentoj, kiuj estas pli probablaj por raporti voĉdonadon, sed nur 10 procentoj estas pli probablaj por voĉdoni. Ĝi rezultas, eble ne surprize, ke ekzistantaj resursoj bazitaj en rimedoj multe pli bone antaŭdiras, kiu informos pri balotado (kiu estas la datumoj, kiujn uzis la esploristoj en la pasinteco) ol antaŭdiri, kiu fakte voĉdonas. Tiel, la empirika trovo de Ansolabehere and Hersh (2012) vokas novajn teoriojn por kompreni kaj antaŭdiri voĉdonadon.

Sed kiom ni devas fidi ĉi tiujn rezultojn? Memoru, ĉi tiuj rezultoj dependas de eraro-inklinaj ligiloj al nigraj skatoloj kun nekonataj kvantoj de eraro. Pli specife, la rezultoj kongruas sur du ŝlosilaj paŝoj: (1) la kapablo de Katalunisto kombini multajn malsamajn datumojn por produkti precizan maran datumfolion kaj (2) la kapablon de Katalunisto ligi la enketajn datumojn al sia maŝinforma dosiero. Ĉiu ĉi tiuj paŝoj estas malfacila, kaj eraroj en ĉiu paŝo povus konduki esploristojn al la malĝustaj konkludoj. Tamen, ambaŭ datumoj-prilaborado kaj ligo estas kritikaj al la daŭra ekzisto de Katalunisto kiel kompanio, do ĝi povas investi rimedojn por solvi ĉi tiujn problemojn, ofte ĉe skalo, kiun neniu akademia esploristo povas egali. En sia papero, Ansolabehere kaj Hersh trapasas kelkajn paŝojn por kontroli la rezultojn de ĉi tiuj du paŝoj-kvankam iuj el ili estas posedaj- kaj ĉi tiuj ĉekoj povus esti helpema por aliaj esploristoj, kiuj deziras ligi enketajn datumojn al nigraj skatoloj. fontoj.

Kio estas la ĝeneralaj lecionoj, kiujn esploristoj povas eltiri el ĉi tiu studo? Unue, estas terura valoro, kaj riĉigas grandajn datumojn kun enketo kaj de riĉaj enketaj datumoj kun grandaj datumoj (vi povas vidi ĉi tiun studon ĉiel). Kombinante ĉi tiujn du datumajn fontojn, la esploristoj povis fari ion, kio estis neebla kun ĉiu individue. La dua ĝenerala leciono estas, ke kvankam kompletaj datumaj fontoj, kiel la datumoj de Kataluna, ne devus esti konsiderataj "tera vero", en iuj kazoj ili povas esti utilaj. La skeptikistoj kelkfoje komparas ĉi tiujn fiksitajn komercajn datumojn kun absoluta Vero kaj montras, ke ĉi tiuj datumaj fontoj malpliiĝas. Tamen, en ĉi tiu kazo, la skeptoj faras malĝustan komparon: ĉiuj datumoj, kiujn uzantoj de la esploristoj malpliiĝas de absoluta Vero. Anstataŭe, estas pli bone kompari kompletan komercajn datumojn kun aliaj disponeblaj datumaj fontoj (ekz. Mem-raportita balotado), kiu sendube havas erarojn ankaŭ. Fine, la tria ĝenerala leciono de la studo de Ansolabehere kaj Hersh estas, ke en iuj situacioj, esploristoj povas profitigi la grandajn investojn, kiujn multaj privataj kompanioj faras en kolektado kaj harmoniigo de kompleksaj sociaj datumoj.