3.6.1 Enriched galdetzea

Galdetu aberastuetan, inkestaren datuek datu-iturri handi baten inguruan sortzen dute testuingurua, neurketa garrantzitsuak dituztela baina beste batzuk falta dira.

Inkesta datuak eta datu-iturri handiak konbinatzeko modu bat da, aberastu egiten dudan galderari erantzuteko prozesua. Galdetu aberastuetan, datu-iturri handi batek neurri garrantzitsuak ditu baina beste neurri batzuk falta dira, ikertzaileak inkesta batean egindako neurketa faltak biltzen ditu eta bi datu-iturriak elkarrekin lotzen ditu. Burke and Kraut (2014) galdeketa aberatsen adibide bat Facebook-en elkarreraginean adiskidetasunaren indarra handitzen den ala ez adierazten du, 3.2 atalean azaltzen dutena). Kasu horretan, Burke eta Kraut konbinatu inkesta datuak Facebook log datuekin.

Burke eta Kraut-en lan egiten zuten inguruneak, ordea, ez zuten bi arazo handirik behar izan, ikertzaileek aberastu egiten baitzuten normaltasunez galdetzen zietenak. Lehenik eta behin, banako-mailako datu-multzoak elkarrekin bateratuz, erregistro-lotze izeneko prozesu bat zaila izan daiteke datu-iturburu batean erregistratze egokia ez datorren datu-iturburuarekin bat datorren datu-iturburuarekin bat datorrela ziurtatzeko. beste datu-multzo batean. Bigarren arazo nagusia aberastu galdetzea da datu handien datuen kalitatea sarritan zaila izango delako ikertzaileek ebaluatzea, datuak sortzearen prozesua jabeduna delako eta 2. atalean azaldutako arazo asko jasan litezke. Beste era batera esanda, eskaera aberastuek sarritan errekonozimenduak sorraraziko lituzkete kalitate ezezaguneko datu beltzetarako inkesten loturaren inguruko inkestak. Arazo horiez gain, ikerketa garrantzitsuak egiteko Stephen Richardshiren eta Eitan Hersh (2012) agerraldietan ikerketa aberatsak egiteko erabil daiteke.

Hautesleen parte hartzea ikerketa politikoan ikerketa zabala izan da, eta, orain arte, ikertzaileen ustez, hautesleek eta zergatik orokorrean inkesta datuak aztertu zituzten. Estatu Batuetako botoak, ordea, ez da portaera ohikoa gobernuak herritarrek bozkatu duten ala ez adierazten duen (noski, gobernuak ez du hark herritarrek botoa ematen duenik). Urte askotan, gobernu boto erregistroak paper inprimakietan daude eskuragarri, herrialde osoko hainbat tokitako bulegoetan sakabanatuta. Horrek oso zaila izan da, baina ezinezkoa, zientzialari politikoek hauteskunde-argazki osoa izatea eta hauteskunde-botoekin (Ansolabehere and Hersh 2012) botoei buruzko inkestetan esaten dutena alderatzea.

Baina hauteskunde-erregistro horiek orain digitalizatu dira, eta hainbat enpresa pribatuek sistematikoki bildu eta bateratu dituzte estatubatuar guztien boto-joka duten botere fitxategi nagusiak sortzeko. Ansolabehere eta Hersh-k konpainiarekin bat egin zuten, LCC-katalanak, hauteslekuaren irudia hobeto aprobetxatzeko botoa emateko fitxategi nagusia erabiltzeko. Horrez gain, datu horiek biltzeko eta harmonizatzeko funtsezko baliabideak inbertitu dituzten konpainiak bildu eta komertzializatutako dokumentu digitaletan oinarritzen direnez, konpainiaren laguntzarik gabe egindako aurreko analisia eta erregistro analogikoak erabiliz abantaila ugari eskaini zituen.

Bigarren kapituluko datu-iturri handienetako asko bezala, Masterra katalitiko-fitxategiak ez zuen Ansolabehere eta Hersh-ek behar zuten informazio demografiko, jarrera eta jokabidearen zatirik. Izan ere, bereziki interesatu zitzaizkien bozketen portaerari buruzko inkestak alderatuz boto baliozko jokabidearen jokabidea (hau da, katastroko datuen informazioa). Beraz, Ansolabehere eta Hersh-k bildutako datuen arabera, inkesten gizarte-inkesta handi bat nahi zuten datu horiek bildu zituzten CCES-ek. Ondoren, datuak eman zituzten Catalist-i, eta Catalist-ek datu konbinatu bat eman zien, hauteskunde-portaerari balioa eman zitzaion (katalistikotik), autonomia-bozketa portaera (CCES) eta inkestatuen demografia eta jarrerak (CCES) 3.13). Beste era batera esanda, Ansolabehere eta Hersh-k hautesleen datuen datuak inkesta-datuekin konbinatzen dituzte, datuen iturburua banan-banan ezinezkoa zen ikerketarako.

3.13 irudia: Ansolabehere eta Hersh-ren (2012) ikerketaren eskema. Master datu fitxategiak sortzeko, Catalist-ek iturri desberdinetako informazioa bateratu eta bateratzen du. Bateratzeko prozesua, kontuz ibili gabe, jatorrizko datuen iturrietan akatsak hedatuko ditu eta akats berriak sartuko ditu. Bigarren akatsen iturriak inkesta datuak eta master datafile arteko lotura lotzen ditu. Pertsona guztiek bi datu iturri identifikadore egonkor eta bakarra izan balute, loturak hutsalak izango lirateke. Baina, katalistek identitate inperfektuak erabiliz lotura izan behar zuten, kasu honetan, izena, generoa, jaiotza-urtea eta etxeko helbidea. Zoritxarrez, kasu askotan informazio osatua edo zehaztugabea egon liteke; Homer Simpson izeneko hautesleak Homer Jay Simpson, Homie J Simpson, Homer Sampsin edota Homerrek bezala ager litezke. Erroreen arteko loturaren katalizatzaileen datu-katalogoaren akatsak eta erroreren bat izan arren, Ansolabehere eta Hersh-k beren estimazioen konfiantza eraiki zuten txeke mota desberdinen bidez.

3.13 irudia: Ansolabehere and Hersh (2012) ikerketaren Ansolabehere and Hersh (2012) . Master datu fitxategiak sortzeko, Catalist-ek iturri desberdinetako informazioa bateratu eta bateratzen du. Bateratzeko prozesua, kontuz ibili gabe, jatorrizko datuen iturrietan akatsak hedatuko ditu eta akats berriak sartuko ditu. Bigarren akatsen iturriak inkesta datuak eta master datafile arteko lotura lotzen ditu. Pertsona guztiek bi datu iturri identifikadore egonkor eta bakarra izan balute, loturak hutsalak izango lirateke. Baina, katalistek identitate inperfektuak erabiliz lotura izan behar zuten, kasu honetan, izena, generoa, jaiotza-urtea eta etxeko helbidea. Zoritxarrez, kasu askotan informazio osatua edo zehaztugabea egon liteke; Homer Simpson izeneko hautesleak Homer Jay Simpson, Homie J Simpson, Homer Sampsin edota Homerrek bezala ager litezke. Erroreen arteko loturaren katalizatzaileen datu-katalogoaren akatsak eta erroreren bat izan arren, Ansolabehere eta Hersh-k beren estimazioen konfiantza eraiki zuten txeke mota desberdinen bidez.

Datu fitxategi konbinatuekin, Ansolabehere eta Hersh hiru ondorio garrantzitsu atera ziren. Lehenik eta behin, bozketaren gaineko txostena rampant da: ia boto emaileen ia erdiek ez dute bozkatu, eta hautesleek botoa ematen badute,% 80ko bozketa bat besterik ez da. Bigarrenik, gehiegizko jakinarazpena ez da ausazkoa: gehiegizko jakinarazpena ohikoena da arazo publikoetan aritzen diren goi mailako errenta, heziketa eta partzialen artean. Beste era batera esanda, boto gehien dituzten pertsonek botoari buruz gezurra esaten dute. Hirugarrenik, eta kritikoki gehienak, gehiegizko jakinarazpenaren izaera sistematikoa dela eta, hautesleek eta ez-bozgileekiko desberdintasunak benetakoak baino txikiagoak dira. Esate baterako, lizentziatura titulua dutenek ehuneko 22 puntu gehiago behar dituzte botoa emateko, baina ehuneko 10 puntu gehiago dira benetan bozkatzeko. Baliteke, agian, ez da harritzekoa, hauteskundeak dauden baliabideetan oinarritutako teoriak askoz hobeak direla hauteskundeak (iraganean ikertzaileek erabiltzen dituzten datuak aurreikusten dituztenak) aurreikusten dutena baino. Horrela, Ansolabehere and Hersh (2012) aurkikuntza enpirikoek teoria berriak deitu ohi dituzte botoa ulertu eta aurreikusteko.

Baina zenbat emaitza horiek espero ditugu? Gogoratu, emaitza horiek errore-joera araberakoak dira, kutxa beltzekin loturiko datuekin, errore ezezagunekin. Zehatzago esanda, emaitzek bi urrats funtsezkoei jarraitzen diete: (1) Catalist-en gaitasuna hainbat datu-iturri konbinatzen ditu datu-fitxategi maisu zehatz bat sortzeko eta (2) Catalist-en gaitasuna inkestaren datuak datu-fitxategiaren datu nagusiak lotzeko. Urrats horietako bakoitza zaila da eta bi urratsetan akatsak ikertzaileek okerreko ondorioak sor ditzake. Dena den, datuen tratamendua eta loturak katalitiko enpresak izaten jarraitzen duten kritikoa da, beraz, arazo horiek konpontzeko baliabideak inbertsioak egiteko aukera ematen du, askotan ikertzaile akademikoarekin bat etorri gabe. Beren papera, Ansolabehere eta Hersh-k urrats batzuk egin ditzakete bi urrats hauen emaitzak egiaztatzeko, nahiz eta horietako batzuk jabedunak diren, eta egiaztapen horiek lagungarri izan litezkeen beste ikertzaileek inkesta datuak lotzeko datu beltzei buruzko datu handiak egiteko iturriak.

Zer ikasgai orokorrik ikertu dezakete ikerlariek? Lehenik eta behin, izugarrizko balioa dago datuen iturri handiak aberastuz inkesta datuak erabiliz eta inkesta datuak aberastuz datu-iturri handiekin (ikerketa hau ikus dezakezue). Bi datu-iturri konbinatuz, ikertzaileek bakarka ezinezko zerbait egin ahal izan zuten. Bigarren ikasgaia orokorra da, nahiz eta agregatua den, datu komertzialen iturriak, hala nola Catalyst-en datuak, ez dira kontuan hartu behar "lurrean egia", kasu batzuetan erabilgarriak izan daitezke. Eszeptikoek datu konkretu eta komertzialen datu horiek Truth absolutuarekin alderatzen dituzte eta datu horien iturriak labur esaten. Hala ere, kasu honetan, eszeptikoek okerreko alderaketa egiten ari dira: ikertzaileek erabiltzen duten datu guztiak Truth absolutuak dira. Horren ordez, hobe da datu agregatu eta komertzialen iturriak beste datu-iturri erabilgarriekin konparatzea (adibidez, auto-bozkatzeko jokabidearen portaera), beti akatsak dituztelako. Azkenean, Ansolabehere eta Hersh-ren ikasketen hirugarren ikasgai orokorra da egoera batzuetan, ikertzaileek enpresa pribatu askok egin ditzaketen inbertsio handiak aprobetxatzea, datu multzo konplexuak biltzeko eta harmonizatzeko.