3.6.1 Verryk Vra

In verrykte vra, bou opname data konteks rondom 'n groot databron wat belangrike mate bevat, maar ander ontbreek.

Een manier om opname data en groot data bronne te kombineer, is 'n proses wat ek sal noem verrykte vra . By verrykende vrae bevat 'n groot databron enkele belangrike metings, maar dit het geen ander metings sodat die navorser hierdie ontbrekende metings in 'n opname versamel en dan die twee databronne saam verbind. Een voorbeeld van verrykende vraag is die studie deur Burke and Kraut (2014) oor of interaksie op Facebook verhoog vriendskapsterkte, wat ek in afdeling 3.2 beskryf het. In daardie geval het Burke en Kraut gekombineer opname data met Facebook log data.

Die instelling waarin Burke en Kraut gewerk het, het egter beteken dat hulle nie twee groot probleme gehad het wat navorsers wat verryk het, gewoonlik gevra het nie. Eerstens kan die individueel-vlak datastelle eintlik gekoppel word, 'n proses genaamd rekordkoppeling . Dit kan moeilik wees as daar geen unieke identifiseerder in albei databronne is wat gebruik kan word om te verseker dat die korrekte rekord in een datastel ooreenstem met die korrekte rekord in die ander datastel. Die tweede hoofprobleem met verrykende vraag is dat die kwaliteit van die groot databron dikwels moeilik sal wees vir navorsers om te assesseer omdat die proses waardeur die data geskep word, eiendom kan wees en kan vatbaar wees vir baie van die probleme wat in hoofstuk 2 beskryf word. Met ander woorde, verrykende vrae sal dikwels foutiewe koppeling van opnames tot swartkas-databronne van onbekende gehalte insluit. Ten spyte van hierdie probleme, kan verrykende vrae egter gebruik word om belangrike navorsing te doen, soos deur Stephen Ansolabehere en Eitan Hersh (2012) in hul navorsing oor stempatrone in die Verenigde State.

Stemopkoms is die onderwerp van uitgebreide navorsing in die politieke wetenskap, en in die verlede is navorsers se begrip van wie stem en hoekom oor die algemeen gebaseer is op die ontleding van opname data. Stem in die Verenigde State is egter 'n ongewone gedrag deurdat die regering bepaal of elke burger gestem het (natuurlik, die regering teken nie aan wie elke burger stem nie). Hierdie regeringsverkiesingsrekords was vir baie jare beskikbaar op papiervorms, versprei in verskeie plaaslike regeringskantore regoor die land. Dit het dit baie moeilik gemaak, maar nie onmoontlik nie, vir politieke wetenskaplikes om 'n volledige prentjie van die kiesers te hê en om te vergelyk wat mense in opnames oor stemreg stem met hul werklike stemgedrag (Ansolabehere and Hersh 2012) .

Maar hierdie stemrekords is nou gedigitaliseer, en 'n aantal private maatskappye het hulle stelselmatig versamel en saamgesmelt om omvattende meesterbestemmingslêers te maak wat die stemgedrag van alle Amerikaners bevat. Ansolabehere en Hersh het saam met een van hierdie maatskappye - Katalisator LCC - hul hoof stemlêer gebruik om te help om 'n beter prentjie van die kiesers te ontwikkel. Aangesien hul studie gegrond was op digitale rekords wat ingesamel en gekurineer is deur 'n maatskappy wat aansienlike hulpbronne in data-insameling en harmonisering belê het, het dit 'n aantal voordele gebied ten opsigte van vorige pogings wat sonder die hulp van maatskappye gedoen is en deur analitiese rekords te gebruik.

Soos baie van die groot data bronne in hoofstuk 2, het die katalisator meesterlêer nie veel van die demografiese, houdings- en gedragsinligting ingesluit wat Ansolabehere en Hersh nodig gehad het nie. Trouens, hulle was veral geïnteresseerd in die vergelyking van aangemelde stemgedrag in opnames met gevalideerde stemgedrag (dws die inligting in die Catalyst-databasis). So het Ansolabehere en Hersh die data versamel wat hulle wou hê as 'n groot sosiale opname, die CCES, wat vroeër in hierdie hoofstuk genoem is. Toe het hulle hul data aan die Katalis gegee, en die Katalis het hulle 'n saamgesmelte data-lêer gegee wat die geval was van gevalideerde stemgedrag (van Katalis), die self-aangemelde stemgedrag (van CCES) en die demografie en houdings van respondente (van CCES) 3.13). Met ander woorde, Ansolabehere en Hersh het die stemme rekords data met opname data gekombineer om navorsing te doen wat nie individueel met enige data bron moontlik was nie.

Figuur 3.13: Skematiese van die studie deur Ansolabehere en Hersh (2012). Om die meesterdatafile te skep, kombineer en kombineer inligting uit baie verskillende bronne. Hierdie proses van samesmelting, maak nie saak hoe versigtig nie, sal foute in die oorspronklike databronne versprei en sal nuwe foute bekendstel. 'N tweede bron van foute is die rekord skakel tussen die opname data en die meester data file. As elke persoon 'n stabiele, unieke identifiseerder in albei databronne gehad het, sou koppeling onbeduidend wees. Maar Katalis moes die koppeling gebruik deur onvolmaakte identifiseerders, in hierdie geval naam, geslag, geboortejaar en tuisadres. Ongelukkig kan daar vir baie gevalle onvolledige of onakkurate inligting wees; 'n kieser genaamd Homer Simpson kan verskyn as Homer Jay Simpson, Homie J Simpson, of selfs Homer Sampsin. Ten spyte van die potensiaal vir foute in die katalistiese meester datafile en foute in die rekordverband, was Ansolabehere en Hersh in staat om vertroue in hul ramings te bou deur middel van verskillende tipes tjeks.

Figuur 3.13: Skematiese van die studie deur Ansolabehere and Hersh (2012) . Om die meesterdatafile te skep, kombineer en kombineer inligting uit baie verskillende bronne. Hierdie proses van samesmelting, maak nie saak hoe versigtig nie, sal foute in die oorspronklike databronne versprei en sal nuwe foute bekendstel. 'N tweede bron van foute is die rekord skakel tussen die opname data en die meester data file. As elke persoon 'n stabiele, unieke identifiseerder in albei databronne gehad het, sou koppeling onbeduidend wees. Maar Katalis moes die koppeling gebruik deur onvolmaakte identifiseerders, in hierdie geval naam, geslag, geboortejaar en tuisadres. Ongelukkig kan daar vir baie gevalle onvolledige of onakkurate inligting wees; 'n kieser genaamd Homer Simpson kan verskyn as Homer Jay Simpson, Homie J Simpson, of selfs Homer Sampsin. Ten spyte van die potensiaal vir foute in die katalistiese meester datafile en foute in die rekordverband, was Ansolabehere en Hersh in staat om vertroue in hul ramings te bou deur middel van verskillende tipes tjeks.

Met hul gekombineerde datalêer het Ansolabehere en Hersh tot drie belangrike gevolgtrekkings gekom. Eerstens is die oorverslaggewing van stemreg onheilspellend. Byna die helfte van die nie-stemgenote het stemgeregtig gerapporteer, en as iemand stemgeregtig het, is daar net 80% kans dat hulle eintlik gestem het. Tweedens, oorverslagdoening is nie ewekansig nie: oorverslagdoening is meer algemeen onder hoë-inkomste, goed opgevoede, partyders wat in openbare sake betrokke is. Met ander woorde, die mense wat die meeste waarskynlik sal stem, is ook waarskynlik om oor stemme te lieg. Derdens en kritiese, weens die sistematiese aard van oorverslagdoening, is die werklike verskille tussen kiesers en nonvoters kleiner as wat hulle net uit opnames voorkom. Byvoorbeeld, diegene met 'n baccalaureusgraad is sowat 22 persentasiepunte meer geneig om te stem, maar is slegs 10 persentasiepunte meer geneig om werklik te stem. Dit blyk dalk nie verbasend nie dat bestaande hulpbrongebaseerde teorieë van stemme baie beter is om te voorspel wie stem sal aanmeld (wat is die data wat navorsers in die verlede gebruik het) as wat hulle voorspel wie eintlik stem. So, die empiriese bevinding van Ansolabehere and Hersh (2012) vra vir nuwe teorieë om te stem en te voorspel.

Maar hoeveel moet ons hierdie resultate vertrou? Onthou, hierdie resultate is afhanklik van foutiewe koppeling na swartboksdata met onbekende foute. Meer spesifiek hang die resultate uit op twee sleutelstappe: (1) die vermoë van Katalisator om baie uiteenlopende databronne te kombineer om 'n akkurate meesterdatafile te maak en (2) die vermoë van Katalisant om die opname data te koppel aan sy meesterdatafile. Elk van hierdie stappe is moeilik, en foute in enige stap kan navorsers lei tot die verkeerde gevolgtrekkings. Beide dataverwerking en koppeling is egter van kritieke belang vir die voortbestaan ​​van Katalistiese as 'n maatskappy, sodat dit hulpbronne kan belê in die oplossing van hierdie probleme, dikwels op 'n skaal wat geen akademiese navorser kan ooreenstem nie. In hul koerant gaan Ansolabehere en Hersh deur 'n aantal stappe om die uitslae van hierdie twee stappe te monitor - alhoewel sommige van hulle eie is - en hierdie tjeks kan nuttig wees vir ander navorsers wat die opname data wil koppel aan swart boks groot data bronne.

Wat is die algemene lesse wat navorsers van hierdie studie kan teken? Eerstens is daar geweldige waarde, beide om groot databronne te verryk met opname data en om opname data met groot databronne te verryk (jy kan hierdie studie ook sien). Deur hierdie twee databronne te kombineer, was die navorsers in staat om iets te doen wat óf individueel onmoontlik was. Die tweede algemene les is dat alhoewel geaggregeerde kommersiële databronne, soos die data van die Katalis, nie as "grondwaarheid" beskou kan word nie, kan dit in sommige gevalle nuttig wees. Skeptici vergelyk soms hierdie geaggregeerde kommersiële databron met absolute waarheid en wys daarop dat hierdie databronne kort raak. In hierdie geval maak die skeptici egter die verkeerde vergelyking: alle data wat navorsers gebruik, is nie die absolute waarheid nie. In plaas daarvan is dit beter om gesamentlike, kommersiële databronne te vergelyk met ander beskikbare databronne (bv. Self-aangemelde stemgedrag), wat ook altyd foute het. Ten slotte, die derde algemene les van Ansolabehere en Hersh se studie is dat navorsers in sommige gevalle kan baat vind by die groot beleggings wat baie private maatskappye maak om komplekse sosiale datastelle te versamel en te harmoniseer.