3.6.1 Rikutud küsib

Rikastatud päringute käigus koguvad uuringuandmed konteksti ümber suure andmeallika, mis sisaldab mõningaid olulisi mõõtmisi, kuid kellel puuduvad teised.

Üks uuringusuuringute andmete ja suurte andmeallikate kombineerimise viis on protsess, mida ma kutsun rikastatud küsiks . Kui rikastatud küsib, sisaldab suur andmeallikas mõningaid olulisi mõõtmisi, kuid puuduvad muud mõõtmised, nii et teadlane kogub need puuduvad mõõtmised uuringusse ja seob seejärel kaks andmeallikat kokku. Üheks näiteks rikastatud küsitluseks on Burke and Kraut (2014) uuring selle kohta, kas suhtlemine Facebookis suurendab sõprustegevuse tugevust, mida ma kirjeldasin jaotises 3.2). Sellisel juhul kombinesid Burke ja Kraut uuringute andmed Facebooki logide andmetega.

Kuid Burke ja Kraut töökorraldus seisnes selles, et nad ei pidanud tegelema kahe suure probleemiga, mida teadlased, kes rikastavad, küsivad tavaliselt silmitsi. Esiteks, individuaalset taset hõlmavate andmekogumite ühendamine tegelikult, protsess, mida nimetatakse rekordite ühendamiseks , võib olla keeruline, kui mõlemas andmeallikas ei ole ühtegi unikaalset identifikaatorit, mida saab kasutada, et tagada õiges kirje ühes andmestikus vastavus õige kirjega teises andmestikus. Teine põhiprobleem rikastatud küsimisega on see, et suure andmeallika kvaliteet on teadlastele sageli keeruline hinnata, kuna andmete loomise protsess võib olla omandiline ja olla vastuvõtlik paljudele 2. peatükis kirjeldatud probleemidele. Teisisõnu tähendab rikastatud küsimine tihti, et uuringud seostuvad viga, mis on seotud tundmatu kvaliteediga musta kasti andmeallikatega. Hoolimata nendest probleemidest võib aga rikastatud küsimust kasutada oluliste uuringute tegemiseks, nagu näitasid Stephen Ansolabehere ja Eitan Hersh (2012) oma uuringutes hääletusmustrite kohta Ameerika Ühendriikides.

Valimisaktiivsust on poliitikateaduses põhjalikult uuritud ja varem on teadlaste arusaam sellest, kes hääletab ja miks üldjuhul tugines uuringuandmete analüüsil. Hääletamine Ameerika Ühendriikides on ebatavaline käitumine, kuna valitsus registreerib, kas iga kodanik on hääletanud (loomulikult valitsus ei kirjuta, kes iga kodanik hääletab). Paljude aastate jooksul on need valitsuse hääletustulemused kättesaadavad paberkandjal, mis on hajutatud erinevates kohaliku omavalitsuse üksustes kogu riigis. See tegi väga keeruliseks, kuid mitte võimatuks, et poliitikutel oleks täielik pilt valijaskonnast ja võrreldaks seda, mida inimesed hääletustulemuste küsitlustes oma tegelikust valimisaktiivsusest ütlevad (Ansolabehere and Hersh 2012) .

Kuid need hääletustulemused on nüüd digiteeritud ja mitmed eraettevõtted kogusid ja ühendasid süstemaatiliselt, et saada terviklikke meistrikohtute faile, mis sisaldavad kõigi ameeriklaste valimisaktiivsust. Ansolabehere ja Hersh partnerid üks neist ettevõtetest - Catalist LCC-i, et kasutada oma peamist hääletusfaili, et aidata valijatel paremat pilti kujundada. Veelgi enam, kuna nende uuring tugines digitaalartiklitele, mida kogus ja kureeris ettevõte, kes oli investeerinud oluliselt andmete kogumisse ja ühtlustamisse, pakkus ta mitmeid eeliseid võrreldes eelmiste jõupingutustega, mis olid tehtud ilma ettevõtete abita ja analoogsete dokumentide abil.

Nagu paljud 2. peatükis olevad suured andmeallikad, ei sisaldanud katalüütiline põhitoimik enamiku demograafilist, suhtumist ja käitumisalast teavet, mida Ansolabehere ja Hersh vajasid. Tegelikult olid nad eriti huvitatud teatatud hääletuskäitumise võrdlemisest valideeritud valimisaktiivsusega vaatlustes (st Katalisti andmebaasis sisalduv teave). Nii Ansolabehere ja Hersh kogusid andmeid, mida nad soovisid suureks sotsiaalseks uuringuks CCES, mida mainiti varem selles peatükis. Seejärel andsid nad oma andmed katalüsaatorile ja Catalist andis neile tagasi koondatud andmefaili, mis sisaldas valideeritud hääletust käitudes (katalüsaatorist), enesekontrolliga hääletamise käitumist (CCESist) ja vastajate demograafilist ja suhtumist (CCESist) (joonis 3.13). Teisisõnu ühendasid Ansolabehere ja Hersh hääletustulemuste andmed uuringuandmetega, et teha uuringuid, mis ei olnud võimalikud kas andmeallikaga individuaalselt.

Joonis 3.13: Ansolabehere'i ja Hershi uuringu skeem (2012). Peaandmete faili loomiseks kasutab Catalist mitme eri allika kaudu teavet. Selline ühinemisprotsess, olenemata sellest, kui ettevaatlik, läheb esialgsetes andmeallikates vigu ja tutvustab uusi vigu. Teine vigade allikas on uuringuandmete ja peamise andmekogu vaheline rekordiline seos. Kui mõlemal andmeallikonnal oleks kõigil inimestel stabiilne ja unikaalne tunnus, siis oleks seos pisut. Kuid Katalistati pidas sidet kasutama ebatäiuslikke tunnuseid, antud juhul nime, sugu, sünnikuupäeva ja koduaadressi. Kahjuks võib paljudel juhtudel olla puudulikud või ebatäpsed andmed; valija nimega Homer Simpson võib tunduda nagu Homer Jay Simpson, Homie J Simpson või isegi Homer Sampsin. Vaatamata katalüsaatori peaarv andmefaili vigadele ja vigu kirjendussidemele, suutsid Ansolabehere ja Hersh oma hinnangutest usaldust läbi viia mitmel erineval kontrollitüübil.

Joonis 3.13: Ansolabehere and Hersh (2012) uuringu skeem Ansolabehere and Hersh (2012) . Peaandmete faili loomiseks kasutab Catalist mitme eri allika kaudu teavet. Selline ühinemisprotsess, olenemata sellest, kui ettevaatlik, läheb esialgsetes andmeallikates vigu ja tutvustab uusi vigu. Teine vigade allikas on uuringuandmete ja peamise andmekogu vaheline rekordiline seos. Kui mõlemal andmeallikonnal oleks kõigil inimestel stabiilne ja unikaalne tunnus, siis oleks seos pisut. Kuid Katalistati pidas sidet kasutama ebatäiuslikke tunnuseid, antud juhul nime, sugu, sünnikuupäeva ja koduaadressi. Kahjuks võib paljudel juhtudel olla puudulikud või ebatäpsed andmed; valija nimega Homer Simpson võib tunduda nagu Homer Jay Simpson, Homie J Simpson või isegi Homer Sampsin. Vaatamata katalüsaatori peaarv andmefaili vigadele ja vigu kirjendussidemele, suutsid Ansolabehere ja Hersh oma hinnangutest usaldust läbi viia mitmel erineval kontrollitüübil.

Koos nende andmefailidega jõudis Ansolabehere ja Hersh kolme olulise järelduseni. Esiteks on hääletamise ülearuandmine ohjeldamatu: peaaegu pooled hääletajatest hääletasid, ja kui keegi teatas hääletamisest, on ainult 80% võimalus, et nad tegelikult hääletasid. Teiseks, ülearuandmine ei ole juhuslik: ülearuandlus on sagedamini kõrge sissetulekute, hästi haritud ja partisanide hulgas, kes tegelevad avalike suhetega. Teisisõnu hääletavad kõige tõenäolisemalt ka kõige tõenäolisemalt hääletavad inimesed. Kolmandaks, ja kõige kriitilisemalt, kuna ülearuandmine on süstemaatiline, on tegelikke erinevusi valijate ja mitteresidentide vahel väiksem kui need, mis ilmnevad vaid küsitlustest. Näiteks on bakalaureusekraadiga õpilased umbes 22 protsendipunkti rohkem hääletamist andvad, kuid on vaid 10 protsendipunkti tõenäolisemalt hääletavad. Selgub, et võib-olla pole üllatav, et olemasolevad ressursipõhised hääleõiguse teooriad on palju paremini prognoosida, kes teavitab hääletamisest (mis on andmed, mida teadlased on minevikus kasutanud), kui nad prognoosivad, kes tegelikult hääletab. Seega Ansolabehere and Hersh (2012) empiiriline leidmine nõuab uusi teooriaid hääletamise mõistmiseks ja prognoosimiseks.

Aga kui palju peaksime neid tulemusi usaldama? Pidage meeles, et need tulemused sõltuvad veakindlusest, mis seob musta kasti andmed teadmata viga. Täpsemalt, tulemused sõltuvad kahest põhietapist: (1) Catalisti võimekus ühendada mitmed erinevad andmeallikad, et saada täpne peaminister andmefail ja (2) Katalisti suutlikkus seostada küsitluseandmed oma põhifailiga. Kõik need sammud on keerulised ja vigu mõlemas etapis võivad teadlased teha valed järeldused. Kuid nii andmetöötlus kui ka sidumine on kriitilise tähtsusega ettevõtte Catalist'i jätkuva olemasolu tõttu, mistõttu on võimalik investeerida ressursse nende probleemide lahendamiseks, sageli ulatuses, mida ükski akadeemiline teadlane ei suuda. Ansolabehere ja Hersh oma artiklis näevad ette mitmed sammud, et kontrollida nende kahe sammu tulemusi - kuigi mõned neist on omandiõigused - ja need kontrollid võivad olla kasulikud teistele teadlastele, kes soovivad uuringuandmete seostamist musta kasti suurte andmetega allikad.

Millised on üldised õppetunnid, mida teadlased saavad sellest uuringust teha? Esiteks on tohutult väärtus nii suurte andmeallikate rikastamisel uuringuandmetega kui ka uuringuandmete rikastamisega suurte andmeallikatega (näete seda uuringut mõlemal viisil). Nende kahe andmeallika ühendades võisid teadlased teha midagi, mis oli võimatu kas eraldi. Teine üldine õppetund on see, et kuigi koondatud kommertsandmete allikaid, nagu Catalist'i andmeid, ei tohiks pidada "maapinna tõeks", võivad mõnel juhul olla kasulikud. Skeptikud võrdlevad mõnikord seda koondatud, kaubanduslikku andmeallikat absoluutse tõega ja osutavad sellele, et need andmeallikad langevad. Kuid sel juhul skeptikud teevad vale võrdluse: kõik andmed, mida teadlased kasutavad, ei täida absoluutset tõde. Selle asemel on parem võrrelda koondatud äriandmete allikaid teiste kättesaadavate andmeallikatega (nt iseenesest teatatud hääletuskäitumine), millel on alati ka vigu. Lõpuks on Ansolabehere'i ja Hershi uuringu kolmas üldine õppetund see, et mõnes olukorras võivad teadlased kasu saada tohututest investeeringutest, mida paljud eraettevõtted teevad komplekssete sotsiaalsete andmekogumite kogumisel ja ühtlustamisel.