3.6.2 Rikastatud paludes

Kuigi see võib olla segane, rikastatud paludes saab võimas.

Teistsugune lähenemine tegelevad puudulikkus digitaalne jälg andmed on rikastada seda otse uuringu andmed, protsess, mis ma helistan rikastatud küsimata. Üks näide rikastatud paludes on uuring Burke and Kraut (2014) , mida ma varem kirjeldatud peatükis (punkt 3.2), kas suheldes Facebookis suurendab sõprust tugevust. Sellisel juhul Burke ja Kraut kombineeritud uuringu andmed Facebook log andmed.

Seade, mis Burke ja Kraut töötasid aga tähendas, et nad ei pea tegelema kaks suurt probleemi, et teadlased teevad rikastatud küsib nägu. Esiteks, tegelikult ühendades andmekogumid-protsessi nimetatakse rekord seost, sobitamist rekordi ühe andmekogumi vastava rekordi teiste andmekogumi-olla raske ja vigu (näeme näide sellest probleemist alla ). Teine peamine probleem rikastatud paludes, et kvaliteeti digitaalse jäljed on sageli raske teadlased hinnata. Näiteks mõnikord protsess, mille kaudu on kogutud on patenteeritud ja võib olla vastuvõtlik paljud probleemid on kirjeldatud peatükis 2. Teiste sõnadega, rikastatud küsib siis tihti on vigu sidumine vaatluste black-box andmeallikate teadmata kvaliteeti. Vaatamata muret, et need kaks probleemi tutvustada, siis on võimalik läbi viia olulised teadusuuringute seda strateegiat näitas Stephen Ansolabehere ja Eitan Hersh (2012) oma uurimistööd hääletustulemuste USAs. Tasub minna üle selle uuringu üsna üksikasjalikult, sest paljud strateegiad, mis Ansolabehere ja Hersh arenenud on kasulik teised rakendused rikastatud küsimata.

Valimisaktiivsus on olnud ulatuslike uuringute objekt politoloogiat, ja minevikus, teadlaste arusaam sellest, kes hääletab ja miks on üldjuhul põhineb analüüs uuringu andmed. Hääletamine USA, aga on ebatavaline käitumine, et valitsuse andmed, kas iga kodanik on hääletanud (muidugi, et valitsus ei salvesta, kes iga kodaniku hääled). Aastaid need valitsusasutuste hääletamisprotokolle olid olemas paberkandjal, hajutatud erinevate omavalitsuste kontorid üle kogu riigi. See tegi raske, kuid mitte võimatu, politoloogid on täielik ülevaade valijad ja võrrelda, mida inimesed ütlevad küsitlustes hääletamise nende tegelik hääletamise (Ansolabehere and Hersh 2012) .

Aga nüüd need hääletamisprotokollide on digiteeritud ja mitmed eraettevõtted on süstemaatiliselt kogutud ja ühendatakse need hääletamisprotokolle toota terviklik kapten hääletamise faile salvestada hääletanud kõik ameeriklased. Ansolabehere ja Hersh partneriks üks firmadest-Catalist LCC-, et kasutada oma isanda hääletamise faili abiks parema pildi valijatele. Lisaks, kuna see tugines digitaaldokumentide kogutud kuraatorid firma pakkus ta mitmeid eeliseid võrreldes eelmise jõupingutusi teadlased, et oli tehtud abita ettevõtted ja kasutades analoog arvestust.

Nagu paljud digitaalne jälg allikatest peatükis 2 Catalist peatoimikule ei sisalda palju demograafiliste, suhtumise ja käitumuslikud teavet, mis Ansolabehere ja Hersh vaja. Lisaks sellele teabele, Ansolabehere ja Hersh olid eriti huvitatud võrrelda teatatud hääletamise käitumist valideeritud hääletamise käitumine (st teabe Catalist andmebaasi). Niisiis, kogusid teadlased andmeid, et nad tahtsid osana Cooperative Kongressi valimine Study (CCES), suur sotsiaalne uurimus. Seejärel andsid teadlased neid andmeid Catalist ja Catalist andis teadlastele tagasi ühinenud andmefail, mis sisaldas valideeritud hääletamise (alates Catalist), füüsilisest isikust teatatud hääletamise (alates CCES) ja demograafia ja hoiakud vastanutest (alates CCES ). Teisisõnu, Ansolabehere ja Hersh rikastanud hääletamise andmeid uuringu andmed ja saadud ühinenud fail võimaldab neil teha midagi, mis ei ole faili võimaldas individuaalselt.

Autor rikastab Catalist master andmefaili uuringu andmed, Ansolabehere ja Hersh tuli kolm olulist järeldust. Esiteks, üle-aruandluse hääletamise on ohjeldamatu: peaaegu pooled mitte-valijad teatatud hääletamisel. Või teine ​​võimalus vaadata on, kui keegi teatatud hääletamine, seal on ainult 80% tõenäosus, et nad tegelikult hääletasid. Teiseks, üle-aruandlus ei ole juhuslik; üle-aruandlus on rohkem levinud suure sissetulekuga, haritud, partisanid, kes tegelevad avalike suhete. Teisisõnu, inimesed, kes on tõenäoliselt hääletama, on ka kõige tõenäolisem valetavad hääletamisel. Kolmas ja kõige kriitiliselt, sest süstemaatilist iseloomu üle-aruandluse tegelik erinevused valijad ja mitte valijate on väiksemad kui nad ilmuvad lihtsalt uuringutest. Näiteks need, kellel on bakalaureuse kraadi on umbes 22 protsenti suurem tõenäosus aru hääletamine, kuid ainult 10 protsenti suurema tõenäosusega tegelik hääl. Lisaks olemasolevate ressursside baasil teooriad hääletamise on palju paremini prognoosida, kes esitab hääletamise üle, kes tegelikult häält, empiiriline leid, mis nõuab uusi teooriaid mõista ja ennustada hääletamisel.

Aga, kui palju me peaksime usaldama neid tulemusi? Jäta need tulemused sõltuvad vigu ühendab musta kasti andmete teadmata koguses viga. Täpsemalt, tulemused sõltuda kaks peamist etappi: 1) võime Catalist ühendada paljude erinevate andmeallikate mille täpne kapten andmefail ja 2) võime Catalist siduda uuringu andmed oma master andmefail. Kõik need sammud on üsna raske ja vead kas samm võib põhjustada teadlaste valesid järeldusi. Kuid nii andmetöötluse ja sobitamine on kriitilised püsimise Catalist kui firma, et ta saaks investeerida vahendeid nende probleemide lahendamisel, sageli skaalal et ükski teadlane või teadlaste rühm ei sobi. Edasises lugemise lõpus peatükist, ma kirjeldada neid probleeme täpsemalt ja kuidas Ansolabehere ja Hersh luua usaldust nende tulemusi. Kuigi need andmed on omased Selles uuringus küsimusi sarnane need tekivad teised teadlased, kes soovivad siduda black-box digitaalne jälg andmeallikaid.

Millised on üldised õppetunnid teadlased saaksid teha sellest uuringust? Esiteks on tohutu väärtus rikastav digitaalse jälgi koos uuringu andmed. Teiseks, kuigi need kokku liita, kaubanduslike andmete allikad ei tohiks pidada "maa tõde", mõnel juhul võib olla kasulik. Tegelikult, see on parim, et võrrelda neid andmeid allikad mitte absoluutne tõde (millest nad on alati jäävad). Pigem on see parem võrrelda neid teiste kättesaadavate andmete põhjal, mis alati on vigu ka.