3.6.2 Obogaćen početne

Iako to može biti neuredan, obogaćen molba može biti moćna.

Drugačiji pristup rješavanju nepotpunosti digitalnih podataka u tragovima je da ga obogatiti izravno s anketnih podataka, proces koji ću nazvati obogaćen pitanju. Jedan primjer obogaćenog molba je proučavanje Burke and Kraut (2014) , koji sam ranije opisan u poglavlju (3.2), o tome da li interakcije na Facebook povećava prijateljstvo snagu. U tom slučaju, Burke i Kraut kombinaciji ankete podatke s Facebooka log podataka.

Postavka da Burke i Kraut su radili u, međutim, značilo da ne moraju nositi s dva velika problema koji znanstvenici rade obogaćen pita lice. Prvo, zapravo povezivanje setovima-a podataka proces koji se naziva zapisa vezu, slaganje sa rekordnih u jednom skupu podataka s odgovarajućim zapisima u drugom set podataka-može biti teško i pogrešaka (vidjet ćemo primjer ovog problema u nastavku ). Drugi glavni problem obogaćenog molba je da je kvaliteta digitalnih tragova često će biti teško za Istraživači procijeniti. Na primjer, ponekad je proces kroz koji se prikupljaju vlasništvo i može biti osjetljiv na mnoge od problema opisanih u Poglavlju 2. Drugim riječima, obogaćen tražena često će uključivati ​​pogreške skloni povezivanje istraživanja u crno-box izvora podataka iz nepoznate kvalitete. Unatoč zabrinutosti da ta dva problema uvesti, moguće je provesti važna istraživanja s ovom strategijom kao dokazana je Stephen Ansolabehere i Eitan Hersh (2012) u svojim istraživanjima o glasačkih obrazaca u SAD-u. Vrijedno je da ide preko ove studije u nekim detaljima, jer mnogi od strategija koje Ansolabehere i Hersh razvijenih će biti korisna za druge primjene obogaćenog pitanju.

Odaziv birača je bio predmet opsežnih istraživanja u političkoj znanosti, te u prošlosti, istraživača razumijevanje koji glasuje i zašto je uglavnom temelje na analizi podataka ankete. Glasovanje u SAD-u, međutim, neobično ponašanje u da vlada zapisa li svaki građanin ima glasali (naravno, vlada ne bilježi koji je svaki građanin glasova za). Već dugi niz godina, te vladine glasovanja zapisi bili dostupni na papirnatim obrascima, raspršena u raznim uredima lokalne samouprave diljem zemlje. To je teško, ali ne i nemoguće, jer politolozi imati kompletnu sliku biračkog tijela i usporediti ono što ljudi kažu u anketama o glasovanju na njihovu stvarnu biračkog ponašanja (Ansolabehere and Hersh 2012) .

No, sada su ti zapisi glasuju su digitalizirani, a broj privatnih tvrtki sustavno prikupljaju i spojio ta glasačka evidencije za izradu sveobuhvatne majstor glasa datoteke koje bilježe ponašanje glasovanje svih Amerikanaca. Ansolabehere i Hersh udružio s jednim od tih tvrtki-Catalist LCC-u kako bi se koristiti magistarskog glasovanja datoteku kako bi pomogli razviti bolju sliku biračkog tijela. Nadalje, budući da se oslanjao na digitalnim zapisima prikupljenim i odabrane od strane tvrtke, ona nudi niz prednosti u odnosu na prethodne napore istraživača koji su učinili bez pomoći tvrtki i korištenjem analognih zapisa.

Kao i mnogi od digitalnih izvora u tragovima u poglavlju 2, Catalist glavna datoteka ne uključuje mnogo demografske, stavova i ponašanja informacije koje Ansolabehere i Hersh je potrebna. Uz ove informacije, Ansolabehere i Hersh bili posebno zainteresirani za uspoređivanje prijavljeno ponašanje birača na potvrđene ponašanju birača (tj informacija u Catalist bazi podataka). Dakle, istraživači su prikupili podatke koji su htjeli u sklopu suradnje kongresnom izbornom studija (CCE-ova), velikom društvenom istraživanju. Dalje, istraživači su dali te podatke u Catalist i Catalist dali istraživači sigurnosne spojeni podatkovnu datoteku koja je uključivala ovjeren glasačko ponašanje (od Catalist), self-prijavljena ponašanje birača (iz CCE-ova) i demografske podatke i stavove ispitanika (od CCE-ova ). Drugim riječima, Ansolabehere i Hersh obogaćen podatke glasa s podacima istraživanja, a dobiveni spojeni datoteka omogućuje im da učine nešto što ni datoteka omogućeno individualno.

Obogaćivanjem Catalist glavnu podatkovnu datoteku s podacima ankete, Ansolabehere i Hersh došao do tri važna zaključka. Prvo, nad-izvješćivanje glasovanja je u porastu: gotovo polovica nisu birača izvijestio glasovanje. Ili, još jedan način gledanja na to je li netko prijavio glasovanje, postoji samo 80% šanse da su oni zapravo glasovali. Drugo, nad-izvješćivanje nije slučajan; nad-izvješćivanje je češći među visokim prihodima, dobro obrazovani, partizani koji su sudjelovali u javnim poslovima. Drugim riječima, ljudi koji su najvjerojatnije glasovati također su najvjerojatnije lažu o glasovanju. Treće, a većina kritički, zbog sustavnog prirode nad-izvješćivanje, stvarne razlike između birača i ne-birača manje nego što se čini samo iz ankete. Na primjer, oni s Celibat stupanj oko 22 postotnih bodova više vjerojatno da će izvješće glasovanja, ali samo 10 postotnih bodova više vjerojatno da će stvarni glas. Nadalje, postojeća resursna teorija glasovanja su puno bolji u predviđanju tko će izvijestiti glasovanje nego tko zapravo glasa, empirijskog nalaza koji poziva na nove teorije razumjeti i predvidjeti glasovanje.

No, koliko bismo trebali vjerovati ove rezultate? Sjeti se ti rezultati ovise o pogrešci sklone povezivanja u crno-box podataka s nepoznatim količinama pogreške. Točnije, rezultati ovisiti o dva ključna koraka: 1) sposobnost Catalist kombinirati više različitih izvora podataka za izradu točne master datafile i 2) sposobnost Catalist za povezivanje podataka iz ankete u svoj majstor datafile. Svaki od tih koraka je prilično teško i pogreške u bilo kojem koraku moglo dovesti istraživača do pogrešnih zaključaka. Međutim, i za obradu podataka i usklađivanje su ključni za nastavak postojanja Catalist kao tvrtka tako da se može ulagati sredstva u rješavanju tih problema, često na skali da niti jedan pojedinac akademski istraživač ili grupa istraživača mogu dosegnuti. U daljnje čitanje na kraju poglavlja, opisujem te probleme u više detalja i kako Ansolabehere i Hersh izgraditi povjerenje u njihove rezultate. Iako su ti detalji su specifični za ovu studiju, problemi slični ovima će nastati za druge istraživače koji žele povezati s crno-box digitalni tragovima izvora podataka.

Koje su opće pouke istraživači mogu izvući iz ove studije? Prvo, tu je ogromna vrijednost od obogaćivanja digitalne tragove s podacima ankete. Drugo, iako su agregirani, komercijalni izvori podataka ne bi trebalo smatrati "terenu istina", u nekim slučajevima može biti korisno. U stvari, najbolje je usporediti te izvora podataka ne apsolutna istina (iz koje će uvijek podbaci). Umjesto toga, bolje je da ih usporediti s drugim raspoloživim izvorima podataka, koji uvijek imaju greške, kao dobro.