3.6.2 obogaten želenih

Čeprav je lahko grdo, lahko obogatena želenih biti močna.

Drugačen pristop k obravnavanju nepopolnost podatkov digitalnega sledovih je, da ga obogatiti neposredno s podatki raziskave, proces, da bom klic obogateni vprašate. Eden od primerov obogateni asking je študija Burke and Kraut (2014) , ki sem ga prej opisanem v poglavju (poglavje 3.2), o tem, ali interakcije Facebook povečuje prijateljstvo moč. V tem primeru, Burke in Kraut združene podatke raziskave s podatki log Facebook.

Nastavitev, ki Burke in Kraut delalo v pa pomeni, da jih ni bilo treba ukvarjati z dvema velikimi težavami, ki jih raziskovalci opravljajo obogateni sprašuje obraz. Prvič, dejansko povezuje Podatkovni nizi-proces se imenuje zapis povezavo, ujemanje zapisa v enem CCD z ustreznim zapis v drugi nabor podatkov, je lahko težavno in verjetnost napak (bomo videli primer tega problema spodaj ). Drugi glavni problem obogatenega asking je, da bodo pogosto je kakovost digitalnih sledi težko raziskovalci ocenili. Na primer, včasih je proces, skozi katerega se zbirajo, je lastniško in bi lahko dovzetni za številne težave, ki so opisani v poglavju 2. Z drugimi besedami, bo obogaten želenih pogosto vključujejo napak nagnjeni povezovanje raziskav do virov black-box podatkovnih neznan kakovosti. Kljub zaskrbljenosti, da ti dve težavi uvedli, je mogoče izvesti pomembne raziskave s to strategijo, kot je razvidno iz Stephen Ansolabehere in Eitan Hersh (2012) v svoji raziskavi o glasovalnih vzorcih pri glasovanju v ZDA. Smiselno je, da gredo čez te študije v nekaterih podrobnostih, saj je veliko strategij, ki Ansolabehere in Hersh razvitih bo uporabna tudi v drugih aplikacijah obogatenega asking.

Volilna udeležba je bila predmet obsežnih raziskav v politologije, in v preteklosti, razumevanje raziskovalcev, kdo voli in zakaj je bila v glavnem temelji na analizi anketnih podatkov. Glasovanje v ZDA, pa je nenavadno vedenje, da je vlada evidenc, ali je vsak državljan glasovali (seveda, vlada ne evidentira, ki vsako državljane glasov za). Že vrsto let, so na voljo na papirnih obrazcev te vladne volilne evidence, razpršeni v različnih lokalnih vladnih uradih po vsej državi. To je bilo težko, vendar ni nemogoče, politologi, da imajo popolno sliko volivcev in primerjati, kaj ljudje pravijo v raziskavah o tem glasovali na njihovo dejansko vedenje glasovanja (Ansolabehere and Hersh 2012) .

Ampak, zdaj ti glasovali zapisi so bila digitalizirana in več zasebnih podjetij, ki so sistematično zbrani in združeni te volilne evidence za izdelavo celovite master glasovalne datoteke, ki beležijo obnašanje glasovalni vseh Američanov. Ansolabehere in Hersh solastnik z eno od teh družb, Catalist LCC-, da se izkoristi njihovo glavno glasovalno datoteko za pomoč pri razvoju boljšo sliko volivcev. Nadalje, ker se je oprla na digitalnih zapisov, zbranih in kurirala s strani družbe, je ponudil številne prednosti prejšnjih prizadevanj raziskovalcev, ki je bilo opravljeno brez pomoči podjetij in z uporabo analognih zapisov.

Kot mnogi izmed virov digitalne sledovih iz poglavja 2, glavna datoteka Catalist ni vključeval veliko demografskih, vedenjskih in vedenjskih informacij, ki so potrebne Ansolabehere in Hersh. Poleg teh informacij, so še posebej zanima primerjava poročali glasovalno obnašanje potrjene glasovalno obnašanje (tj podatkov v zbirki podatkov katalizator) Ansolabehere in Hersh. Tako so raziskovalci zbrali podatke, ki so želeli v okviru kongresa študije Cooperative volitev (CCES), velike socialne raziskave. Dalje, so raziskovalci dali te podatke katalizator in Catalist dal raziskovalci nazaj v združeno datoteko s podatki, ki so vključeni potrjeno vedenje glasovalno (od katalizator), obnašanje glasovalni samostojno poročali (od CCES) in demografijo in odnos anketirancev (od CCES ). Z drugimi besedami, Ansolabehere in Hersh obogaten podatke glasovalne s podatki raziskave, in spojeno datoteko, ki jim omogoča, da narediš nekaj, da niti datoteka omogočeno posamično.

Z bogati katalizator glavno podatkovno datoteko s podatki raziskave, Ansolabehere in Hersh prišel do treh pomembnih sklepov. Prvič, več poročanja o glasovanju je besen: skoraj polovica niso volivcev poročali glasovanje. Ali pa še en način gledanja na to je, če nekdo poročali glasovanja, da je le 80% možnosti, da so dejansko glasovali. Drugič, preko poročanja ni naključno; pretirano poročanje je bolj pogosta med visokimi dohodki, dobro izobraženi, partizani, ki so zaposleni v javnih zadevah. Z drugimi besedami, ljudje, ki so najverjetneje volili so tudi najbolj verjetno, da je glede glasovanja. Tretja in najbolj kritično, zaradi sistematične narave preko poročanja, dejanske razlike med volivci in ne-volivci so manjše kot se zdi, le iz ankete. Na primer, za tiste z Diploma približno 22 odstotnih točk bolj verjetno, da poročajo glasovanja, vendar le 10 odstotnih točk bolj verjetno, da dejansko glasovanje. Poleg tega obstoječe teorije, ki temelji na virih glasovanja so veliko boljši pri napovedovanju ki bo poročal glasovanja kot, ki dejansko glasov, empirični ugotovitvi, da zahteva nove teorije za razumevanje in napovedovanje glasovanje.

Ampak, koliko moramo zaupati te rezultate? Ne pozabite ti rezultati odvisni od napak nagnjeni povezavo do podatkov black-box z neznano količino napak. Natančneje, rezultati slonijo na dveh ključnih korakih: 1) sposobnost katalizator združiti številne raznolike vire podatkov za izdelavo natančne master datafile in 2) sposobnost katalizator za povezavo anketnih podatkov za svojo glavno datafile. Vsak od teh korakov je precej težko in napake na vsaki stopnji lahko povzroči raziskovalce na napačnih zaključkov. Vendar pa tako obdelavo podatkov in ujemanje sta ključnega pomena za nadaljnji obstoj katalizator kot podjetja, tako da lahko vlagajo sredstva v reševanje teh problemov, ki so pogosto na lestvici, da noben posameznik akademski raziskovalec ali skupina raziskovalcev ujemajo. V nadaljnji obravnavi na koncu poglavja, bom opisal te težave podrobneje in kako Ansolabehere in Hersh graditi zaupanje v njihove rezultate v. Čeprav so ti podatki specifični za to študijo, bodo vprašanja, ki so podobne ti zaradi drugih raziskovalcev, ki želijo povezati z black-box podatkovnih virov digitalni sledovih.

Kakšna so splošna spoznanja raziskovalci lahko črpajo iz te študije? Najprej je tu ogromno vrednost iz bogatenja digitalnih sledi s podatki raziskave. Drugič, čeprav ti združijo, komercialni viri podatkov ne bi smeli obravnavati "ground resnice", v nekaterih primerih pa je lahko koristno. Dejstvo je, da je najbolje, da se primerja te vire podatkov ne absolutne resnice (od katerega bodo vedno sodijo kratka). Namesto tega je bolje, da jih primerjajo z drugimi razpoložljivimi viri podatkov, ki so vedno napake, kot dobro.