3.6.2 Obohatený požadovaná

Aj keď to môže byť chaotický, obohatený požadovaná môže byť silný.

Odlišný prístup k riešeniu neúplnosti digitálnych trasovanie dát je to obohatiť priamo s dátami prieskumu, proces, ktorý budem hovoriť obohatený pýtať. Jedným z príkladov obohateného pýtať je štúdium Burke and Kraut (2014) , ktorý som opísal skôr v tejto kapitole (pozri kapitolu 3.2), o tom, či interakciu na Facebooku zvyšuje silu priateľstva. V takom prípade, Burke a Kraut kombinovať dáta prieskumu s dátami protokolu Facebooku.

Nastavenie že Burke a Kraut pracovalo v, však, znamenal, že nemali musieť vysporiadať s dvoma veľkými problémami, ktoré výskumníci robia obohatený s dotazom tvár. Po prvé, v skutočnosti spojením dátových súborov-procese zvanom rekordný väzbu, zladenie záznamu v jednom dátovom súbore s príslušným záznamom v inom dátový súbor, môže byť ťažké a náchylné k chybám (uvidíme príklad tohto problému nižšie ). Druhým hlavným problémom obohateného pýtať je, že kvalita digitálnych stôp bude často ťažké pre výskumníkov na posúdenie. Napríklad, niekedy proces, pri ktorom sú zhromažďované je proprietárny a mohol by byť citlivé na mnoho problémov popísaných v kapitole 2. Inými slovami, obohatený požadovaná bude často zahŕňať náchylné k chybám prepojeniu šetrenie, black-box dátových zdrojov neznámy akosti. Napriek obavám, že sa tieto dva problémy zaviesť, je možné vykonávať dôležitý výskum s touto stratégiou, ako bolo preukázané, Stephen Ansolabehere a Eitan Hersh (2012) vo svojom výskume o postupoch hlasovania v USA. Stojí za to ísť cez túto štúdiu v nejakom detaile, pretože mnoho zo stratégií, ktoré Ansolabehere a Hersh vyvinutých budú užitočné aj v iných aplikáciách obohateného pýtať.

Volebná účasť bola predmetom rozsiahleho výskumu v politickej vede, a v minulosti, pochopenie vedcov, ktorí volia a prečo sa doteraz všeobecne založená na analýze dát prieskumu. Hlasovanie v Spojených štátoch, však, je neobvyklé správanie tým, že vládnych záznamov, či každý občan hlasovali (samozrejme, že vláda nezaznamenáva, z ktorých každý občan volí). Po mnoho rokov sa tieto vládne hlasovacie záznamy boli k dispozícii na papierových formulároch, rozptýlené v rôznych miestnych úradov po celej krajine. To bolo ťažké, ale nie nemožné, pretože politológovia mať úplný obraz o voličov a porovnať to, čo ľudia hovoria v prieskumoch o hlasovaní do ich skutočného volebného správania (Ansolabehere and Hersh 2012) .

Ale teraz týchto hlasovacích záznamy boli digitalizované a rad súkromných spoločností, ktoré systematicky zhromažďované a zlúčil tieto hlasovacie záznamy na výrobu komplexných súborov master hlasovacie ktoré zaznamenávajú správanie hlasovacie všetkých Američanov. Ansolabehere a Hersh spolupracuje s jedným z týchto spoločností-Catalist LCC-in účelom využitia ich hlavné hlasovacie súbor pomôcť vytvoriť lepší obraz voličov. Ďalej, pretože to sa spoliehalo na digitálnych záznamov zhromaždených a kurátor spoločnosť ponúkla množstvo výhod oproti predchádzajúcim snahám vedcov, ktorá bola vykonaná bez pomoci spoločnostiam a pomocou analógových záznamov.

Rovnako ako mnoho digitálnych stopových zdrojov v kapitole 2, základný dokument Catalist nezahŕňala veľa z demografického, postojov a správania informácií, ktoré Ansolabehere a Hersh potreba. Navyše k týmto informáciám, Ansolabehere a Hersh záujem predovšetkým o porovnávaní hlásené volebné správanie k overeným volebného správania (tj informácií v databáze Catalist). Takže, výskumníci zbierali údaje, ktoré chceli v rámci štúdie družstevné kongresových volieb (CCES), veľký sociálny prieskumu. Ďalej výskumníci dali tieto dáta do Catalist a Catalist dali výskumníci späť zlúčený dátový súbor, ktorý zahŕňal overené volebné správanie (od Catalist), hlasovacie správanie samo-hlásená (od CCES) a demografické údaje a postoje respondentov (z CCES ). Inými slovami, Ansolabehere a Hersh obohatil dáta hlasovacie s údajmi prieskumu a výsledný zlúčený súbor im umožňuje urobiť niečo, čo ani jeden súbor umožnila individuálne.

Obohatením hlavný dátový súbor Catalist s údajmi prieskumu, Ansolabehere a Hersh prišiel k trom dôležitých záverov. Po prvé, nadmerné podávanie správ o hlasovanie je na dennom poriadku: takmer polovica nevoličov hlásené hlasovania. Alebo iný spôsob pohľadu na to, ak je niekto hlásený hlasovania, je tam len 80% šanca, že oni vlastne hlasoval. Po druhé, k nadmernému oznamovanie nie je náhodný; over-reporting je častejšia u vysokými príjmami, vzdelaný, partizáni, ktorí sa venujú vo verejných záležitostiach. Inými slovami, ľudia, ktorí sú s najväčšou pravdepodobnosťou voliť tiež s najväčšou pravdepodobnosťou klamať o hlasovaní. Po tretie, a najviac kriticky, pretože systematickej povahy nadmernému oznamovanie, skutočné rozdiely medzi voličmi a non-voliči sú menšie, než sa zdá len z prieskumov. Napríklad tie, ktoré sa bakalárskeho štúdia sú asi 22 percentuálnych bodov viac pravdepodobné, že správy hlasovania, ale len 10 percentuálnych bodov viac pravdepodobné, že skutočné hlasovanie. Ďalej, existujúce teórie zdrojov založených na hlasovanie sú oveľa lepšie predpovedať, kto bude hlásiť hlasovanie než kto vlastne hlasy, empirického zistenie, že volá po novej teórie pochopiť a predvídať hlasovania.

Ale, koľko by sme mali veriť tieto výsledky? Nezabudnite, tieto výsledky sú závislé na náchylné k chybám, ktoré odkazujú na black-box dát s neznámym množstvom chýb. Presnejšie povedané, výsledky závisieť na dvoch kľúčových krokoch: 1) schopnosť Catalist spojiť veľa rôznorodé zdroje dát pre vytvorenie presného hlavné dátový súbor a 2) schopnosť Catalist prepojiť dáta prieskumu k svojej hlavnej dátový súbor. Každý z týchto krokov je pomerne ťažké a chyby na oboch kroku môže viesť výskumníkov k chybným záverom. Avšak, obaja spracovanie dát a prispôsobenie sú veľmi dôležité pre pokračujúcu existenciu Catalist ako spoločnosť, takže to môže investovať prostriedky do riešenia týchto problémov, často v mierke že žiadny jednotlivec akademický výskumník alebo skupina výskumníkov môže rovnať. V ďalšej čítanie na konci tejto kapitoly som opísal tieto problémy podrobnejšie a ako Ansolabehere a Hersh budovanie dôvery v ich výsledkoch. Hoci sú tieto údaje sú špecifické pre túto štúdiu, vzniknú problémy podobné tým, pre iných výskumných pracovníkov, ktorí chcú prepojiť black-box digitálny stopových dátových zdrojov.

Aké sú všeobecné poznatky výskumníci môžu čerpať z tejto štúdie? Po prvé je tu ohromnú hodnotu od obohacovania digitálne stopy s dátami zo štatistických zisťovaní. Po druhé, aj keď tieto agregujú, komerčné zdroje údajov by sa nemali považovať za "pozemné pravda", v niektorých prípadoch môže byť užitočné. V skutočnosti, to je najlepšie porovnať tieto zdroje dát nie je absolútne pravdy (z ktorých budú vždy nedosahujú). Skôr je lepšie je v porovnaní s inými dostupnými zdrojmi dát, ktoré vždy obsahujú chyby rovnako.