3.6.2 Obohacený požadovaná

I když to může být chaotický, obohacený požadovaná může být silný.

Odlišný přístup k řešení neúplnosti digitálních trasování dat je to obohatit přímo s daty průzkumu, proces, který budu říkat obohacený ptát. Jedním z příkladů obohaceného ptát je studium Burke and Kraut (2014) , který jsem popsal dříve v této kapitole (viz kapitola 3.2), o tom, zda interakci na Facebooku zvyšuje sílu přátelství. V takovém případě, Burke a Kraut kombinovat data průzkumu s daty protokolu Facebooku.

Nastavení že Burke a Kraut pracovalo v, nicméně, znamenal, že neměli muset vypořádat s dvěma velkými problémy, které výzkumníci dělají obohacený s dotazem tvář. Za prvé, ve skutečnosti spojením datových souborů-procesu zvaném rekordní vazbu, sladění záznamu v jednom datovém souboru s příslušným záznamem v jiném datový soubor, může být obtížné a náchylné k chybám (uvidíme příklad tohoto problému níže ). Druhým hlavním problémem obohaceného ptát je, že kvalita digitálních stop bude často obtížné pro výzkumné pracovníky k posouzení. Například, někdy proces, při kterém jsou shromažďovány je proprietární a mohl by být citlivé na mnoho problémů popsaných v kapitole 2. Jinými slovy, obohacený požadovaná bude často zahrnovat náchylné k chybám propojení šetření, black-box datových zdrojů neznámý kvalitní. Navzdory obavám, že se tyto dva problémy zavést, je možné provádět důležitý výzkum s touto strategií, jak bylo prokázáno, Stephen Ansolabehere a Eitan Hersh (2012) ve svém výzkumu o postupech hlasování v USA. Stojí za to jít přes tuto studii v nějakém detailu, protože mnoho ze strategií, které Ansolabehere a Hersh vyvinutých budou užitečné i v jiných aplikacích obohaceného ptát.

Volební účast byla předmětem rozsáhlého výzkumu v politické vědě, a v minulosti, pochopení vědce, kteří volí a proč se dosud obecně založena na analýze dat průzkumu. Hlasování ve Spojených státech, nicméně, je neobvyklé chování tím, že vládních záznamů, zda každý občan hlasovali (samozřejmě, že vláda nezaznamenává, z nichž každý občan volí). Po mnoho let se tyto vládní hlasovací záznamy byly k dispozici na papírových formulářích, rozptýlené v různých místních úřadů po celé zemi. To bylo obtížné, ale ne nemožné, protože politologové mít úplný obraz o voličů a porovnat to, co lidé říkají v průzkumech o hlasování do jejich skutečného volebního chování (Ansolabehere and Hersh 2012) .

Ale teď jsou tato hlasovací záznamy byly digitalizovány a řada soukromých společností, které systematicky shromažďovány a sloučil tyto hlasovací záznamy k výrobě komplexních souborů master hlasovací které zaznamenávají chování hlasovací všech Američanů. Ansolabehere a Hersh spolupracuje s jedním z těchto společností-Catalist LCC-in účelem využití jejich hlavní hlasovací soubor pomoci vytvořit lepší obraz voličů. Dále, protože to se spoléhalo na digitálních záznamů shromážděných a kurátor společnost nabídla řadu výhod oproti předchozím snahám vědců, která byla provedena bez pomoci společnostem a pomocí analogových záznamů.

Stejně jako mnoho digitálních stopových zdrojů v kapitole 2, základní dokument Catalist nezahrnovala hodně z demografického, postojů a chování informací, které Ansolabehere a Hersh potřeba. Navíc k těmto informacím, Ansolabehere a Hersh zájem především o porovnávání hlášeny volební chování k ověřeným volebního chování (tj informací v databázi Catalist). Takže, výzkumníci sbírali údaje, které chtěly v rámci studie družstevní kongresových voleb (CCES), velký sociální průzkumu. Dále výzkumníci dali tato data do Catalist a Catalist dali výzkumníci zpět sloučený datový soubor, který zahrnoval ověřené volební chování (od Catalist), hlasovací chování samo-hlášena (od CCES) a demografické údaje a postoje respondentů (z CCES ). Jinými slovy, Ansolabehere a Hersh obohatil data hlasovací s údaji průzkumu a výsledný sloučený soubor jim umožňuje udělat něco, co ani jeden soubor umožnila individuálně.

Obohacením hlavní datový soubor Catalist s údaji průzkumu, Ansolabehere a Hersh přišel ke třem důležitých závěrů. Za prvé, nadměrné podávání zpráv o hlasování je na denním pořádku: téměř polovina nevoličů hlášeny hlasování. Nebo jiný způsob pohledu na to, je-li někdo hlášen hlasování, je tam jen 80% šance, že oni vlastně hlasoval. Za druhé, k nadměrnému oznamování není náhodný; over-reporting je častější u vysokými příjmy, vzdělaný, partyzáni, kteří se věnují ve veřejných záležitostech. Jinými slovy, lidé, kteří jsou s největší pravděpodobností volit také s největší pravděpodobností lhát o hlasování. Za třetí, a nejvíce kriticky, protože systematické povahy nadměrnému oznamování, skutečné rozdíly mezi voliči a non-voliči jsou menší, než se zdá jen z průzkumů. Například ty, které se bakalářského studia jsou asi 22 procentních bodů více pravděpodobné, že zprávy hlasování, ale pouze 10 procentních bodů více pravděpodobné, že skutečné hlasování. Dále, stávající teorie zdrojů založených na hlasování jsou mnohem lépe předpovídat, kdo bude hlásit hlasování než kdo vlastně hlasy, empirického zjištění, že volá po nové teorie pochopit a předvídat hlasování.

Ale, kolik bychom měli věřit tyto výsledky? Nezapomeňte, tyto výsledky jsou závislé na náchylné k chybám, které odkazují na black-box dat s neznámým množstvím chyb. Přesněji řečeno, výsledky záviset na dvou klíčových krocích: 1) schopnost Catalist spojit mnoho různorodé zdroje dat pro vytvoření přesného hlavní datový soubor a 2) schopnost Catalist propojit data průzkumu ke své hlavní datový soubor. Každý z těchto kroků je poměrně obtížné a chyby na obou kroku může vést výzkumníky k chybným závěrům. Nicméně, oba zpracování dat a přizpůsobení jsou velmi důležité pro pokračující existenci Catalist jako společnost, takže to může investovat prostředky do řešení těchto problémů, často v měřítku že žádný jednotlivec akademický výzkumník nebo skupina výzkumníků může rovnat. V další četbu na konci této kapitoly jsem popsal tyto problémy podrobněji a jak Ansolabehere a Hersh budování důvěry v jejich výsledcích. Ačkoliv jsou tyto údaje jsou specifické pro tuto studii, vzniknou problémy podobné těm, pro jiné výzkumné pracovníky, kteří chtějí propojit black-box digitální stopových datových zdrojů.

Jaké jsou obecné poznatky výzkumníci mohou čerpat z této studie? Za prvé je zde ohromnou hodnotu od obohacování digitální stopy s daty ze statistických zjišťování. Za druhé, i když tyto agregovány, komerční zdroje dat by neměly být považovány za "pozemní pravda", v některých případech může být užitečné. Ve skutečnosti, to je nejlepší porovnat tyto zdroje dat není absolutní pravdy (ze kterých budou vždy nedosahují). Spíše je lepší je v porovnání s jinými dostupnými zdroji dat, které vždy obsahují chyby stejně.