3.6.1 Obohacené dotazování

V obohaceném dotazu vytváří data průzkumu kontext kolem velkého zdroje dat, který obsahuje některá důležitá měření, ale chybí jiná.

Jeden způsob, jak kombinovat data průzkumu a velké zdroje dat, je proces, který nazývám obohaceným dotazem . V obohaceném dotazu obsahuje velký zdroj dat některá důležitá měření, ale postrádá další měření, takže výzkumník shromáždí tato chybějící měření v průzkumu a poté propojí dva zdroje dat dohromady. Jedním příkladem obohaceného dotazování je studie Burke and Kraut (2014) o tom, zda interakce na Facebooku zvyšuje sílu přátelství, kterou jsem popsal v části 3.2). V takovém případě Burke a Kraut kombinovali data průzkumu s daty protokolu Facebook.

Prostředí, ve kterém Burke a Kraut fungovaly, však znamenalo, že se nemuseli vypořádat s dvěma velkými problémy, které výzkumníci dělají obohacenou a obvykle se obávají. Za prvé, ve skutečnosti propojení datových sad jednotlivých úrovní může být proces nazývaný propojení záznamů obtížné, pokud v obou zdrojích dat neexistuje jednoznačný identifikátor, který by mohl být použit k zajištění toho, aby správný záznam v jedné množině dat odpovídal správnému záznamu v jiné datové sadě. Druhým hlavním problémem s obohaceným požadavkem je, že kvalita velkého zdroje dat bude často pro výzkumníky často obtížná, protože proces, kterým jsou tyto údaje vytvořeny, může být vlastní a může být náchylný k mnoha problémům popsaným v kapitole 2. Jinými slovy, obohacené dotazování bude často zahrnovat propojení průzkumů, které jsou náchylné k chybám, na zdroje dat černé krabice o neznámé kvalitě. Navzdory těmto problémům však obohacený dotaz může být použit k provedení důležitého výzkumu, jak ukázaly Stephen Ansolabehere a Eitan Hersh (2012) ve svém výzkumu o volebních vzorcích ve Spojených státech.

Voličská účast byla předmětem rozsáhlého výzkumu v oblasti politických věd a v minulosti znalosti výzkumníků o tom, kdo hlasuje a proč byl obecně založen na analýze údajů z průzkumů. Hlasování ve Spojených státech je však neobvyklé chování v tom, že vláda zaznamenává, zda každý občan hlasoval (samozřejmě, vláda nezaznamenává, pro koho každý občan hlasuje). Po mnoho let byly tyto vládní hlasovací záznamy dostupné na papírových formulářích, které byly rozptýleny v různých místních správních úřadech po celé zemi. Proto bylo velmi obtížné, ale nemožné, aby politologové měli úplný obraz voličů a srovnávali to, co lidé říkají v průzkumech o hlasování se svým vlastním hlasovacím chováním (Ansolabehere and Hersh 2012) .

Tyto záznamy o hlasování jsou nyní digitalizovány a řada soukromých společností systematicky shromažďovala a sloučila je, aby vytvořila komplexní hlavní hlasovací soubory, které obsahují hlasovací chování všech Američanů. Ansolabehere a Hersh spolupracovali s jednou z těchto společností - katalistou LCC - aby využili svůj hlavní hlasovací soubor, aby pomohli vytvořit lepší obraz voličů. Dále proto, že se jejich studie opíralo o digitální záznamy shromážděné a kurátované společností, která investovala značné prostředky do sběru a harmonizace údajů, nabídla řadu výhod oproti předchozím snahám, které se uskutečnily bez pomoci firem a pomocí analogových záznamů.

Stejně jako mnoho z velkých zdrojů dat v kapitole 2, hlavní katalista nezahrnul mnoho demografických, postojových a behaviorálních informací, které Ansolabehere a Hersh potřebovaly. Ve skutečnosti se obzvláště zajímali o porovnávání hlášeného volebního chování v průzkumech s ověřeným hlasovacím chováním (tj. Informace v katalistické databázi). Takže Ansolabehere a Hersh shromáždili data, která chtěli, jako velký společenský průzkum, CCES, zmíněný dříve v této kapitole. Potom poskytli své údaje katalistovi a katalista jim dal zpět sloučený datový soubor, který obsahoval ověřené hlasovací chování (od katalisty), samohlásené hlasovací chování (z CCES) a demografické údaje a postoje respondentů (z CCES) (obrázek 3.13). Jinými slovy, Ansolabehere a Hersh kombinovali údaje o hlasovacích datech s údaji z průzkumu, aby provedli výzkum, který nebyl možný ani s jedním zdrojem dat individuálně.

Obrázek 3.13: Schéma studie Ansolabehere a Hersh (2012). Pro vytvoření hlavního datového souboru katalista kombinuje a sladí informace z mnoha různých zdrojů. Tento proces sdružování, bez ohledu na to, jak pečlivý, bude propagovat chyby v původních zdrojích dat a představí nové chyby. Druhým zdrojem chyb je záznamová vazba mezi daty průzkumu a hlavním datovým souborem. Kdyby každý člověk měl v obou zdrojích dat stabilní a jedinečný identifikátor, pak by spojení bylo triviální. Ale katalista musel provést vazbu pomocí nedokonalých identifikátorů, v tomto případě jméno, pohlaví, rok narození a adresu bydliště. Bohužel v mnoha případech mohou být neúplné nebo nepřesné informace; volič jménem Homer Simpson se může objevit jako Homer Jay Simpson, Homie J Simpson nebo dokonce Homer Sampsin. Navzdory možným chybám v datovém souboru Catalist master a chybách v záznamové vazbě, Ansolabehere a Hersh dokázali vybudovat důvěru ve své odhady prostřednictvím několika různých typů kontrol.

Obrázek 3.13: Schéma studie Ansolabehere and Hersh (2012) . Pro vytvoření hlavního datového souboru katalista kombinuje a sladí informace z mnoha různých zdrojů. Tento proces sdružování, bez ohledu na to, jak pečlivý, bude propagovat chyby v původních zdrojích dat a představí nové chyby. Druhým zdrojem chyb je záznamová vazba mezi daty průzkumu a hlavním datovým souborem. Kdyby každý člověk měl v obou zdrojích dat stabilní a jedinečný identifikátor, pak by spojení bylo triviální. Ale katalista musel provést vazbu pomocí nedokonalých identifikátorů, v tomto případě jméno, pohlaví, rok narození a adresu bydliště. Bohužel v mnoha případech mohou být neúplné nebo nepřesné informace; volič jménem Homer Simpson se může objevit jako Homer Jay Simpson, Homie J Simpson nebo dokonce Homer Sampsin. Navzdory možným chybám v datovém souboru Catalist master a chybách v záznamové vazbě, Ansolabehere a Hersh dokázali vybudovat důvěru ve své odhady prostřednictvím několika různých typů kontrol.

S jejich kombinovaným datovým souborem dospěli Ansolabehere a Hersh ke třem důležitým závěrům. Za prvé, nadměrné hlášení o hlasování je nekontrolovatelné: téměř polovina nezúčastněných nahlásila hlasování a pokud někdo ohlásil hlasování, existuje jen 80% šance, že skutečně hlasovali. Za druhé, nadměrné hlášení není náhodné: nadměrné hlášení je častější u vysoce kvalifikovaných, dobře vzdělaných partizánů, kteří se zabývají veřejnými záležitostmi. Jinými slovy, lidé, kteří s největší pravděpodobností budou hlasovat, také nejspíše lžou o hlasování. Zatřetí a nejkritičtěji, vzhledem k systematickému charakteru nadměrného hlášení, jsou skutečné rozdíly mezi voliči a nonvotery menší, než se objevují jen z průzkumů. Například ti, kteří mají bakalářské vzdělání, mají o 22 procentních bodů větší pravděpodobnost, že ohlásí hlasování, avšak pouze o 10 procentních bodů je pravděpodobné, že budou skutečně hlasovat. Ukazuje se, snad ne překvapivě, že existující teorie o volbách založené na zdrojích jsou mnohem lepší, když předpovídají, kdo bude hlásit hlasování (což jsou údaje, které výzkumníci použili v minulosti), než jsou předpovědi toho, kdo skutečně hlasuje. Empirické zjištění Ansolabehere and Hersh (2012) vyžadují nové teorie, které chápou a předpovídají hlasování.

Ale kolik bychom měli tyto výsledky důvěřovat? Nezapomeňte, že tyto výsledky závisejí na chybném propojení s daty černého boxu s neznámým množstvím chyb. Výsledky konkrétně závisí na dvou klíčových krocích: (1) schopnost katalisty kombinovat mnoho nesourodých zdrojů dat, aby vytvořila přesný master datový soubor a (2) schopnost katalisty propojit data průzkumu se svým hlavním datovým souborem. Každý z těchto kroků je obtížný a chyby v jednom kroku by vedly badatele k nesprávným závěrům. Zpracování a propojení dat jsou však rozhodující pro pokračující existenci katalisty jako společnosti, a proto může investovat prostředky do řešení těchto problémů, často v rozsahu, který nemůže žádný výzkumný pracovník splnit. Ve svém příspěvku Ansolabehere a Hersh projdou řadou kroků, aby zkontrolovali výsledky těchto dvou kroků - ačkoli některé z nich jsou majetkem - a tyto kontroly by mohly být užitečné i pro jiné výzkumníky, kteří chtějí propojit data průzkumu s velkými daty černé krabice Zdroje.

Jaké jsou obecné poznatky, které výzkumníci mohou čerpat z této studie? Za prvé, existuje obrovská hodnota jak z obohacování velkých datových zdrojů s údaji z průzkumů, tak z obohacení údajů z průzkumů s velkými zdroji dat (tuto studii můžete vidět oba způsoby). Spojením těchto dvou zdrojů dat byli vědci schopni udělat něco, co bylo nemožné ani s individuálními. Druhá obecná lekce je, že ačkoli agregované, komerční zdroje dat, jako jsou údaje od katalistů, by neměly být považovány za "pozemskou pravdu", v některých případech mohou být užitečné. Skeptici někdy porovnávají tento agregovaný komerční zdroj dat s absolutní Pravdou a zdůrazňují, že tyto zdroje dat jsou nedostatečné. V tomto případě však skeptici dělají špatné srovnání: veškeré údaje, které vědci používají, postrádají absolutní pravdu. Namísto toho je lepší porovnávat agregované komerční zdroje dat s jinými dostupnými zdroji dat (např. Samohlásené hlasovací chování), které mají vždy i chyby. Konečně, třetí obecná lekce Ansolabehere a Hershova studie spočívá v tom, že v některých situacích mohou výzkumní pracovníci těžit z obrovských investic, které mnohé soukromé společnosti dělají při shromažďování a harmonizaci složitých souborů sociálních dat.