3.6.1 Obohatené požiadanie

Tento preklad bol vytvorený na počítači. ×

3.6.1 Obohatené požiadanie

V obohatenom dotazovaní vytvárajú údaje z prieskumu kontext okolo veľkého zdroja údajov, ktorý obsahuje niektoré dôležité merania, ale chýbajú ďalšie.

Jeden spôsob, ako skombinovať údaje z prieskumov a veľké zdroje údajov, je proces, ktorý nazývam obohatený dotaz . V obohatenom dotazovaní obsahuje veľký zdroj údajov niektoré dôležité merania, ale chýba ďalšie merania, takže výskumník zhromaždí tieto chybné merania v prieskume a potom prepája oba zdroje údajov dohromady. Jedným príkladom obohatenej žiadosti je štúdia Burke and Kraut (2014) o tom, či interakcia na Facebooku zvyšuje silu priateľstva, ktorú som opísal v časti 3.2). V tomto prípade Burke a Kraut kombinovali údaje z prieskumu s údajmi denníka Facebook.

Situácia, v ktorej pracovali Burke a Kraut, však znamenalo, že nemuseli riešiť dva veľké problémy, ktoré výskumníci robia obohatené a typicky sa tvári. Po prvé, skutočné prepojenie dátových súborov na individuálnej úrovni môže byť proces nazývaný záznamové spojenie obtiažny, ak v oboch zdrojoch údajov neexistuje žiadny jedinečný identifikátor, ktorý by sa mohol použiť na to, aby bol správny záznam v jednom súbore údajov zhodný so správnym záznamom v ďalšej sade údajov. Druhým hlavným problémom s obohateným žiadosťou je, že kvalita veľkého zdroja údajov bude často pre výskumníkov často zložitá, pretože proces, prostredníctvom ktorého sú údaje vytvorené, môže byť chránený a môže byť náchylný k mnohým problémom opísaným v kapitole 2. Inými slovami, obohatené požiadavky často zahŕňajú prepojenie prieskumov, ktoré sú náchylné na chyby, k zdrojom údajov neznámej kvality čiernej skrinky. Napriek týmto problémom však obohatené žiadosti môžu byť použité na vykonávanie dôležitého výskumu, ako to demonštrovali Stephen Ansolabehere a Eitan Hersh (2012) vo svojom výskume o modeloch hlasovania v Spojených štátoch.

Účasť voličov bola predmetom rozsiahleho výskumu v oblasti politológie a v minulosti chápanie výskumníkov o tom, kto hlasuje a prečo sa vo všeobecnosti zakladá na analýze údajov z prieskumu. Hlasovanie v Spojených štátoch je však nezvyčajným správaním v tom, že vláda zaznamenáva, či každý občan hlasoval (samozrejme, vláda nezaznamenáva, pre koho každý občan hlasuje). Po mnoho rokov boli tieto vládne hlasovacie záznamy dostupné na papierových formulároch, roztrúsených v rôznych úradoch miestnej správy po celej krajine. Toto urobilo veľmi ťažké, ale nie nemožné, aby politológovia získali úplný obraz voličov a porovnali to, čo ľudia hovoria v prieskumoch o hlasovaní s ich skutočným volebným správaním (Ansolabehere and Hersh 2012) .

Tieto záznamy o hlasovaní sú teraz digitalizované a niekoľko súkromných spoločností ich systematicky zhromažďovalo a zlúčilo, aby vytvorili komplexné hlavné hlasovacie súbory, ktoré obsahujú hlasovacie správanie všetkých Američanov. Ansolabehere a Hersh spolupracovali s jednou z týchto spoločností - katalistom LCC - aby mohli využiť svoj hlavný hlasovací súbor, aby pomohli rozvinúť lepší obraz voličov. Ďalej, pretože ich štúdia sa opierala o digitálne záznamy zhromaždené a vyskúšané spoločnosťou, ktorá investovala značné zdroje do zbierania a harmonizácie údajov, ponúkla niekoľko výhod oproti predchádzajúcim snahám, ktoré sa uskutočnili bez pomoci spoločností a použitím analógových záznamov.

Rovnako ako mnohé z veľkých zdrojov údajov v kapitole 2, katalídsky kmeňový súbor nezahŕňal veľa demografických, postojových a behaviorálnych informácií, ktoré Ansolabehere a Hersh potrebovali. V skutočnosti sa obzvlášť zaujímali o porovnanie hláseného správania sa pri hlasovaní v prieskumoch s validovaným hlasovaním (tj informácie v katalistickej databáze). Takže Ansolabehere a Hersh zhromaždili dáta, ktoré chcú, ako veľký sociálny prieskum, CCES, ktorý bol spomenutý skôr v tejto kapitole. Potom poskytli svoje údaje katalógu a katalista im vrátil zlúčený dátový súbor, ktorý obsahoval overené volebné správanie (od katalóga), samohlásené hlasovacie správanie (z CCES) a demografické údaje a postoje respondentov (z CCES) (obrázok 3.13). Inými slovami, Ansolabehere a Hersh spojili údaje o hlasovacích záznamoch s údajmi z prieskumov, aby sa výskum, ktorý nebol možný ani s jedným z údajov.

Obrázok 3.13: Schéma štúdie Ansolabehere a Hersh (2012). Ak chcete vytvoriť hlavný dátový súbor, katalista kombinuje a harmonizuje informácie z mnohých rôznych zdrojov. Tento proces zlúčenia, bez ohľadu na to, ako opatrný, bude propagovať chyby v pôvodných zdrojoch údajov a prinesie nové chyby. Druhým zdrojom chýb je záznamové prepojenie medzi údajmi z prieskumu a hlavným dátovým súborom. Keby mal každý človek stabilný a jedinečný identifikátor v oboch zdrojoch údajov, potom by prepojenie bolo triviálne. Katalista však musel vykonať spojenie pomocou nedokonalých identifikátorov, v tomto prípade meno, pohlavie, rok narodenia a domácu adresu. Bohužiaľ, v mnohých prípadoch by mohli byť neúplné alebo nepresné informácie; volič menom Homer Simpson sa môže objaviť ako Homer Jay Simpson, Homie J Simpson, alebo dokonca Homer Sampsin. Napriek možným chybám v katalídovom dátovom súbore katalógu a chybám v záznamovom prepojení mohli Ansolabehere a Hersh vybudovať dôveru vo svojich odhadoch prostredníctvom niekoľkých rôznych typov kontrol.

Obrázok 3.13: Schéma štúdie Ansolabehere and Hersh (2012) . Ak chcete vytvoriť hlavný dátový súbor, katalista kombinuje a harmonizuje informácie z mnohých rôznych zdrojov. Tento proces zlúčenia, bez ohľadu na to, ako opatrný, bude propagovať chyby v pôvodných zdrojoch údajov a prinesie nové chyby. Druhým zdrojom chýb je záznamové prepojenie medzi údajmi z prieskumu a hlavným dátovým súborom. Keby mal každý človek stabilný a jedinečný identifikátor v oboch zdrojoch údajov, potom by prepojenie bolo triviálne. Katalista však musel vykonať spojenie pomocou nedokonalých identifikátorov, v tomto prípade meno, pohlavie, rok narodenia a domácu adresu. Bohužiaľ, v mnohých prípadoch by mohli byť neúplné alebo nepresné informácie; volič menom Homer Simpson sa môže objaviť ako Homer Jay Simpson, Homie J Simpson, alebo dokonca Homer Sampsin. Napriek možným chybám v katalídovom dátovom súbore katalógu a chybám v záznamovom prepojení mohli Ansolabehere a Hersh vybudovať dôveru vo svojich odhadoch prostredníctvom niekoľkých rôznych typov kontrol.

Svojím kombinovaným dátovým súborom dospeli Ansolabehere a Hersh k troch dôležitým záverom. Po prvé, nadmerné nahlasovanie hlasovania je nekontrolovateľné: takmer polovica nezúčastnených strán hlásila hlasovanie a ak niekto ohlásil hlasovanie, existuje len 80% pravdepodobnosť, že v skutočnosti hlasovali. Po druhé, nadmerné nahlasovanie nie je náhodné: nadmerné nahlasovanie je bežnejšie u vysokopríjmových, vzdelaných partizánov, ktorí sa zaoberajú verejnými záležitosťami. Inými slovami, ľudia, ktorí s najväčšou pravdepodobnosťou budú hlasovať, tiež pravdepodobne lži o hlasovaní. Po tretie, a čo je najkritickejšie, vzhľadom na systematickú povahu nadmerného oznamovania sú skutočné rozdiely medzi voličmi a nezúčastnenými stranami menšie, ako sa zdá z prieskumov. Napríklad osoby s bakalárskym titulom majú o 22 percentuálnych bodov väčšiu pravdepodobnosť, že ohlásia hlasovanie, avšak len o 10 percentuálnych bodov je pravdepodobnejšie, že budú skutočne hlasovať. Ukazuje sa, snáď neprekvapuje, že existujúce teórie o hlasovaní založené na zdrojoch sú oveľa lepšie pri predpovedaní toho, kto bude ohlásiť hlasovanie (čo sú údaje, ktoré výskumníci použili v minulosti), než pri predpovedaní toho, kto vlastne hlasuje. Empirické nálezy Ansolabehere and Hersh (2012) vyžadujú nové teórie na pochopenie a predvídanie hlasovania.

Ale koľko by sme mali tieto výsledky dôverovať? Pamätajte si, že tieto výsledky závisia od chybného prepojenia na údaje s čiernym rámčekom s neznámym množstvom chýb. Konkrétnejšie, výsledky závisia od dvoch kľúčových krokov: (1) schopnosť katalistov kombinovať mnoho rozdielnych zdrojov údajov na vytvorenie presného hlavného dátového súboru a (2) schopnosť katalistu prepojiť údaje z prieskumu s jeho hlavným dátovým súborom. Každý z týchto krokov je zložitý a chyby v obidvoch krokoch by mohli viesť výskumníkov k nesprávnym záverom. Spracovanie a spájanie údajov je však rozhodujúce pre pokračovanie existencie katalógu ako spoločnosti, a preto môže investovať zdroje do riešenia týchto problémov, často v takej miere, ktorú žiadny akademický výskumník nemôže vyrovnať. Vo svojom dokumente Ansolabehere a Hersh prechádzajú niekoľkými krokmi, aby skontrolovali výsledky týchto dvoch krokov - aj keď niektoré z nich sú proprietárne - a tieto kontroly by mohli pomôcť iným výskumníkom, ktorí chcú prepojiť údaje z prieskumu s veľkými dátami zdroje.

Aké sú všeobecné ponaučenia, ktoré výskumníci môžu čerpať z tejto štúdie? Po prvé, je obrovská hodnota obohatením veľkých zdrojov údajov s údajmi z prieskumov a obohatením údajov z prieskumu o veľké zdroje údajov (túto štúdiu môžete vidieť aj tak). Kombináciou týchto dvoch zdrojov údajov vedci dokázali urobiť niečo, čo nebolo možné ani s individuálnymi. Druhá všeobecná lekcia je, že aj keď sú agregované, komerčné zdroje údajov, napríklad údaje katalógu, by sa nemali považovať za "pozemskú pravdu", v niektorých prípadoch môžu byť užitočné. Skeptici niekedy porovnávajú tento agregovaný komerčný zdroj údajov s absolútnou pravdou a poukazujú na to, že tieto zdroje údajov sú nedostatočné. V tomto prípade však skeptici robia zlé porovnanie: všetky údaje, ktoré používajú výskumníci, nepodliehajú absolútnej Pravde. Namiesto toho je lepšie porovnávať agregované obchodné zdroje údajov s inými dostupnými zdrojmi údajov (napr. Samohlásené hlasovacie správanie), ktoré majú vždy aj chyby. Nakoniec tretia všeobecná lekcia štúdií Ansolabehere a Hersh spočíva v tom, že v niektorých situáciách môžu výskumníci profitovať z obrovských investícií, ktoré mnohé súkromné spoločnosti robia pri zhromažďovaní a harmonizácii zložitých súborov sociálnych údajov.