3.6.1 Bõvített kérdezés

A dúsított kérések során a felmérési adatok kontextust építenek egy nagy adatforrás köré, amely néhány fontos mérést tartalmaz, de mások hiányoznak.

A felmérési adatok és a nagy adatforrások kombinálásának egyik módja egy olyan folyamat, amelyet felhívok a dúsított kéréseknek . A dúsított kérésben egy nagy adatforrás tartalmaz néhány fontos mérést, de nincs más mérés, így a kutató összegyűjti ezeket a hiányzó méréseket egy felmérésben, majd összekapcsolja a két adatforrást. A dúsított kérdezés egyik példája Burke and Kraut (2014) arról, hogy a Facebookon való kölcsönhatás növeli-e a barátság erejét, amit a 3.2 fejezetben ismertetettem). Ebben az esetben Burke és Kraut kombinált felmérési adatokat gyűjtöttek a Facebook naplóadatokkal.

A Burke és a Kraut működése azonban azt jelentette, hogy nem kellett két nagy problémával foglalkozniuk, amelyeket a dicsérő kutatók jellemeznek. Először is, az egyes szintű adatkészletek összekapcsolása - az úgynevezett rekord kapcsolódás - nehéz lehet, ha mindkét adatforrásban nincs egyedi azonosító, amely felhasználható annak biztosítására, hogy az egyik adatkészlet megfelelő rekordja megfeleljen a megfelelő rekordnak a másik adatkészletben. A dúsabb kéréssel foglalkozó második fő probléma az, hogy a nagy adatforrás minősége gyakran nehéznek bizonyul a kutatók számára azért, mert az adatok létrehozásának folyamata szabadalmaztatható lehet, és a 2. fejezetben ismertetett problémák sokára érzékeny lehet. Más szóval, a dúsított kérés gyakran tartalmaz hibás csatolású felméréseket az ismeretlen minőségű fekete doboz adatforrásokhoz. E problémák ellenére a gazdag kérdéseket felhasználhatják fontos kutatások elvégzésére, amint azt Stephen Ansolabehere és Eitan Hersh (2012) demonstrálta az Egyesült Államok szavazási módszereiről szóló kutatásában.

A szavazók részvételét széles körű kutatások tárgyává tették a politikatudományban, és a múltban a kutatók megértették, ki szavaz és miért általában a felmérési adatok elemzésén alapult. Szavazás az Egyesült Államokban azonban szokatlan viselkedés, mivel a kormány rögzíti, hogy minden állampolgár megszavazta-e (természetesen a kormány nem rögzíti, hogy minden állampolgár szavaz). Ezeket a kormányzati szavazati feljegyzéseket évekig papíralapokon szerezték be, amelyek az ország különböző helyi önkormányzati irodáiban szétszóródtak. Ez igen nehéz, de nem lehetetlen, hogy a politológusok teljes képet kapjanak a választókról, és hasonlítsák össze azt, amit az emberek a szavazással kapcsolatos felmérésekben a tényleges szavazati magatartásukkal mondanak (Ansolabehere and Hersh 2012) .

De ezeket a szavazási rekordokat most digitalizálták, és számos magánvállalkozás szisztematikusan összegyűjtötte és összeolvasztotta őket, hogy olyan átfogó szavazófájlokat készítsenek, amelyek az összes amerikai szavazati viselkedését tartalmazzák. Az Ansolabehere és a Hersh egyike volt ezeknek a cégeknek - a Catalist LCC-nek -, hogy használhassák a fő szavazati fájljukat, hogy segítsenek jobb képet alkotni a választókról. Továbbá, mivel tanulmányuk olyan digitális nyilvántartásokra támaszkodott, amelyeket egy olyan vállalat gyűjtött és kezelt, amely jelentős forrásokat fektetett az adatgyűjtésbe és a harmonizációba, számos előnnyel járult, mint a korábbi vállalatok erőfeszítései és analóg rekordok felhasználása nélkül.

A 2. fejezetben szereplő nagyszámú adatforráshoz hasonlóan a katalizátorfájl nem tartalmazta az Ansolabehere és a Hersh demográfiai, hozzáállási és viselkedési információinak nagy részét. Valójában különösen érdekeltek abban, hogy összehasonlították a bejelentett szavazati viselkedést a felmérésekben érvényesített szavazati magatartással (vagyis a katalizátor adatbázisban szereplő információkat). Ezért Ansolabehere és Hersh gyűjtötték össze azokat az adatokat, amelyeket egy nagy társadalmi felmérésnek, a CCES-nek a korábban említett fejezeteként kívántak. Ezután átadták adataikat a Catalistnak, és Catalist adta vissza egy összeolvadt adatfájlt, amely tartalmazta a validált szavazási magatartást (Catalist), az önbevallalt szavazati magatartást (CCES) és a válaszadók demográfiai és attitűdjeit (a CCES-től 3.13). Más szavakkal, az Ansolabehere és a Hersh felmérési adatokkal egyesítették a szavazási nyilvántartások adatait, hogy egyáltalán nem végezhessenek kutatást egyik adatforrással sem.

3.13. Ábra: Az Ansolabehere és Hersh (2012) tanulmányának vázlata. A master adatfájl létrehozásához a Catalist több forrásból származó információkat egyesíti és harmonizálja. Az összevonásnak ez a folyamata, bármennyire is óvatos, hibákat terjeszt az eredeti adatforrásokban, és új hibákat fog bevezetni. A második hibaforrás a felmérési adatok és a master adatfájl közötti rekordösszeköttetés. Ha minden személynek stabil, egyedi azonosítója van mindkét adatforrásban, akkor az összekapcsolás triviális lenne. De Catalist-nak a tökéletlen azonosítókkal, a név, a nem, a születési év és az otthoni cím használatával kellett megtennie a kapcsolatot. Sajnos sok esetben hiányos vagy pontatlan információ lehet; egy Homer Simpson nevű szavazó lehet Homer Jay Simpson, Homie J Simpson vagy akár Homer Sampsin. Annak ellenére, hogy a katalizátor mester adatfájlában hibák fordulnak elő hibák és a rekordkapcsolat hibái, az Ansolabehere és a Hersh többféle típusú ellenőrzéseket végezhet a becslésekben.

3.13. Ábra: Az Ansolabehere and Hersh (2012) tanulmányának vázlata. A master adatfájl létrehozásához a Catalist több forrásból származó információkat egyesíti és harmonizálja. Az összevonásnak ez a folyamata, bármennyire is óvatos, hibákat terjeszt az eredeti adatforrásokban, és új hibákat fog bevezetni. A második hibaforrás a felmérési adatok és a master adatfájl közötti rekordösszeköttetés. Ha minden személynek stabil, egyedi azonosítója van mindkét adatforrásban, akkor az összekapcsolás triviális lenne. De Catalist-nak a tökéletlen azonosítókkal, a név, a nem, a születési év és az otthoni cím használatával kellett megtennie a kapcsolatot. Sajnos sok esetben hiányos vagy pontatlan információ lehet; egy Homer Simpson nevű szavazó lehet Homer Jay Simpson, Homie J Simpson vagy akár Homer Sampsin. Annak ellenére, hogy a katalizátor mester adatfájlában hibák fordulnak elő hibák és a rekordkapcsolat hibái, az Ansolabehere és a Hersh többféle típusú ellenőrzéseket végezhet a becslésekben.

Az együttes adatfájllal Ansolabehere és Hersh három fontos következtetésre jutott. Először is, a szavazás túljelentése bonyolult: a nem szavazók közel fele jelentett a szavazást, és ha valaki szavazást jelentett, akkor csak 80% -os esély van arra, hogy ténylegesen megszavazták. Másodszor, a túlzott jelentéstétel nem véletlenszerű: a túlzott jelentéstétel gyakoribb a nagy jövedelmű, jól képzett, a közügyekkel foglalkozó partizánusok körében. Más szóval, azok a személyek, akik a legvalószínűbbek a szavazásra, a legvalószínűbbek a szavazás során. Harmadszor, és a legfontosabb, hogy a túlzott jelentések szisztematikus jellege miatt a szavazók és a nem-szavazók közötti tényleges különbségek kisebbek, mint a felmérésekből. Például az alapfokú végzettségűek 22 százalékponttal nagyobb valószínűséggel jelzik a szavazást, de csak 10 százalékponttal nagyobb valószínűséggel szavazhatnak. Talán nem meglepő módon kiderül, hogy a szavazás meglévő erőforrás-alapú elméletei sokkal jobbak, amikor megjósolják, hogy kik jelentik a szavazást (ami a múltban a kutatók által használt adatok), mint azok, akik előre jelzik, ki szavaz. Így Ansolabehere and Hersh (2012) empirikus megállapítása új elméleteket követel meg a szavazás megértése és megjósolása érdekében.

De mennyit bízzunk ezeken az eredményeken? Ne felejtsük el, hogy ezek az eredmények a hibát okozó fekete-boxadatokhoz való kapcsolódás függvényében, ismeretlen mennyiségű hiba esetén. Pontosabban, az eredmények két kulcsfontosságú lépésből állnak: (1) a Catalist képes több különböző adatforrást kombinálni a pontos mester adatfájl készítéséhez, és (2) a katalizátor képessége, hogy összekapcsolja a felmérési adatokat a mester adatfájljával. Mindezek a lépések nehézkesek, és mindkét lépés hibái a kutatók rossz következtetésekhez vezethetnek. Ugyanakkor mind az adatfeldolgozás, mind az összekapcsolás kritikus fontosságú a Catalist cég mint vállalat fennmaradásához, ezért olyan forrásokat fektet be ezeknek a problémáknak a megoldásához, gyakran olyan mértékben, hogy egyetlen tudományos kutató sem tud egyeznie. Papírjában az Ansolabehere és a Hersh számos lépésen keresztül megvizsgálja e két lépés eredményeit - noha egyesek tulajdonjogai - és ezek az ellenőrzések hasznos lehetnek olyan kutatók számára is, akik a felmérési adatokat összekapcsolják a fekete doboz nagy adataival forrásokból.

Melyek az általános tanulságok, amelyeket a kutatók ebből a tanulmányból vonhatnak le? Először is óriási érték van mind a nagy adatforrások gazdagításával a felmérési adatokkal, mind pedig a nagy adatforrások felmérési adatainak gazdagításával (ez a tanulmány mindkét irányban látható). A két adatforrás összekapcsolásával a kutatók képesek voltak valami olyat tenni, ami lehetetlen, akár egyénileg. A második általános lecke az, hogy bár egyesített, kereskedelmi célú adatforrások, mint például a Catalist adatai, nem tekinthetők "földi igazságnak", egyes esetekben hasznosak lehetnek. A szkeptikusok néha összehasonlítják ezeket az aggregált, kereskedelmi adatforrásokat abszolút Igazsággal, és rámutatnak arra, hogy ezek az adatforrások hiányoznak. Azonban ebben az esetben a szkeptikusok rossz összehasonlítást végeznek: a kutatók által használt összes adat elmarad az abszolút igazságtól. Ehelyett jobb, ha összevont, kereskedelmi adatforrásokat összehasonlítunk más rendelkezésre álló adatforrásokkal (pl. Önmagukban jelentett szavazati magatartás), amelyeknek mindig vannak hibái is. Végül Ansolabehere és Hersh tanulmányának harmadik általános tanulsága az, hogy egyes esetekben a kutatók részesülhetnek azokban a hatalmas beruházásokban, amelyeket sok magánvállalat tesznek a komplex szociális adatkészletek összegyűjtésében és összehangolásában.