3.6.2 gazdag kért

Annak ellenére, hogy lehet zavaros, dúsított kért erős is lehet.

Egy másik megközelítés, hogy foglalkozik a hiányos digitális nyomkövetési adatok gazdagítása azt közvetlenül felmérési adatok, a folyamat hívom dúsított kért. Egy példa a dúsított kért a tanulmány Burke and Kraut (2014) , amit korábban leírt fejezetben (3.2), arról, hogy kölcsönhatásba a Facebook növeli a barátság erejét. Ebben az esetben, Burke és Kraut kombinált felmérési adatok Facebook adatait.

A beállítás Burke és Kraut dolgozott, azonban azt jelentette, hogy nem kell foglalkozni a két nagy probléma, hogy a kutatók ezzel dúsított kérve arcát. Először is, valóban összekapcsolja az adatsorok-nek nevezett eljárás rekord kapcsolatot, a megfelelő rekord egy adatbázisba a megfelelő rekordot a másik adatbázisba-nehéz lehet, és hibára hajlamos (látni fogjuk egy példát erre a problémára az alábbi ). A második fő probléma a dúsított kért, hogy a minőséget a digitális nyomok gyakran nehéz a kutatók számára, hogy értékelje. Például néha a folyamat, amelyen keresztül gyűjtik védett és lehet hajlamos sok problémát 2 fejezetben ismertetett Vagyis dúsított kért gyakran vonják hibalehetőséget összekapcsolása felmérések black-box adatforrások ismeretlen minőség. Annak ellenére, hogy az aggodalmak, hogy a fenti két problémát bemutatni, hogy lehetséges, hogy végezzen fontos kutatási ezzel a stratégiával amint ez Stephen Ansolabehere és Eitan Hersh (2012) kutatásaikban szavazási mintákról az USA-ban. Érdemes, hogy menjen át a tanulmány néhány részletében, mert sok a stratégiák Ansolabehere és Hersh kifejlesztett hasznos lesz más alkalmazások dúsított kért.

Részvételi arány volt a tárgya kiterjedt kutatás, politikatudomány, és a múltban a kutatók jobban megértsék, akik szavazat és miért általában már alapuló elemzés adataiból. A szavazás az Egyesült Államokban, azonban egy szokatlan viselkedés, hogy a kormányzati nyilvántartások, hogy az egyes polgár szavazott (persze, a kormány nem rögzíti, akik minden egyes polgár szavazat). Sok éven át, ezek a kormányzati szavazás elérhető adat papíron formák, elszórtan különböző önkormányzati irodákban szerte az országban. Ez megnehezítette, de nem lehetetlen, politológusok, hogy egy teljes képet a választók, és összehasonlítani, amit az emberek azt mondják, a felmérések szavaznak, hogy a tényleges választói magatartás (Ansolabehere and Hersh 2012) .

De most ezek a szavazási eredmények már digitalizált, és számos magán cégek szisztematikusan gyűjtött és összevonták ezeket szavazási eredmények előállításához átfogó mester szavazási fájlokat rögzíti a szavazási viselkedés az amerikaiak. Ansolabehere és Hersh társult, az egyik vállalat-Catalist LCC-használata érdekében a mester szavazási fájlt, így egy jobb képet a választók. Továbbá, mivel támaszkodott digitális összegyűjtött rekordok és rendezte a cég, akkor ajánlott számos előnnyel korábbi erőfeszítések kutatók, hogy megtörtént a támogatás nélkül a vállalatok és az analóg rekordokat.

Mint sok a digitális nyom források a 2. fejezet a Catalist master file nem tartalmazza sok a demográfiai, szemléleti és viselkedési információkat Ansolabehere és Hersh szükség. Amellett, hogy ez az információ, Ansolabehere és Hersh különösen érdekelt összehasonlításakor bejelentett szavazási magatartás validált szavazási magatartás (azaz az információt a Catalist adatbázis). Így a kutatók az adatokat összegyűjtötte, hogy meg akarják részeként Cooperative kongresszusi választási Study (CCES), egy nagy társadalmi felmérés. Ezt követően a kutatók adta ezen adatok alapján Catalist és Catalist adta a kutatók vissza az egyesített adatok fájl tartalmazza hitelesített választói magatartás (az Catalist), az önbevalláson alapuló szavazási magatartás (az CCES), valamint a demográfiai és attitűdök a válaszadók (az CCES ). Más szóval, Ansolabehere és Hersh dúsított szavazási adatokat felmérési adatok, és a kapott egyesített fájl lehetővé teszi számukra, hogy tegyen valamit, hogy sem a fájl egyenként engedélyezhetők.

Bővítésével a Catalist mester adatállományt felmérési adatok, Ansolabehere és Hersh jött három fontos következtetést. Először is, a túlzott jelentési szavazási burjánzó: csaknem fele a nem szavazók jelentett szavazás. Vagy, egy másik nézőpont is, ha valaki jelentett szavazás, csak 80% az esélye, hogy ezek ténylegesen szavaztak. Másodszor, a túlzott jelentési nem véletlen; túlzott jelentési körében gyakoribb a magas jövedelmű, jól képzett, a partizánok, akik részt vesznek a közügyekben. Más szóval, az emberek, akik a legnagyobb valószínűséggel szavazni is valószínűleg hazudni szavazás. Harmadszor, és ez a legkritikusabb, mert a rendszeres jellegű túlzott jelentések, a tényleges különbség a szavazók és a nem szavazók kisebb, mint azok megjelennek csak a felmérések. Például azok a alapképzésbe mintegy 22 százalékponttal nagyobb valószínűséggel számoltak szavazás, de már csak 10 százalékkal nagyobb valószínűséggel tényleges szavazás. Továbbá, a meglévő erőforrás-alapú elmélet szavazás sokkal jobban előre aki bejelentést szavazás, mint aki valójában igen szavazattal, egy empirikus megállapítás, hogy felhív új elméletek megértése és előrejelzése szavazás.

De, hogy mennyi bízzunk ezeket az eredményeket? Ne feledje, ezek eredménye függ hibalehetőséget összekapcsolása fekete doboz adatait ismeretlen mennyiségű hiba. Pontosabban, az eredmények zsanér két fő lépésből áll: 1) a képessége Catalist kombinálni sok eltérő adatforrásokat, hogy készítsen egy pontos mester adatfájlt és 2) a képesség Catalist összekapcsolni a felmérés adatait a gazdájához adatfájlt. Az egyes lépések meglehetősen nehéz, és a hibák mindkét lépés vezethet a kutatókat, hogy a téves következtetéseket. Azonban mind az adatfeldolgozás és megfelelő kritikus a fennmaradási Catalist mint cég így forrásokat befektetni e problémák megoldásának, gyakran olyan mértékben, amely nem az egyes tudományos kutató vagy kutatócsoport tagjai is egyezik. A további olvasásra a fejezet végén írom le ezeket a problémákat részletesebben és hogyan Ansolabehere és Hersh a bizalom a saját eredményeit. Bár ezek a részletek konkrét E tanulmány hasonló kérdések ezek merülnek fel más kutatók számára, hogy hivatkoznak black-box digitális nyomkövetési adatforrások.

Melyek az általános tanulságok kutatók meríthetünk a tanulmány? Először is óriási érték gazdagítva digitális nyomokat adataiból. Másodszor, bár ezek aggregált, kereskedelmi adatforrások nem kell figyelembe venni "ground truth", bizonyos esetekben hasznos lehet. Sőt, a legjobb, ha ezen adatok összehasonlítása források nem abszolút igazság (ahonnan mindig elmaradnak). Inkább ez jobban össze lehessen hasonlítani őket más, rendelkezésre álló adatforrások, ami változatlanul a hibákat is.