3.6.1 Îmbunătățirea cererii

Într-o întrebare îmbogățită, datele din sondaj construiesc contextul în jurul unei mari surse de date, care conține câteva măsurători importante, dar lipsesc altele.

O modalitate de a combina datele din sondaj și sursele mari de date este un proces pe care îl voi numi îmbogățit . Într-o întrebare îmbogățită, o mare sursă de date conține câteva măsurători importante, dar nu are alte măsurători, astfel încât cercetătorul colectează aceste măsurători lipsă într-un sondaj și apoi leagă cele două surse de date împreună. Un exemplu de solicitare îmbogățită este studiul realizat de Burke and Kraut (2014) despre faptul dacă interacțiunea pe Facebook crește puterea prieteniei, pe care am descris-o în secțiunea 3.2). În acest caz, Burke și Kraut au combinat datele sondajului cu datele din jurnalul Facebook.

Situația în care lucrau Burke și Kraut totuși, însemna că nu trebuiau să se ocupe de două mari probleme pe care cercetătorii le-au îmbogățit, întrebându-se în mod obișnuit. Mai întâi, legând efectiv seturile de date la nivel individual, un proces numit legătura de înregistrare poate fi dificil dacă nu există un identificator unic în ambele surse de date care pot fi utilizate pentru a se asigura că înregistrarea corectă într-un singur set de date este potrivită cu înregistrarea corectă în celălalt set de date. Cea de-a doua problemă principală cu cererea îmbogățită este că, în mod frecvent, calitatea sursei mari de date va fi dificilă pentru cercetători, deoarece procesul prin care sunt create datele poate fi proprietate și ar putea fi susceptibil la multe din problemele descrise în capitolul 2. Cu alte cuvinte, cererea îmbogățită va implica frecvent legarea eronată a anchetelor la sursele de date de tip "black-box" de calitate necunoscută. Cu toate acestea, în ciuda acestor probleme, cererea îmbogățită poate fi utilizată pentru a efectua cercetări importante, așa cum au demonstrat Stephen Ansolabehere și Eitan Hersh (2012) în studiul lor privind modelele de vot în Statele Unite.

Participarea la alegeri a făcut obiectul unei cercetări ample în domeniul științei politice și, în trecut, înțelegerea cercetătorilor cu privire la cine votează și de ce sa bazat, în general, pe analiza datelor din sondaj. Votarea în Statele Unite este, totuși, un comportament neobișnuit în care guvernul înregistrează dacă fiecare cetățean a votat (bineînțeles că guvernul nu înregistrează votul pentru fiecare cetățean). Timp de mulți ani, aceste înregistrări de vot guvernamentale erau disponibile pe suport de hârtie, împrăștiate în diferite birouri ale administrației locale din întreaga țară. Acest lucru a făcut foarte dificil, dar nu imposibil, ca politologii să aibă o imagine completă a electoratului și să compare ceea ce spun oamenii în sondajele privind votarea cu propriul comportament de vot real (Ansolabehere and Hersh 2012) .

Dar aceste înregistrări ale voturilor au fost acum digitizate și o serie de companii private au colectat și le-au fuzionat în mod sistematic pentru a produce fișiere de vot cuprinzătoare care conțin comportamentul de vot al tuturor americanilor. Ansolabehere și Hersh au încheiat un parteneriat cu una dintre aceste companii - catalistul LCC - pentru a-și folosi dosarul de vot principal pentru a ajuta la dezvoltarea unei imagini mai bune a electoratului. În plus, deoarece studiul lor sa bazat pe înregistrările digitale colectate și curate de o companie care a investit resurse substanțiale în colectarea și armonizarea datelor, aceasta a oferit o serie de avantaje față de eforturile anterioare care s-au făcut fără ajutorul companiilor și prin utilizarea înregistrărilor analogice.

Ca multe dintre sursele mari de date din capitolul 2, fișierul maestral catalist nu a inclus o mare parte din informațiile demografice, atitudine și comportamentale pe care Ansolabehere și Hersh le-au avut nevoie. De fapt, ei au fost deosebit de interesați să compare comportamentul voturilor raportate în sondaje cu validate comportament de vot (adică informațiile din baza de date Catalist). Astfel, Ansolabehere și Hersh au colectat datele pe care le-au dorit ca o anchetă socială mare, CCES, menționată mai sus în acest capitol. Apoi, ei și-au dat datele Catalistului, iar Catalistul le-a dat înapoi un fișier de date fuzionat, care includea un comportament validat de vot (de la catalist), comportamentul de vot (de la CCES) și demografia și atitudinea respondenților (de la CCES) 3.13). Cu alte cuvinte, Ansolabehere și Hersh au combinat datele de înregistrare a voturilor cu date de anchetă pentru a face cercetări care nu au fost posibile nici cu fiecare sursă de date în mod individual.

Figura 3.13: Schema studiului realizat de Ansolabehere și Hersh (2012). Pentru a crea fișierul de date master, Catalistul combină și armonizează informații din multe surse diferite. Acest proces de fuziune, oricât de atent, va propaga erori în sursele originale de date și va introduce noi erori. O a doua sursă de erori este legătura înregistrată între datele sondajului și fișierul de date master. Dacă fiecare persoană ar avea un identificator stabil, unic în ambele surse de date, atunci legătura ar fi trivială. Dar, Catalistul a trebuit să facă legătura folosind identificatori imperfecți, în acest caz numele, sexul, anul nașterii și adresa de domiciliu. Din păcate, pentru multe cazuri s-ar putea să existe informații incomplete sau inexacte; un alegător numit Homer Simpson ar putea apărea ca Homer Jay Simpson, Homie J Simpson, sau chiar Homer Sampsin. În ciuda potențialului de eroare în fișierul de date catalist master și a erorilor legate de înregistrare, Ansolabehere și Hersh au reușit să crească încrederea în estimările lor prin mai multe tipuri de verificări diferite.

Figura 3.13: Schema studiului realizat de Ansolabehere and Hersh (2012) . Pentru a crea fișierul de date master, Catalistul combină și armonizează informații din multe surse diferite. Acest proces de fuziune, oricât de atent, va propaga erori în sursele originale de date și va introduce noi erori. O a doua sursă de erori este legătura înregistrată între datele sondajului și fișierul de date master. Dacă fiecare persoană ar avea un identificator stabil, unic în ambele surse de date, atunci legătura ar fi trivială. Dar, Catalistul a trebuit să facă legătura folosind identificatori imperfecți, în acest caz numele, sexul, anul nașterii și adresa de domiciliu. Din păcate, pentru multe cazuri s-ar putea să existe informații incomplete sau inexacte; un alegător numit Homer Simpson ar putea apărea ca Homer Jay Simpson, Homie J Simpson, sau chiar Homer Sampsin. În ciuda potențialului de eroare în fișierul de date catalist master și a erorilor legate de înregistrare, Ansolabehere și Hersh au reușit să crească încrederea în estimările lor prin mai multe tipuri de verificări diferite.

Cu ajutorul fișierelor de date combinate, Ansolabehere și Hersh au ajuns la trei concluzii importante. În primul rând, raportarea excesivă a voturilor este foarte mare: aproape jumătate dintre cei care nu au votat au votat, iar dacă cineva a raportat votarea, există doar o șansă de 80% pe care au votat-o. În al doilea rând, supra-raportarea nu este întâmplătoare: supra-raportarea este mai frecventă în rândul partizanilor cu venituri mari, educați, care sunt implicați în afacerile publice. Cu alte cuvinte, persoanele care au cea mai mare șansă de vot sunt, de asemenea, cel mai probabil să mintă despre vot. În al treilea rând, și din punct de vedere critic, din cauza naturii sistematice a supra-raportare, diferențele reale dintre alegători și nonvoți sunt mai mici decât apar doar din anchete. De exemplu, cei cu o diplomă de licență sunt cu aproximativ 22 de procente mai multe șanse să raporteze votul, dar sunt cu 10 puncte procentuale mult mai probabil să voteze. Se pare, poate că nu este surprinzător, că teoriile de vot existente pe baza resurselor sunt mult mai bune pentru a prevedea cine va raporta votarea (care sunt datele pe care cercetătorii le-au folosit în trecut) decât pentru a prezice cine votează. Astfel, constatările empirice ale lui Ansolabehere and Hersh (2012) cer noi teorii pentru a înțelege și a prezice votul.

Dar cât de mult ar trebui să avem încredere în aceste rezultate? Amintiți-vă că aceste rezultate depind de legarea predispusă la erori la date cu cutie neagră cu erori necunoscute. Mai exact, rezultatele se bazează pe doi pași cheie: (1) abilitatea Catalistului de a combina multe surse de date diferite pentru a produce un fișier de date precis și master și (2) abilitatea Catalistului de a lega datele anchetei în fișierul de date master. Fiecare dintre acești pași este dificil, iar erorile fiecărui pas ar putea duce cercetătorii la concluzii greșite. Cu toate acestea, prelucrarea și legarea datelor sunt esențiale pentru existența în continuare a catalistului ca o companie, astfel încât acesta poate investi resurse în rezolvarea acestor probleme, de multe ori la o scară pe care niciun cercetător academic nu îl poate potrivi. În lucrarea lor, Ansolabehere și Hersh trec printr-o serie de pași pentru a verifica rezultatele acestor două etape - chiar dacă unele dintre ele sunt de proprietate - și aceste verificări ar putea fi de ajutor pentru alți cercetători care doresc să lege datele din sondaj la date mari surse.

Care sunt lecțiile generale pe care cercetătorii le pot trage din acest studiu? În primul rând, există o valoare extraordinară atât din îmbogățirea surselor mari de date cu datele din sondaj, cât și din îmbogățirea datelor din sondaj cu surse mari de date (puteți vedea acest studiu în orice fel). Prin combinarea acestor două surse de date, cercetătorii au reușit să facă ceva care a fost imposibil fie cu ajutorul fiecăruia. A doua lecție generală este că, deși agregate, sursele de date comerciale, cum ar fi datele de la catalist, nu ar trebui să fie considerate "adevărul la sol", în unele cazuri, ele pot fi utile. Scepticii compară uneori această sursă de date comerciale agregate cu Adevăr absolut și subliniază faptul că aceste surse de date se află în scurt timp. Cu toate acestea, în acest caz, scepticii fac o comparație greșită: toate datele pe care cercetătorii le utilizează nu se încadrează în adevărul absolut. În schimb, este mai bine să comparăm sursele de date comerciale agregate cu alte surse de date disponibile (de exemplu, comportamentul de vot cu auto-raportat), care, în mod invariabil, au și erori. În sfârșit, a treia lecție generală a studiilor lui Ansolabehere și a lui Hersh este că, în anumite situații, cercetătorii pot beneficia de investițiile uriașe pe care multe companii private le fac în colectarea și armonizarea seturilor complexe de date sociale.