2.3.9 Dirty

Sursele de date mari pot fi încărcate cu nedorită și spam.

Unii cercetători cred că mari surse de date, în special surse on-line, sunt originale deoarece sunt colectate automat. De fapt, persoanele care au lucrat cu mari surse de date știu că sunt frecvent murdare . Adică, acestea includ frecvent date care nu reflectă acțiuni reale de interes pentru cercetători. Majoritatea oamenilor de știință socială sunt deja familiarizați cu procesul de curățare a datelor de anchetă socială la scară largă, însă curățarea surselor mari de date pare să fie mai dificilă. Cred că sursa ultimă a acestei dificultăți este că multe dintre aceste mari surse de date nu au fost niciodată intenționate să fie utilizate pentru cercetare și astfel nu sunt colectate, stocate și documentate într-un mod care facilitează curățarea datelor.

Pericolele privind datele digitale murdare sunt ilustrate de studiul Back and colleagues (2010) al răspunsului emoțional la atacurile din 11 septembrie 2001, pe care l-am menționat pe scurt în capitolul anterior. Cercetătorii studiază de obicei răspunsul la evenimente tragice, utilizând datele retrospective colectate de-a lungul a mai multor luni sau chiar ani. Dar, Back și colegii săi au găsit o sursă permanentă de urme digitale - mesajele înregistrate automat, de la 85.000 pagini americani - și acest lucru le-a permis să studieze răspunsul emoțional într-un timp mult mai fin. Ei au creat o cronică emoțională pe minut din 11 septembrie prin codarea conținutului emoțional al mesajelor pager cu procentul de cuvinte legate de (1) tristețe (de exemplu, "plâns" și "durere"), (2) anxietate de exemplu, "îngrijorați" și "fricoși") și (3) furie (de exemplu, "ură" și "critică"). Ei au descoperit că tristețea și anxietatea au fluctuat pe parcursul zilei fără un model puternic, dar că a avut loc o creștere izbitoare a furiei pe tot parcursul zilei. Această cercetare pare a fi o ilustrare minunată a puterii surselor de date întotdeauna: dacă ar fi fost utilizate surse de date tradiționale, ar fi fost imposibil să se obțină o astfel de cronologie de înaltă rezoluție a răspunsului imediat la un eveniment neașteptat.

Doar un an mai târziu, însă, Cynthia Pury (2011) analizat mai atent datele. Ea a descoperit că un număr mare de mesaje presupuse de furie au fost generate de un singur pager și toate erau identice. Iată ce au spus acele mesaje presupuse de furios:

"Mașină Reboot NT [numele] în dulap [numele] la [location]: CRITICE: [data și ora]"

Aceste mesaje au fost etichetate furios deoarece includea cuvântul "CRITICAL", care poate indica, în general, furie, dar în acest caz nu. Eliminarea mesajelor generate de acest singur pager automat elimină complet creșterea aparentă a furiei pe parcursul zilei (figura 2.4). Cu alte cuvinte, rezultatul principal al lui Back, Küfner, and Egloff (2010) fost un artefact al unui pager. După cum ilustrează acest exemplu, analiza relativ simplă a datelor relativ complexe și dezordonate are potențialul de a greși grav.

Figura 2.4: Tendințe estimative de furie pe parcursul zilei de 11 septembrie 2001, bazate pe 85.000 pagini americani (Back, Küfner, și Egloff 2010, 2011; Pury 2011). Inițial, Back, Küfner și Egloff (2010) au raportat un model de furie în creștere pe tot parcursul zilei. Cu toate acestea, majoritatea acestor mesaje aparent furioase au fost generate de un singur pager care a trimis în mod repetat următorul mesaj: Reboot NT machine [nume] în cabinet [name] la [location]: CRITICAL: [data și ora]. Odată cu eliminarea acestui mesaj, apariția aparentă a furiei dispare (Pury 2011, Back, Küfner și Egloff 2011). Adaptat din Pury (2011), figura 1b.

Figura 2.4: Tendințe estimative de furie pe parcursul zilei de 11 septembrie 2001, bazate pe 85.000 pagini americani (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Inițial, Back, Küfner, and Egloff (2010) au raportat un model de furie în creștere pe tot parcursul zilei. Cu toate acestea, majoritatea acestor mesaje aparent furioase au fost generate de un singur pager care a trimis în mod repetat următorul mesaj: "Reboot NT machine [name] în cabinetul [name] la [location]: CRITICAL: [date and time]". Odată cu eliminarea acestui mesaj, apariția aparentă a furiei dispare (Pury 2011; Back, Küfner, and Egloff 2011) . Adaptat din Pury (2011) , figura 1b.

Deși datele murdare create neintenționat - cum ar fi cele de la un pager zgomotos - pot fi detectate de un cercetător rezonabil, există și câteva sisteme online care atrag spammeri intenționați. Acești spam-operatori generează în mod activ date false și, deseori, motivate de profit, lucrează foarte tare pentru a-și păstra ascunderea spam-urilor. De exemplu, activitatea politică pe Twitter pare să includă cel puțin un spam destul de sofisticat, prin care unele cauze politice sunt intenționate făcute să pară mai populare decât sunt în realitate (Ratkiewicz et al. 2011) . Din păcate, eliminarea acestui spam intenționat poate fi destul de dificilă.

Desigur, datele considerate murdare pot depinde, în parte, de întrebarea de cercetare. De exemplu, multe editări în Wikipedia sunt create de boturi automate (Geiger 2014) . Dacă sunteți interesat de ecologia Wikipedia, atunci aceste modificări create de bot sunt importante. Dar dacă sunteți interesat de modul în care oamenii contribuie la Wikipedia, atunci edițiile create de bot ar trebui să fie excluse.

Nu există o tehnică sau o abordare statistică unică care să vă asigure că ați curățat suficient datele dvs. murdare. În cele din urmă, cred că cel mai bun mod de a evita să fii păcălit de date murdare este să înțelegi cât de mult posibil cum a fost creat datele tale.