2.3.2.6 sporco

Fonti di dati grandi possono essere caricati con spazzatura e spam.

Alcuni ricercatori ritengono che le grandi fonti di dati, in particolare quelli provenienti da fonti online, sono incontaminate perché sono raccolti automaticamente. In realtà, le persone che hanno lavorato con grandi fonti di dati sanno che sono spesso sporchi. Cioè, essi includono spesso i dati che non rispecchiano le azioni reali di interesse per i ricercatori. Molti scienziati sociali hanno già familiarità con il processo di pulizia su larga scala dei dati indagine sociale, ma la pulizia fonti di dati grandi è più difficile per due motivi: 1) non sono stati creati dai ricercatori per i ricercatori e 2) i ricercatori hanno in genere meno comprensione di come sono stati creati.

I pericoli di dati di traccia digitale sporchi sono illustrate da Back e colleghi ' (2010) studio della risposta emotiva agli attacchi dell'11 settembre 2001. I ricercatori in genere studiano la risposta ad eventi tragici che utilizzano i dati retrospettivi raccolti nel corso di mesi o anche anni. Ma, Indietro e colleghi hanno trovato un messaggio di always-on fonte di digital tracce-il timestamp, registrati automaticamente da 85.000 americani cercapersone, e questo ha permesso ai ricercatori di studiare la risposta emotiva su una scala temporale molto più fine. Indietro e colleghi hanno creato una linea temporale emotivo minuto per minuto dell'11 settembre codificando il contenuto emozionale dei messaggi cercapersone in base alla percentuale di parole legate (1) tristezza (per esempio, il pianto, il dolore), (2) l'ansia (ad esempio, preoccupato, paura), e (3) la rabbia (per esempio, l'odio, la critica). Essi hanno scoperto che la tristezza e ansia fluttuazioni durante tutto il giorno senza un motivo forte, ma che vi è stato un notevole aumento rabbia per tutta la giornata. Questa ricerca sembra essere una meravigliosa illustrazione della potenza di sempre attiva fonti di dati: usando metodi standard sarebbe impossibile avere una tale linea temporale ad alta risoluzione della risposta immediata ad un evento inatteso.

Appena un anno dopo, però, Cynthia Pury (2011) ha esaminato i dati con più attenzione. Ha scoperto che un gran numero di messaggi presumibilmente rabbia sono stati generati da un singolo cercapersone ed erano tutti identici. Ecco cosa hanno detto quei messaggi apparentemente arrabbiati:

"Riavviare la macchina NT [nome] nel gabinetto [nome] a [luogo]: CRITICA: [data e ora]"

Questi messaggi sono stati etichettati arrabbiati perché hanno incluso la parola "critica", che può generalmente indicare rabbia, ma non lo fa in questo caso. Rimozione dei messaggi generati da questo singolo pager automatizzato elimina completamente l'apparente aumento rabbia nel corso della giornata (Figura 2.2). In altre parole, il risultato principale Back, Küfner, and Egloff (2010) è stato un artefatto di un cercapersone. Come questo esempio illustra, relativamente semplice analisi dei dati relativamente complessi e disordinati ha il potenziale per andare seriamente sbagliato.

Figura 2.2: tendenze stimati in rabbia nel corso del 11 settembre 2001 sulla base di 85.000 cercapersone americani (Indietro, Küfner, e Egloff 2010; Pury 2011; indietro, Küfner, e Egloff 2011). In origine, Indietro, Küfner, e Egloff (2010) ha riportato un modello di aumentare la rabbia per tutto il giorno. Tuttavia, la maggior parte di questi messaggi arrabbiati apparenti sono stati generati da un singolo cercapersone che più volte ha inviato il seguente messaggio: Riavviare NT macchina [nome] nel gabinetto [nome] a [luogo]: CRITICA: [data e ora]. Con questo messaggio rimosso, l'apparente aumento della rabbia scompare (Pury 2011; indietro, Küfner, e Egloff 2011). Questa cifra è una riproduzione della figura 1B in Pury (2011).

Figura 2.2: tendenze stimati in rabbia nel corso del 11 settembre 2001 sulla base di 85.000 cercapersone americani (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . In origine, Back, Küfner, and Egloff (2010) ha riportato un modello di aumentare la rabbia per tutto il giorno. Tuttavia, la maggior parte di questi messaggi arrabbiati apparenti sono stati generati da un singolo cercapersone che più volte ha inviato il seguente messaggio: "Riavviare la macchina NT [nome] nel gabinetto [nome] a [luogo]: CRITICA: [data e ora]". Con questo messaggio rimosso, l'apparente aumento della rabbia scompare (Pury 2011; Back, Küfner, and Egloff 2011) . Questa cifra è una riproduzione della figura 1B in Pury (2011) .

Mentre i dati sporchi che si crea involontariamente, ad esempio da un rumoroso cercapersone-possono essere rilevati da un ragionevolmente attento ricercatore, ci sono anche alcuni sistemi online che attirano gli spammer intenzionali. Questi gli spammer generano attivamente dei dati falsi, e, spesso motivati ​​dal profitto-lavoro molto duro per mantenere il loro spamming nascosto. Ad esempio, l'attività politica su Twitter sembra includere almeno un po 'di spam ragionevolmente sofisticato, per cui alcune cause politiche sono volutamente fatti per guardare più popolare di quanto non reale sono (Ratkiewicz et al. 2011) . I ricercatori che lavorano con i dati che possono contenere lo spam intenzionale affrontare la sfida di convincere il loro pubblico che essi hanno rilevato e rimosso lo spam rilevante.

Infine, quello che è considerato i dati sporchi possono dipendere in modo sottile sul tuo domande di ricerca. Per esempio, molte modifiche a Wikipedia sono creati da bot automatici (Geiger 2014) . Se siete interessati a l'ecologia di Wikipedia, quindi questi bot sono importanti. Ma, se siete interessati a come gli esseri umani contribuiscono a Wikipedia, dovrebbero essere esclusi queste modifiche apportate da questi bot.

Il modo migliore per evitare di essere ingannati da dati sporchi sono per capire come i dati sono stati creati per eseguire semplici analisi esplorativa, come la realizzazione di semplici grafici a dispersione.