2.3.9 brut

Grans fonts de dades poden ser carregats amb escombraries i spam.

Alguns investigadors creuen que grans fonts de dades, especialment fonts en línia, són prístines perquè es recullen automàticament. De fet, les persones que han treballat amb grans fonts de dades saben que sovint són brutes . És a dir, sovint inclouen dades que no reflecteixen accions reals d'interès per als investigadors. La majoria dels científics socials ja estan familiaritzats amb el procés de neteja de les dades enquestes a gran escala, però la neteja de grans fonts de dades sembla ser més difícil. Crec que la principal font d'aquesta dificultat és que moltes d'aquestes grans fonts de dades mai van ser destinades a ser utilitzades per a la investigació, de manera que no es recopilen, emmagatzemen i documenten de manera que faciliti la neteja de dades.

Els perills de les dades de traça digital bruta són il·lustrats per l'estudi Back and colleagues (2010) de la resposta emocional als atacs de l'11 de setembre de 2001, que es va esmentar brevemente en el capítol anterior. Els investigadors solen estudiar la resposta a esdeveniments tràgics utilitzant dades retrospectives recopilades durant mesos o fins i tot anys. Tanmateix, Back i els seus col·legues van trobar una font sempre de traces digitals -més timestada, missatges automàticament gravats de 85,000 pagers americans- i això els va permetre estudiar la resposta emocional en un període de temps molt més fi. Van crear un cronològic emocional minut a minut de l'11 de setembre codificant el contingut emocional dels missatges del cercador pel percentatge de paraules relacionades amb (1) tristesa (per exemple, "plor" i "pena"), (2) ansietat ( per exemple, "preocupat" i "temorós"), i (3) enuig (per exemple, "odi" i "crític"). Van trobar que la tristesa i l'ansietat fluctuaven durant tot el dia sense un patró fort, però que hi va haver un augment sorprenent de la ira durant tot el dia. Aquesta investigació sembla ser una meravellosa il·lustració del poder de les fonts de dades sempre: si s'hagin utilitzat fonts de dades tradicionals, hauria estat impossible obtenir aquesta cronologia d'alta resolució de la resposta immediata a un esdeveniment inesperat.

Tan sols un any després, Cynthia Pury (2011) mirar les dades amb més deteniment. Va descobrir que un gran nombre de missatges suposadament enutjats van ser generats per un sol buscador i tots eren idèntics. A continuació s'expliquen els missatges enutjosos:

"Reinici de l'equip NT [nom] en el gabinet de [nom] a [lloc]: CRÍTICA: [data i hora]"

Aquests missatges eren etiquetats enutjats perquè incloïen la paraula "CRÍTICA", que en general pot indicar indignació, però en aquest cas no ho fa. L'eliminació dels missatges generats per aquest paginador automàtic total elimina per complet el augment aparent de la ira en el transcurs del dia (figura 2.4). En altres paraules, el resultat principal en Back, Küfner, and Egloff (2010) era un artefacte d'un paginador. Tal com mostra aquest exemple, l'anàlisi relativament senzill de dades relativament complexes i desordenades té el potencial d'anar malament.

Figura 2.4: Tendències estimades de còlera al llarg de l'11 de setembre de 2001 basades en 85.000 pagers americans (Back, Küfner i Egloff 2010, 2011; Pury 2011). Originàriament, Back, Küfner i Egloff (2010) van registrar un patró d'augment de la ira durant tot el dia. Tanmateix, la majoria d'aquests missatges aparentment enutjats van ser generats per un sol paginador que va enviar repetidament el següent missatge: Reboot NT machine [name] in cabinet [name] in [location]: CRITICAL: [date and time]. Amb aquest missatge eliminat, l'aparent augment de còlera desapareix (Pury 2011; Back, Küfner i Egloff 2011). Adaptat de Pury (2011), figura 1b.

Figura 2.4: Tendències estimades de còlera al llarg de l'11 de setembre de 2001 basades en 85.000 (Back, Küfner, and Egloff 2010, 2011; Pury 2011) americans (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Originàriament, Back, Küfner, and Egloff (2010) registrar un patró d'augment de la ira durant tot el dia. Tanmateix, la majoria d'aquests missatges aparentment enutjats van ser generats per un sol paginador que va enviar repetidament el següent missatge: "Reiniciar la màquina NT [nom] al gabinet [nom] a [ubicació]: CRITICAL: [data i hora]". Amb aquest missatge eliminat, l'aparent augment de còlera desapareix (Pury 2011; Back, Küfner, and Egloff 2011) . Adaptat de Pury (2011) , figura 1b.

Si bé un investigador raonablement detingut pot detectar dades brutes que es creen involuntàriament, com ara el d'un sorollós buscapersones, també hi ha alguns sistemes en línia que atrauen els spammers intencionals. Aquests spammers generen dades falses de forma activa, i, sovint motivades pels treballs de benefici, són molt difícils de mantenir encobert el correu brossa. Per exemple, l'activitat política a Twitter sembla incloure, com a mínim, un correu brossa raonablement sofisticat, pel qual algunes causes polítiques es fan intencionalment per a ser més populars del que en realitat (Ratkiewicz et al. 2011) . Malauradament, l'eliminació d'aquest correu brossa intencional pot ser bastant difícil.

Per descomptat, el que es considera dades brutes pot dependre, en part, de la pregunta de recerca. Per exemple, moltes de les modificacions a Wikipedia són creades per robots automatitzats (Geiger 2014) . Si esteu interessats en l'ecologia de Wikipedia, aquestes edicions bot creades són importants. Però si us interessa com els humans contribueixen a la Viquipèdia, les modificacions creades per bot han de ser excloses.

No hi ha cap tècnica o acostament estadístic que pugui assegurar-vos que heu netejat prou les vostres dades brutes. Al final, crec que la millor manera d'evitar enganyar-se amb dades brutes és entendre el màxim possible sobre com es van crear les vostres dades.