2.3.2.6 brut

Grans fonts de dades poden ser carregats amb escombraries i spam.

Alguns investigadors creuen que les fonts de dades grans, especialment els procedents de fonts en línia, són impecables, ja que es recullen de forma automàtica. De fet, les persones que han treballat amb fonts de dades grans saben que són amb freqüència brut. És a dir, que sovint inclouen dades que no reflecteixen les accions reals d'interès per als investigadors. Molts científics socials que ja estan familiaritzats amb el procés de neteja a gran escala de dades de l'enquesta social, però la neteja de grans fonts de dades és més difícil per dues raons: 1) no van ser creats pels investigadors per a investigadors i 2) els investigadors generalment tenen menys comprensió de com que van ser creats.

Els perills de dades de rastreig digital de bruts s'il·lustren per Back i col·legues (2010) estudi de la resposta emocional als atacs de l'11 de setembre de 2001. Els investigadors solen estudiar la resposta als esdeveniments tràgics utilitzant dades retrospectives recopilades durant mesos o fins i tot anys. Però, de nou i els seus col·legues van trobar una missatgeria sempre-en font d'empremtes digitals, la marca de temps, registrats automàticament de 85.000 nord-americans buscapersones, i això va permetre als investigadors a estudiar la resposta emocional en una escala de temps molt més fina. Esquena i els seus col·legues van crear una línia de temps emocional minut a minut de l'11 de setembre al codificar el contingut emocional dels missatges de buscapersones pel percentatge de paraules relacionades amb (1) la tristesa (per exemple, el plor, el dolor), (2) l'ansietat (per exemple, , por), i (3) la ira preocupats (per exemple, l'odi, la crítica). Ells van trobar que la tristesa i l'ansietat van fluctuar durant tot el dia sense un patró forta, però que hi va haver un augment notable en la ira durant tot el dia. Aquesta investigació sembla ser una meravellosa il·lustració del poder de sempre en les fonts de dades: utilitzant mètodes estàndard que seria impossible tenir una alta resolució de línia de temps de la resposta immediata a un esdeveniment inesperat a tals.

Just un any després, però, Cynthia Pury (2011) va observar les dades amb més cura. Ella va descobrir que un gran nombre dels missatges suposadament enfadats van ser generats per un únic localitzador i tots eren idèntics. Això és el que van dir aquests missatges suposadament d'ira:

"Reinici de l'equip NT [nom] en el gabinet de [nom] a [lloc]: CRÍTICA: [data i hora]"

Aquests missatges es van marcar enfadat perquè incloïen la paraula "crític", el que pot indicar la ira general però no ho fa en aquest cas. L'eliminació dels missatges generats per aquest localitzador automatitzat només elimina per complet l'augment aparent de la ira en el transcurs del dia (Figura 2.2). En altres paraules, el resultat principal d' Back, Küfner, and Egloff (2010) era un artefacte d'un buscapersones. Com il·lustra aquest exemple, l'anàlisi relativament simple de les dades relativament complexos i desordenats té el potencial d'anar molt malament.

Figura 2.2: Estimació de les tendències en la ira en el transcurs de 11 de setembre, de 2001 sobre la base de 85.000 buscapersones Americans (Tornar, Küfner i Egloff 2010; Pury 2011; Tornar, Küfner i Egloff 2011). Originalment, Tornar, Küfner i Egloff (2010) va reportar un patró d'augment de la ira durant tot el dia. No obstant això, la majoria d'aquests missatges d'enuig aparents van ser generats per un únic localitzador que envia repetidament el missatge següent: El reinici de la màquina NT [nom] en el gabinet de [nom] a [lloc]: CRÍTICA: [data i hora]. Amb aquest missatge eliminat, l'aparent augment de la ira desapareix (Pury 2011; Tornar, Küfner i Egloff 2011). Aquesta figura és una reproducció de la figura 1B en Pury (2011).

Figura 2.2: Estimació de les tendències en la ira en el transcurs de 11 de setembre, de 2001 sobre la base de 85.000 buscapersones americans (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Originalment, Back, Küfner, and Egloff (2010) va reportar un patró d'augment de la ira durant tot el dia. No obstant això, la majoria d'aquests missatges d'enuig aparents van ser generats per un únic localitzador que envia repetidament el missatge següent: "Reinici de l'equip NT [nom] en el gabinet de [nom] a [lloc]: CRÍTICA: [data i hora]". Amb aquest missatge eliminat, l'aparent augment de la ira desapareix (Pury 2011; Back, Küfner, and Egloff 2011) . Aquesta figura és una reproducció de la figura 1B en Pury (2011) .

Mentre que les dades bruts que es crea sense voler-com d'un sorollós localitzador poden ser detectats per un investigador raonablement amb compte, també hi ha alguns sistemes en línia que atrauen els spammers intencionals. Aquests spammers generen dades de forma activa falses, i, sovint motivats per l'ànim d'un treball molt dur per mantenir el seu correu brossa oculta. Per exemple, l'activitat política al Twitter sembla incloure almenys una mica d'spam raonablement sofisticat, de manera que algunes de les causes polítiques es fan intencionalment per semblar més populars del que són reals (Ratkiewicz et al. 2011) . Els investigadors que treballen amb dades que puguin contenir el correu brossa intencional s'enfronten al repte de convèncer a la seva audiència que han detectat i eliminat el correu brossa rellevant.

Finalment, el que es considera les dades bruts poden dependre de maneres subtils en les seves preguntes d'investigació. Per exemple, moltes edicions en Wikipedia són creats pels robots automatitzats (Geiger 2014) . Si vostè està interessat en l'ecologia de Wikipedia, a continuació, aquests robots són importants. Però, si vostè està interessat en com els éssers humans contribueixen a Wikipedia, aquestes edicions fetes per aquests robots han de ser exclosos.

Les millors formes d'evitar ser enganyat per les dades bruts són entendre com es van crear les dades per realitzar anàlisi exploratòria simple, com fer gràfics de dispersió simples.