2.3.9 Skitten

Store datakilder kan være lastet med søppel og spam.

Noen forskere mener at store datakilder, spesielt elektroniske kilder, er uberørte fordi de samles automatisk. Faktisk vet folk som har jobbet med store datakilder at de ofte er skitne . Det vil si at de ofte inneholder data som ikke gjenspeiler virkelige handlinger av interesse for forskere. De fleste sosialforskere er allerede kjent med prosessen med å rense store sosiale data, men det er vanskeligere å rense store datakilder. Jeg tror den ultimate kilden til denne vanskeligheten er at mange av disse store datakildene aldri var ment å bli brukt til forskning, og de blir derfor ikke samlet, lagret og dokumentert på en måte som gjør det enklere å rense data.

Farene ved skitne digitale spordata er illustrert av Back and colleagues ' (2010) studie av det emosjonelle svaret til angrepene 11. september 2001, som jeg kort nevnte tidligere i kapitlet. Forskere studerer vanligvis svaret på tragiske hendelser ved hjelp av tilbakevendende data samlet over måneder eller til og med år. Men, Back og kollegaer fant en kontinuerlig kilde til digitale spor - timestamped, automatisk innspilt meldinger fra 85.000 amerikanske personsøkere - og dette gjorde dem i stand til å studere emosjonell respons på en mye finere tidsskala. De opprettet en emosjonell tidslinje for hver minutt for minutt ved å kodes det følelsesmessige innholdet til personsøkermeldingene av prosentandelen av ord relatert til (1) tristhet (f.eks. "Gråt" og "sorg"), (2) angst ( for eksempel "bekymret" og "fryktelig") og (3) sinne (f.eks. "hat" og "kritisk"). De fant at tristhet og angst svingte hele dagen uten et sterkt mønster, men at det var en slående økning i sinne hele dagen. Denne undersøkelsen ser ut til å være en fantastisk illustrasjon av kraften til alltid-på datakilder: Hvis det hadde blitt brukt tradisjonelle datakilder, ville det vært umulig å oppnå en slik høyoppløselig tidslinje for umiddelbar respons på en uventet hendelse.

Bare ett år senere så Cynthia Pury (2011) på dataene mer nøye. Hun oppdaget at et stort antall de angivelig sint meldingene ble generert av en enkelt personsøker, og de var alle identiske. Her er hva de angivelig sint meldingene sa:

"Reboot NT maskin [navn] i skapet [name] på [sted]: KRITISK: [dato og klokkeslett]"

Disse meldingene ble merket sint fordi de inneholdt ordet "CRITICAL", som generelt kan indikere sinne, men i dette tilfellet gjør det ikke. Fjerning av meldingene som genereres av denne enkelt automatiserte personsøker eliminerer helt den tilsynelatende økningen i sinne i løpet av dagen (figur 2.4). Med andre ord var hovedresultatet i Back, Küfner, and Egloff (2010) en artefakt av en personsøker. Som dette eksempelet illustrerer, har relativt enkel analyse av relativt komplekse og rotete data potensialet til å gå alvorlig feil.

Figur 2.4: Beregnede trender i sinne i løpet av september 11, 2001 basert på 85.000 amerikanske personsøkere (Back, Küfner og Egloff 2010, 2011; Pury 2011). Opprinnelig rapporterte Back, Küfner og Egloff (2010) et mønster av økende sinne hele dagen. Imidlertid ble de fleste av disse tilsynelatende sint meldingene generert av en enkelt personsøker som gjentatte ganger sendte ut følgende melding: Reboot NT-maskin [navn] i skap [navn] på [sted]: KRITISK: [dato og klokkeslett]. Med denne meldingen fjernet forsvinner den tilsynelatende økningen i sinne (Pury 2011, Back, Küfner og Egloff 2011). Tilpasset fra Pury (2011), figur 1b.

Figur 2.4: Beregnede trender i sinne i løpet av september 11, 2001 basert på 85.000 amerikanske personsøkere (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Opprinnelig rapporterte Back, Küfner, and Egloff (2010) et mønster av økende sinne hele dagen. Imidlertid ble de fleste av disse tilsynelatende sint meldingene generert av en enkelt personsøker som gjentatte ganger sendte ut følgende melding: "Start NT-maskin [navn] i skapet [navn] på [sted]: KRITISK: [dato og klokkeslett]". Med denne meldingen fjernet forsvinner den tilsynelatende økningen i sinne (Pury 2011; Back, Küfner, and Egloff 2011) . Tilpasset fra Pury (2011) , figur 1b.

Mens skitne data som er opprettet utilsiktet - som for eksempel fra en støyende personsøker - kan oppdages av en rimelig forsiktig forsker, er det også noen elektroniske systemer som tiltrekker seg tilsiktede spammere. Disse spammene genererer aktivt falske data, og ofte motivert av profittarbeid er det svært vanskelig å holde spammingen skjult. For eksempel synes politisk aktivitet på Twitter å inneholde minst noen rimelig sofistikert spam, hvor noen politiske årsaker blir forsettlig gjort for å se mer populære ut enn de egentlig er (Ratkiewicz et al. 2011) . Dessverre kan det være ganske vanskelig å fjerne dette forsettlige søppelpostet.

Selvfølgelig, hva som anses å være skitne data, kan delvis avhenge av forskningsspørsmålet. For eksempel er mange redigeringer til Wikipedia opprettet av automatiserte bots (Geiger 2014) . Hvis du er interessert i Wikipedias økologi, er disse feilopprettede endringene viktige. Men hvis du er interessert i hvordan mennesker bidrar til Wikipedia, bør de bot-skapte endringene utelukkes.

Det er ingen enkelt statistisk teknikk eller tilnærming som kan sikre at du har tilstrekkelig rengjort dine skitne data. Til slutt tror jeg at den beste måten å unngå å bli lurt av skitne data, er å forstå så mye som mulig om hvordan dataene dine ble opprettet.