2.3.9

Stora datakällor kan laddas med skräp och spam.

Vissa forskare tror att stora datakällor, särskilt onlinekällor, är orörda eftersom de samlas automatiskt. Faktum är att personer som har arbetat med stora datakällor vet att de ofta är smutsiga . Det innebär att de ofta innehåller data som inte speglar verkliga åtgärder av intresse för forskare. De flesta samhällsforskare är redan bekanta med processen att städa storskaliga sociala undersökningsdata, men rengöring av stora datakällor verkar vara svårare. Jag tror att den ultimata källan till denna svårighet är att många av dessa stora datakällor aldrig var avsedda att användas för forskning, så att de inte samlas in, lagras och dokumenteras på ett sätt som underlättar dataskydd.

Farorna med smutsiga digitala spårdata illustreras av Back och kollegas (2010) studie av det emotionella svaret på attackerna den 11 september 2001, som jag kort sagt nämnde tidigare i kapitlet. Forskare studerar vanligtvis svaret på tragiska händelser med hjälp av retrospektiv data som samlats in över månader eller till och med år. Men Back och kollegor hittade en kontinuerlig källa till digitala spår - de tidsbestämda, automatiskt inspelade meddelandena från 85.000 amerikanska personsökare - och det gjorde det möjligt för dem att studera emotionellt svar på en mycket finare tidsskala. De skapade en minut för minut emotionell tidslinje den 11 september genom att koda känslomässiga innehållet i personsökarens meddelanden med andelen ord relaterade till (1) sorgsenhet (t.ex. "gråt" och "sorg"), (2) ångest ( till exempel "orolig" och "rädd") och (3) ilska (t ex "hat" och "kritisk"). De fann att sorg och ångest svängde hela dagen utan ett starkt mönster, men att det var en slående ökning av ilska under hela dagen. Den här undersökningen verkar vara en underbar illustration av kraften hos alltid-på datakällor: om traditionella datakällor hade använts hade det varit omöjligt att få en sådan högupplösningstidslinje för det omedelbara svaret på en oväntad händelse.

Bara ett år senare tittade Cynthia Pury (2011) noggrant på dataen. Hon upptäckte att ett stort antal av de förmodligen arga meddelandena genererades av en enda personsökare och de var alla identiska. Här är vad de förmodligen arga meddelandena sa:

"Omstart NT maskin [namn] i skåp [namn] på [plats]: Kritisk: [datum och tid]"

Dessa meddelanden var märkta arg eftersom de innehöll ordet "CRITICAL", vilket i allmänhet kan indikera ilska men i det här fallet inte. Att ta bort meddelanden som genereras av den här automatiserade personsökaren eliminerar helt den uppenbara ökningen av ilska under dagen (figur 2.4). Med andra ord var huvudresultatet i Back, Küfner, and Egloff (2010) en artefakt av en personsökare. Som det här exemplet illustrerar, har relativt enkel analys av relativt komplexa och röriga data potential att gå allvarligt fel.

Figur 2.4: Beräknade trender i ilska under september 11, 2001 baserat på 85.000 amerikanska personsökare (Back, Küfner och Egloff 2010, 2011, Pury 2011). Ursprungligen rapporterade Back, Küfner och Egloff (2010) ett mönster av ökande ilska under hela dagen. Men de flesta av dessa uppenbarligen arga meddelanden genererades av en enda personsökare som upprepade gånger skickade ut följande meddelande: Starta om NT-maskin [namn] i skåpet [namn] vid [plats]: KRITISK: [datum och tid]. Med det här meddelandet bortat, försvinner den uppenbara ökningen av ilska (Pury 2011, Back, Küfner och Egloff 2011). Anpassad från Pury (2011), figur 1b.

Figur 2.4: Beräknade trender i ilska under september 11, 2001 baserat på 85.000 amerikanska personsökare (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Ursprungligen Back, Küfner, and Egloff (2010) ett mönster av ökande ilska under hela dagen. Emellertid genererades de flesta av dessa uppenbarligen arga meddelanden av en enda personsökare som upprepade gånger skickade ut följande meddelande: "Starta om NT-maskin [namn] i skåpet [namn] vid [plats]: KRITISK: [datum och tid]". Med det här meddelandet (Pury 2011; Back, Küfner, and Egloff 2011) försvinner den uppenbara ökningen av ilska (Pury 2011; Back, Küfner, and Egloff 2011) . Anpassad från Pury (2011) , figur 1b.

Medan smutsiga data som skapats oavsiktligt - som det är från en högljudd personsökare - kan detekteras av en rimligt noggrann forskare, finns det också några onlinesystem som lockar avsiktliga spammare. Dessa spammare genererar faktiskt falska data, och-ofta motiverade av vinstarbete mycket svårt att hålla deras spamming dolda. Den politiska aktiviteten på Twitter verkar till exempel innehålla åtminstone någon rimligt sofistikerad skräppost, där vissa politiska orsaker avsiktligt görs för att se mer populär ut än de faktiskt är (Ratkiewicz et al. 2011) . Tyvärr kan det vara ganska svårt att ta bort denna avsiktliga skräppost.

Naturligtvis kan vad som anses vara smutsiga uppgifter delvis bero på forskningsfrågan. Till exempel skapas många redigeringar av Wikipedia med automatiska bots (Geiger 2014) . Om du är intresserad av Wikipedias ekologi, är dessa bot-skapade ändringar viktiga. Men om du är intresserad av hur människor bidrar till Wikipedia, ska de bot-skapade ändringarna uteslutas.

Det finns ingen enskild statistisk teknik eller tillvägagångssätt som kan säkerställa att du har rengjort dina smutsiga data tillräckligt. I slutändan tycker jag att det bästa sättet att undvika att bli lurad av smutsiga data är att förstå så mycket som möjligt om hur dina data skapades.