2.3.2.6 Dirty

Burime të mëdha të të dhënave mund të jetë i ngarkuar me junk dhe spam.

Disa studiues besojnë se burimet e mëdha të të dhënave, sidomos ato nga burime online, janë të pacenuar për shkak se ata janë mbledhur automatikisht. Në fakt, njerëzit që kanë punuar me burime të mëdha të të dhënave e di se ata janë shpesh të pista. Kjo është, ata shpesh përfshijnë të dhëna që nuk pasqyrojnë veprimet reale të interesit të studiuesve. Shumë shkencëtarë socialë janë tashmë të njohur me procesin e pastrimit në shkallë të gjerë të dhënat e anketës sociale, por pastrimin e burimeve të mëdha të të dhënave është më e vështirë për dy arsye: 1) ata nuk janë të krijuar nga hulumtuesit për studiuesit dhe 2) studiuesve në përgjithësi, kanë kuptim më pak të asaj se si ato u krijuan.

Rreziqet e të dhënave të pista digital gjurmë janë ilustruar nga Back dhe kolegët " (2010) studimin e reagimit emocional ndaj sulmeve të 11 shtatorit, 2001. Hulumtuesit zakonisht studiuar reagimin ndaj ngjarjeve tragjike duke përdorur të dhënat e mbledhura gjatë retrospektive muaj apo edhe vite. Por, Back dhe kolegët e gjeti një porosi gjithmonë-në burim gjurmë-dixhital timestamped, regjistruar automatikisht nga 85.000 amerikanë pagers, dhe kjo ka mundësuar kërkuesit për të studiuar përgjigje emocionale në një periudhë kohore shumë finer. Mbrapa dhe kolegët e krijoi një minutë pas minute afat kohor emocionale të 11 shtatorit duke kodim përmbajtjen emocionale të mesazheve pager nga përqindja e fjalëve që lidhen me (1) trishtim (p.sh., duke qarë, pikëllimin), (2) ankthin (p.sh., shqetësuar, i frikësuar), dhe (3) zemërimi (p.sh., urrejtje, kritik). Ata gjetën se trishtim dhe ankth luhatur gjatë gjithë ditës pa një model të fortë, por se ka pasur një rritje të mrekullueshëm në zemërimin gjatë gjithë ditës. Ky hulumtim duket të jetë një ilustrim i mrekullueshëm i fuqisë së gjithmonë-në burimet e të dhënave: duke përdorur metoda standarde do të ishte e pamundur që të ketë të tillë një afat kohor me rezolucion të lartë të reagimit të menjëhershëm të një ngjarje të papritur.

Vetëm një vit më vonë, megjithatë, Cynthia Pury (2011) shikuar në të dhëna më me kujdes. Ajo zbuloi se një numër i madh i mesazheve gjoja zemëruar janë të krijuara nga një pager vetëm dhe ata ishin të gjithë të njëjtë. Ja se çfarë tha ato mesazhe gjoja zemëruar:

"Makinë Reboot NT [emri] në kabinetin e [emri] në [vend të]: KRITIKE: [data dhe koha]"

Këto mesazhe janë etiketuar zemëruar për shkak se ata të përfshirë fjalën "kritike", e cila mund të në përgjithësi të tregojë zemërimin, por nuk e bën në këtë rast. Heqja mesazhet e krijuara nga ky pager vetëm automatizuar plotësisht eliminon rritjen e dukshme në zemërimin gjatë rrjedhës së ditës (Figura 2.2). Me fjalë të tjera, rezultati kryesor në Back, Küfner, and Egloff (2010) ishte një Objekti i një pager. Si ky shembull ilustron, analiza relativisht e thjeshtë e të dhënave relativisht komplekse dhe të çrregullt ka potencial për të shkuar seriozisht gabuar.

Figura 2.2: tendencat e vlerësuar në zemërim mbi rrjedhën e 11 shtatorit 2001 në bazë të 85.000 pagers amerikane (Back, Kufner dhe Egloff 2010; Pury 2011; Back, Kufner dhe Egloff 2011). Fillimisht, Back, Kufner dhe Egloff (2010) kanë raportuar një model të rritjes zemërimin gjatë gjithë ditës. Megjithatë, shumica e këtyre mesazheve të dukshme të zemëruar janë të krijuara nga një pager vetme që në mënyrë të përsëritur dërguar nga mesazhin e mëposhtëm: Reboot NT makinë [emri] në kabinetin [emri] në [vend të]: KRITIKE: [datën dhe kohën]. Me këtë mesazh hequr, rritja e dukshme në zemërimin zhduket (Pury 2011; Back, Kufner dhe Egloff 2011). Kjo shifër është një riprodhim i Fig 1B në Pury (2011).

Figura 2.2: tendencat e vlerësuar në zemërim mbi rrjedhën e 11 shtatorit 2001 në bazë të 85.000 pagers amerikane (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Fillimisht, Back, Küfner, and Egloff (2010) raportoi një model të rritjes zemërimin gjatë gjithë ditës. Megjithatë, shumica e këtyre mesazheve të dukshme të zemëruar janë të krijuara nga një pager vetme që në mënyrë të përsëritur dërguar nga mesazhin e mëposhtëm: "makinë Reboot NT [Emri] në kabinetin e [emri] në [vendndodhja]: KRITIKE: [data dhe koha]". Me këtë mesazh hequr, rritja e dukshme në zemërimin zhduket (Pury 2011; Back, Küfner, and Egloff 2011) . Kjo shifër është një riprodhim i Fig 1B në Pury (2011) .

Ndërsa të dhënat e pista që është krijuar pa qëllim, të tilla si nga një zhurmë pager-mund të zbulohet nga një studiues në mënyrë të arsyeshme të kujdesshëm, ka edhe disa sisteme në internet që tërheqin spammers qëllimshme. Këto spammers aktive të gjeneruar të dhëna të rreme, dhe, shpesh të motivuara nga fitimi-punë shumë e vështirë për të mbajtur spamming tyre fshehur. Për shembull, aktiviteti politik në Twitter duket se për të përfshirë të paktën disa spamit arsyeshme të sofistikuar, ku disa shkaqe politike janë bërë me qëllim që të duken më popullor se ata janë aktuale (Ratkiewicz et al. 2011) . Hulumtuesit që punojnë me të dhëna që mund të përmbajnë spam e qëllimshëm të përballet me sfidën e bindur audiencën e tyre se ata kanë zbuluar dhe larguar spamit përkatës.

Së fundi, ajo është konsideruar të dhënat e pista mund të varet në mënyra të holla në pyetjet tuaja të kërkimit. Për shembull, shumë redaktimet në Wikipedia janë krijuar nga bots automatizuar (Geiger 2014) . Nëse jeni të interesuar në ekologjinë e Wikipedia, atëherë këto bots janë të rëndësishme. Por, nëse jeni të interesuar në atë se si njerëzit të kontribuojnë në Wikipedia, këto redaktimet e bëra nga këto bots duhet të përjashtohen.

Mënyrat më të mira për të mos u mashtruar nga të dhënat e pista janë për të kuptuar se si janë krijuar të dhënat tuaja për të kryer analizë të thjeshtë paraprake, të tilla si duke bërë komplote shpërndaj thjeshta.