2.3.2.6 Dirty

Big Datequellen kann mat Junk an Spam iwwerlaascht sinn.

Verschidde Fuerscher mengen dass grouss Daten Quellen, besonnesch déi aus online Quellen, Gewënner sinn, well si automatesch gesammelt ginn. An Tatsaach, Leit déi mat groussen Datequellen geschafft hunn, dass se oft dreckeg sinn. Dat ass, se dacks Daten och dass net real Aktiounen interesséieren Fuerscher spigelen maachen. Vill sozial Wëssenschaftler sinn schon gutt mat de Prozess grouss-Skala sozial Ëmfro Donnéeën vun Botzen, mee grouss Datequellen Botzen ass méi schwéier fir zwee Grënn: 1) si vun de Fuerscher fir Fuerscher net hunn an 2) Fuerscher allgemeng manner Verständnis hunn, wéi se sech gegrënnt.

D'Gefore vun dreckeg digital Spuer Donnéeën illustréiert ginn duerch Back a Kollegen " (2010) benotzt Retrospektiv Date gesammelt iwwer Méint oder souguer Joer Etude vun der emotional Äntwert un den Attacken vum 11. September, 2001 Fuerscher typesch d'Äntwert op Akzeptanz studéieren. Mä, Back a Kollegen fonnt en ëmmer-iwwert Quell vun digitale Spure-d'timestamped, automatesch opgeholl Messagen vun 85.000 amerikanesch pagers-an dëser aktivéiert d'Fuerscher emotional Äntwert op eng vill méi wichteg timescale ze studéieren. Back a Kollegen eng Minutt-vun-Minutt emotional Timeline vum 11. September vun coding der emotional Inhalt vun der pager Messagen vun de Prozentsaz vu Wierder am Zesummenhang mat (1) Trauer (zB, gekrasch, Trauer), (2) Besuergnëss (zB, besuergt, ängschtlech), an (3) Roserei (zB, haassen, kritesch). Si fonnt dass Trauer a Besuergnëss ganze Dag hu ouni e staarke Muster, mä datt et eng markant Erhéijung vun Roserei an den Dag. Dëst Fuerschung schéngt eng wonnerbar Illustratioun vun der Muecht vun ëmmer-iwwert Daten Quellen gin: Standard Methode benotzt et onméiglech wier esou eng héich-Resolutioun Timeline vun der direkter Äntwert op eng exzellent Geleeënheet ze hunn.

Just ee Joer méi spéit, awer, Cynthia Pury (2011) ausgesinn an d'Daten méi virsiichteg. Si entdeckt, datt eng grouss Zuel vun de supposéierter rosen Messagen vun engem eenheetlechen pager generéiert goufen an se goufen all identesch. Hei ass dat, wat déi supposéierter rosen Messagen gesot:

"Restart Wees Maschinn [Numm] zu Ecoute [Numm] um [Standuert]: kritescher: [Datum an Zäit]"

Dës Messagen sech Fortgeschratten rosen well se d'Wuert "kritesch" abegraff, déi normalerweis Roserei weg kann awer net an dësem Fall. Stoppen d'Messagen vun dësem eenheetlechen automatiséiert pager generéiert entfält misst d'visuell Erhéijung vun Roserei am Laf vum Dag (Dorënner 2.2). An anere Wierder, den Haaptgrond Resultat am Back, Küfner, and Egloff (2010) war eng äerdzougedréiter Säit vun engem pager. Wéi dat zum Beispill, relativ einfach Analyse vu relativ komplex an extrem waarme Géigestand Donnéeën illustréiert huet d'Potential eescht falsch ze goen.

Figur 2,2: Virgesinn Trends vun Roserei am Laf vu 11, September 2001 baséiert op 85,000 American pagers (Back, Küfner, an Malafaia 2010; Pury 2011; Back, Küfner, an Malafaia 2011). Ursprénglech, Back, Küfner, an Malafaia (2010) gemellt engem Muster Roserei ganze Dag vun waarden. meescht vun dëse visuell rosen Messagen Allerdéngs goufen vun engem eenheetlechen pager entsteet, datt ëmmer folgende Message verschéckt: Restart Wees Maschinn [Numm] zu Ecoute [Numm] um [Standuert]: kritescher: [Datum an Zäit]. Mat dësem Message geläscht, verschwënnt déi visuell Erhéijung vun Roserei (Pury 2011; Back, Küfner, an Malafaia 2011). Dësen Taux ass eng Reproduktioun vun Lalumi 1B an Pury (2011).

Figur 2,2: Virgesinn Trends vun Roserei am Laf vu 11, September 2001 baséiert op 85,000 American pagers (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Ursprénglech, Back, Küfner, and Egloff (2010) gemellt engem Muster Roserei ganze Dag vun waarden. meescht vun dëse visuell rosen Messagen Allerdéngs goufen vun engem eenheetlechen pager entsteet, datt ëmmer folgende Message geschéckt eraus: "Restart Wees Maschinn [Numm] zu Ecoute [Numm] um [Standuert]: kritescher: [Datum an Zäit]". Mat dësem Message geläscht, verschwënnt déi visuell Erhéijung vun Roserei (Pury 2011; Back, Küfner, and Egloff 2011) . Dësen Taux ass eng Reproduktioun vun Lalumi 1B an Pury (2011) .

Iwwerdeems dreckeg Donnéeën datt unintentionally-wéi aus ee Kaméidi ugeluecht ass pager-kënne vun enger ëmmer virsiichteg Fuerscher festgestallt ginn, do sinn och e puer online Systemer, datt Gespréich Spammer unzezéien. Dës Spammer generéieren aktiv falsch Daten, an-oft motivéiert vum Gewënn-Aarbecht ganz schwéier ze halen hir Spammen Bak. Zum Beispill, schéngt politesch Aktivitéit op Twitter op d'mannst e puer ëmmer mechanesch Spam ze gehéieren, woubäi e puer politesch Ursaachen duerzou gemaach gi méi populär ze kucken, wéi se tatsächlech sinn (Ratkiewicz et al. 2011) . Fuerscher mat Daten schaffen, datt Gespréich Spam enthalen Gesiicht de Been hire Publikum vun iwwerzeegend, datt se fonnt hunn a geläscht relevant Spam.

Endlech, wéi dreckeg Donnéeën considéréiert ass kann an dezent Weeër op Är Recherche Froen hänken. Zum Beispill, vill Ännerungen ze Wikipedia sinn déi automatiséiert Bot hunn (Geiger 2014) . Wann Dir an der Ökologie vu Wikipedia interesséiert sidd, da sinn dës Bot wichteg. Mä, wann Dir an interesséiert sidd wéi Mënschen Wikipedia bäidroen, dës vun dëse Bot huet Ännerunge sollen ausgeschloss ginn.

Déi bescht Manéier ze wort ze vermeiden, déi dreckeg Daten ginn ze verstoen, wéi Är Donnéeën einfach Wa Analyse ze Leeschtunge geschaf goufen, wéi nees einfach luucht Diagramm.