2.3.2.6 Dirty

Velké zdroje dat může být naloženo s nevyžádanou a spam.

Někteří vědci se domnívají, že velké datové zdroje, zejména ty z online zdrojů, jsou nedotčené, protože jsou shromažďovány automaticky. Ve skutečnosti, lidé, kteří pracují s velkými datovými zdroji vědí, že jsou často špinavé. To znamená, že často obsahují údaje, které neodrážejí skutečné akce v zájmu výzkumných pracovníků. Mnoho sociálních vědců jsou již obeznámeni s procesem čištění ve velkém měřítku Social Survey data, ale čištění velkých datových zdrojů je ze dvou důvodů složitější: 1) nebyly vytvořeny výzkumníky pro výzkumníky a 2) výzkumníci mají obecně menší pochopení toho, jak byly vytvořeny.

Nebezpečí špinavých digitální data trasování jsou ilustrovány Back a jeho kolegové " (2010) studii o emocionální reakci na útoky z 11. září 2001. Výzkumníci typicky studovat reakci na tragické události s využitím zpětné údaje shromážděné v průběhu měsíce nebo dokonce roky. Ale zpět a kolegové zjistili, vždy-na zdroji digitálního stopy-the timestamped, automaticky nahrané zprávy od 85.000 amerických pagery, a to umožnilo vědcům studovat emocionální reakce na mnohem jemnější časovém horizontu. Back a jeho kolegové vytvořili minutu za minutou emocionální časovou osu 11. září kódováním emocionální obsah pager zpráv o procento slov týkajících se (1) smutku (např pláč, smutek), (2) úzkost (např strach, strach), a (3) hněv (např nenávist, kritická). Zjistili, že smutek a úzkost pohybovala po celý den bez silného vzoru, ale že došlo k výraznému nárůstu v hněvu po celý den. Tento výzkum se zdá být báječný obrázek o síle vždy-on datových zdrojů: za použití standardních metod, že by bylo nemožné mít takovou vysokým rozlišením časovou osu bezprostřední reakci na neočekávané události a.

Jen o rok později, nicméně, Cynthia Pury (2011) pečlivěji podíval na data. Zjistila, že velký počet pravděpodobně rozzlobených zprávy byly generovány jedním pager a všechny byly stejné. Zde je to, co ty prý zlobí zprávy uvedl:

"Restart NT stroj [name] do skříně [název] na [místě]: Kritický: [datum a čas]"

Tyto zprávy byly označeny naštvaný, protože oni zahrnovali slovo "kritické", což může být obecně indikovat hněv, ale není v tomto případě. Odstranění zprávy generované tímto jediným automatizovaným pager zcela eliminuje zdánlivý nárůst hněvu nad průběhu dne (obrázek 2.2). Jinými slovy, hlavním výsledkem v Back, Küfner, and Egloff (2010) byl artefakt jedné pager. Jako tento příklad ukazuje, relativně jednoduchý rozbor poměrně složité a neuspořádaných dat má potenciál jít vážně špatně.

Obrázek 2.2: Odhadované trendy v hněvu v průběhu 11. září 2001 založený na 85.000 amerických pagery (záda, Kufner, a Egloff 2010; Pury 2011, Back, Kufner, a Egloff 2011). Původně, Back, Kufner, a Egloff (2010) uvádí vzor zvýšení hněv po celý den. Nicméně, většina z těchto zdánlivých rozzlobených zprávy byly generovány jedním pager, které opakovaně rozeslal následující zpráva: Reboot NT stroj [name] ve skříni [name] na [místě]: Kritický: [datum a čas]. S odstraní tato zpráva, zřejmý nárůst v hněvu zmizí (Pury 2011; zpátky, Kufner, a Egloff 2011). Toto číslo je reprodukcí Obr 1B v Pury (2011).

Obrázek 2.2: Odhadované trendy v hněvu v průběhu 11. září 2001 založený na 85.000 amerických pagery (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Původně, Back, Küfner, and Egloff (2010) hlášen vzor zvýšení hněv po celý den. Nicméně, většina z těchto zdánlivých rozzlobených zprávy byly generovány jedním pager, které opakovaně rozeslal následující zpráva: "Reboot NT stroje [name] skříně [name] na [místě]: Kritický: [datum a čas]". S odstraní tato zpráva, zřejmý nárůst v hněvu zmizí (Pury 2011; Back, Küfner, and Egloff 2011) . Toto číslo je reprodukcí Obr 1B v Pury (2011) .

Zatímco špinavé údaje, které jsou vytvořeny neúmyslně, například z jedné hlučné pager, může být detekována přiměřeně pečlivou výzkumník, existují i ​​některé on-line systémy, které přitahují úmyslné spammerů. Tyto spammeři aktivně vytvářet falešné údaje, a-často motivován zisku velmi tvrdě pracovat, aby jejich spam skrytá. Například politická aktivita na Twitteru se zdá, obsahovat alespoň trochu rozumně sofistikované spamy, kdy jsou některé politické příčiny úmyslně, aby vypadal více populární než jejich skutečná jsou (Ratkiewicz et al. 2011) . Vědci, kteří pracují s údaji, které mohou obsahovat úmyslné spam potýkají s problémem přesvědčit své publikum, že mají detekovány a odstraněny relevantní spam.

A konečně, co je považováno za špinavé dat může záviset na nenápadně na svých výzkumných otázek. Například, mnoho úprav na Wikipedii jsou vytvořeny automatizovanými roboty (Geiger 2014) . Máte-li zájem o ekologii Wikipedie, pak tyto boty jsou důležité. Ale pokud máte zájem o tom, jak lidé přispívají k Wikipedie, tyto úpravy provedené v těchto robotů by měly být vyloučeny.

Nejlepší způsob, aby se vyhnula zmást tím, špinavé data jsou pochopit, jak se vaše data vytvořena, aby provádět jednoduché průzkumné analýzy, jako je například výroba jednoduchých bodový grafy.