2.3.2.6 Dirty

Veľké zdroje dát môže byť naložené s nevyžiadanou a spam.

Niektorí vedci sa domnievajú, že veľké dátové zdroje, najmä tie z online zdrojov, sú nedotknuté, pretože sú zhromažďované automaticky. V skutočnosti, ľudia, ktorí pracujú s veľkými dátovými zdrojmi vedia, že sú často špinavé. To znamená, že často obsahujú údaje, ktoré neodrážajú skutočné akcie v prospech výskumných pracovníkov. Mnoho sociálnych vedcov sú už oboznámení s procesom čistenia vo veľkom meradle Social Survey dáta, ale čistenie veľkých dátových zdrojov je z dvoch dôvodov zložitejšie: 1) neboli vytvorené výskumníkmi pre výskumníkov a 2) výskumníci majú všeobecne menšie pochopenie toho, ako boli vytvorené.

Nebezpečenstvo špinavých digitálne dáta trasovanie sú ilustrované Back a jeho kolegovia " (2010) štúdiu o emocionálnu reakciu na útoky z 11. septembra 2001. Výskumníci typicky študovať reakcii na tragické udalosti s využitím spätné údaje zozbierané v priebehu mesiaca alebo dokonca roky. Ale späť a kolegovia zistili, vždy-na zdroji digitálneho stopy-the timestamped, automaticky nahrané správy od 85.000 amerických pagery, a to umožnilo vedcom študovať emocionálne reakcie na oveľa jemnejšie časovom horizonte. Back a jeho kolegovia vytvorili minútu za minútou emocionálne časovú os 11. septembra kódovaním emocionálne obsah pager správ o percento slov týkajúcich sa (1) smútku (napr plač, smútok), (2) úzkosť (napr strach, strach), a (3) hnev (napr nenávisť, kritická). Zistili, že smútok a úzkosť pohybovala po celý deň bez silného vzoru, ale že došlo k výraznému nárastu v hneve po celý deň. Tento výskum sa zdá byť báječný obrázok o sile vždy-on dátových zdrojov: za použitia štandardných metód, že by bolo nemožné mať takú vysokým rozlíšením časovú os okamžitú reakciu na neočakávané udalosti a.

Len o rok neskôr, však, Cynthia Pury (2011) starostlivejšie pozrel na dáta. Zistila, že veľký počet pravdepodobne nahnevaných správy boli generované jedným pager a všetky boli rovnaké. Tu je to, čo ty vraj hnevá správy uviedol:

"Reštart NT stroj [name] do skrine [názov] na [mieste]: Kritický: [dátum a čas]"

Tieto správy boli označené naštvaný, pretože oni zahrňovali slovo "kritické", čo môže byť všeobecne indikovať hnev, ale nie je v tomto prípade. Odstránenie správy generované týmto jediným automatizovaným pager úplne eliminuje zdanlivý nárast hnevu nad priebehu dňa (obrázok 2.2). Inými slovami, hlavným výsledkom v Back, Küfner, and Egloff (2010) bol artefakt jednej pager. Ako tento príklad ukazuje, relatívne jednoduchý rozbor pomerne zložité a neusporiadaných dát má potenciál ísť vážne zle.

Obrázok 2.2: Odhadované trendy v hneve v priebehu 11. septembra 2001 založený na 85.000 amerických pagery (chrbát, Kufner, a Egloff 2010; Pury 2011, Back, Kufner, a Egloff 2011). Pôvodne, Back, Kufner, a Egloff (2010) uvádza vzor zvýšenie hnev po celý deň. Avšak, väčšina z týchto zdanlivých nahnevaných správy boli generované jedným pager, ktoré opakovane rozoslal nasledujúca správa: Reboot NT stroj [name] v skrini [name] na [mieste]: Kritický: [dátum a čas]. S odstráni táto správa, zrejmý nárast v hneve zmizne (Pury 2011; späť, Kufner, a Egloff 2011). Toto číslo je reprodukciou Obr 1B v Pury (2011).

Obrázok 2.2: Odhadované trendy v hneve v priebehu 11. septembra 2001 založený na 85.000 amerických pagery (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Pôvodne, Back, Küfner, and Egloff (2010) hlásený vzor zvýšenie hnev po celý deň. Avšak, väčšina z týchto zdanlivých nahnevaných správy boli generované jedným pager, ktoré opakovane rozoslal nasledujúca správa: "Reboot NT stroja [name] skrine [name] na [mieste]: Kritický: [dátum a čas]". S odstráni táto správa, zrejmý nárast v hneve zmizne (Pury 2011; Back, Küfner, and Egloff 2011) . Toto číslo je reprodukciou Obr 1B v Pury (2011) .

Kým špinavé údaje, ktoré sú vytvorené neúmyselne, napríklad z jednej hlučné pager, môže byť detekovaná primerane starostlivú výskumník, existujú aj niektoré on-line systémy, ktoré priťahujú úmyselné spamerov. Tieto spameri aktívne vytvárať falošné údaje, a-často motivovaný zisku veľmi tvrdo pracovať, aby ich spam skrytá. Napríklad politická aktivita na Twitteri sa zdá, obsahovať aspoň trochu rozumne sofistikované spamy, kedy sú niektoré politické príčiny úmyselne, aby vyzeral viac populárne ako ich skutočná sú (Ratkiewicz et al. 2011) . Vedci, ktorí pracujú s údajmi, ktoré môžu obsahovať úmyselné spam stretávajú s problémom presvedčiť svoje publikum, že majú detekované a odstránené relevantné spam.

A konečne, čo je považované za špinavé dát môže závisieť na nenápadne na svojich výskumných otázok. Napríklad, mnoho úprav na Wikipédii sú vytvorené automatizovanými roboty (Geiger 2014) . Ak máte záujem o ekológiu Wikipédie, potom tieto topánky sú dôležité. Ale ak máte záujem o tom, ako ľudia prispievajú k Wikipédie, tieto úpravy vykonané v týchto robotov by mali byť vylúčené.

Najlepší spôsob, aby sa vyhla zmiasť tým, špinavé dáta sú pochopiť, ako sa vaše dáta vytvorená, aby vykonávať jednoduché prieskumné analýzy, ako je napríklad výroba jednoduchých bodový grafy.