2.3.9 Špinavý

Veľké zdroje dát môže byť naložené s nevyžiadanou a spam.

Niektorí vedci sa domnievajú, že veľké zdroje údajov, najmä on-line zdroje, sú nedotknuté, pretože sú zhromažďované automaticky. V skutočnosti ľudia, ktorí pracovali s veľkými zdrojmi údajov, vedia, že sú často špinaví . To znamená, že často obsahujú údaje, ktoré neodrážajú skutočné činnosti, ktoré sú pre výskumných pracovníkov zaujímavé. Väčšina sociálnych vedcov je už oboznámená s procesom čistenia rozsiahlych údajov o sociálnych prieskumoch, ale čistenie veľkých zdrojov údajov sa zdá byť náročnejšie. Myslím si, že konečným zdrojom tejto ťažkosti je to, že mnohé z týchto veľkých zdrojov údajov neboli nikdy určené na výskum, a preto nie sú zhromažďované, uchovávané a zdokumentované spôsobom, ktorý uľahčuje čistenie údajov.

Nebezpečenstvo špinavých digitálnych stopových údajov je znázornené štúdiou Back and colleagues (2010) o emocionálnej reakcii na útoky z 11. septembra 2001, ktorú som stručne spomenul v predchádzajúcej kapitole. Výskumníci zvyčajne skúmajú reakciu na tragické udalosti s použitím retrospektívnych údajov získaných počas mesiacov alebo dokonca rokov. Ale Back a kolegovia našli vždy zdroj digitálnych stôp - automatické zaznamenávané správy od 85 000 amerických pagierov s časovým údajom - a to im umožnilo študovať emocionálnu odpoveď na oveľa jemnejšej časovej lehote. Vytvorili minútovú minútu citovej časovej osi z 11. septembra tým, že kódujú emocionálny obsah správ pagerov o percento slov súvisiacich s (1) smútkom (napr. "Plač" a "smútok"), (2) úzkosť napr. "strach" a "strach") a (3) hnev (napr. "nenávist" a "kritický"). Zistili, že smútok a úzkosť kolísali počas celého dňa bez silného vzoru, ale že došlo k výraznému nárastu hnevu v priebehu dňa. Tento výskum sa javí ako úžasná ilustrácia moci vždy zdrojov údajov: ak by sa použili tradičné zdroje údajov, bolo by nemožné získať taký časový rozvrh s vysokým rozlíšením bezprostrednej reakcie na neočakávanú udalosť.

Len o rok neskôr sa však Cynthia Pury (2011) podrobnejšie zamerala na údaje. Zistila, že veľké množstvo údajne nahnevaných správ bolo generovaných jedným pagerom a boli to všetko identické. Tu je to, čo tieto údajne nahnevané správy povedali:

"Reštart NT stroj [name] do skrine [názov] na [mieste]: Kritický: [dátum a čas]"

Tieto správy boli označené ako rozhnevané, pretože zahŕňali slovo "KRITICKÉ", čo môže všeobecne znamenať hnev, ale v tomto prípade to nie je. Odstránenie správ generovaných týmto automatizovaným pagerom úplne eliminuje zjavné zvýšenie hnevu v priebehu dňa (obrázok 2.4). Inými slovami, hlavný výsledok Back, Küfner, and Egloff (2010) bol artefaktom jedného pageru. Ako ukazuje tento príklad, relatívne jednoduchá analýza relatívne zložitých a chaotických údajov má potenciál ísť vážne nesprávne.

Obrázok 2.4: Odhadované trendy v hneve v priebehu 11. septembra 2001 na základe 85 000 amerických strán (Back, Küfner a Egloff 2010, 2011, Pury 2011). Späť, Küfner a Egloff (2010) pôvodne zaznamenali vzrastajúci hnev v priebehu dňa. Avšak väčšina z týchto zjavne nahnevaných správ bola vygenerovaná jedným pagerom, ktorý opakovane odosielal nasledujúce hlásenie: Reboot NT machine [name] v kabíne [name] na [miesto]: CRITICAL: [dátum a čas]. Po odstránení tejto správy zmizne zrejmé zvýšenie hnevu (Pury 2011, Back, Küfner a Egloff 2011). Úprava z Pury (2011), obrázok 1b.

Obrázok 2.4: Odhadované trendy v hneve v priebehu 11. septembra 2001 na základe 85 000 amerických strán (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Back, Küfner, and Egloff (2010) pôvodne zaznamenali vzrastajúci hnev v priebehu dňa. Avšak väčšina z týchto zjavne nahnevaných správ bola vygenerovaná jedným pagerom, ktorý opakovane odosielal nasledujúce hlásenie: "Reboot NT machine [name] v kabíne [name] v [location]: CRITICAL: [date and time]". Po odstránení tejto správy zmizne zrejmé zvýšenie hnevu (Pury 2011; Back, Küfner, and Egloff 2011) . Úprava z Pury (2011) , obrázok 1b.

Zatiaľ čo špinavé dáta, ktoré sú vytvorené neúmyselne - napríklad z jedného hlučného pageru - môžu byť detegované rozumne starostlivým výskumníkom, existujú aj niektoré on-line systémy, ktoré priťahujú zámerné spamery. Títo spameri aktívne vytvárajú falošné dáta a - často motivované ziskom - pracujú veľmi ťažko, aby ich nevyžiadaná pošta skryla. Napríklad politická aktivita na Twitteri sa zdá, že obsahuje aspoň nejaký rozumne prepracovaný spam, pričom niektoré politické príčiny sú úmyselne vytvorené tak, aby vyzerali viac populárne než v skutočnosti (Ratkiewicz et al. 2011) . Bohužiaľ, odstránenie tohto úmyselného spamu môže byť dosť ťažké.

Samozrejme, čo sa považuje za špinavé údaje, môže čiastočne závisieť od výskumnej otázky. Napríklad, mnoho editácií na Wikipédii je vytvorených automatizovanými robotmi (Geiger 2014) . Ak máte záujem o ekológiu Wikipedie, potom sú tieto editácie vytvorené pomocou botov dôležité. Ak však máte záujem o to, ako ľudia prispievajú k Wikipédii, mali by sa vylúčiť edície vytvorené pomocou botov.

Neexistuje jednotná štatistická technika alebo prístup, ktorý by zabezpečil, že ste dostatočne vyčistili vaše špinavé údaje. Nakoniec si myslím, že najlepší spôsob, ako zabrániť tomu, aby ste sa oklamali špinavými údajmi, je čo najviac pochopiť, ako boli vaše údaje vytvorené.