2.3.2.6 Dirty

Big andmeallikaid saab laadida rämps ja rämpsposti.

Mõned teadlased usuvad, et suur andmeallikate, eriti võrguallikatest, on põlised, sest neid kogutakse automaatselt. Tegelikult, inimesed, kes on töötanud koos suur andmeallikate teada, et nad on sageli määrdunud. See tähendab, et nad sisaldavad sageli andmeid, mis ei kajasta reaalset huvi pakkuva tegevuse teadlased. Paljud ühiskonnateadlased on juba tuttav koristamisest suurte sotsiaalsete uuringu andmed, kuid puhastamise suur andmeallikate raskem kahel põhjusel: 1) neile ei loodud teadlased teadlaste ja 2) teadlased on üldiselt vähem mõista, kuidas nad on loodud.

Ohtudest määrdunud digitaalne jälg andmed illustreerivad Tagasi ja kolleegide (2010) uuring emotsionaalne vastus 11. septembril 2001. Teadlased tavaliselt uurida vastuseks traagiliste sündmuste abil tagasiulatuva kogutud andmete üle kuu või isegi aastaid. Aga Tagasi ja tema kolleegid leidsid, alati-allikas digitaalse jälgi-the Ajatempliga automaatselt salvestatud sõnumeid 85,000 American piiparid-ja see võimaldas teadlastel uurida emotsionaalne reaktsioon on palju peenem aja jooksul. Tagasi ja kolleegide loodud minut-by-minutilise emotsionaalne ajakava 11. septembri kodeerimise emotsionaalne sisu piipari sõnumid protsent seotud sõnade (1) kurbus (nt nutt, kurbus), (2) ärevus (nt mures, hirmunud) ja (3) viha (näiteks viha, kriitiline). Nad leidsid, et kurbus ja ärevus kõikus kogu päeva ilma tugeva mustri, kuid see oli rabav kasv viha kogu päeva. See uurimus tundub olevat suurepärane näide võimu alati-andmeallikaid kasutades standardseid meetodeid oleks võimatu on selline kõrge resolutsiooniga ajaskaala kohe vastuse ootamatu sündmus.

Lihtsalt üks aasta hiljem aga Cynthia Pury (2011) vaatles andmeid hoolikamalt. Ta avastas, et suur hulk väidetavalt vihaseks sõnumeid genereeriti ühe piipari ja nad kõik olid identsed. Siin on, mida need väidetavalt vihane lugemiseks ütles:

"Reboot NT masin [nimi] kappi [nimi] on [Asukoht]: KRIITILINE: [kuupäev ja kellaaeg]"

Need sõnumid olid märgistatud vihane, sest nad sisaldasid sõna "kriitiline", mis võib üldiselt näitavad viha, kuid ei antud juhul. Eemaldamine sõnumeid genereeritud käesoleva üheainsa automatiseeritud piipari kõrvaldab täielikult nähtav kasv viha jooksul päeval (joonis 2.2). Teisisõnu, peamine tulemuse Back, Küfner, and Egloff (2010) oli artefakt üks piipar. Kuna see näide illustreerib, suhteliselt lihtne analüüs suhteliselt keeruline ja segane andmed on potentsiaali minna tõsiselt valesti.

Joonis 2.2: Hinnanguline trende viha jooksul 11. september 2001, mis põhineb 85,000 American piiparid (Back, Küfner ja Egloff 2010 Pury 2011. Back, Küfner ja Egloff 2011). Algselt, Back, Küfner ja Egloff (2010) teatas muster suurendades viha kogu päeva jooksul. Kuid enamik neist ilmne vihased sõnumid loodud ühe piipar, et korduvalt välja saadetud järgmine kiri: Reboot NT masin [nimi] kappi [nimi] on [Asukoht]: KRIITILINE: [kuupäev ja kellaaeg]. Selle sõnumi eemaldatakse näiline kasv viha kaob (Pury 2011. Back, Küfner ja Egloff 2011). See näitaja on reproduktsioon joonis 1B Pury (2011).

Joonis 2.2: Hinnanguline trende viha jooksul 11. september 2001, mis põhineb 85,000 American piiparid (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Algselt Back, Küfner, and Egloff (2010) teatas muster suurendades viha kogu päeva jooksul. Kuid enamik neist ilmne vihased sõnumid loodud ühe piipar, et korduvalt välja saadetud järgmine kiri: "Reboot NT masin [nimi] kappi [nimi] on [Asukoht]: KRIITILINE: [kuupäev ja kellaaeg]". Selle sõnumi eemaldatakse näiline kasv viha kaob (Pury 2011; Back, Küfner, and Egloff 2011) . See näitaja on reproduktsioon joonis 1B Pury (2011) .

Kuigi määrdunud andmed, mis on loodud tahtmatult-nagu ühest mürarikas piipari-saab tuvastada mõistlikult ettevaatlik uurija, on ka mõned võrgus süsteemid, mis meelitavad tahtlik spammers. Need rämpsposti aktiivselt luua võlts andmed ja-sageli ajendatud kasumi töö väga raske hoida oma spämmi varjatud. Näiteks poliitilise tegevuse kohta Twitter tundub vähemalt mõned mõistlikult kogenud rämpsposti, kus mõned poliitilised põhjused on tahtlikult tehtud otsida populaarsem kui nad tegeliku on (Ratkiewicz et al. 2011) . Teadlased töötavad andmed, mis võivad sisaldada tahtlik rämpsposti väljakutseks veenda oma publikule, et nad on avastatud ja eemaldatud asjakohaste rämpsposti.

Lõpuks, mida peetakse määrdunud andmeid saab usaldada peenelt oma uurimisküsimused. Näiteks paljud muudatused Wikipedia on loodud automatiseeritud robotid (Geiger 2014) . Kui olete huvitatud ökoloogia Wikipedia, siis need robotid on olulised. Aga kui olete huvitatud, kuidas inimesed kaasa Wikipedia need muudatused tehtud nende eest tuleb välistada.

Parim viis, et vältida petta määrdunud andmed ei mõista, kuidas oma andmeid loodi täita lihtsaid uuriv analüüs, näiteks lihtsaid hajuvusdiagrammide.