2.3.2.6 Dirty

Veliki izvori podataka mogu biti učitan sa junk i spam.

Neki istraživači vjeruju da velika izvora podataka, posebno onih iz online izvora, su netaknute jer su automatski prikupljaju. U stvari, ljudi koji su radili s velikim izvorima podataka znaju da su često prljave. To je, oni često sadrže podatke koje ne odražavaju pravi akcije od interesa za istraživača. Mnogi sociolozi su već upoznati s procesom čišćenja podataka socijalne ankete velikih, ali čišćenje velika izvora podataka je teže iz dva razloga: 1) nisu stvorili istraživači za istraživače i 2) istraživači obično imaju manje razumijevanja o tome kako oni su stvoreni.

Opasnosti od prljavih podataka digitalne trag ilustruje natrag i kolege ' (2010) studija emocionalni odgovor na napade od 11. septembra, 2001. Istraživači obično prouči odgovor na tragične događaje pomoću retrospektivne podatke prikupljene tokom mjeseci ili čak godina. Ali, Back i kolege pronašli uvijek na izvor digitalnih tragova-u timestamped, automatski snimljene poruke od 85.000 američkih pejdžere-a Ovo je omogućilo istraživačima da proučavaju emocionalni odgovor na mnogo finije vremenski okvir. Povratak i kolege stvorili minutu po minutu emocionalni vremenski rok 11. septembra kodiranja emocionalni sadržaj pejdžera poruka koju je postotak riječi koje se odnose na (1) tuga (npr, plače, bol), (2) anksioznost (npr, zabrinuti, uplašeni), i (3) ljutnja (npr, mržnje, kritična). Oni su otkrili da tugu i anksioznost oscilirala tijekom cijelog dana bez jake obrazac, ali da je upečatljiv rast u besu tokom dana. izgleda divan ilustracija moć uvijek na izvore podataka ovog istraživanja: koristeći standardne metode da bi bilo nemoguće imati takav visoke rezolucije Timeline neposrednog odgovora na neočekivani događaj.

Samo godinu dana kasnije, međutim, Cynthia Pury (2011) pogledao podatke pažljivije. Ona je otkrila da je veliki broj navodno ljuti poruke su generira jedan pager i svi su bili identični. Evo šta oni navodno ljut poruka, rekao je:

"Reboot NT stroj [ime] u kabinetu [ime] na [lokacija]: Critical: [datum i vrijeme]"

Ove poruke su označeni ljuti jer su uključeni riječ "kritične", što može uglavnom ukazuju ljutnje, ali ne u ovom slučaju. Uklanjanje poruke koje generira ovaj jedan automatizirani pager potpuno eliminiše očigledan porast u ljutnju tokom dana (slika 2.2). Drugim riječima, glavni rezultat u Back, Küfner, and Egloff (2010) bio je artefakt jednog pejdžera. Kao što ovaj primjer pokazuje, relativno jednostavna analiza relativno složen i neuredan podataka ima potencijal da se ozbiljno nije u redu.

Slika 2.2: Procjena trendova u ljutnju tokom 11. septembra 2001. godine na osnovu 85.000 američkih pejdžere (Back, Küfner, i Egloff 2010. godine; Pury 2011. Back, Küfner, i Egloff 2011.). Prvobitno, Back, Küfner, i Egloff (2010) prijavio obrazac povećanja ljutnje tokom dana. Međutim, većina tih očigledno ljut poruke su generira jedan pager koji u više navrata poslao sljedeću poruku: Reboot NT stroj [ime] u kabinetu [ime] na [lokacija]: Critical: [datum i vrijeme]. Sa ukloniti ove poruke, očigledno povećanje bijes nestaje (Pury 2011. Back, Küfner, i Egloff 2011.). Ova brojka je reprodukcija slika 1B u Pury (2011).

Slika 2.2: Procjena trendova u ljutnju tokom 11. septembra 2001. godine na osnovu 85.000 američkih pejdžere (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Prvobitno, Back, Küfner, and Egloff (2010) prijavio obrazac povećanja ljutnje tokom dana. Međutim, većina tih očigledno ljut poruke su generira jedan pager da u više navrata poručio je: "Reboot NT stroj [ime] u kabinetu [ime] na [lokacija]: Critical: [datum i vrijeme]". Sa ukloniti ove poruke, očigledno povećanje bijes nestaje (Pury 2011; Back, Küfner, and Egloff 2011) . Ova brojka je reprodukcija slika 1B u Pury (2011) .

Iako prljave podataka koji se stvara nenamjerno-kao što je iz jedne bučnih pager-može se otkriti razumno pažljiv istraživač, postoje i neke online sisteme koji privlače namerno spameri. Ove spameri aktivno stvaraju lažne podatke, i-često motivirani profitom-rad vrlo teško zadržati svoje spam skriveno. Na primjer, politička aktivnost na Twitteru izgleda uključiti barem neke prilično sofisticirane spam, pri čemu su neki politički razlozi su namjerno napravljene tako da izgledaju više popularan nego stvarni su (Ratkiewicz et al. 2011) . Istraživači koji rade sa podacima koji mogu sadržavati namjerni spam suočavaju sa izazovom da ubedi svoje publike da su otkrivene i ukloniti relevantne spam.

Na kraju, ono što se smatra prljavi podaci mogu zavisiti u suptilne načine na istraživačka pitanja. Na primjer, mnoge izmjene u Wikipediji su stvorili automatizirani robota (Geiger 2014) . Ako ste zainteresovani u ekologiji Wikipedia, onda ovi botovi su važni. Ali, ako ste zainteresirani za to kako ljudi doprinose Wikipediji, ove izmjene od strane tih robota treba isključiti.

Najboljih načina da se izbegne zavara su prljavi podaci da shvate kako su vaši podaci stvoreni za obavljanje jednostavnih analiza istraživanja, kao što je izrada jednostavna scatter parcela.