2.3.9 Prljavo

Veliki izvori podataka mogu biti učitan sa junk i spam.

Neki istraživači veruju da su veliki izvori podataka, posebno online izvori, čisti jer se automatski prikupljaju. Zapravo, ljudi koji su radili sa velikim izvorima podataka znaju da su često prljavi . To jest, oni često uključuju podatke koji ne odražavaju prave akcije od interesa za istraživače. Većina društvenih naučnika već je upoznata sa procesom čišćenja velikih podataka o socijalnom istraživanju, ali izgleda da je čišćenje velikih izvora podataka teže. Mislim da je krajnji izvor ove poteškoće taj što mnogi od ovih velikih izvora podataka nikada nisu imali nameru da se koriste za istraživanje, tako da se oni ne prikupljaju, čuvaju i dokumentuju na način koji olakšava čišćenje podataka.

Opasnost prljavih podataka o digitalnom tragovu ilustrovana je iz studije Back and colleagues (2010) o emocionalnom odgovoru na napade 11. septembra 2001. godine, o kojima sam kratko spomenuo ranije u poglavlju. Istraživači obično istražuju odgovor na tragične događaje koristeći retrospektivne podatke prikupljene tokom meseci ili čak godina. Ali, Back i kolege su pronašli izvor digitalnih tragova - automatsko snimljene poruke od 85.000 američkih pejdžera - što im je omogućilo da proučavaju emocionalni odgovor na mnogo finiji vremenski rok. Oni su stvorili minute od minute emocionalne vremenske linije 11. septembra šifriranjem emocionalnog sadržaja pejdžerskih poruka procentom reči koje se tiču ​​(1) tuga (npr. "Plakanje" i "žalost"), (2) anksioznost npr. "zabrinuti" i "uplašeni") i (3) bes (npr. "mržnja" i "kritički"). Otkrili su da je tuga i anksioznost tokom dana nenajavljena bez jakog uzorka, ali da je tokom dana stvorio nagli porast besa. Izgleda da ovo istraživanje predstavlja izvrsnu ilustraciju moći izvornih izvora podataka: ukoliko bi se koristili tradicionalni izvori podataka, bilo bi nemoguće dobiti takav vremenski okvir visoke rezolucije za trenutni odgovor na neočekivan događaj.

Međutim, samo godinu dana kasnije, Cynthia Pury (2011) je pažljivo pogledala podatke. Otkrila je da je veliki broj navodno besnih poruka generisao jedan pejdžer i svi su bili identični. Evo šta su navodno ljute poruke rekle:

"Reboot NT stroj [ime] u kabinetu [ime] na [lokacija]: Critical: [datum i vrijeme]"

Ove poruke su bile označene ljutito zato što su uključivali riječ "KRITIČNA", koja uopšteno govori o besu ali u ovom slučaju ne. Uklanjanje poruka koje generiše ovaj pojedinačni automatizovani pejdžer potpuno eliminiše očigledan porast besa u toku dana (slika 2.4). Drugim rečima, glavni rezultat u Back, Küfner, and Egloff (2010) bio je artefakt jednog pejdžera. Kao što ovaj primer ilustruje, relativno jednostavna analiza relativno složenih i neuspješnih podataka ima potencijal da ozbiljno pogriješi.

Slika 2.4: Procijenjeni trendovi besa tokom 11. septembra 2001. godine na osnovu 85.000 američkih pagera (Back, Küfner, i Egloff 2010, 2011; Pury 2011). Prvobitno, Back, Küfner i Egloff (2010) su prijavili obrazac povećanja besa tokom dana. Međutim, većinu ovih očigledno besnih poruka generisalo je jedan pejdžer koji je više puta poslao sledeću poruku: Reboot NT machine [name] u kabinetu [ime] na [lokaciji]: KRITIČKI: [datum i vreme]. Kada se ova poruka ukloni, očigledno povećanje besa nestaje (Pury 2011, Back, Küfner i Egloff 2011). Prilagođeno od Purya (2011), slika 1b.

Slika 2.4: Procijenjeni trendovi besa tokom 11. septembra 2001. godine na osnovu 85.000 američkih pagera (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Prvobitno, Back, Küfner, and Egloff (2010) prijavili obrazac povećanja besa tokom dana. Međutim, većinu ovih očigledno ljutih poruka generisalo je jedan pejdžer koji je više puta poslao sledeću poruku: "Ponovo pokrenite NT mašinu [ime] u kabinetu [ime] na [lokaciji]: CRITICAL: [datum i vreme]". Kada se ova poruka ukloni, očigledno povećanje besa nestaje (Pury 2011; Back, Küfner, and Egloff 2011) . Prilagođeno od Pury (2011) , slika 1b.

Dok prljave podatke koji se stvaraju nenamjerno - poput onog iz jednog bučnog pejdžera - može biti otkriven od strane razumno pažljivog istraživača, postoje i neki onlajn sistemi koji privlače namerne spamere. Ovi spameri aktivno generišu lažne podatke i često motivišu profitnim radom veoma teško da se spamovanje zadrži. Na primjer, politička aktivnost na Twitter-u čini se da uključuje barem neku razumno sofisticiranu neželjenu poštu, pri čemu su neki politički uzroci namerno učinjeni da izgledaju popularnije nego što su zapravo bili (Ratkiewicz et al. 2011) . Nažalost, uklanjanje ove namerne neželjene pošte može biti prilično teško.

Naravno, ono što se smatraju prljavim podacima može djelimično zavisiti od istraživačkog pitanja. Na primjer, mnoge izmjene u Wikipediji kreirane su automatizovanim botovima (Geiger 2014) . Ako ste zainteresovani za ekologiju Vikipedije, onda su ove izmene botova važne. Ali ako ste zainteresovani za to kako ljudi doprinose Wikipedia-u, tada bi trebali biti isključeni izmeni botova.

Ne postoji pojedinačna statistička tehnika ili pristup koji može osigurati da ste dovoljno očistili svoje prljave podatke. Na kraju, mislim da je najbolji način da se izbjegne prevariti prljavim podacima da razumijete što više o tome kako su ti podaci stvoreni.