2.3.9 Dirty

Big datuak iturri izango junk eta spam kargatu dezakezu.

Ikertzaile batzuek uste dute datu-iturri handiak direla, batez ere, iturri linealak, pristineak automatikoki jasotzen dituztelako. Izan ere, datu-iturri handiekin lan egin duten pertsonek badakite maiz zikin direla . Hau da, sarritan ikertzaileentzat intereseko ekintza errealak islatzen ez dituzten datuak sartzen dituzte. Gizarte zientzialari gehienak eskala handiko gizarte inkesta datuak garbitzeko prozesua ezagutzen ari dira, baina datu-iturri handiak garbitzeko zaila dirudi. Uste dut zailtasun honen iturri nagusia datu-iturri horietako askok ez zirela inoiz ikerketarako erabili behar, eta beraz, ez dira biltzen, gordetzen eta dokumentatzen datuen garbiketa errazten duen modu batean.

Arrasto digital zikineko datu zikinek Atzera eta lankideek (2010) aztertu dute 2001eko irailaren 11ko erasoen erantzun emozionalaren azterketa, eta laburki aipatu dut kapituluan. Ikertzaileek gertakari tragikoen erantzuna ikertzen dute, hilabete edota urteetan zehar jasotako atzera begirako datuak erabiliz. Baina, Atzera eta lankideek trazatu digitalen iturri bat aurkitu zuten, denbora-zigilua, mezuak 85.000 pageraz osatutako mezu elektronikoak automatikoki grabatuak izan zitezen, eta horri esker emozioen erantzuna ikasi ahal izan zuten denbora askoz finagoa lortzeko. Hilabete bakoitzeko minutu emozionala sortu zuten irailaren 11ko denbora-lerroaren bidez, pagatzaileen mezuaren eduki emozionala kodetzen baitzuen (1) tristura (adibidez, "negarrez" eta "pena") lotutako hitzak (2) antsietatea (2) Adibidez, "kezkatuta" eta "beldurgarria"), eta (3) haserrea (adibidez, "gorrotoa" eta "kritikoa"). Tristura eta antsietatea egun osoan zehar fluktuatu ziren eredu sendo gabe, baina egun osoan zehar haserrea harrigarria izan zen. Ikerketa hau beti datuen iturrien indarraren irudia zoragarria iruditzen zaigu: datuen iturri tradizionalak erabili badira, ezinezkoa gertatu zen gertaera ustekabeko erantzun bizkorreko kronologia lortzeko.

Urte bat geroago, ordea, Cynthia Puryk (2011) datuak arretaz aztertu zituen. Baieztapen haserretuen mezu ugariak pagatzaile bakar batek sortuak ziren eta berdinak ziren. Hona hemen zer esan nahi duten haserretzen diren mezuak:

"Berrabiarazi NT makina [name] kabinete [name] at [kokapena]: KRITIKOA: [data eta ordua]"

Mezu hauek eten ziren haserre, "KRITIKA" hitza barne zutelako, eta horrek, oro har, haserrea adierazten du, baina kasu honetan ez da. Mezularitze automatizatu automatiko honek sortutako mezuak ezabatzen ditu guztiz ezabatzen haserrea egun osoan zehar (2.4 irudia). Hau da, Back, Küfner, and Egloff (2010) emaitza nagusiak pager bat izan zen. Adibide gisa, datu nahiko konplexuak eta gaizkiak aztertzeko nahiko erraza da.

2. irudia: 2001. urteko irailaren 11ko haserrerako joera estimatuak 85.000 pagatzaile estatubatuarrek (Back, Küfner eta Egloff 2010, 2011; Pury 2011) oinarrituta. Jatorriz, Back, Küfner eta Egloff (2010) egun osoan zehar haserrea areagotzeko eredua azaldu zuten. Hala eta guztiz ere, itxuraz haserre mezuak horietako gehienak honako mezu hau behin eta berriz bidali duten pagatzaile bakar batek sortua izan zen: Reboot NT machine [name] in cabinet [name] at [location]: CRITICAL: [date and time]. Mezu hau kenduta, haserrea itxurazko gehikuntza desagertzen da (Pury 2011; Back, Küfner eta Egloff 2011). Pury (2011) egokitua, 1. irudia.

2. irudia: 2001. urteko irailaren 11ko haserrerako joera estimatuak 85.000 pagatzaile estatubatuarrek (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Jatorriz, Back, Küfner, and Egloff (2010) egun osoan zehar haserrea areagotzeko eredua azaldu zuten. Hala eta guztiz ere, itxuraz haserre mezuak horietako gehienak honako mezu hau behin eta berriro bidaltzen duten pagatzaile bakar batek sortzen ditu: "Berrabiarazi NT makina [izena] kabinetean [izena] at [kokalekua]: CRITICAL: [data eta ordua]". Mezu hau kenduta, haserrea itxurazko gehikuntza desagertzen da (Pury 2011; Back, Küfner, and Egloff 2011) . Pury (2011) egokitua, 1. irudia.

Bitartekaritza zentzuduna sortzen duen datu zikinak (zaratatsuagoak direnak) zentzudun ikertzaile batek detektatu dezakeen bitartean, nahigabeko asmoak erakartzen dituzten sistemak ere badira. Zaborrontzi horiek datu faltsuak sortzen dituzte aktiboki, eta sarritan irabazi-lana motibatzen dute oso gogorra spamak ezkutatzeko. Esate baterako, Twitter-eko jarduera politikoa badirudi gutxienez spam zentzuz sofistikatu batzuk sartzea, eta horregatik arrazoi politiko batzuk nahitaezkoak dira benetan baino (Ratkiewicz et al. 2011) . Zoritxarrez, nahigabeko spam hau kenduta oso zaila izan daiteke.

Jakina, datu zikinek zentzu hertsian parte hartzen dute ikerketa-galderari dagokionez. Adibidez, Wikipediako aldaketa asko bots automatikoki sortu dira (Geiger 2014) . Wikipediaren ekologia nahi baduzu, bot-created edits hauek garrantzitsuak dira. Baina gizakiak Wikipediara nola lagundu nahi duen interesatzen bazaizu, bot-created editsak baztertu egin behar dira.

Ez dago estatistika-teknika edo hurbilketa bakarra, datu zikinak behar bezala garbitu dituztela ziurtatzeko. Azkenean, datu zikinen bidez engainatu ez dadin modurik onena zure datuak nola sortu diren ulertzea da.