2.3.2.6 Dirty

Big datuak iturri izango junk eta spam kargatu dezakezu.

Ikertzaile batzuek uste big datuak iturri, batez ere, online iturrietatik horiek, pristine dira automatikoki biltzen dira delako. Izan ere, duten datu-iturri handi batekin lan egin zuen pertsona jakin maiz zikin daudela. Hau da, maiz biltzen dute ez duten ikertzaileek benetako ekintzetan islatu datuak. gizarte-zientzialari askok dira dagoeneko eskala handiko gizarte inkestaren datu gehiago ere bi arrazoiengatik zaila garbitzeko, baina big datuak iturri garbitzea da prozesua ezagutzen: 1) ez bazituzten ikertzaileentzat ikertzaile eta 2) ikertzaileek sortutako oro har, nola ulertu gutxiago sortu ziren.

Zikin arrastorik digital datuak arriskuez dira Back eta lankideek 'ilustratua (2010) , irailaren 11, erasoak erantzun emozionala 2001. Ikertzaileak normalean gertakari tragiko hilabete edo are urte baino gehiago bildu atzera begirako datuak erabiliz erantzuna ikertzeko azterketa. Baina, Itzuli eta lankideek aurkitu beti-on digital arrasto-ordu-zigilua iturri, automatikoki erregistratzen mezuak bat 85.000 American batetik pagers-eta, horri esker ikertzaileek erantzun emozionala askoz finagoa eskala batean ikastera. Itzuli eta lankideek minutu-by minutuko irailaren 11ean timeline emozional bat sortu pager mezuak emozio-edukia kodeketa hitzak (1) tristura lotutako ehunekoa arabera (adibidez, negarrez, mina), (2) antsietatea (adibidez, kezkatuta, fearful), eta (3) haserrea (adibidez, gorrotoa, kritikoa). tristura eta larritasun horrek egunean zehar aldaketa handirik eredua sendoa gabe aurkitu zuten, baina ez zela egun osoan zehar haserrea gehikuntza deigarri bat. Ikerketa hori badirudi beti-on datuak iturri boterea ilustrazio zoragarri bat izan nahi du: metodo estandarrak erabiliz ezinezkoa hala nola, bereizmen handiko ustekabeko gertaera bat berehalako erantzuna noiz izango dute litzateke.

Just urtebete geroago, ordea, Cynthia Pury (2011) datuak begiratu zion gehiago arretaz. ustez haserre mezu kopuru handia duten pager bakar batek sortzen ziren eta guztiak berdin-berdina zirela aurkitu zuen. Hona hemen zer ustez haserre mezu horiek esan:

"Berrabiarazi NT makina [name] kabinete [name] at [kokapena]: KRITIKOA: [data eta ordua]"

Mezu hauek etiketatu ziren haserre sartzen dute "kritikoa" hitza izan daitezke, oro har adierazteko haserrea baina ez du kasu honetan delako. pager automatizatu single honek sortutako mezuak kentzen haserrea itxurazko gehikuntza egunean (2.2 irudia) zehar erabat ezabatzen. Beste era batera esanda, emaitza nagusietan Back, Küfner, and Egloff (2010) pager bat erreferentzia bat izan zen. Adibide honek erakusten duen bezala, datuak nahiko konplexua eta messy azterketa nahiko simple potentziala serio oker joan behar du.

2.2 irudia: Aurreikusitako haserrea joerak irailaren 11, 2001 ikastaroa oinarritutako 85.000 American pagers on baino gehiago (Back, Küfner, eta Egloff 2010; Pury 2011; Back, Küfner, eta Egloff 2011). Jatorriz, Itzuli, Küfner, eta Egloff (2010) haserrea handituz egun osoan zehar eredu bat du. Berrabiarazi NT makina [name] kabineteko [name] [kokapena] at: KRITIKOA: [data eta ordua] Hala ere, itxurazko haserre mezu horiek gehienak pager bakar bat behin eta berriro bidali zuen honako mezua sortutako ziren. With mezu hau kendu, haserrea gehikuntza itxurazko desagertzen (Pury 2011; Back, Küfner, eta Egloff 2011). Kopuru hori Pury (2011) Fig 1B erreprodukzio bat da.

2.2 irudia: Aurreikusitako haserrea joerak irailaren 11, 2001 ikastaroa oinarritutako 85.000 American pagers on baino gehiago (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Jatorriz, Back, Küfner, and Egloff (2010) haserrea handituz egun osoan zehar eredu bat du. "Berrabiarazi NT makina [name] kabinete [name] en [kokapena] at: KRITIKOA: [data eta ordua]" Hala ere, itxurazko haserre mezu horiek gehienak pager bat bakar hori behin eta berriro bidali zuen ondorengo mezua sortutako ziren. With mezu hau kendu, haserrea gehikuntza itxurazko desagertzen (Pury 2011; Back, Küfner, and Egloff 2011) . Kopuru hori ere Fig 1B erreprodukzio bat da Pury (2011) .

sortu dela zaratatsu batetik bezala nahigabe-hala nola zikin datuak pager-daitezke ikertzaile zentzuz zaindua detektatu bitartean ere, badaude batzuk online sistemak nahita zabor erakartzen. zabor horiek aktiboki datu faltsuak sortzeko, eta askotan irabazi-lana oso gogorra motibaturik bere spamming ezkutaturik mantentzea. Adibidez, Twitterren jarduera politikoa dela dirudi, gutxienez, arrazoiz sofistikatua spam batzuk, zeinaren kausa politikoak batzuk nahita egiten dira gehiago popular baino dute benetako dira itxura, besteak beste (Ratkiewicz et al. 2011) . datuekin lan Ikertzaileak hori nahita spam eduki dezakete aurre ikusleen detektatu dute eta spam garrantzitsua kendu konbentzitzeko erronkari.

Azkenik, zer da jotzen zikin datuak dezakezu zure ikerketa galdera modu sotil mendekoak. Adibidez, Wikipedia den aldaketa asko bot automatizatua egilea (Geiger 2014) . Zara Wikipedia ekologia interesa baduzu, orduan bot horiek garrantzitsuak dira. Baina, nola gizakiak Wikipedia laguntzen interesa izanez gero, bot horiek egindako aldaketa horiek baztertu egin behar.

Modu onena ari engaina saihesteko arabera zikin datuak nola zure datuak simple esplorazio azterketa egiteko, besteak beste, simple sakabanatu lursailak egiteko sortu ziren ulertzeko.