2.3.2.6 Dirty

Gall ffynonellau data mawr yn cael eu llwytho gyda sothach a sbam.

Mae rhai ymchwilwyr yn credu bod y ffynonellau data mawr, yn enwedig y rhai o ffynonellau ar-lein, yn fel newydd oherwydd eu bod yn cael eu casglu yn awtomatig. Yn wir, mae pobl sydd wedi gweithio gyda ffynonellau data mawr yn gwybod eu bod yn aml yn fudr. Hynny yw, maent yn aml yn cynnwys data nad ydynt yn adlewyrchu camau gweithredu gwirioneddol o ddiddordeb i ymchwilwyr. Mae llawer o wyddonwyr cymdeithasol eisoes yn gyfarwydd â'r broses o lanhau ddata arolwg cymdeithasol ar raddfa fawr, ond glanhau ffynonellau data mawr yn fwy anodd am ddau reswm: 1) Nid cawsant eu creu gan ymchwilwyr ar gyfer ymchwilwyr a 2) ymchwilwyr yn gyffredinol yn cael llai dealltwriaeth o sut cawsant eu creu.

Mae'r peryglon o ddata olrhain digidol budr yn cael eu darlunio gan Nôl a chydweithwyr ' (2010) astudiaeth o ymateb emosiynol i'r ymosodiadau Medi 11, 2001. Mae ymchwilwyr fel arfer yn astudio'r ymateb i ddigwyddiadau trasig ddefnyddio data ôl-weithredol a gasglwyd dros fisoedd neu hyd yn oed flynyddoedd. Ond, canfu Back a chydweithwyr yn negeseuon bob amser-ar ffynhonnell ddigidol olion-y timestamped, a gofnodwyd yn awtomatig o 85,000 Americanaidd galwyr-ac mae hyn yn galluogi'r ymchwilwyr i astudio ymateb emosiynol ar lawer amserlen mwy mân. Back a chydweithwyr creu llinell amser emosiynol Medi'r 11eg munud-by-munud drwy godio cynnwys emosiynol y negeseuon peiriant galw gan y ganran o eiriau yn ymwneud â (1) tristwch (ee, crio, galar), (2) pryder (ee, poeni, yn ofnus), a (3) dicter (ee, casineb, beirniadol). Maent yn gweld bod tristwch a phryder yn amrywio drwy gydol y dydd heb patrwm cryf, ond bod cynnydd trawiadol mewn dicter drwy gydol y dydd. Mae'r ymchwil hon yn ymddangos i fod yn ddarlun gwych o rym bob amser-ar ffynonellau data: defnyddio dulliau safonol byddai'n amhosibl i gael y fath llinell amser cydraniad uchel o'r ymateb ar unwaith i ddigwyddiad annisgwyl.

Dim ond un flwyddyn yn ddiweddarach, fodd bynnag, Cynthia Pury (2011) yn edrych ar y data yn fwy gofalus. Mae hi'n darganfod bod nifer fawr o negeseuon honnir flin cael eu creu gan peiriant galw sengl ac roedden nhw i gyd yr un fath. Dyma beth a ddywedodd y rhai negeseuon yn sôn, yn ddig:

"Ailgychwyn NT peiriant [enw] yn cabinet [enw] yn [lleoliad]: CRITIGOL: [dyddiad ac amser]"

Y negeseuon hyn eu labelu yn flin am eu bod yn cynnwys y gair "CRITIGOL", a all yn gyffredinol yn dangos dicter, ond nid ei wneud yn yr achos hwn. Cael gwared ar y negeseuon a gynhyrchir gan y peiriant galw awtomataidd sengl yn gyfan gwbl yn dileu'r cynnydd ymddangosiadol mewn dicter yn ystod y dydd (Ffigur 2.2). Mewn geiriau eraill, y prif canlyniad yn Back, Küfner, and Egloff (2010) oedd yn arteffact o un peiriant galw. Gan fod yr enghraifft hon yn dangos, mae gan dadansoddiad cymharol syml o ddata cymharol gymhleth ac anniben y potensial i fynd yn ddifrifol o'i le.

Ffigur 2.2: Tueddiadau Amcangyfrif yn dicter yn ystod Medi 11, 2001 yn seiliedig ar 85,000 peiriannau galw Americanaidd (Back, Küfner, a Egloff 2010; Pury 2011; Back, Küfner, a Egloff 2011). Yn wreiddiol, Back, adroddodd Küfner, a Egloff (2010) patrwm o gynyddu dicter drwy gydol y dydd. Ond mae'r rhan fwyaf o'r rhain yn negeseuon dig yn amlwg yn cael eu cynhyrchu gan peiriant galw sengl a anfonodd dro ar ôl tro y neges ganlynol: Reboot NT peiriant [enw] yn cabinet [enw] yn [lleoliad]: CRITIGOL: [dyddiad ac amser]. Gyda'r neges hon ei symud, mae'r cynnydd ymddangosiadol mewn dicter yn diflannu (Pury 2011; Back, Küfner, a Egloff 2011). Mae'r ffigur hwn yn atgynhyrchiad o Ffig 1B yn Pury (2011).

Ffigur 2.2: Tueddiadau Amcangyfrif yn dicter yn ystod Medi 11, 2001 yn seiliedig ar 85,000 peiriannau galw Americanaidd (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Yn wreiddiol, Back, Küfner, and Egloff (2010) adrodd patrwm o gynyddu dicter drwy gydol y dydd. Fodd bynnag, mae'r rhan fwyaf o'r rhain yn negeseuon dig yn amlwg yn cael eu cynhyrchu gan un peiriant galw sengl a anfonodd dro ar ôl tro y neges ganlynol: "peiriant Reboot NT [enw] yn cabinet [enw] yn [lleoliad]: CRITIGOL: [dyddiad ac amser]". Gyda'r neges hon ei symud, mae'r cynnydd ymddangosiadol mewn dicter yn diflannu (Pury 2011; Back, Küfner, and Egloff 2011) . Mae'r ffigur hwn yn atgynhyrchiad o Ffig 1B yn Pury (2011) .

Er bod data budr sy'n cael ei greu yn anfwriadol megis o un swnllyd peiriant galw-gellir eu canfod gan ymchwilydd weddol ofalus, mae yna hefyd rhai systemau ar-lein sy'n denu spammers bwriadol. Mae'r rhain yn spammers yn mynd ati i gynhyrchu data ffug, ac yn aml-symbylu gan elw-waith caled iawn i gadw eu spamio cuddiedig. Er enghraifft, mae gweithgarwch gwleidyddol ar Twitter ymddangos i gynnwys o leiaf rhywfaint o spam weddol soffistigedig, lle mae rhai achosion gwleidyddol yn cael eu gwneud yn fwriadol i edrych yn fwy poblogaidd nag y maent gwirioneddol yn (Ratkiewicz et al. 2011) . Ymchwilwyr sy'n gweithio gyda data a all gynnwys sbam bwriadol yn wynebu'r her o argyhoeddi eu cynulleidfa eu bod wedi canfod a'u dileu spam perthnasol.

Yn olaf, yr hyn a ystyrir y gall data budr yn dibynnu mewn ffyrdd cynnil ar eich cwestiynau ymchwil. Er enghraifft, mae llawer o edits i Wicipedia yn cael eu creu gan bots awtomataidd (Geiger 2014) . Os oes gennych ddiddordeb mewn ecoleg Wicipedia, yna bots hyn yn bwysig. Ond, os oes gennych ddiddordeb mewn sut mae bodau dynol yn cyfrannu at Wicipedia, golygiadau hyn a wnaed gan bots hyn gael ei wahardd.

Y ffyrdd gorau i osgoi cael eich twyllo gan ddata brwnt yn deall sut mae eich data yn cael eu creu i wneud dadansoddiad archwiliadol syml, megis gwneud plotiau gwasgariad syml.