2.3.2.6 Dirty

Big tobraichean dàta urrainn an lìonadh le sgudal agus spama.

Tha cuid de eòlaichean a 'creidsinn gu bheil tobraichean dàta mòr, gu h-àraidh an fheadhainn bho stòrasan air-loidhne, tha dh'àrd oir tha iad a' cruinneachadh gu fèin-obrachail. Gu dearbh, tha daoine a bhith ag obair le mòr tobraichean dàta fios gu bheil iad gu tric salach. 'S e sin, tha iad tric a' gabhail a-steach dàta nach eil a 'nochdadh fìor ùidh gnìomhan do luchd-rannsachaidh. Tha mòran sòisealta luchd-saidheans a tha mar-thà eòlach air a 'phròiseas a' glanadh mòra sòisealta dàta suirbhidh, ach 'glanadh mòr tobraichean dàta tha e nas duilghe airson dà adhbhar: 1) cha robh iad a chruthachadh le luchd-rannsachaidh airson rannsachaidh agus 2)-rannsachaidh san fharsaingeachd nas lugha tuigse air mar a chruthaicheadh ​​iad.

Tha cunnartan salach didseatach sgeul dàta air a dhealbhachadh le Bhac agus co-oibrichean ' (2010) sgrùdadh air an faireachail gus freagairt air na h-ionnsaighean air 11 Sultain, 2001. Tha luchd-rannsachaidh a' sgrùdadh mar as trice an fhreagairt a chianail tachartasan bhith a 'cleachdadh ath-sheallach dàta air a thional thar mìosan no fiù' s bliadhna. Ach, a 'Bhac agus co-oibrichean a lorg an-còmhnaidh air tùs didseatach comharran-an timestamped, fèin-obrachail a chlàradh 85,000 brathan bhon American-pagers agus seo cothrom dhan luchd-rannsachaidh a' sgrùdadh faireachail freagairt air mòran nas bòidhch 'chlàr-ama. Air ais agus co-oibrichean a chruthachadh mionaid-le-mionaid faireachail clàr-ama an t-Sultain 11mh le bhith a 'còdadh an faireachail susbaint na pager teachdaireachdan rèir ìre sa cheud de na faclan co-cheangailte ri (1) muladach (me, a' caoineadh, bròn), (2) iomaguin (me, dragh oirbh, eagalach), agus (3) fearg (me, fuath, breithneachail). Fhuair iad sin fo mhulad agus iomaguin atharrachadh fad an latha gun làidir pàtran, ach gun robh tarraingeach àrdachadh ann an corruich air feadh an latha. Tha an rannsachadh seo coltach a bhith mìorbhaileach dealbh den chumhachd daonnan-air tobraichean dàta: 'cleachdadh mhodhan gum biodh e do-dhèanta a tha a leithid de àrd-rùn loidhne-tìm de na grad-fhreagairt do tachartas ris nach robh dùil.

Dìreach aon bhliadhna an dèidh sin, ge-tà, Cynthia Pury (2011) a 'coimhead aig an dàta gu faiceallach. Chuala i gun robh àireamh mhòr de fhìor feargach teachdaireachdan chaidh a chruthachadh le aon pager agus bha iad uile co-ionann. Seo na tha an fheadhainn fhìor feargach teachdaireachdan ag ràdh:

"Reboot NT inneal [name] ann an caibineat an riaghaltais [name] aig [location]: RIATANACH: [ceann-latha agus àm]"

Na teachdaireachdan sin bha fearg air an ainmeachadh seach gu bheil iad a-steach am facal "RIATANACH", a dh'fhaodadh san fharsaingeachd a 'sealltainn fearg ach chan eil sa chùis seo. Toirt air falbh na teachdaireachdan a chruthachadh le seo aon fèin-ghluasadach pager tur às don àrdachadh follaiseach ann an corruich thairis air a 'chùrsa an latha (Figear 2.2). Ann am briathran eile, a 'phrìomh thoradh air Back, Küfner, and Egloff (2010) bha an artifact aon pager. Mar eisimpleir seo a 'sealltainn, an ìre mhath sìmplidh mion-sgrùdadh air an ìre mhath toinnte agus bùrachail dàta a tha an comas a dhol ceàrr.

Figear 2.2: Tomhas air gluasadan ann an corruich thairis air cùrsa den t-Sultain 11, 2001 stèidhichte air 85,000 Ameireaganach pagers (Cùlaibh, Küfner, agus Egloff 2010; Pury 2011; Bhac, Küfner, agus Egloff 2011). An toiseach, Bhac, Küfner, agus Egloff (2010) aithris pàtran de meudachadh corruich air feadh an latha. Ge-tà, 'mhòr-chuid de na brathan follaiseach feargach chaidh a chruthachadh le aon pager gun tric chur a-mach an teachdaireachd a leanas: Reboot NT inneal [name] ann an caibineat an riaghaltais [name] aig [location]: RIATANACH: [ceann-latha agus àm]. Le an teachdaireachd seo a thoirt air falbh, an àrdachadh follaiseach ann an corruich falbhaidh (Pury 2011; Bhac, Küfner, agus Egloff 2011). Tha am figear seo ath-riochdachadh de Fig 1B ann Pury (2011).

Figear 2.2: Tomhas air gluasadan ann an corruich thairis air cùrsa den t-Sultain 11, 2001 stèidhichte air 85,000 Ameireaganach pagers (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . An toiseach, Back, Küfner, and Egloff (2010) aithris pàtran de meudachadh corruich air feadh an latha. Ge-tà, 'mhòr-chuid de na brathan follaiseach feargach chaidh a chruthachadh le aon pager gun tric chur a-mach an teachdaireachd a leanas: "Reboot NT inneal [name] ann an caibineat an riaghaltais [name] aig [location]: RIATANACH: [ceann-latha agus àm]". Le an teachdaireachd seo a thoirt air falbh, an àrdachadh follaiseach ann an corruich falbhaidh (Pury 2011; Back, Küfner, and Egloff 2011) . Tha am figear seo ath-riochdachadh de Fig 1B ann Pury (2011) .

Ged salach dàta a tha air a chruthachadh 's gun dùil a leithid bho aon fuaimneach pager-Faodar lorg le reusanta cùramach rannsaiche, tha feadhainn cuideachd air-loidhne air siostaman a thàladh dh'aon ghnothach spammers. Nam spammers gnìomhach a ghineadh fuadan dàta, agus glè thric a-eudmhor le prothaid obair gu math cruaidh aca a chumail am falach spamadh. Mar eisimpleir, gnìomhan poilitigeach air Twitter coltach ri gabhail a-steach co-dhiù cuid de reusanta ionnsaichte spama, leis am bheil cuid de dh'eileamaidean poilitigeach adhbharan a tha a dh'aona-ghnothach a dhèanamh gus coimhead barrachd fèill air na tha iad fhèin (Ratkiewicz et al. 2011) . Tha luchd-rannsachaidh ag obair còmhla ri dàta a dh'fhaodadh a bhith anns a dh'aon ghnothach spama aghaidh an dùbhlan earbsach aca gu bheil iad air luchd-èisteachd a lorg agus a thoirt air falbh iomchaidh spama.

Mu dheireadh, dè tha a 'beachdachadh air salach dàta urrainn crochadh ann seòlta dòighean air ceistean rannsachaidh agad. Mar eisimpleir, mòran na deasachaidhean a tha Wikipedia a chruthachadh le fèin-ghluasadach botaichean (Geiger 2014) . Ma tha ùidh agad ann an eag-eòlas Uicipeid, an sin botaichean tha cudromach. Ach, ma tha ùidh agad ann mar a tha daoine a 'cur ri Wikipedia, na mùthaidhean a chaidh a dhèanamh leis na botaichean bu chòir a chur a-mach.

Na dòighean as fheàrr a sheachnadh deach an car às salach le dàta a tha a 'tuigsinn mar dàta agad a chruthachadh gus a' coileanadh sìmplidh rannsachail mion-sgrùdadh, leithid a 'dèanamh sìmplidh sgap foill.