2.3.9 Salach

Big tobraichean dàta urrainn an lìonadh le sgudal agus spama.

Tha cuid de luchd-rannsachaidh a 'creidsinn gu bheil stòrasan dàta mòra, gu h-àraidh tobraichean air-loidhne, gu math prìobhaideach seach gu bheil iad air an cruinneachadh gu fèin-obrachail. Gu dearbh, tha fios aig daoine a tha ag obair le stòran dàta mòr gu bheil iad gu tric salach . Is e sin, bidh iad tric a 'gabhail a-steach dàta nach eil a' nochdadh ghnìomhan fìor inntinneach do luchd-rannsachaidh. Tha a 'mhòr-chuid de luchd-saidheans sòisealta eòlach air a' phròiseas a bhith a 'glanadh dàta suirbhidh sòisealta mòr, ach tha coltas gu bheil stòrasan dàta mòra nas duilghe. Tha mi a 'smaoineachadh gur e prìomh adhbhar an duilgheadais seo nach deach mòran de na stòran dàta mòra seo a chleachdadh a-riamh airson rannsachadh, agus mar sin chan eil iad air an cruinneachadh, air an stòradh, agus air an clàradh ann an dòigh a tha a' cuideachadh glanadh dàta.

Tha na cunnartan ann an dàta lorg didseatach salach air am mìneachadh le sgrùdadh Cùl agus co-obraichean (2010) air an fhreagairt thòcail a thaobh ionnsaighean 11 Sultain 2001, a thug mi iomradh goirid roimhe sa chaibideil. Mar as trice bidh luchd-rannsachaidh a 'sgrùdadh an fhreagairt do thachartasan tromaideach a' cleachdadh dàta ath-sheasmhach a chaidh a chruinneachadh thar mìosan no eadhon bliadhnachan. Ach, fhuair Back agus co-obraichean lorg stòr-dàta didseatach a-riamh - na teachdaireachdan clàraichte le ùine bho 85,000 luchd-meadhain Ameireaganach - agus thug seo cothrom dhaibh freagairt mhothachail a sgrùdadh air raon-ama tòrr nas fèarr. Chruthaich iad loidhne-ùine tòcail mionaid-às-mionaid air an t-Sultain 11 le bhith a 'còdadh susbaint tòcail nam brathan pianaidh leis a' cheudad de fhaclan co-cheangailte ri (1) bròn (me, "ag èigheach" agus "bròn"), (2) iomagain ( me, "iomagain" agus "eagal"), agus (3) fearg (me, "fuath" agus "riatanach"). Fhuair iad a-mach gun robh bròn agus iomagain ag atharrachadh tron ​​latha gun pàtran làidir, ach gu robh àrdachadh iongantach ann am fearg tron ​​latha. Tha e coltach gu bheil an rannsachadh seo na dheagh eisimpleir de chumhachd stòrasan dàta an-còmhnaidh: nam biodh stòrasan dàta traidiseanta air a chleachdadh, bhiodh e do-dhèanta loidhne cho mòr de cho-dhùnaidhean fhaighinn air tachartas nach robh dùil.

Dìreach bliadhna às dèidh sin, ge-tà, sheall Cynthia Pury (2011) air an dàta nas mionaidiche. Fhuair i a-mach gun deach àireamh mhòr de na teachdaireachdan a bha gu dearbh feargach a chruthachadh le aon neach-pagaidh agus bha iad uile co-ionnan. Seo na thuirt teachdaireachdan a bha gu h-iongantach feargach:

"Reboot NT inneal [name] ann an caibineat an riaghaltais [name] aig [location]: RIATANACH: [ceann-latha agus àm]"

Bha na teachdaireachdan seo air an liostadh feargach oir bha iad a 'gabhail a-steach am facal "CRITICAL", a dh' fhaodadh a bhith a 'nochdadh fearg mar as trice ach chan eil sin idir. Le bhith a 'toirt air falbh na teachdaireachdan a tha an pagaire fèin-ghluasadach singilte seo a' cur às dha an àrdachadh a tha coltach ann am fearg thairis air a 'chùrsa (figear 2.4). Ann am faclan eile, bha am prìomh toradh anns a ' Back, Küfner, and Egloff (2010) na phàirt de aon neach-pagaidh. Mar a tha an eisimpleir seo a 'sealltainn, tha comas ann a bhith a' dèanamh fìor dhroch mhearachd air mion-sgrùdadh coimeasach air dàta cuibheasach agus iom-fhillte.

Figear 2.4: Treudan measta ann am fearg thairis air 11 Sultain 2001 stèidhichte air 85,000 bratach Ameireaganach (Back, Küfner, agus Egloff 2010, 2011; Pury 2011). An toiseach, thug Back, Küfner, agus Egloff (2010) cunntas air pàtran de dh'fhàs fearg tron ​​latha. Ach, chaidh a 'mhòr-chuid de na teachdaireachdan feargach seo a chruthachadh le aon neach-pòsaidh a chuir an teachdaireachd a leanas uaireannan: Ath-nuadhaich inneal NT [ainm] ann an cabinet [ainm] aig [location]: CRITICAL: [date and time]. Leis an teachdaireachd seo air a thoirt air falbh, bidh an àrdachadh a tha coltach ri corruich a 'dol à bith (Pury 2011; Back, Küfner, and Egloff 2011). Atharrachadh bho Pury (2011), figear 1b.

Figear 2.4: Treudan measta ann am fearg thairis air 11 Sultain 2001 stèidhichte air 85,000 bratach Ameireaganach (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . An toiseach, thug Back, Küfner, and Egloff (2010) cunntas air pàtran de dh'fhàs fearg tron ​​latha. Ach, chaidh a 'mhòr-chuid de na teachdaireachdan feargach sin a chruthachadh le aon neach-pòsaidh a chuir an teachdaireachd a leanas uaireannan: "Ath-nuadhaich inneal NT [ainm] ann an cabinet [ainm] aig [location]: CRITICAL: [date and time]". Leis an teachdaireachd seo air a thoirt air falbh, bidh an àrdachadh a tha coltach ri corruich a 'dol à bith (Pury 2011; Back, Küfner, and Egloff 2011) . Atharrachadh bho Pury (2011) , figear 1b.

Ged a tha dàta salach a thèid a chruthachadh gun teagamh - mar an sin bho aon neach-pòsaidh fuaimneach - a bhith air a lorg le neach-sgrùdaidh reusanta cùramach, tha cuideachd siostaman air-loidhne ann a bhios a 'tàladh spamadairean inntinneach. Bidh na spammers seo gu gnìomhach a 'cruthachadh dàta briseadh, agus gu tric air am brosnachadh le obair prothaid gu math duilich gus an spamadh aca a chluinntinn. Mar eisimpleir, tha coltas gu bheil gnìomhachd phoilitigeach air Twitter a 'gabhail a-steach co-dhiù beagan spama reusanta adhartach, far am bi cuid de na h-adhbharan poilitigeach air an dèanamh gu (Ratkiewicz et al. 2011) bhith a' coimhead nas coltaiche na iad fhèin (Ratkiewicz et al. 2011) . Gu mì-fhortanach, faodaidh a bhith a 'toirt air falbh an spama inntinn seo gu math doirbh.

Gu dearbh, dè a thathar a 'meas gu bheil dàta salach a' crochadh, gu ìre, air a 'cheist rannsachaidh. Mar eisimpleir, tha mòran deasachaidhean gu Wikipedia air an cruthachadh le botan fèin-ghluasadach (Geiger 2014) . Ma tha ùidh agad ann an eag-eòlas Uicipeid, tha na h-atharrachaidhean seo air an cruthachadh le bot cudromach. Ach ma tha ùidh agad anns an dòigh sam bi daoine a 'cur ri Wikipedia, bu chòir na h-atharrachaidhean a chaidh a chruthachadh le bot a bhith air an dùnadh a-mach.

Chan eil dòigh no dòigh-obrach staitistigeil ann a dh'fhaodas dèanamh cinnteach gun glan thu gu leòr am fiosrachadh salach agad. Aig a 'cheann thall, tha mi a' smaoineachadh gur e an dòigh as fheàrr air a bhith a 'faighinn a-steach le fiosrachadh salach a bhith a' tuigsinn cho mòr 'sa ghabhas mu mar a chaidh an dàta agad a chruthachadh.