2.3.10 Cugallach

Cuid den fhiosrachadh gu bheil companaidhean agus riaghaltasan a bhith mothachail.

Tha fiosrachadh mionaideach aig companaidhean àrachais slàinte mun chùram meidigeach a tha an luchd-ceannach a 'faighinn. Dh'fhaodadh am fiosrachadh seo a bhith air a chleachdadh airson rannsachadh cudromach mu shlàinte, ach ma dh 'fhàs e poblach, dh'fhaodadh gun toir e cron tòcail (me, nàire) no cron eaconomach (me, call cosnaidh). Tha fiosrachadh aig mòran de stòran dàta mòr eile cuideachd a tha mothachail , a tha mar phàirt den adhbhar carson nach eil iad furasta faighinn a-mach.

Gu mì-fhortanach, tha e gu math duilich a bhith a 'co-dhùnadh dè am fiosrachadh a tha fìrinneach (Ohm 2015) , mar a chaidh a dhealbhadh le Duais Netflix. Mar a bheir mi cunntas ann an caibideil 5, ann an 2006 chuir Netflix seachad 100 millean rangachadh film air a thoirt seachad le faisg air 500,000 ball agus bha gairm fosgailte aca far an robh daoine bho air feadh an t-saoghail a 'cur a-steach iomraidhean a chuireadh comas Netflix air filmichean a mholadh. Mus sgaoileadh an dàta, thug Netflix fiosrachadh sam bith follaiseach pearsanta a chomharrachadh, mar ainmean. Ach, dìreach dà sheachdain às dèidh don dàta a bhith air a leigeil a-mach, nochd Arvind Narayanan agus Vitaly Shmatikov (2008) gun robh e comasach ionnsachadh mu rangachadh filmichean dhaoine sònraichte a 'cleachdadh cleas a sheallas mi dhut ann an caibideil 6. Fiù ged a dh'fhaodadh ionnsaigh faighinn a-mach seallaidhean film neach, chan eil coltas ann gu bheil càil a dh 'aindeoin seo fhathast. Ged a dh'fhaodadh sin a bhith fìor san fharsaingeachd, airson co-dhiù cuid de na 500,000 neach anns an t-siostam-dàta, bha rangachadh filmichean mothachail. Gu dearbh, mar fhreagairt air sgaoileadh agus ath-aithneachadh an dàta, chaidh boireannach leasbach le càirdeas a-steach gu tag-gnìomh clas an aghaidh Netflix. Seo mar a chaidh an duilgheadas a nochdadh anns a 'chùis lagha (Singel 2009) :

"Tha [[M] ovie agus a 'toirt seachad fiosrachadh air fiosrachadh mu ... fìor phearsanta agus mothachail. Tha dàta film a 'bhall a' nochdadh ùidh phearsanta agus / no strì pearsanta neach Netflix le diofar chùisean pearsanta, a 'gabhail a-steach gnèitheachd, tinneasan inntinn, ath-bheothachadh bho deoch-làidir, agus fulang bho chladhach, droch dhìol corporra, fòirneart dachaigheil, adhaltranas agus èigneachadh. "

Tha an eisimpleir seo a 'sealltainn gum faod fiosrachadh a bhith ann gu bheil cuid de dhaoine den bheachd gu bheil taobh a-staigh faireachdainnean na stòr-dàta neo-chinnteach. A bharrachd, tha e a 'sealltainn gur urrainn do phrìomh dhìon a tha luchd-rannsachaidh a' fastadh airson dìon data data-de-identification-falaichte ann an dòighean iongantach. Tha an dà bheachd sin air an leasachadh nas mionaidiche ann an caibideil 6.

Is e an rud mu dheireadh a bhith a 'cumail cuimhne air dàta mothachail gu bheil e ga chruinneachadh gun chead dhaoine a' togail cheistean eiticeil, eadhon mura h-adhbharaich cron sònraichte sam bith. Is dòcha gu bheilear den bheachd gu bheil e coltach ri bhith a 'coimhead cuideigin a' gabhail frasair às aonais an aonta a bhith a 'briseadh prìobhaideachd an duine sin, a' cruinneachadh fiosrachadh mothachail - agus cuimhnich dè cho cruaidh 'sa tha e gus co-dhùnadh dè a tha mothachail-gun aonta a' cruthachadh draghan prìobhaideachd a dh'fhaodadh a bhith ann. Tillidh mi gu ceistean mu dhìomhaireachd ann an caibideil 6.

Ann an co-dhùnadh, mar as trice, chan eil stòrasan dàta mòra, leithid clàran rianachd riaghaltais agus gnìomhachais, air an cruthachadh airson rannsachadh sòisealta. Bidh na feartan mòra dàta an-diugh, agus a dh'fhaodadh a bhith a-màireach, buailteach 10 comharran a bhith aca. Tha mòran de na seilbh a thathar a 'meas mar as trice airson rannsachadh - mòr, daonnan, agus neo-ghnìomhach a' tighinn bhon fhìrinn anns an aois dhidseatach is urrainn do chompanaidhean agus riaghaltasan dàta a thional aig sgèile nach robh comasach roimhe. Agus tha mòran de na seilbhean a thathar a 'meas gu bheil e dona airson rannsachadh neo-iomlan, neo-ruigsinneach, neo-riochdachail, a' gluasad, a tha a 'toirt a-steach gu h-ealanta, neo-ruigsinneach, salach, agus mothachail-tighinn bhon fhìrinn nach deach an dàta seo a chruinneachadh le luchd-rannsachaidh airson luchd-rannsachaidh. Gu ruige seo, bhruidhinn mi mu riaghaltas agus dàta gnìomhachais còmhla, ach tha eadar-dhealachaidhean eadar an dà chuid. Anns an eòlas a th 'agam, tha dàta riaghaltais buailteach a bhith nas lugha neo-riochdachail, gun a bhith nas iomlaineach agus nas lugha a' gluasad. Aon aon taobh eile, tha clàran rianachd gnìomhachais buailteach a bhith nas cunbhalaiche. Tha a bhith a 'tuigsinn nan 10 feartan coitcheann seo na chiad cheum feumail a thaobh ionnsachadh bho stòran dàta mòr. Agus a-nis tha sinn a 'tionndadh gu ro-innleachdan rannsachaidh a dh'fhaodas sinn a chleachdadh leis an dàta seo.