2.3.2.7 Sensitiewe

Sommige van die inligting wat maatskappye en regerings is sensitief.

Gesondheid versekeringsmaatskappye het inligting oor die mediese sorg deur hul kliënte ontvang uiteengesit. Hierdie inligting kan gebruik word vir belangrike navorsing oor gesondheid, maar as dit bekend geword het kon dit potensieel lei tot emosionele skade (bv verleentheid) en ekonomiese skade (bv, verlies van werk). Ver van eiesoortige, baie groot databronne het inligting wat sensitief is. Die sensitiewe aard van hierdie inligting is deel van die rede dat 'n groot data bronne is dikwels ontoeganklik (hierbo beskryf).

Een manier waarop navorsers probeer om te gaan met hierdie situasie is om te de-identifiseer datastelle wat sensitiewe inligting. Maar, soos ek sal aantoon in detail in Hoofstuk 6 (Etiek) hierdie benadering op 'n manier wat nie wyd waardeer word deur beide sosiale wetenskaplikes en data wetenskaplikes ernstig beperk.

Ten slotte, die groot databronne van vandag (en môre) het oor die algemeen tien eienskappe. Baie van die goeie eienskappe-groot, altyd-op, en onreaktiewe-kom uit die feit in die digitale era maatskappye en regerings in staat is om data in te samel op 'n skaal wat nie moontlik voorheen was. En baie van die slegte eienskappe-onvolledige, ontoeganklik, nie-verteenwoordiger, dryf, algoritmies war, ontoeganklik, vuil, en sensitiewe-kom uit die feit dat die data nie ingesamel is deur navorsers vir navorsers. Verstaan ​​hierdie eienskappe is 'n noodsaaklike eerste stap om te leer van die groot data. En, ons nou na strategieë wat ons kan gebruik met hierdie data te vors.