2.3.2.7 Sensitive

Niektoré z informácií, ktoré podniky a vlády je citlivý.

Zdravotné poisťovne mať podrobné informácie o zdravotnej starostlivosti dostal svojich zákazníkov. Tieto informácie by mohli byť použité na významnom výskume o zdravie, ale ak sa dostala na verejnosť, že by mohla viesť k citovej ujmy (napr rozpaky) a ekonomickými škodami (napríklad strata zamestnania). Ďaleko od výrazný, mnoho veľkých dátových zdrojov majú informácie, ktoré sú citlivé. Citlivá povaha týchto informácií je jedným z dôvodov, že veľké dátové zdroje sú často nedostupné (pozri vyššie).

Jedným zo spôsobov, že výskumníci pokúšajú riešiť túto situáciu je de-identifikovať dátové súbory, ktoré majú dôverné informácie. Ale, ako ukážem podrobnejšie v kapitole 6 (etika) Tento prístup vážne obmedzená spôsoby, ktoré nie sú široko oceňovaná ako sociológmi a dátových vedcov.

Záverom možno povedať, veľké dátové zdroje dnes (a zajtrajška) všeobecne majú desať vlastnosti. Veľa dobrých vlastností-veľké, vždy k dispozícii, a nereaktívnych príde zo skutočnosti, v digitálnom veku firmy a vlády sú schopné zhromažďovať dáta v mierke, ktoré nebolo možné skôr. A mnoho z zlých vlastností-neúplné, neprístupné, nereprezentatívne, neukotvená, algoritmickým zahanbený, neprístupné, špinavý, a citlivá príde zo skutočnosti, že dáta nie sú zhromažďujú výskumní pracovníci pre výskumných pracovníkov. Pochopenie tieto vlastnosti sú nevyhnutným prvým krokom k učeniu od veľkých dát. A teraz sa zameriame na výskum stratégie, môžeme použiť s týmito dátami.