2.3.2.7 Sensitive

Част от информацията, че компаниите и правителствата имат е чувствителна.

Здравноосигурителните дружества са Подробна информация за медицинските грижи, получени от техните клиенти. Тази информация може да се използва за важни изследвания за здравето, но ако това е станало публично това би могло да доведе до емоционални травми (например, срам) и икономически вреди (например, загуба на работа). Далеч от отличителни, много от големите източници на данни има информация, че е чувствителен. Чувствителният характер на тази информация е част от причината, че големите източници на данни са често недостъпни (описано по-горе).

Един от начините, които изследователите се опитват да се справят с тази ситуация е да де-идентифицират масиви от данни, които имат чувствителна информация. Но, както ще покажа по-подробно в Глава 6 (етика) този подход сериозно ограничава по начини, които не са широко оценени от двете социални учени и учени от данни.

В заключение, големите източници на данни от днес (и утре), обикновено имат десет характеристики. Много от добрите качества-големи, винаги-на, и нереактивни-идват от факта, в дигиталната ера компаниите и правителствата са в състояние да се събират данни и в мащаб, че не е било възможно по-рано. И, много от лошите качества-непълна, недостъпна, не-представител, плаващи, алгоритмично посрамиха, недостъпна, мръсна, и чувствителна-идват от факта, че данните не се събират от изследователи за изследователите. Разбирането на тези характеристики са необходима първа стъпка да се учим от големите данни. И сега ние се обръщаме към стратегии за научни изследвания можем да се използват с тази информация.