2.3.2.7 Sensitive

Некоторая информация , что компании и правительства чувствительно.

Медицинские страховые компании подробную информацию о медицинской помощи, полученной их клиентами. Эта информация может быть использована для важных исследований о здоровье, но если она стала достоянием общественности она потенциально может привести к эмоциональному вреда (например, смущения) и экономического ущерба (например, потеря работы). Далеко от отличительных, многих крупных источников данных есть информация, которая чувствительна. Непростой характер этой информации является частью той причине , что большие источники данных часто недоступны (описано выше).

Один из способов, что исследователи пытаются справиться с этой ситуацией является де-определить наборы данных, которые имеют конфиденциальную информацию. Но, как я покажу подробно в главе 6 (этика), этот подход серьезно ограничен такими способами, которые не являются широко ценится как социальными учеными и учеными данных.

В заключение отметим, что большие источники данных сегодня (и завтра), как правило, десять характеристик. Многие из хороших свойств-больших, всегда-на, и нереакционноспособные-исходят из того, в век цифровых технологий компании и правительства могут собирать данные в масштабе, что было невозможно ранее. И многие из плохих свойств-неполной, недоступной, нерепрезентативного, дрифтинг, алгоритмически посрамлены, недоступное, грязный и чувствительной исходят из того, что данные не собираются исследователями для исследователей. Понимание этих характеристик являются необходимым первым шагом к обучению из больших объемов данных. И теперь мы переходим к стратегии исследований мы можем использовать с этими данными.