2.3.2.7 sensible

Parte de la información que las empresas y los gobiernos tienen es sensible.

Las compañías de seguros han detallado la información sobre la atención médica recibida por sus clientes. Esta información podría ser utilizada para la investigación importante acerca de la salud, pero si se hiciera público que potencialmente podría conducir a un daño emocional (por ejemplo, la vergüenza) y un daño económico (por ejemplo, la pérdida de empleo). Lejos de fuentes de datos, muchos grandes distintivos tener información que es sensible. La naturaleza sensible de esta información es parte de la razón por la que las grandes fuentes de datos son a menudo inaccesibles (descrito anteriormente).

Una manera en que los investigadores intentan hacer frente a esta situación es de-identificar conjuntos de datos que contienen información sensible. Pero, como mostraré en detalle en el capítulo 6 (Ética) este enfoque limitado seriamente en formas que no son muy apreciados por los científicos sociales y científicos de datos.

En conclusión, las grandes fuentes de datos de hoy (y mañana) generalmente tienen diez características. Muchas de las buenas propiedades de grandes y sin interrupciones, y no reactivos, provienen del hecho en las empresas de la era digitales y los gobiernos son capaces de recoger datos a una escala que no era posible anteriormente. Y, muchas de las malas propiedades-incompleta, no representativa inaccesible,, a la deriva, de forma algorítmica confundido, inaccesible, sucio, y sensible a venir del hecho de que los datos no son recogidos por los investigadores para investigadores. La comprensión de estas características son un primer paso necesario para aprender de grandes volúmenes de datos. Y, ahora nos volvemos a las estrategias que podemos utilizar con estos datos la investigación.