2.3.2.7 Sensitive

Een deel van de informatie die bedrijven en overheden hebben is gevoelig.

Zorgverzekeraars hebben informatie over de medische zorg door hun klanten ontvangen gedetailleerde. Deze informatie kan worden gebruikt voor belangrijk onderzoek over gezondheid, maar als het publiek werd zou het kunnen leiden tot emotionele schade (bijvoorbeeld schaamte) en economische schade (bijvoorbeeld verlies van werkgelegenheid). Verre van onderscheidende, vele grote databronnen hebben informatie dat gevoelig. De gevoelige aard van deze informatie maakt deel uit van de reden dat big data bronnen zijn vaak ontoegankelijk (hierboven beschreven).

Een manier om dat onderzoekers proberen om te gaan met deze situatie te de-identificeren datasets die gevoelige informatie hebben. Maar, zoals ik zal laten zien in detail beschreven in hoofdstuk 6 (Ethics) deze aanpak op een manier die niet op grote schaal worden gewaardeerd door zowel de sociale wetenschappers en data-wetenschappers ernstig beperkt.

Kortom, de big data bronnen van vandaag (en morgen) hebben over het algemeen tien kenmerken. Veel van de goede eigenschappen-big, always-on, en niet-reactieve-komen uit het feit in het digitale tijdperk bedrijven en overheden in staat zijn om gegevens te verzamelen op een schaal die niet mogelijk eerder was. En veel van de slechte eigenschappen-incomplete, ontoegankelijk, niet-representatieve, het afdrijven, algoritmisch beschaamd, ontoegankelijke, vies en gevoelige komen uit het feit dat de gegevens niet worden verzameld door onderzoekers voor onderzoekers. Inzicht in deze kenmerken zijn een noodzakelijke eerste stap om te leren van big data. En nu gaan we naar strategieën die we kunnen gebruiken met deze gegevens te onderzoeken.