2.3.2.7 Sensitif

Sesetengah maklumat bahawa syarikat-syarikat dan kerajaan mempunyai sensitif.

syarikat insurans kesihatan mempunyai maklumat terperinci tentang penjagaan perubatan yang diterima oleh pelanggan mereka. Maklumat ini boleh digunakan untuk penyelidikan penting tentang kesihatan, tetapi jika ia menjadi awam ia berpotensi membawa kepada kecederaan emosi (contohnya, rasa malu) dan bahaya ekonomi (contohnya, kehilangan pekerjaan). Jauh daripada tersendiri, banyak sumber data yang besar mempunyai maklumat yang sensitif. Sifat sensitif maklumat ini adalah sebahagian daripada sebab bahawa sumber-sumber data yang besar sering tidak boleh diakses (diterangkan di atas).

Salah satu cara yang penyelidik cuba untuk menangani keadaan ini adalah untuk de-mengenal pasti set data yang mempunyai maklumat sensitif. Tetapi, seperti yang saya akan menunjukkan dengan terperinci dalam Bab 6 (Etika) pendekatan ini serius terhad dengan cara yang tidak meluas dihargai oleh kedua-dua ahli sains sosial dan ahli sains data.

Kesimpulannya, sumber data yang besar hari ini (dan esok) secara amnya mempunyai sepuluh ciri-ciri. Banyak sifat-besar yang baik, sentiasa di atas, dan nonreactive-datang daripada fakta dalam syarikat-syarikat umur digital dan kerajaan boleh mengumpul data pada skala yang tidak mungkin sebelumnya. Dan, ramai yang buruk sifat-tidak lengkap, tidak boleh diakses, bukan wakil-, hanyut, algorithmically membingungkan, tidak boleh diakses, kotor, dan sensitif-datang dari hakikat bahawa data yang tidak dipungut oleh penyelidik untuk penyelidik. Memahami ciri-ciri ini adalah langkah pertama yang perlu untuk belajar daripada data yang besar. Dan, kini kita beralih kepada penyelidikan strategi yang kita boleh gunakan dengan data ini.