2.3.2.7 Sensitive

Disa nga informacionet që kompanitë dhe qeveritë kanë është e ndjeshme.

kompanitë e sigurimit shëndetësor kanë informacion të detajuar në lidhje me kujdesin mjekësor të marra nga klientët e tyre. Ky informacion mund të përdoret për kërkime të rëndësishme në lidhje me shëndetin, por në qoftë se ajo u bë publike ajo potencialisht mund të çojë në dëm emocional (p.sh., zor) dhe dëm ekonomik (p.sh., humbja e punësimit). Larg nga të dallueshme shumë burime, të të dhënave të mëdha kanë informacion që është e ndjeshme. Natyra e ndjeshme e këtij informacioni është pjesë e arsyes që burimet e mëdha të të dhënave janë shpesh të paarritshëm (përshkruar më sipër).

Një mënyrë që studiuesit të bëjnë të pamundurën për t'u marrë me këtë situatë është që të de-identifikuar datasets që kanë informata të ndjeshme. Por, siç do të tregoj në detaje në kapitullin 6 (etikës) kjo qasje e kufizuar seriozisht në mënyra që nuk janë vlerësuar gjerësisht nga të dy shkencëtarët sociale dhe të dhënat e shkencëtarëve.

Në përfundim, burimet e mëdha të të dhënave të sotme (dhe nesër) në përgjithësi kanë dhjetë karakteristika. Shumë nga pronat e mëdha-të mira, gjithmonë-në, dhe nonreactive-vijnë nga fakti në kompanitë e moshës dixhitale dhe qeveritë janë në gjendje për të mbledhur të dhëna në një shkallë që nuk ishte e mundur më parë. Dhe, shumë e keqe properties-jo të plotë, i paarritshëm, jo-përfaqësuese, shkon, i hutonte algorithmically, i paarritshëm, të pista, dhe të ndjeshme, vijnë nga fakti se të dhënat nuk janë mbledhur nga studiuesit për hulumtuesit. Kuptimi këto karakteristika janë një hap i nevojshëm për të mësuar nga të dhënat e mëdha. Dhe, tani ne kthehemi hulumtimit strategjitë që mund të përdorin me këto të dhëna.