2.3 Dhjetë karakteristika të përbashkëta të të dhënave të mëdha

Burimet e mëdha të të dhënave kanë tendencë të kenë një numër karakteristikash të përbashkëta; disa në përgjithësi janë të mira për kërkime sociale dhe disa përgjithësisht janë të këqija.

Edhe pse çdo burim i madh i të dhënave është i dallueshëm, është e dobishme të vërehet se ka disa karakteristika që tentojnë të ndodhin pa pushim. Për këtë arsye, në vend që të përdorim një platformë për platformë (p.sh. këtu është ajo që ju duhet të dini rreth Twitter-it, këtu është ajo që ju duhet të dini rreth të dhënave të kërkimit të Google etj.), Unë do të përshkruaj dhjetë karakteristika të përgjithshme të burimet e të dhënave. Duke u nisur nga detajet e secilit sistem të veçantë dhe duke i parë këto karakteristika të përgjithshme, mundëson hulumtuesit të mësojnë shpejt për burimet ekzistuese të të dhënave dhe të kenë një sërë idesh të qëndrueshme për t'u zbatuar në burimet e të dhënave që do të krijohen në të ardhmen.

Megjithëse karakteristikat e dëshiruara të një burimi të të dhënave varen nga qëllimi i hulumtimit, unë e gjej të dobishëm grupimin e dhjetë karakteristikave në dy kategori të gjera:

  • në përgjithësi të dobishme për kërkime: të mëdha, gjithnjë në, dhe jo reaktive
  • përgjithësisht problematike për hulumtime: i paplotë, i paarritshëm, jo ​​përfaqësues, i shkyçur, algoritëm i hutuar, i ndotur dhe i ndjeshëm

Ndërsa unë po përshkruaj këto karakteristika, do të vëreni se ato shpesh lindin sepse burimet e mëdha të të dhënave nuk janë krijuar për qëllime të hulumtimit.