2.3 Deset společných charakteristik velkých dat

Velké zdroje dat mají často společné rysy; některé jsou obecně dobré pro společenský výzkum a některé jsou obecně špatné.

I když je každý velký datový zdroj odlišný, je užitečné si všimnout, že existují určité charakteristiky, které se často objevují znovu a znovu. Proto se místo přístupu platformy k platformě (například, co potřebujete vědět o Twitteru, co potřebujete vědět o vyhledávacích datech Google atd.), Popisuji deset obecných charakteristik velkých zdroje dat. Odcházení od detailů každého konkrétního systému a při pohledu na tyto obecné charakteristiky umožňuje výzkumníkům rychle se dozvědět o existujících zdrojích dat a mít pevný soubor nápadů, které se vztahují na zdroje dat, které budou vytvořeny v budoucnu.

Přestože požadované vlastnosti zdroje dat závisí na výzkumném cíli, považuji za užitečné hrubé seskupení deseti charakteristik do dvou hlavních kategorií:

  • obecně užitečné pro výzkum: velké, neustále a nereaktivní
  • obecně problematické pro výzkum: neúplné, nepřístupné, nereprezentativní, unášené, algoritmicky zmatené, špinavé a citlivé

Jak popisuji tyto charakteristiky, zjistíte, že často vznikají, protože velké zdroje dat nebyly vytvořeny pro účely výzkumu.