2.3 Desať spoločných charakteristík veľkých údajov

Veľké zdroje údajov majú často spoločné vlastnosti; niektoré sú všeobecne dobré pre spoločenský výskum a niektoré sú zvyčajne zlé.

Hoci každý veľký zdroj údajov je odlišný, je užitočné si všimnúť, že existujú určité vlastnosti, ktoré sa zvyčajne vyskytujú opakovane. Preto namiesto toho, aby ste mali prístup založený na platforme (napríklad tu je to, čo potrebujete vedieť o Twitteru, tu je to, čo potrebujete vedieť o údajoch vyhľadávania Google atď.), Budem popisovať desať všeobecných charakteristík veľkých zdroje dát. Odstúpenie od detailov každého konkrétneho systému a pri pohľade na tieto všeobecné charakteristiky umožňuje výskumníkom rýchlo sa dozvedieť o existujúcich zdrojoch údajov a mať pevný súbor nápadov, ktoré sa vzťahujú na zdroje údajov, ktoré budú vytvorené v budúcnosti.

Hoci požadované charakteristiky zdroja údajov závisia od cieľa výskumu, považujem za užitočné hrubé zoskupenie desiatich charakteristík do dvoch širokých kategórií:

  • všeobecne užitočné pre výskum: veľké, vždy-on, a nereaktívne
  • všeobecne problematické pre výskum: neúplné, nedostupné, nereprezentatívne, unášané, algoritmicky zmätené, špinavé a citlivé

Ako popisujem tieto charakteristiky, všimnete si, že často vznikajú, pretože veľké zdroje údajov neboli vytvorené na účely výskumu.