2.3 Deset zajedničkih značajki velikih podataka

Veliki izvori podataka imaju više zajedničkih obilježja; neki su uglavnom dobri za društvena istraživanja i neki su uglavnom loši.

Iako je svaki veliki izvor podataka različit, korisno je primijetiti da postoje određene karakteristike koje se često ponavljaju. Stoga, umjesto da pristupite platformi po platformi (npr. Evo što trebate znati o Twitteru, evo što trebate znati o Google pretraživačkim podacima itd.), Opisujem deset općih značajki velikih izvori podataka. Prebacivanje iz pojedinosti pojedinog sustava i gledanje ovih općih karakteristika omogućava istraživačima da brzo uče o postojećim izvorima podataka i imaju čvrste skupove ideja koje se primjenjuju na izvore podataka koji će se stvoriti u budućnosti.

Iako željene karakteristike izvora podataka ovise o cilju istraživanja, korisno mi je grubo grupirati deset značajki u dvije široke kategorije:

  • općenito je korisno za istraživanje: veliko, uvijek uključeno i neaktivno
  • općenito problematično za istraživanje: nepotpuno, nepristupačno, nereprezentativno, plutajuće, algoritamski zbunjeno, prljavo i osjetljivo

Kao što opisujem te značajke, primijetit ćete da često nastaju jer veliki izvori podataka nisu stvoreni u svrhu istraživanja.