2.3 Deset zajedničkih karakteristika velikih podataka

Veliki izvori podataka imaju više zajedničkih karakteristika; neki su uglavnom dobri za društvena istraživanja, a neki su uglavnom loši.

Iako je svaki veliki izvor podataka različit, korisno je primetiti da postoje određene karakteristike koje se ponavlja iznova i iznova. Dakle, umesto da koristite pristup platformi po platformi (npr., To je ono što trebate znati o Twitter-u, evo šta želite da znate o Google pretraživačkim podacima itd.), Opisiću deset opštih karakteristika velikih izvori podataka. Udaljavanje od detalja svakog pojedinačnog sistema i posmatranje ovih opštih osobina omogućava istraživačima da brzo saznaju o postojećim izvorima podataka i imaju čvrsti skup ideja za primjenu na izvore podataka koji će biti kreirani u budućnosti.

Iako željene karakteristike izvora podataka zavise od istraživačkog cilja, smatram da je korisno grubo grupisati deset karakteristika u dve široke kategorije:

  • općenito korisna za istraživanje: velika, uvek i neaktivna
  • generalno problematično za istraživanje: nepotpun, nepristupačan, nepredstavljiv, drifting, algoritamski konfuzan, prljav i osjetljiv

Kako opisujem ove karakteristike, primetićete da se često pojavljuju jer nisu napravljeni veliki izvori podataka u svrhu istraživanja.