2.3 A nagy adatok tíz közös jellemzője

A nagy adatforrások általában számos jellemzővel rendelkeznek; egyesek általában jóak a társadalmi kutatáshoz, és néhányan általában rosszak.

Annak ellenére, hogy minden egyes nagy adatforrás különálló, hasznos lehet észrevenni, hogy vannak bizonyos jellemzők, amelyek újra és újra előfordulnak. Ezért, ahelyett, hogy platform-alapú megközelítést alkalmaznánk (pl. Itt kell tudnunk a Twitterről, itt kell tudni a Google keresési adatairól stb.), Meg fogom adni a nagy általános jellemzők tíz adatforrások. Az egyes rendszerek részleteiről való visszalépés és ezen általános jellemzők áttekintése lehetővé teszi a kutatók számára, hogy gyorsan megismerjék a meglévő adatforrásokat, és határozott ötleteket alkalmazzanak a jövőben létrehozandó adatforrásokra.

Annak ellenére, hogy az adatforrás kívánt jellemzői a kutatási céltól függenek, hasznosnak találom, hogy a tíz jellemzőt durván csoportosítsam két nagy kategóriába:

  • általában hasznos a kutatáshoz: nagy, mindig is, és nem reagál
  • általában problémás a kutatás szempontjából: hiányos, megközelíthetetlen, nem reprezentatív, sodródó, algoritmikusan összetévesztett, piszkos és érzékeny

Ahogy leírom ezeket a tulajdonságokat, észre fogod venni, hogy gyakran előfordulnak, mert nem hoztak létre nagy adatforrásokat a kutatás céljából.