2.3 Заједничке карактеристике великог података

Биг извори података имају тенденцију да имају десет карактеристике; Неки су добри за друштвена истраживања, а неки су лоши.

Ако истраживачи ће научити од великих података који нису стварају или прикупити, онда они морају да разумеју своје опште карактеристике. Уместо да платформу за платформе приступом (нпр, ево шта треба да знате о Твиттер, ево шта треба да знате о Гоогле претрагу података, итд), ја ћу описати десет опште карактеристике великих података, карактеристике које проистичу јер подаци није створен за потребе друштвених истраживања. Би изађе из детаља сваког појединачног система и гледајући ових општих својстава, истраживачи могу брзо научити више о постојећим изворима података и имају чврсту скуп идеја да се пријаве за будуће извора података.

Мислим да је корисно да се групишу карактеристика у две категорије:

  • генерално добра за истраживање: велики, увек на, не-реактивни
  • генерално лоша за истраживање: непотпуне, неприступачан, не-представник, плута, алгоритмички збуњен, неприступачан, прљав, и осетљив

Уопштено говорећи, говернмент административни документи су мање нон-репрезентативни, мање алгоритмички збуњене, и мање сплаварења. С друге стране, пословне административне евиденције имају тенденцију да буду већи и увек на.