2.3 Десет заједничких карактеристика великих података

Велики извори података имају више заједничких карактеристика; неки су углавном добри за социјална истраживања, а неки су углавном лоши.

Иако је сваки велики извор података различит, корисно је приметити да постоје одређене карактеристике које се понавља изнова и изнова. Због тога, уместо да користите приступ платформи по платформи (нпр., То је оно што треба да знате о Твиттер-у, ево шта желите да знате о Гоогле претраживачким подацима итд.), Описићу десет општих карактеристика великих извори података. Удаљавање од детаља сваког одређеног система и посматрање ових општих особина омогућава истраживачима да брзо сазнају о постојећим изворима података и имају чврсти скуп идеја које се односе на изворе података који ће бити креирани у будућности.

Иако жељене карактеристике извора података зависе од истраживачког циља, сматрам да је корисно грубо груписати десет карактеристика у две широке категорије:

  • опћенито корисна за истраживање: велика, увек и неактивна
  • генерално проблематично за истраживање: непотпун, неприступачан, непредстављив, дрифтинг, алгоритамски збуњен, прљав и осјетљив

Као што описујем ове карактеристике, приметићете да се често појављују јер нису направљени велики извори података у сврху истраживања.