2.3 Десет заеднички карактеристики на големи податоци

Големите извори на податоци имаат тенденција да имаат заеднички број на карактеристики; некои се генерално добри за социјални истражувања, а некои се генерално лоши.

Иако секој голем извор на податоци е различен, корисно е да се забележи дека постојат одредени карактеристики кои имаат тенденција да се појавуваат одново и одново. Затоа, наместо да прифаќате платформски приод (на пр., Еве што треба да знаете за Твитер, еве што треба да знаете за податоците за пребарување на Google, итн.), Ќе опишам десет општи карактеристики на големите извори на податоци. Отскокнувајќи се од деталите на секој одреден систем и гледајќи ги овие општи карактеристики, истражувачите брзо можат да научат за постоечките извори на податоци и да имаат цврст сет на идеи кои ќе се применуваат на извори на податоци кои ќе бидат создадени во иднина.

Иако посакуваните карактеристики на изворот на податоци зависат од истражувачката цел, ми е корисно грубо да ги групирам десетте карактеристики во две широки категории:

  • генерално корисно за истражувања: големи, секогаш и нереактивни
  • генерално проблематични за истражувања: нецелосни, недостапни, нерепрезентативни, лебдат, алгоритамски збунети, валкани и чувствителни

Додека ги опишувам овие карактеристики, ќе забележите дека тие често се јавуваат бидејќи не се создадени големи извори на податоци за целите на истражување.