2.3.2.3 нерепрезентативен

Два извори на нерепрезентативноста се различни популации и различни модели на употреба.

Големи податоци имаат тенденција да бидат систематски пристрасен во два главни начини. Ова не треба да предизвика проблем за сите видови на анализа, но за некои анализи тоа може да биде критична мааната.

Првиот извор на систематска пристрасност е дека луѓето заробени обично се ниту целосно универзум на сите луѓе или случаен примерок од било која одредена популација. На пример, Американците на Твитер не е случаен примерок од Американците (Hargittai 2015) . Друг извор на систематска пристрасност е дека многу големи системи на податоци фаќање активности, а некои луѓе да придонесат многу повеќе активности од другите. На пример, некои луѓе на Твитер придонесе стотици пати повеќе твитови од другите. Затоа, настаните на одредена платформа може да биде уште во голема мера одраз на одредени подгрупи од самата платформа.

Нормално истражувачите сакаат да знаат многу за податоците кои ги имаат. Но, со оглед на не-репрезентативноста на големи податоци, тоа е корисно да се, исто така, флип вашиот размислување. Исто така треба да знаат многу за податоците кои ги немаат. Ова е особено точно кога податоците кои ги немаат систематски се разликува од податоците што ги немаат. На пример, ако имате евиденција на повик од телефон на компанијата мобилен во земјите во развој, треба да се размислува не само за луѓето во вашиот базата, но исто така и за луѓето кои би можеле да бидат премногу сиромашни за да поседувате мобилен телефон. Понатаму, во Поглавје 3, ќе научат за тоа како тежина може да им овозможи на истражувачите да се подобри проценки од нерепрезентативен податоци.