2.3.2.3 Не-заступник

Два извора не-репрезентативности су различите популације и различите моделе коришћења.

Биг подаци имају тенденцију да буду систематски пристрасни на два начина. То не мора бити узроком проблема за све врсте анализа, али из неког анализе може бити критична грешка.

Први извор системске пристрасности је да су људи заробљени су обично ни комплетан универзум свих људи или случајни узорак из било ког конкретног популације. На пример, Американци на Твиттер нису случајни узорак Американаца (Hargittai 2015) . Други извор системске пристрасности је да су многи велики системи података снимање акције, а неки људи допринети много више акције од других. На пример, неки људи на Твиттер доприносе стотине пута више твитова од других. Због тога, догађаји на одређеној платформи може бити све јаче одражавају поједине подгрупе од самог платформи.

Нормално истраживачи желе да знају много о подацима које имају. Али, с обзиром на не-представник природа великих података, корисно је да се окренете своје мишљење. Такође треба да знате много о подацима који немате. Ово је нарочито тачно када су подаци које немате систематски разликује од података које имате. На пример, ако имате евиденцију позив са неког предузећа мобилне уређаје у земљама у развоју, требало би да не само о људима у података, али ио људима који би могли бити сувише сиромашна да поседује мобилни телефон. Даље, у поглављу 3, ми ћемо научити о томе како тежиште омогућити истраживачима да боље процене од не-репрезентативних података.