2.3.2.3 нерепрезентативного

Дзве крыніцы адсутнасці рэпрэзентатыўнасці розныя групы насельніцтва і розныя мадэлі выкарыстання.

Вялікія дадзеныя, як правіла, сістэматычна скажалі па двух асноўных напрамках. Гэта не павінна стаць праблемай для ўсіх відаў аналізу, але на працягу некаторага аналізу гэта можа быць крытычным недахопам.

Першая крыніца сістэматычнага зрушэння з'яўляецца тое, што людзі, захопленыя, як правіла, ні поўная сусвет ўсіх людзей або выпадковы выбарка з якой-небудзь канкрэтнай папуляцыі. Напрыклад, амерыканцы на Twitter не выпадковая выбарка амерыканцаў (Hargittai 2015) . Другім крыніцай сістэматычнага зрушэння з'яўляецца тое, што многія буйныя інфармацыйныя сістэмы адлюстроўваюць дзеянні, і некаторыя людзі спрыяюць значна больш дзеянняў, чым іншыя. Напрыклад, некаторыя людзі на Twitter спрыяюць сотні разоў больш твітаў, чым іншыя. Такім чынам, падзеі на пэўнай платформы можа быць калі-небудзь у большай ступені адлюстроўвае пэўных падгруп, чым самой платформы.

Звычайна даследчыкі хочуць ведаць шмат пра дадзеныя , якія ў іх ёсць. Але, улічваючы нерепрезентативная характар ​​вялікіх аб'ёмаў дадзеных, карысна таксама перавярнуць ваша мысленне. Вы таксама павінны ведаць шмат пра дадзеныя , якія вы не маеце. Гэта асабліва дакладна, калі дадзеныя, якія вы не павінны сістэматычна адрозніваюцца ад дадзеных, якія вы маеце. Напрыклад, калі ў вас ёсць запісы выклікаў з тэлефоннай кампаніі мабільнага ў краінах, якія развіваюцца, вы павінны думаць не толькі пра людзей у наборы дадзеных, але і пра людзей, якія могуць быць занадта бедныя, каб мець мабільны тэлефон. Акрамя таго, у раздзеле 3, мы даведаемся пра тое, як ўзважванне можа дазволіць даследчыкам, каб зрабіць больш дакладныя ацэнкі з нерепрезентативных дадзеных.