2.3.2.3 Non representante

Dúas fontes de non-representatividade son diferentes poboacións e diferentes patróns de uso.

datos grandes tenden a ser sistematicamente tendenciosa en dúas formas principais. Isto non ten que causar un problema para todo tipo de análise, pero por algunha análise que se pode un fallo crítica.

A primeira fonte de viés sistemático é que a xente capturadas son tipicamente nin un universo completo de todas as persoas ou unha mostra aleatoria de calquera poboación específica. Por exemplo, os americanos en Twitter non son unha mostra aleatoria de americanos (Hargittai 2015) . Unha segunda fonte de viés sistemático é que moitos sistemas de datos grandes capturar accións, e algunhas persoas contribúen moito máis accións que outros. Por exemplo, algunhas persoas en Twitter contribuír centos de veces máis os tweets que outros. Polo tanto, os eventos nunha plataforma específica pode ser cada vez máis fortemente reflectora de certos subgrupos que a propia plataforma.

Normalmente, os investigadores queren saber moito sobre os datos que eles teñen. Pero, dada a natureza non representativa de datos grandes, é útil tamén para virar o seu pensamento. Tamén cómpre saber moito sobre os datos que non ten. Isto é especialmente certo cando os datos que non teñen son sistematicamente distintos dos datos que ten. Por exemplo, se ten os rexistros de chamadas a partir dunha empresa de telefonía móbil nun dos países en desenvolvemento, ten que pensar non só sobre as persoas no seu conxunto de datos, senón tamén sobre as persoas que poden ser pobre de máis para mercar un teléfono móbil. Ademais, no capítulo 3, imos aprender sobre como ponderación pode permitir aos investigadores a facer mellores estimacións a partir de datos non representativos.