2.3.2.3 non rappresentativi

Due fonti di non rappresentatività sono diverse popolazioni e diversi modelli di utilizzo.

Grandi dati tendono a essere di parte sistematicamente in due modi principali. Questo non deve causare un problema per tutti i tipi di analisi, ma per alcune analisi può essere un difetto critico.

Una prima fonte di errori sistematici è che le persone catturate sono in genere né un universo completo di tutte le persone o di un campione casuale da una popolazione specifica. Ad esempio, gli americani su Twitter non sono un campione casuale di americani (Hargittai 2015) . Una seconda fonte di errori sistematici è che molti sistemi di dati di grandi catturano le azioni, e alcune persone contribuiscono molte più azioni di altri. Ad esempio, alcune persone su Twitter contribuiscono centinaia di volte più tweet di altri. Pertanto, gli eventi su una piattaforma specifica può essere sempre più pesantemente riflessiva di alcuni sottogruppi rispetto alla piattaforma stessa.

Normalmente i ricercatori vogliono sapere molto circa i dati che essi hanno. Ma, data la natura non-rappresentativo di dati di grandi dimensioni, è utile per capovolgere anche il vostro pensiero. È inoltre necessario sapere molto su dati che non si ha. Questo è particolarmente vero quando i dati che non si dispone sono sistematicamente diversi dai dati che si ha. Ad esempio, se si hanno i record di chiamata da una società di telefonia mobile in via di sviluppo, si dovrebbe pensare non solo per le persone nel set di dati, ma anche per le persone che potrebbero essere troppo poveri per possedere un telefono cellulare. Inoltre, nel capitolo 3, impareremo a come ponderazione può consentire ai ricercatori di effettuare stime migliori a partire da dati non rappresentativi.