2.3.2.3 Ikke-representant

To kilder til ikke-representativitet er ulike populasjoner og ulike bruksmønstre.

Big data tendens til å være systematisk partisk i to hovedmåter. Dette behøver ikke føre til et problem for analyse alle slag, men for noen analyser kan det være en kritisk feil.

En første kilde til systematisk skjevhet er at folk fanget er vanligvis verken et komplett univers av alle mennesker, eller et tilfeldig utvalg fra en bestemt populasjon. For eksempel amerikanerne på Twitter er ikke et tilfeldig utvalg av amerikanere (Hargittai 2015) . En annen kilde til systematisk skjevhet er at mange store datasystemer fange handlinger, og noen mennesker bidra mange flere handlinger enn andre. For eksempel, noen mennesker på Twitter bidra hundrevis av ganger mer tweets enn andre. Derfor kan de hendelser på en bestemt plattform bli stadig mer tungt reflekterende av visse undergrupper enn selve plattformen.

Normalt forskerne ønsker å vite mye om data som de har. Men, gitt de ikke-representativ natur store data, er det nyttig å også snu din tenkning. Du trenger også å vite mye om data som du ikke har. Dette gjelder spesielt når dataene som du ikke har er systematisk forskjellig fra data som du har. For eksempel, hvis du har samtalen poster fra en mobiltelefon selskap i et utviklingsland, bør du tenke ikke bare om folk i datasettet, men også om folk som kan være for dårlig til å eie en mobiltelefon. Videre i kapittel 3, vil vi lære om hvordan vekting kan aktivere forskere å lage bedre anslag fra ikke-representative data.