2.3.2.3 mitteesinduslikuks

Kaks allikad mitte-esinduslikkus on erinevate populatsioonide ja erinevaid kasutusviise.

Big andmed kipuvad süstemaatiliselt kallutatud kaks peamist võimalust. See ei pea põhjustada probleeme igasugu analüüsi, kuid mingil analüüsi see võib olla kriitiline viga.

Esimene allikas süstemaatiline diagonaal on see, et inimesed pildistatud tavaliselt ei täieliku universumi kõigi inimeste või juhusliku proovi mingeid konkreetseid elanikkonnast. Näiteks ameeriklaste puperdama ei ole juhuslikult valitud ameeriklast (Hargittai 2015) . Teine allikas süstemaatiline diagonaal on see, et paljud suured infosüsteemid jäädvustada tegevused, ja mõned inimesed kaasa palju rohkem tegevusi kui teised. Näiteks mõned inimesed puperdama kaasa sadu kordi rohkem tweets kui teised. Seetõttu sündmuste konkreetse platvormi saab üha tugevalt peegeldav teatud alagruppides kui platvorm ise.

Tavaliselt teadlased tahavad teada palju andmeid, mis neil on. Aga arvestades mitteesinduslikuks olemus suur andmeid, on kasulik ka flip oma mõtlemist. Teil on vaja ka teavad palju andmeid, et sa ei pea. See kehtib eriti siis, kui andmed, mida ei ole süstemaatiliselt erinevad andmed, et sa ei pea. Näiteks, kui teil on kõne arvestust mobiiltelefoni ettevõte on arengumaades, tuleks mõelda mitte ainult inimesed oma andmekogumi vaid ka inimesi, kes võivad olla liiga vaesed oma mobiiltelefoni. Lisaks 3. peatükis, me õppida, kuidas osakaalu ei võimaldaks teadlastel paremini hinnangute mitteesinduslikuks andmeid.