2.3.2.3 jo-përfaqësuese

Dy burimet e jo-përfaqësimit janë popullatat e ndryshme dhe modelet e ndryshme të përdorimit.

të dhënat e mëdha kanë tendencë të jetë i njëanshëm sistematikisht në dy mënyra kryesore. Kjo nuk duhet të shkaktojë një problem për të gjitha llojet e analizave, por për disa analizave mund të jetë një krisje kritike.

Një burim i parë i paragjykim sistematik është se njerëzit janë zakonisht kapur as një univers të plotë të të gjithë njerëzve, ose një mostër të rastit nga ndonjë popullsi të caktuar. Për shembull, amerikanët në Twitter nuk janë një mostër të rastit të amerikanëve (Hargittai 2015) . Një burim i dytë i paragjykim sistematik është se shumë sisteme të mëdha të të dhënave të kapur veprime, dhe disa njerëz të kontribuojë shumë veprime më shumë se të tjerët. Për shembull, disa njerëz në Twitter kontribuojnë qindra herë më shumë tweets se të tjerët. Prandaj, ngjarjet në një platformë të veçantë mund të jetë gjithnjë e më shumë reflektive e nëngrupe të caktuara se në platformën e vetë.

Normalisht hulumtuesit duan të dinë shumë për të dhënat që ata kanë. Por, duke pasur parasysh jo-përfaqësuesi natyra e të dhënave të mëdha, ajo është e dobishme për të rrokullisje të menduarit tuaj. Ju gjithashtu duhet të dini shumë rreth të dhënave që ju nuk keni. Kjo është veçanërisht e vërtetë kur të dhënat që ju të mos keni janë sistematikisht të ndryshme nga të dhënat që ju nuk keni. Për shembull, në qoftë se ju keni të dhënat e thirrjes nga një kompani e telefonisë mobile në disa vende në zhvillim, ju duhet të mendojnë jo vetëm për njerëzit në dataset tuaj, por edhe për njerëzit që mund të jenë shumë të varfër për vetë një telefon celular. Më tej, në Kapitullin 3, ne do të mësojmë se si koeficient mund të mundësojë kërkuesit për të bërë vlerësime të mira nga të dhënat jo-përfaqësuese.