2.3.2.3 Non-fulltrúi

Tvær uppsprettur non-dæmigert eru mismunandi hópar og mismunandi mynstur notkunargjöld.

Big Data tilhneigingu til að vera markvisst hlutdræg í tvo megin vegu. Þetta þarf ekki að valda vandræðum fyrir alls konar greiningu, en af ​​einhverjum greiningarinnar getur verið mikilvægt galli.

Fyrsta uppspretta kerfisbundinni hlutdrægni er að fólk tekin eru yfirleitt hvorki heill alheimurinn allra eða slembiúrtak úr hvaða tiltekna íbúa. Til dæmis, Bandaríkjamenn á Twitter eru ekki slembiúrtak Bandaríkjamanna (Hargittai 2015) . Annað uppspretta kerfisbundinni hlutdrægni er að mörg stór gögn kerfi handtaka aðgerðir, og sumir leggja margar fleiri aðgerðir en aðrir. Til dæmis, sumir á Twitter leggja hundruð sinnum fleiri kvak en aðrir. Því viðburðir á tilteknu vettvangur getur verið sífellt þyngra hugsandi ákveðinna undirhópa en vettvang sjálft.

Venjulega vísindamenn langar að vita mikið um þau gögn sem þeir hafa. En miðað við ekki fulltrúi eðli stór gögn, það er gagnlegt að líka flip hugsun. Þú þarft einnig að vita mikið um þau gögn sem þú þarft ekki. Þetta er sérstaklega þegar gögnin sem þú þarft ekki eru kerfisbundið frábrugðin þeim gögnum sem þú þarft. Til dæmis, ef þú hefur kalla færslur úr farsíma fyrirtæki í þróunarlöndum, ættir þú að hugsa ekki bara um fólk í gagnasafni, en einnig um fólk sem gæti verið of léleg til að eiga farsíma. Ennfremur, í 3. kafla, munum við læra um hvernig vægi gera vísindamönnum til að gera betri mat frá non-dæmigerðum gögnum.