2.3 Gemensamma egenskaper hos stora uppgifter

Stora datakällor tenderar att ha tio egenskaper; vissa är bra för social forskning och vissa är dåliga.

Om forskare ska lära från stora uppgifter att de inte skapar eller samla in, då de måste förstå dess allmänna egenskaper. Hellre än att ta en enskild plattforms tillvägagångssätt (t.ex., här är vad du behöver veta om Twitter, här är vad du behöver veta om Google sökdata, etc), kommer jag att beskriva tio allmänna egenskaper big data, egenskaper som uppstår eftersom uppgifterna inte har skapats i syfte att social forskning. Genom att kliva tillbaka från detaljerna i varje enskilt systemet och titta på dessa allmänna egenskaper, kan forskarna snabbt lära mer om befintliga datakällor och har en fast uppsättning av idéer att gälla för framtida datakällor.

Jag tycker att det är bra att gruppera egenskaper i två kategorier:

  • i allmänhet bra för forskning: stor, alltid-på, icke-reaktivt
  • generellt dåligt för forskning: ofullständig, otillgängliga, icke-representant, drivande, algoritm förvirrad, otillgängliga, smutsiga och känslig

I stort sett statliga administrativa register är mindre icke-representant, mindre algoritm förvirrad och mindre drivande. Å andra sidan, affärs administrativa register tenderar att vara större och mer ständig.