2.3 Tio gemensamma egenskaper hos stora data

Stora datakällor tenderar att ha ett antal egenskaper gemensamt; vissa är vanligtvis bra för social forskning och vissa är vanligtvis dåliga.

Även om varje stor datakälla är distinkt, är det till hjälp att märka att det finns vissa egenskaper som tenderar att inträffa om och om igen. Därför, istället för att ta en plattform-för-plattformsinriktning (till exempel, här är vad du behöver veta om Twitter, här är vad du behöver veta om Googles sökdata etc.). Jag ska beskriva tio allmänna egenskaper hos stora datakällor. Att gå tillbaka från detaljerna i varje enskilt system och titta på dessa allmänna egenskaper möjliggör för forskare att snabbt lära sig om befintliga datakällor och ha en fast uppsättning idéer som gäller för de datakällor som kommer att skapas i framtiden.

Även om de önskade egenskaperna hos en datakälla beror på forskningsmålet, tycker jag att det är tillrådligt att gruppera de tio egenskaperna i två stora kategorier:

  • Allmänt användbart för forskning: stor, alltid på och icke-aktiv
  • generellt problematisk för forskning: ofullständig, otillgänglig, icke representativ, drivande, algoritmiskt förvirrad, smutsig och känslig

När jag beskriver dessa egenskaper märker du att de ofta uppstår eftersom stora datakällor inte skapades för forskningsändamål.