2.3 Ti fælles egenskaber ved store data

Store datakilder har en tendens til at have en række karakteristika til fælles; nogle er generelt gode til social forskning, og nogle er generelt dårlige.

Selvom hver stor datakilde er tydelig, er det nyttigt at bemærke, at der er visse karakteristika, der har tendens til at forekomme igen og igen. Derfor, i stedet for at tage en platform-for-platform-tilgang (f.eks. Her er hvad du behøver at vide om Twitter, her er hvad du behøver at vide om Google-søgedata osv.). Jeg skal beskrive ti generelle karakteristika ved stor data kilder. At træde tilbage fra detaljerne i hvert enkelt system og se på disse generelle karakteristika gør det muligt for forskere hurtigt at lære om eksisterende datakilder og have et fast sæt ideer til at gælde for de datakilder, der vil blive skabt i fremtiden.

Selv om de ønskede egenskaber ved en datakilde afhænger af forskningsmålet, finder jeg det nyttigt at splitte de ti karakteristika i to brede kategorier:

  • generelt nyttigt for forskning: stort, altid på og ikke-reaktivt
  • generelt problematisk for forskning: ufuldstændig, utilgængelig, ikke repræsentativ, drivende, algoritmisk forvirret, beskidt og følsom

Som jeg beskriver disse egenskaber vil du bemærke, at de ofte opstår, fordi store datakilder ikke blev oprettet med henblik på forskning.