2.3 Ti vanlige egenskaper ved store data

Store datakilder har en tendens til å ha en rekke egenskaper til felles; Noen er generelt gode for samfunnsforskning, og noen er generelt dårlige.

Selv om hver stor datakilde er tydelig, er det nyttig å legge merke til at det er visse egenskaper som pleier å forekomme igjen og igjen. Derfor, i stedet for å ta en plattform-for-plattform tilnærming (for eksempel, her er det du trenger å vite om Twitter, her er det du trenger å vite om Google-søkedata, osv.), Jeg skal beskrive ti generelle egenskaper av stor datakilder. Å trekke tilbake fra detaljene til hvert enkelt system og se på disse generelle egenskapene gjør det mulig for forskere å raskt lære om eksisterende datakilder og ha et fast sett med ideer for å søke om datakilder som skal opprettes i fremtiden.

Selv om de ønskede egenskapene til en datakilde er avhengig av forskningsmålet, finner jeg det tilrådelig å gruppere de ti karakteristikkene i to brede kategorier:

  • Generelt nyttig for forskning: stor, alltid på og ikke-reaktiv
  • generelt problematisk for forskning: ufullstendig, utilgjengelig, ikke representativ, drivende, algoritmisk forvirret, skitten og sensitiv

Som jeg beskriver disse egenskapene vil du legge merke til at de ofte oppstår fordi store datakilder ikke ble opprettet for formålet med forskning.