2.3 Deset skupnih značilnosti velikih podatkov

Veliki viri podatkov imajo več skupnih značilnosti; nekateri so na splošno dobri za družbene raziskave, nekateri pa so na splošno slabi.

Čeprav je vsak velik vir podatkov razločen, je koristno opaziti, da obstajajo nekatere značilnosti, ki se ponavadi pojavljajo znova in znova. Zato namesto da bi uporabili platformni pristop (npr. Tukaj morate vedeti o Twitterju, kar morate vedeti o Googlovih podatkih iskanja itd.), Bom opisal deset splošnih značilnosti velikih podatkovni viri. Odkritje podatkov o posameznih sistemih in upoštevanje teh splošnih značilnosti omogoča raziskovalcem, da se hitro seznanijo z obstoječimi viri podatkov in imajo trdno skupino idej za uporabo v virih podatkov, ki bodo ustvarjeni v prihodnosti.

Čeprav so želene značilnosti vira podatkov odvisne od raziskovalnega cilja, se mi zdi koristno grubo združiti deset značilnosti v dve široki kategoriji:

  • na splošno koristna za raziskave: velika, vedno in neaktivna
  • na splošno problematična za raziskave: nepopolna, nedostopna, nereprezentativna, plavajoča, algoritmično zmedena, umazana in občutljiva

Ko opisujem te značilnosti, boste opazili, da pogosto nastanejo, ker za raziskave niso bili ustvarjeni veliki viri podatkov.