2.3 Suurte andmete kümme ühist omadust

Suured andmeallikad sisaldavad tavaliselt mitmeid tunnuseid; mõned neist on üldiselt kasulikud sotsiaalsetele uuringutele ja mõned on üldiselt halvad.

Isegi kui iga suur andmeallikas on erinev, on kasulik märkida, et on olemas teatud omadused, mis kipuvad korduvalt korduma. Selle asemel, et võtta platvormiülese lähenemisviisi (nt siin peate teilt Twitterist teadma, siin on see, mida peate teadma Google'i otsinguandmete jne kohta), ma kirjeldan kümmet üldist omadust andmeallikad. Ükskõik millise süsteemi üksikasjadest lähtudes ja nende üldiste omaduste uurimisel saavad teadlased kiiresti teada saada olemasolevatest andmeallikatest ja kasutada kindlat ideede kogumit tulevikus loodavate andmeallikate suhtes.

Kuigi andmeallika soovitud omadused sõltuvad uurimistöö eesmärgist, leian, et on kasulik rühmitada kümme omadust kahte laias kategooriasse:

  • üldiselt kasulik teadustöös: suur, pidev ja mitteaktiivne
  • teadusuuringute jaoks üldiselt problemaatiline: mittetäielik, ligipääsmatu, mitterepresentatiivne, triivitav, algoritmiliselt segatud, määrdunud ja tundlik

Nagu ma kirjeldan neid omadusi, märkate, et need tekivad sageli seetõttu, et teadusuuringute eesmärgil ei loodud suuri andmeallikaid.