2.3 Tsien mienskiplike skaaimerken fan grutte gegevens

Grutte gegevensboarnen binne meastentiids in oantal karakteren te hawwen; Guon binne oer it generaal goed foar sosjale ûndersiik en guon binne oer it generaal min.

Alhoewol't elke grutte dataynstrumint ûnderskiedt, is it helpt om te notearjen dat der geweldige skaaimerken binne dy't hyltyd mear en mear foarkomme. Dêrom, yn stee fan in plattform-by-platfoarm oanpak (bgl. Hjir is wat jo witte wolle oer Twitter, hjir binne wat jo witte oer Google sykgegevens, ensfh.), Ik sil tsien algemiene skaaimerken fan grutte beskriuwe data boarnen. Gean werom út 'e details fan elke bepaalde systeem en besykje dizze algemiene skaaimerken ûndersikers te learen leare te litten oer besteande gegevensboarnen en hawwe in fêste set fan ideeën om oan te gean foar de gegevensboarnen dy't yn' e takomst makke wurde.

Alhoewol't de winske skaaimerken fan in gegevensboarne ôfhinklik fan it ûndersyksdoel hingje, fyn ik it nuttich om de tsien skaaimerken yn twa grutte kategoryen te groepearjen:

Algemien helpt foar ûndersyk: grut, altyd, en net reaktyf
algemien problematysk foar ûndersyk: ûnfolslein, net te besjen, net represintatyf, driftend, algoritmysk konfrontearre, dreaun en sensibel

As ik dit karakteristyk beskriuwt, sjoch jo dat se faak ûntsteane, omdat grutte data boarnen net makke binne foar it doel fan ûndersiik.