2.3 Common skaaimerken fan grutte gegevens

Big gegevens boarnen tend to hawwe tsien skaaimerken; guon binne goed foar sosjale ûndersyk en guon binne minne.

As ûndersikers geane om te learen fan grutte gegevens dat se net meitsje of sammelje, dan se moatte begripe syn algemiene skaaimerken. Ynstee dêrby in platfoarm by platfoarm oanpak (bygelyks, hjir is wat jo moatte witte oer Twitter, hjir is wat jo witte moatst oer Google sykje gegevens, etc), Ik gean te beskriuwen tsien algemiene skaaimerken fan grutte gegevens, skaaimerken dy't ûntsteane om't de gegevens wie net skepen foar it doel fan sosjale ûndersyk. Troch stappen werom út 'e details fan elke bysûndere systeem en sykje op dizze algemiene eigenskippen, ûndersikers kin gau leare mear oer besteande gegevens boarnen en hawwe in fêst set fan ideeën te passen oan takomstige gegevens boarnen.

Ik fyn it helpful oan groep de skaaimerken yn twa kategoryen:

  • oer it algemien goed foar ûndersyk: big, altyd-op, net-reaktive
  • algemien minne foar ûndersyk: kompleet, ûntagonklik, net-represintatyf, driuwe, algorithmically biskamme, net tagonklik, smoarch, en gefoelich

Yn grutte linen praten, oerheid bestjoerlike records binne minder net-represintatyf, minder algorithmically biskamme, en minder drifting. Oan de oare kant, it bedriuwslibben bestjoerlike records tend to wêzen gruttere en mear altyd-op.