2.3 Zece caracteristici comune ale datelor importante

Sursele mari de date au tendința de a avea o serie de caracteristici comune; unele sunt în general bune pentru cercetarea socială, iar unele sunt, în general, rele.

Chiar dacă fiecare mare sursă de date este distinctă, este util să observăm că există anumite caracteristici care tind să apară mereu și repetat. Prin urmare, mai degrabă decât să luați o abordare platformă cu platformă (de exemplu, iată ce trebuie să știți despre Twitter, iată ce trebuie să știți despre datele de căutare Google etc.), voi descrie zece caracteristici generale ale marilor surse de date. Trecerea de la detaliile fiecărui sistem anume și analizarea acestor caracteristici generale le permite cercetătorilor să învețe rapid despre sursele de date existente și să aibă un set ferm de idei care să se aplice surselor de date care vor fi create în viitor.

Chiar dacă caracteristicile dorite ale unei surse de date depind de obiectivul cercetării, mi se pare utilă gruparea categorică a celor zece caracteristici în două mari categorii:

  • în general util pentru cercetare: mare, întotdeauna, și non-reactiv
  • în general problematică pentru cercetare: incompletă, inaccesibilă, nereprezentativă, în derivă, confuză algoritmică, murdară și sensibilă

Pe măsură ce descriu aceste caracteristici, veți observa că ele apar adesea pentru că sursele de date mari nu au fost create în scopul cercetării.