2.3 Caracteristicile comune de date mari

Surse mari de date tind să aibă zece caracteristici; unele sunt bune pentru cercetare socială și unele sunt rele.

În cazul în care cercetătorii vor să învețe de la mari de date pe care nu ei au creat sau să colecteze, atunci ei trebuie să înțeleagă caracteristicile sale generale. Mai degrabă decât a lua o platformă de abordare platformă (de exemplu, iată ce trebuie să știți despre Twitter, iată ce trebuie să știți despre datele de căutare Google, etc), am de gând să descrie zece caracteristici generale de date mari, caracteristici care apar deoarece datele nu a fost creat în scopul cercetării sociale. Prin pas cu pas înapoi de la detaliile fiecărui sistem special și se uită la aceste proprietăți generale, cercetatorii pot afla rapid mai multe despre sursele de date existente și au un set ferm de idei pentru a aplica la viitoarele surse de date.

Mi se pare că este util pentru a grupa caracteristicile în două categorii:

  • în general, bun pentru cercetare: mare, mereu pe, non-reactive
  • în general, rău pentru cercetare: incomplet, inaccesibile, non-reprezentative, în derivă, în mod algoritmic încurcați, inaccesibile, murdar, și sensibile

În general, înregistrările administrative guvernamentale sunt mai puțin non-reprezentative, mai puțin algoritmic, încurcată, și mai puțin drifturi. Pe de altă parte, înregistrările administrative de afaceri tind să fie mai mari și mai mereu pe.