2.3 Dues característiques comunes de grans dades

Les grans fonts de dades tendeixen a tenir diverses característiques en comú; Alguns generalment són bons per a la investigació social i alguns generalment són dolents.

Tot i que cada font de dades és diferent, és útil notar que hi ha certes característiques que solen aparèixer una i altra vegada. Per tant, en lloc d'adoptar un enfocament de plataforma per plataforma (per exemple, això és el que necessiteu saber sobre Twitter, aquí us heu de saber sobre les dades de cerca de Google, etc.), vaig a descriure deu característiques generals de la gran fonts de dades. Retornant-se de les dades de cada sistema particular i observant aquestes característiques generals, els investigadors podran conèixer ràpidament les fonts de dades existents i disposar d'un conjunt ferm d'idees per aplicar a les fonts de dades que es crearan en el futur.

Encara que les característiques desitjades d'un origen de dades depenen de l'objectiu de la recerca, em sembla útil agrupar les deu característiques de manera crua en dues grans categories:

  • generalment útil per a la recerca: gran, sempre-on i no reactiva
  • generalment problemàtic per a la investigació: incomplet, inaccessible, no representatiu, a la deriva, confusió algorítmica, brut i sensible

Com que estic descrivint aquestes característiques, notareu que sovint sorgeixen perquè no s'han creat orígens de dades grans per a la recerca.