2.3 Komunaj karakterizaĵoj de grandaj datumoj

Grandaj datumoj fontoj tendencas havi dek karakterizaĵoj; iuj estas bonaj por sociaj esploroj kaj iuj estas malbonaj.

Se esploristoj tuj lerni de granda datumo ke ili ne kreis aŭ kolekti, do ili devas kompreni liaj ĝeneralaj karakterizaĵoj. Anstataŭ prenanta platformo platformo alproksimiĝo (ekz, jen kion vi bezonas scii pri Twitter, jen kion vi bezonas scii pri Google serĉo datumoj, ktp), mi tuj priskribi dek ĝeneralajn karakterizaĵojn de grandaj datumoj, karakterizaĵoj kiuj ŝprucas ĉar la datumoj ne estis kreita por la celo de socia esploro. Per tretante reen de la detaloj de ĉiu aparta sistemo kaj rigardi tiujn ĝeneralaj propraĵoj, esploristoj povas rapide lerni pli pri ekzistantaj datumoj fontoj kaj havas firman aro de ideoj apliki estonteco datumoj fontoj.

Mi trovas ĝin utila por grupo la trajtojn en du kategorioj:

  • ĝenerale bone por esplorado: granda, ĉiam-sur, ne-reaktiva
  • ĝenerale malbonaj por esplorado: nekompletaj, nealireblaj, ne-reprezentanto, drivantaj, algorítmicamente Hontigitaj nealireblaj, malpura kaj sentema

Al grandaj trajtoj, registaro administraj registroj estas malpli ne-reprezentanto, malpli algorítmicamente Hontigitaj kaj malpli Drifting. Aliflanke, negocon administraj registroj tendencas esti pli grandaj kaj pli ĉiam-sur.