2.3 Dešimt bendrų didelių duomenų ypatybių

Dideli duomenų šaltiniai paprastai turi keletą bendrų charakteristikų; kai kurie paprastai yra naudingi socialiniams tyrimams, o kai kurie apskritai yra blogi.

Nors kiekvienas didelis duomenų šaltinis yra skirtingas, naudinga pastebėti, kad yra tam tikrų savybių, kurios dažniausiai atsiranda vėl ir vėl. Todėl, užuot imdamiesi platformos metodo (pvz., Tai, ko jums reikia žinoti apie "Twitter", čia reikia sužinoti apie "Google" paieškos duomenis ir pan.), Aš ketinu apibūdinti dešimt bendrų didelių charakteristikų duomenų šaltinis. Grįžtant prie kiekvienos konkrečios sistemos detalių ir ieškant šių bendrų savybių, mokslininkai gali greitai sužinoti apie esamus duomenų šaltinius ir turėti tvirtą idėjų rinkinį, kuris būtų taikomas duomenų šaltiniams, kurie bus sukurti ateityje.

Nors norimos duomenų šaltinio charakteristikos priklauso nuo tiriamojo tikslo, manau, kad naudinga griežtai suskirstyti dešimt charakteristikų į dvi plačias kategorijas:

  • paprastai naudinga moksliniams tyrimams: didelė, visada ir neaktyvi
  • apskritai problematiška moksliniams tyrimams: neišsami, neprieinama, nereprezentatyvi, dreifuojanti, algoritminiu būdu sugadinta, nešvari ir jautri

Aprašydamas šias charakteristikas pastebėsite, kad jie dažnai kyla dėl to, kad tyrimų tikslams nebuvo sukurta didelių duomenų šaltinių.