2.3 Агульныя характарыстыкі вялікіх аб'ёмаў дадзеных

Вялікія крыніцы дадзеных , як правіла, маюць дзесяць характарыстык; некаторыя з іх добрыя для сацыяльных даследаванняў і некаторыя з іх дрэнна.

Калі даследчыкі збіраюцца атрымаць з вялікіх аб'ёмаў дадзеных, якія яны не стваралі або збіраць, то яны павінны разумець яе агульныя характарыстыкі. Замест таго, каб браць платформу з дапамогай платформы падыходу (напрыклад, вось што вам трэба ведаць аб Twitter, вось што вам трэба ведаць аб дадзеных пошуку Google і г.д.), я збіраюся апісаць дзесяць агульных характарыстык вялікіх аб'ёмаў дадзеных, характарыстыкі, якія ўзнікаюць таму што дадзеныя не была створана з мэтай сацыяльных даследаванняў. Па адыходзячы ад дэталяў кожнай канкрэтнай сістэмы і, гледзячы на ​​гэтыя агульныя ўласцівасці, даследчыкі могуць хутка даведацца больш аб існуючых крыніцах дадзеных і мець цьвёрдую набор ідэй, каб прымяніць да будучых крыніц дадзеных.

Я лічу карысным згрупаваць характарыстыкі на дзве катэгорыі:

  • як правіла, добра для даследавання: вялікі, заўсёды на, не якія рэагуюць
  • як правіла, дрэнна для даследавання: няпоўнай, недаступнай, нерепрезентативного, дрэйфуе, алгарытмічных брыдка ім, недаступнае, брудны, і адчувальны

Груба кажучы, дзяржаўныя адміністрацыйныя запісы з'яўляюцца менш нерепрезентативная, менш алгарытмічных пасаромлена, і менш дрэйфуючых. З іншага боку, бізнэс-адміністрацыйныя дакументы, як правіла, больш буйныя і заўсёды на.