2.3 Дзесяць агульныя характарыстыкі вялікіх аб'ёмаў дадзеных

Вялікія крыніцы дадзеных , як правіла, маюць шэраг агульных характарыстык; некаторыя , як правіла , добра для сацыяльных даследаванняў , а некаторыя , як правіла , дрэнна.

Нават калі кожны вялікі крыніца дадзеных адрозніваецца, карысна заўважыць, што існуюць пэўныя характарыстыкі, якія маюць тэндэнцыю узнікаць зноў і зноў. Таму, замест таго, каб браць з платформы на платформе падыход (напрыклад, вось што вам трэба ведаць аб Twitter, вось што вам трэба ведаць аб дадзеных пошуку Google і г.д.), я збіраюся апісаць дзесяць агульных характарыстык вялікі крыніцы дадзеных. Адступіўшы ад дэталяў кожнай канкрэтнай сістэмы і, гледзячы на ​​гэтыя агульныя характарыстыкі дазваляе даследчыкам хутка даведацца аб існуючых крыніцах дадзеных і мець цьвёрдую набор ідэй звярнуцца да крыніц дадзеных, якія будуць створаны ў будучыні.

Нягледзячы на ​​тое, што жаданыя характарыстыкі крыніцы дадзеных залежаць ад мэты даследавання, я лічу, гэта карысна для грубай групы дзесяць характарыстык на дзве асноўныя катэгорыі:

  • як правіла, карысна для даследавання: вялікі, заўсёды на, і інэртны
  • як правіла, праблематычныя для даследавання: няпоўныя, якую не маглі, нерепрезентативность, дрэйфуе, алгарытмічная пасаромлена, брудны, і адчувальны

Як я апісваю гэтыя характарыстыкі вы заўважыце, што яны часта ўзнікаюць з-за крыніцамі вялікіх дадзеных не былі створаны з мэтай даследавання.