2.1 Уводзіны

У аналагавым ўзросце, збіраючы дадзеныя аб паводзінах, хто робіць тое, што калі-было дорага, і таму параўнальна рэдка. Цяпер, у эпоху лічбавых тэхналогій, паводзіны мільярдаў людзей рэгіструюцца, захоўваюцца і аналізаванай. Напрыклад, кожны раз, калі вы націскаеце на вэб-сайце, зрабіць званок на свой мабільны тэлефон, або плаціць за нешта з вашай крэдытнай карты, лічбавая запіс вашых паводзін ствараецца і захоўваецца ў бізнэсе. Паколькі гэтыя дадзеныя з'яўляюцца пабочным прадуктам паўсядзённых дзеянняў людзей, іх часта называюць лічбавыя сляды. У дадатак да гэтых слядах, якія праводзяцца прадпрыемствамі, урада таксама маюць неверагодна багатыя дадзеныя аб як людзей, так і прадпрыемстваў, дадзеныя, якія часта аблічбаваныя і аналізаванай. Разам гэтыя дзелавыя і ўрадавыя дакументы часта называюць вялікія дадзеныя.

Пастаянна падвышаюцца паток вялікіх аб'ёмаў дадзеных азначае, што мы перайшлі са свету, дзе дадзеныя аб паводзінах было мала ў свеце, дзе паводніцкія дадзеныя ў багацці. Але, так як гэтыя тыпы дадзеных з'яўляюцца адносна новымі, няўдалы колькасць даследаванняў з выкарыстаннем іх выглядае як навукоўцы слепа чаканка наяўныя дадзеныя. У гэтай чале, замест гэтага, прапануе прынцыповы падыход да разумення розных крыніц дадзеных і як яны могуць быць выкарыстаныя. Гэта багацей разуменне павінна дапамагчы вам лепш адпавядаць вашым даследчыя пытанні да адпаведных крыніц дадзеных. Або, калі такія існуючыя крыніцы адсутнічаюць, пераканаць вас сабраць свае ўласныя дадзеныя, выкарыстоўваючы ідэі ў будучых раздзелах.

Першым крокам да навучання з вялікіх аб'ёмаў дадзеных, каб зразумець , што яна з'яўляецца часткай больш шырокай катэгорыі дадзеных , якая была выкарыстаная для сацыяльных даследаванняў у працягу многіх гадоў: дадзеных назіранняў. Груба кажучы, дадзеныя назіранняў якія-небудзь дадзеныя, што вынікі назіранняў сацыяльную сістэму без умяшання ў нейкай меры. Грубы спосаб думаць пра гэта з'яўляецца тое, што дадзеныя назіранняў усё, што не звязана з размовамі з людзьмі (напрыклад, абследавання, тэма кіраўніка 3) або змяненне асяроддзя людзей (напрыклад, эксперыменты, тэма кіраўніка 4). Такім чынам, у дадатак да дзелавых і ўрадавых справаздач, дадзеныя назіранняў таксама ўключае ў сябе такія рэчы, як тэкст газетных артыкулаў і спадарожнікавых фатаграфій.

Гэтая кіраўнік складаецца з трох частак. Па-першае, у раздзеле 2.2, я апісваю вялікія дадзеныя больш падрабязна і растлумачыць фундаментальнае адрозненне паміж ім і дадзенымі, якія, як правіла, выкарыстоўваецца для сацыяльных даследаванняў у мінулым. Затым у раздзеле 2.3, я апісаў дзесяць агульных характарыстык вялікіх крыніц дадзеных. Разуменне гэтых характарыстык дазваляе нам хутка распазнаваць моцныя і слабыя бакі існуючых крыніц і дапаможа нам выкарыстоўваць новыя крыніцы, якія будуць створаны ў будучыні. І, нарэшце, у раздзеле 2.4, я апісваю тры асноўных стратэгій даследаванні, якія можна выкарыстоўваць, каб даведацца з дадзеных назіранняў: падлік рэчаў, прагназаванне рэчаў і апраксімуецца эксперымент.