2.1 Введення

В аналоговому віці, збираючи дані про поведінку, хто робить те, що коли-було дорого, і тому порівняно рідко. Тепер, в епоху цифрових технологій, поведінка мільярдів людей реєструються, зберігаються і аналізованих. Наприклад, кожен раз, коли ви натискаєте на веб-сайті, зробити дзвінок на свій мобільний телефон, або платити за щось з вашої кредитної картки, цифровий запис вашої поведінки створюється і зберігається в бізнесі. Оскільки ці дані є побічним продуктом повсякденних дій людей, їх часто називають цифрові сліди. На додаток до цих слідах, що проводяться підприємствами, уряду також мають неймовірно багаті дані про як людей, так і підприємств, дані, які часто оцифровані і аналізованих. Разом ці ділові та урядові документи часто називають великі дані.

Постійно зростаючі потік великих обсягів даних означає, що ми перейшли від світу, де дані про поведінку було мало в світі, де поведінкові дані в достатку. Але, так як ці типи даних є відносно новими, невдале кількість досліджень з використанням їх виглядає як вчені сліпо карбування наявні дані. В цьому розділі, замість цього, пропонує принциповий підхід до розуміння різних джерел даних і як вони можуть бути використані. Це багатшими розуміння повинно допомогти вам краще відповідати вашим дослідницькі питання до відповідних джерел даних. Або, якщо такі існують джерела відсутні, переконати вас зібрати свої власні дані, використовуючи ідеї в майбутніх главах.

Першим кроком до навчання з великих обсягів даних, щоб зрозуміти , що вона є частиною більш широкої категорії даних , яка була використана для соціальних досліджень в протягом багатьох років: даних спостережень. Грубо кажучи, дані спостережень будь-які дані, що результати спостережень соціальну систему без втручання в якійсь мірі. Брутальний спосіб думати про це є те, що дані спостережень все, що не пов'язане з бесідами з людьми (наприклад, обстеження, тема глави 3) або зміна середовища людей (наприклад, експерименти, тема глави 4). Таким чином, на додаток до ділових і урядових звітів, дані спостережень також включає в себе такі речі, як текст газетних статей і супутникових фотографій.

Цей розділ складається з трьох частин. По-перше, в розділі 2.2, я описую великі дані більш детально і прояснити фундаментальна відмінність між ним і даними, які, як правило, використовується для соціальних досліджень в минулому. Потім в розділі 2.3, я описав десять загальних характеристик великих джерел даних. Розуміння цих характеристик дозволяє нам швидко розпізнавати сильні і слабкі сторони існуючих джерел і допоможе нам використовувати нові джерела, які будуть створені в майбутньому. І, нарешті, в розділі 2.4, я описую три основних стратегій дослідження, які можна використовувати, щоб дізнатися з даних спостережень: підрахунок речей, прогнозування речей і аппроксимирующих експеримент.