2.1 Введение

В аналоговом возрасте, собирая данные о поведении, кто делает то, что когда-было дорого, и поэтому сравнительно редко. Теперь, в эпоху цифровых технологий, поведение миллиардов людей регистрируются, хранятся и анализируемым. Например, каждый раз, когда вы нажимаете на веб-сайте, сделать звонок на свой мобильный телефон, или платить за что-то с вашей кредитной карты, цифровая запись вашего поведения создается и хранится в бизнесе. Поскольку эти данные являются побочным продуктом повседневных действий людей, их часто называют цифровые следы. В дополнение к этим следам, проводимых предприятиями, правительства также имеют невероятно богатые данные о как людей, так и предприятий, данные, которые часто оцифрованы и анализируемым. Вместе эти деловые и правительственные документы часто называют большие данные.

Постоянно повышающиеся поток больших объемов данных означает, что мы перешли из мира, где данные о поведении было мало в мире, где поведенческие данные в изобилии. Но, так как эти типы данных являются относительно новыми, неудачное количество исследований с использованием их выглядит как ученые слепо чеканка имеющиеся данные. В этой главе, вместо этого, предлагает принципиальный подход к пониманию различных источников данных и как они могут быть использованы. Это богаче понимание должно помочь вам лучше соответствовать вашим исследовательские вопросы к соответствующим источникам данных. Или, если такие существующие источники отсутствуют, убедить вас собрать свои собственные данные, используя идеи в будущих главах.

Первым шагом к обучению из больших объемов данных, чтобы понять , что она является частью более широкой категории данных , которая была использована для социальных исследований в течение многих лет: данных наблюдений. Грубо говоря, данные наблюдений какие-либо данные, что результаты наблюдений социальную систему без вмешательства в какой-то мере. Грубый способ думать об этом является то, что данные наблюдений все, что не связано с беседами с людьми (например, обследования, тема главы 3) или изменение среды людей (например, эксперименты, тема главы 4). Таким образом, в дополнение к деловых и правительственных отчетов, данные наблюдений также включает в себя такие вещи, как текст газетных статей и спутниковых фотографий.

Эта глава состоит из трех частей. Во-первых, в разделе 2.2, я описываю большие данные более подробно и прояснить фундаментальное различие между ним и данными, которые, как правило, используется для социальных исследований в прошлом. Затем в разделе 2.3, я описал десять общих характеристик больших источников данных. Понимание этих характеристик позволяет нам быстро распознавать сильные и слабые стороны существующих источников и поможет нам использовать новые источники, которые будут созданы в будущем. И, наконец, в разделе 2.4, я описываю три основных стратегий исследования, которые можно использовать, чтобы узнать из данных наблюдений: подсчет вещей, прогнозирование вещей и аппроксимирующих эксперимент.