2.4.1 Counting вещи

Простой подсчет может быть интересно , если объединить хороший вопрос с хорошими данными.

Несмотря на то, что оно составлено на утонченном языке, многие социальные исследования действительно просто подсчитывают вещи. В эпоху больших данных исследователи могут рассчитывать больше, чем когда-либо, но это не значит, что они должны просто начать считать бессистемно. Вместо этого исследователи должны спросить: какие вещи стоит считать? Это может показаться совершенно субъективным, но есть некоторые общие закономерности.

Часто студенты мотивируют свое исследование подсчета, говоря: я собираюсь считать то, чего никто никогда не считал раньше. Например, студент может сказать, что многие люди изучали мигрантов, и многие люди изучали близнецов, но никто не изучал близнецов-близнецов. По моему опыту, эта стратегия, которую я называю мотивацией по отсутствию , обычно не приводит к хорошим исследованиям. Мотивация от отсутствия - это похоже на то, что там есть дыра, и я собираюсь очень много работать, чтобы заполнить ее. Но не каждое отверстие должно быть заполнено.

Вместо того, чтобы мотивировать отсутствием, я считаю, что лучшей стратегией является поиск важных или интересных вопросов исследования (или, в идеале, обоих). Оба этих термина несколько трудно определить, но один из способов подумать о важных исследованиях заключается в том, что он оказывает определенное измеримое влияние или подпитывается важным решением директивных органов. Например, измерение уровня безработицы важно, потому что это показатель экономики, который управляет политическими решениями. Вообще, я думаю, что у исследователей есть довольно хорошее представление о том, что важно. Итак, в остальной части этого раздела я приведу два примера, в которых, по моему мнению, подсчет интересен. В каждом случае исследователи не считали случайным; скорее, они рассчитывали в очень специфических условиях, которые выявили важную информацию о более общих представлениях о том, как работают социальные системы. Другими словами, многое из того, что делает эти конкретные упражнения подсчета интересными, - это не сами данные, а исходы этих более общих идей.

Один пример простой мощности подсчета - это исследование Генри Фарбера (2015) о поведении таксистов в Нью-Йорке. Хотя эта группа может показаться неинтересно интересной, это стратегический исследовательский сайт для тестирования двух конкурирующих теорий в экономике труда. Для целей исследований Фарбера есть две важные особенности рабочей среды водителей такси: (1) их часовая заработная плата колеблется изо дня в день, частично основанная на таких факторах, как погода, и (2) количество часов, в течение которых они работа может колебаться каждый день на основе их решений. Эти особенности приводят к интересному вопросу о взаимосвязи между почасовой заработной платой и работами часов. Неоклассические модели экономики прогнозируют, что водители такси будут работать больше в те дни, где они имеют более высокую почасовую заработную плату. В качестве альтернативы модели из поведенческой экономики предсказывают точно противоположное. Если драйверы задают целевой показатель дохода - скажем, 100 долларов в день - и работайте до тех пор, пока эта цель не будет удовлетворена, тогда драйверы будут работать меньше часов в дни, когда они зарабатывают больше. Например, если вы были целевым получателем, вы могли бы работать четыре часа в хороший день (25 долларов США в час) и пять часов в плохой день (20 долларов США в час). Таким образом, водители работают больше часов в дни с более высокой почасовой заработной платой (как это предсказывает неоклассические модели) или больше часов в дни с более низкой почасовой заработной платой (как прогнозировалось поведенческими экономическими моделями)?

Чтобы ответить на этот вопрос, Фарбер получил данные о каждой поездке на такси, совершаемой кабинами Нью-Йорка с 2009 по 2013 год, данные, которые теперь доступны для общественности. Эти данные, которые были собраны электронными счетчиками, которые город требует использовать для такси, включают информацию о каждой поездке: время начала, начальное местоположение, время окончания, конечное местоположение, тариф и подсказку (если наконечник был оплачен кредитной картой) , Используя данные данных такси, Фарбер обнаружил, что большинство водителей работают больше в дни, когда заработная плата выше, в соответствии с неоклассической теорией.

Помимо этого основного факта, Фарбер смог использовать размер данных для лучшего понимания неоднородности и динамики. Он обнаружил, что со временем более новые водители постепенно учатся работать больше часов в высокодоходные дни (например, они учатся вести себя, как предсказывает неоклассическая модель). И новые водители, которые ведут себя скорее как целевые получатели, скорее всего, перестанут быть таксистами. Оба этих более тонких вывода, которые помогают объяснить наблюдаемое поведение текущих драйверов, были возможны только из-за размера набора данных. Их невозможно было обнаружить в более ранних исследованиях, в которых использовались бумажные путевые листы от небольшого числа водителей такси за короткий промежуток времени (Camerer et al. 1997) .

Исследование Фарбера было близко к лучшему сценарию для исследования с использованием большого источника данных, потому что данные, собранные городом, были довольно близки к данным, которые собирал Фарбер (одна разница в том, что Фарбер хотел бы получить данные об итогах тарифы на зарплату плюс советы, но данные города включали только подсказки, оплаченные кредитной картой). Однако одних только данных недостаточно. Ключом к исследованию Фарбера был интересный вопрос к данным, вопрос, который имеет более серьезные последствия, помимо только этой конкретной установки.

Второй пример подсчета результатов - это исследование Гари Кинга, Дженнифер Пан и Молли Робертс (2013) о онлайн-цензуре китайского правительства. В этом случае, однако, исследователям приходилось собирать свои собственные большие данные, и им приходилось иметь дело с тем, что их данные были неполными.

Король и его коллеги были мотивированы тем фактом, что должности в социальных сетях в Китае подвергаются цензуре огромным государственным аппаратом, в который, как считается, входят десятки тысяч людей. Однако исследователи и граждане мало понимают, как эти цензоры решают, какой контент следует удалить. У ученых Китая есть противоречивые ожидания относительно того, какие виды должностей, скорее всего, будут удалены. Некоторые считают, что цензоры сосредоточены на посты, которые критикуют государство, в то время как другие считают, что они сосредоточены на должностях, которые способствуют коллективному поведению, например, протестам. Выяснение того, какое из этих ожиданий является правильным, имеет последствия для того, как исследователи понимают Китай и другие авторитарные правительства, которые занимаются цензурой. Поэтому Король и коллеги хотели сравнить опубликованные и впоследствии удаленные публикации с публикациями и никогда не удаляться.

Сбор этих постов участвует удивительный инженерный подвиг ползком более 1000 китайских социальных медиа сайтов, каждый с различными Макеты страниц-поиска релевантных сообщений, а затем пересматривают эти сообщения, чтобы увидеть, которые впоследствии были удалены. В дополнение к обычным инженерных проблем, связанных с крупномасштабным веб-ползания, этот проект имел дополнительную проблему, что это нужно было очень быстро, потому что многие цензурированных посты сняты менее чем за 24 часов. Другими словами, медленный гусеничный пропустит много постов, которые были подвергнуты цензуре. Кроме того, поисковые роботы должны были сделать все это сбор данных во время уклонения от обнаружения чтобы веб-сайты социальных медиа блокировать доступ или иным образом изменить свою политику в ответ на исследования.

К тому моменту, когда эта масштабная инженерная задача была завершена, король и коллеги получили около 11 миллионов сообщений на 85 различных заданных тем, каждый из которых с предполагаемым уровнем чувствительности. Например, тема высокой чувствительности - Ай Вэйвэй, диссидентский художник; тема средней чувствительности - это оценка и девальвация китайской валюты, а тема низкой чувствительности - это чемпионат мира. Из этих 11 миллионов должностей было подвергнуто цензуре около 2 миллионов человек. Несколько удивительно, что Кинг и его коллеги обнаружили, что сообщения по очень чувствительным темам подвергаются цензуре лишь несколько чаще, чем сообщения по темам с низкой и низкой чувствительностью. Другими словами, китайские цензоры примерно так же подвергли цензуре сообщение, в котором упоминается Ай Вэйвэй как пост, в котором упоминается Кубок мира. Эти выводы не подтверждают идею о том, что правительство подвергает цензуре все должности по чувствительным темам.

Однако этот простой расчет цензуры по темам может ввести в заблуждение. Например, правительство может подвергать цензуре должности, поддерживающие Ай Вэйвэй, но оставлять посты, которые критикуют его. Чтобы более тщательно различать должности, исследователи должны были измерить настроения каждого сообщения. К сожалению, несмотря на большую работу, полностью автоматизированные методы обнаружения чувств с использованием уже существующих словарей по-прежнему не очень хороши во многих ситуациях (вспомните о проблемах, создающих эмоциональную шкалу от 11 сентября 2001 года, описанную в разделе 2.3.9). Поэтому королю и коллегам нужен способ обозначить их 11 миллионов сообщений в социальных сетях о том, были ли они (1) критическими для государства, (2) поддерживать государство или (3) несущественные или фактические отчеты о событиях. Это звучит как огромная работа, но они решили это, используя мощный трюк, который распространен в науке о данных, но относительно редко в социальной науке: контролируемое обучение ; см. рисунок 2.5.

Во-первых, на этапе, обычно называемом предварительной обработкой , исследователи преобразовали сообщения в социальные медиа в матрицу документов , где была одна строка для каждого документа и один столбец, в котором записано, содержит ли сообщение конкретное слово (например, протест или трафик) , Затем группа помощников по научным исследованиям указала на мнение выборки постов. Затем они использовали эти данные с ручной маркировкой для создания модели машинного обучения, которая могла бы вывести чувство почты на основе ее характеристик. Наконец, они использовали эту модель для оценки настроений всех 11 миллионов должностей.

Таким образом, вместо ручного чтения и маркировки 11 миллионов сообщений, которые были бы логически невозможны, король и коллеги вручную отметили небольшое количество сообщений, а затем использовали контролируемое обучение для оценки настроения всех сообщений. После завершения этого анализа они смогли сделать вывод о том, что, несколько удивительно, вероятность того, что удаляемая должность не связана с тем, критична ли она государству или поддерживает государство.

Рисунок 2.5: Упрощенная схема процедуры, используемой King, Pan и Roberts (2013), чтобы оценить настроение 11 миллионов китайских должностей в социальных сетях. Во-первых, на этапе предварительной обработки исследователи превратили сообщения социальных сетей в матрицу документов (см. Гриммер и Стюарт (2013) для получения дополнительной информации). Во-вторых, они вручную кодировали настроения небольшой выборки сообщений. В-третьих, они обучили контролируемую обучающую модель для классификации настроений постов. В-четвертых, они использовали контролируемую обучающую модель для оценки настроения всех должностей. Более подробное описание см. В King, Pan и Roberts (2013), приложение B.

Рисунок 2.5: Упрощенная схема процедуры, используемой King, Pan, and Roberts (2013) чтобы оценить настроение 11 миллионов китайских должностей в социальных сетях. Во-первых, на этапе предварительной обработки исследователи превратили сообщения социальных сетей в матрицу документов (см. Grimmer and Stewart (2013) для получения дополнительной информации). Во-вторых, они вручную кодировали настроения небольшой выборки сообщений. В-третьих, они обучили контролируемую обучающую модель для классификации настроений постов. В-четвертых, они использовали контролируемую обучающую модель для оценки настроения всех должностей. Более подробное описание см. В King, Pan, and Roberts (2013) , приложение B.

В конце концов, король и его коллеги обнаружили, что только три типа сообщений регулярно цензуры: порнография, критику цензоров, и те, которые имели коллективный потенциал действия (то есть возможность привести к крупномасштабным протестам). Наблюдая огромное количество постов, которые были удалены, и сообщения, которые не были удалены, Кинг и его коллеги смогли узнать, как цензоры работают, наблюдая и подсчитывая. Кроме того, предвещая тему, которая будет распространяться по всей этой книге, подсмотренный подход к обучению, который они использовали, - обозначение рук некоторыми результатами, а затем построение модели машинного обучения для обозначения остальных - оказывается очень распространенным в социальных исследованиях в эпоху цифровых технологий , Вы увидите изображения, очень похожие на рисунок 2.5 в главах 3 (задание вопросов) и 5 ​​(создание массового сотрудничества); это одна из немногих идей, которые появляются в нескольких главах.

Эти примеры - рабочее поведение водителей такси в Нью-Йорке и поведение цензуры в социальных сетях китайского правительства показывают, что относительно простой подсчет больших источников данных в некоторых ситуациях может привести к интересным и важным исследованиям. Однако в обоих случаях исследователям приходилось задавать интересные вопросы большому источнику данных; данных само по себе было недостаточно.