Bit By Bit: Social Research in the Digital Age
  • Около
    • Открыть отзыв
    • цитирование
    • Код
    • об авторе
    • Конфиденциальность и Согласия
  • Языки
    • English
    • Afrikaans
    • Albanian
    • Amharic
    • Arabic
    • Armenian
    • Azerbaijani
    • Basque
    • Belarusian
    • Bengali
    • Bosnian
    • Bulgarian
    • Catalan
    • Cebuano
    • Chichewa
    • Chinese Simplified
    • Chinese Traditional
    • Corsican
    • Croatian
    • Czech
    • Danish
    • Dutch
    • Esperanto
    • Estonian
    • Filipino
    • Finnish
    • French
    • Frisian
    • Galician
    • Georgian
    • German
    • Greek
    • Gujarati
    • Haitian Creole
    • Hausa
    • Hawaiian
    • Hebrew
    • Hindi
    • Hmong
    • Hungarian
    • Icelandic
    • Igbo
    • Indonesian
    • Irish
    • Italian
    • Japanese
    • Javanese
    • Kannada
    • Kazakh
    • Khmer
    • Korean
    • Kurdish (Kurmanji)
    • Kyrgyz
    • Lao
    • Latin
    • Latvian
    • Lithuanian
    • Luxembourgish
    • Macedonian
    • Malagasy
    • Malay
    • Malayalam
    • Maltese
    • Maori
    • Marathi
    • Mongolian
    • Myanmar (Burmese)
    • Nepali
    • Norwegian
    • Pashto
    • Persian
    • Polish
    • Portuguese
    • Punjabi
    • Romanian
    • Russian
    • Samoan
    • Scots Gaelic
    • Serbian
    • Sesotho
    • Shona
    • Sindhi
    • Sinhala
    • Slovak
    • Slovenian
    • Somali
    • Spanish
    • Sudanese
    • Swahili
    • Swedish
    • Tajik
    • Tamil
    • Telugu
    • Thai
    • Turkish
    • Ukrainian
    • Urdu
    • Uzbek
    • Vietnamese
    • Welsh
    • Xhosa
    • Yiddish
    • Yoruba
    • Zulu
  • Teaching
  • Media
  • Read Online
  • Купить книгу
    • Princeton University Press
    • Amazon
    • Barnes and Noble
    • IndieBound
  • Предисловие
  • 1 Введение
    • 1.1 Чернила блот
    • 1.2 Добро пожаловать в эпоху цифровых технологий
    • 1.3 Дизайн исследования
    • 1.4 Темы этой книги
    • 1.5 Краткое описание этой книги
    • Что читать дальше
  • 2 Наблюдая поведение
    • 2.1 Введение
    • 2.2 Большие данные
    • 2.3 Десять общих характеристик больших данных
      • 2.3.1 Большой
      • 2.3.2 Всегда включен
      • 2.3.3 Неактивные
      • 2.3.4 Неполные
      • 2.3.5 Недоступный
      • 2.3.6 Непредстава
      • 2.3.7 Дрифтинг
      • 2.3.8 Алгоритмически запутанная
      • 2.3.9 Грязные
      • 2.3.10 Чувствительный
    • 2.4 Стратегии исследований
      • 2.4.1 Counting вещи
      • 2.4.2 Прогнозирование и прогнозирование текущей погоды
      • 2.4.3 Аппроксимационные эксперименты
    • 2.5 Заключение
    • Математические заметки
    • Что читать дальше
    • мероприятия
  • 3 Задавать вопросы
    • 3.1 Введение
    • 3.2 Просьба и наблюдение
    • 3.3 Общая структура ошибок обследования
      • 3.3.1 Представление
      • 3.3.2 Измерение
      • 3.3.3 Стоимость
    • 3.4 Кто спросить
    • 3.5 Новые способы задавать вопросы
      • 3.5.1 Экологические мгновенные оценки
      • 3.5.2 Wiki опросы
      • 3.5.3 Gamification
    • 3.6 Обследования, связанные с большими источниками данных
      • 3.6.1 Обогащенный запрос
      • 3.6.2
    • 3.7 Заключение
    • Математические заметки
    • Что читать дальше
    • мероприятия
  • 4 проведения экспериментов
    • 4.1 Введение
    • 4.2 Какие эксперименты?
    • 4.3 Два измерения экспериментов: лабораторного поля и аналого-цифровые
    • 4.4 Переход от простых экспериментов
      • 4.4.1 Срок действия
      • 4.4.2 Неоднородность эффектов лечения
      • 4.4.3 Механизмы
    • 4.5 Создание это произошло
      • 4.5.1 Использовать существующие среды
      • 4.5.2 Создайте собственный эксперимент
      • 4.5.3 Создайте свой собственный продукт
      • 4.5.4 Партнер с мощным
    • 4.6 Рекомендации
      • 4.6.1 Создание нулевых переменных данных о затратах
      • 4.6.2 Выстраивайте этику в свой дизайн: замените, уточните и уменьшите
    • 4.7 Заключение
    • Математические заметки
    • Что читать дальше
    • мероприятия
  • 5 Создание массового сотрудничества
    • 5.1 Введение
    • 5.2 Человеческие вычисления
      • 5.2.1 Galaxy Zoo
      • 5.2.2 толпы кодирование политических манифестов
      • 5.2.3 Заключение
    • 5.3 Открытые вызовы
      • 5.3.1 Netflix Prize
      • 5.3.2 Foldit
      • 5.3.3 Равный-Патент
      • 5.3.4 Заключение
    • 5.4 Распределенные сбора данных
      • 5.4.1 eBird
      • 5.4.2 PhotoCity
      • 5.4.3 Заключение
    • 5.5 Проектирование самостоятельно
      • 5.5.1 Участники Мотивировать
      • 5.5.2 Рычаги гетерогенность
      • 5.5.3 Фокус внимания
      • 5.5.4 Включить сюрприз
      • 5.5.5 этично
      • 5.5.6 Окончательный дизайн советы
    • 5.6 Заключение
    • Что читать дальше
    • мероприятия
  • 6 Этика
    • 6.1 Введение
    • 6.2 Три примера
      • 6.2.1 Эмоциональная Contagion
      • 6.2.2 Вкусы, связи и время
      • 6.2.3 Encore
    • 6.3 Digital отличается
    • 6.4 Четыре принципа
      • 6.4.1 Уважение лиц
      • 6.4.2 Beneficence
      • 6.4.3 правосудие
      • 6.4.4 Соблюдение закона и общественных интересов
    • 6.5 Два этических рамок
    • 6.6 Области трудности
      • 6.6.1 Информированное согласие
      • 6.6.2 Понимание и управление рисками информационной
      • 6.6.3 Конфиденциальность
      • 6.6.4 Принятие решений в условиях неопределенности
    • 6.7 Практические советы
      • 6.7.1 ЭСО является пол, а не потолок
      • 6.7.2 Поставьте себя на место всех остальных
      • 6.7.3 Придумайте исследовательской этики как непрерывный, а не дискретный
    • 6.8 Заключение
    • Историческое приложение
    • Что читать дальше
    • мероприятия
  • 7 Будущее
    • 7.1 Взгляд в будущее
    • 7.2 Темы будущего
      • 7.2.1 . Смешивание готовых файлов и custommades
      • 7.2.2 сбор данных об участнике в центре
      • 7.2.3 Этика в конструкции исследования
    • 7.3 Вернуться к началу
  • Выражение признательности
  • Рекомендации
Этот перевод был создан с помощью компьютера. ×

Что читать дальше

  • Введение (раздел 3.1)

Многие из тем в этой главе также отражены в недавних президентских обращениях Американской ассоциации исследований общественного мнения (AAPOR), таких как Dillman (2002) , Newport (2011) , Santos (2014) и Link (2015) .

Подробнее о различиях между исследовательскими исследованиями и подробными интервью см. Small (2009) . В связи с углубленными интервью - это семейство подходов, называемых этнографией. В этнографических исследованиях исследователи обычно проводят гораздо больше времени с участниками своей природной среды. Подробнее о различиях между этнографией и подробными интервью см. В « Jerolmack and Khan (2014) . Подробнее о цифровой этнографии см. Pink et al. (2015) .

Мое описание истории исследовательских исследований является слишком кратким, чтобы охватить многие из захватывающих событий, которые произошли. Для более исторического фона см. Smith (1976) , Converse (1987) и Igo (2008) . Более подробно об идее трех эпох исследовательских исследований см. Groves (2011) и Dillman, Smyth, and Christian (2008) (что несколько раз нарушает три эпохи).

Groves and Kahn (1979) предлагают заглянуть в переходный период от первой до второй эры в исследовательских исследованиях, проведя подробное сравнение между лицом к лицу и телефонным опросом. ( ??? ) оглянуться на историческое развитие методов выборки случайных чисел.

Более подробно об исследовании исследований в прошлом в ответ на изменения в обществе см. Tourangeau (2004) , ( ??? ) и Couper (2011) .

  • Просьба относительно наблюдения (раздел 3.2)

Сильные и слабые стороны запроса и наблюдения обсуждались психологами (например, Baumeister, Vohs, and Funder (2007) ) и социологами (например, Jerolmack and Khan (2014) , Maynard (2014) , Cerulo (2014) , Vaisey (2014) , Jerolmack and Khan (2014) ]. Разница между спросом и наблюдением также возникает в экономике, где исследователи говорят об заявленных и выявленных предпочтениях. Например, исследователь может спросить респондентов, предпочитают ли они употреблять мороженое или ходить в спортзал (заявленные предпочтения), или можно наблюдать, как часто люди едят мороженое и ходят в спортзал (выявленные предпочтения). Существует глубокий скептицизм по поводу определенных типов заявленных данных предпочтений в экономике, как описано в Hausman (2012) .

Основная тема этих дискуссий заключается в том, что сообщаемое поведение не всегда точно. Но, как было описано в главе 2, большие источники данных могут быть неточными, их нельзя собирать по интересующей выборке, и они могут быть недоступны исследователям. Таким образом, я думаю, что в некоторых ситуациях сообщаемое поведение может быть полезным. Далее, вторая основная тема этих дебатов заключается в том, что сообщения об эмоциях, знаниях, ожиданиях и мнениях не всегда точны. Но если информация об этих внутренних состояниях необходима исследователям - либо для объяснения какого-либо поведения, либо как предмет, который нужно объяснить, тогда запрос может быть уместным. Конечно, изучение внутренних состояний путем постановки вопросов может быть проблематичным, потому что иногда сами респонденты не знают о своих внутренних состояниях (Nisbett and Wilson 1977) .

  • Общая погрешность обследования (раздел 3.3)

Глава 1 Groves (2004) делает отличную работу по согласованию периодически противоречивой терминологии, используемой исследователями-исследователями для описания общей структуры ошибок опроса. Для обработки длины книги общей структуры ошибок опроса см. Groves et al. (2009) , и для исторического обзора см. Groves and Lyberg (2010) .

Идея разложения ошибок в предвзятость и дисперсия также возникает в машинном обучении; см., например, раздел 7.3 Hastie, Tibshirani, and Friedman (2009) . Это часто заставляет исследователей говорить о компромиссе «смещение-дисперсия».

Что касается представленности, то большое представление о проблемах непредвзятости и непредвзятости относится к докладу Национального исследовательского совета «Неотчет в исследованиях в области социальных наук: исследовательская повестка дня» (2013) . Еще один полезный обзор представлен Groves (2006) . Кроме того, были опубликованы целые специальные выпуски « Журнала официальной статистики» , « Общественное мнение ежеквартально» и « Анналы Американской академии политических и социальных наук » по теме «Не реагирование». Наконец, на самом деле существует множество различных способов расчета скорости ответа; эти подходы подробно описаны в докладе Американской ассоциации исследователей общественного мнения (AAPOR) ( ??? ) .

Более подробно о опросе Литературного Cahalan (1989) 1936 года см. Bryson (1976) , Squire (1988) , Cahalan (1989) и Lusinchi (2012) . Для другого обсуждения этого опроса в качестве притчевого предупреждения о случайном сборе данных см. Gayo-Avello (2011) . В 1936 году Джордж Гэллап использовал более сложную форму отбора проб и смог получить более точные оценки с гораздо меньшим объемом выборки. Успех Gallup над Литературным дайджестом стал важной вехой в разработке исследовательских исследований, как описано в главе 3 of @ converse_survey_1987; глава 4 « Ohmer (2006) ; и глава 3 @ igo_averaged_2008.

Что касается измерений, то большой первый ресурс для разработки вопросников - Bradburn, Sudman, and Wansink (2004) . Более совершенные методы лечения см. Schuman and Presser (1996) , в котором особое внимание уделяется вопросам отношения, и Saris and Gallhofer (2014) , который является более общим. Несколько иной подход к измерению принимается в психометрике, как описано в ( ??? ) . Подробнее о предварительном тестировании можно найти в Presser and Blair (1994) , Presser et al. (2004) и в главе 8 Groves et al. (2009) . Более подробно об экспериментах по исследованию см. Mutz (2011) .

С точки зрения затрат классическое, долговечное обращение с компромиссом между обследовательскими расходами и ошибками обследования является Groves (2004) .

  • Кто спросить (раздел 3.4)

Два классических метода обработки стандартной оценки вероятностей и оценки - Lohr (2009) (более вводный) и Särndal, Swensson, and Wretman (2003) (более продвинутый). Классическим методом Särndal and Lundström (2005) после стратификации и связанных с ним методов является Särndal and Lundström (2005) . В некоторых настройках цифрового возраста исследователи знают немного о неответчиках, что не всегда было истинным в прошлом. Различные формы корректировки без ответа возможны, когда у исследователей есть информация о неответчиках, как описано Kalton and Flores-Cervantes (2003) и Smith (2011) .

Исследование Xbox W. Wang et al. (2015) использует технику, называемую многоуровневой регрессией и постстратификацией («г-н П.»), которая позволяет исследователям оценивать групповые средства, даже если их много. Хотя есть некоторые дебаты о качестве оценок по этому методу, это кажется перспективной областью для изучения. Эта техника была впервые использована в Park, Gelman, and Bafumi (2004) , и впоследствии были использованы и обсуждены (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Подробнее о связи между отдельными весами и групповыми весами см. Gelman (2007) .

Для других подходов к взвешиванию веб-съемок см. Schonlau et al. (2009) , Bethlehem (2010) , и Valliant and Dever (2011) . Онлайновые панели могут использовать либо выборку вероятностей, либо выборку с не вероятностью. Более подробно о онлайн-панелях см. Callegaro et al. (2014) .

Иногда исследователи обнаружили, что образцы вероятности и образцы с не вероятностью дают оценки аналогичного качества (Ansolabehere and Schaffner 2014) , но другие сравнения показали, что образцы с не вероятностью хуже (Malhotra and Krosnick 2007; Yeager et al. 2011) . Одной из возможных причин этих различий является то, что образцы не-вероятности со временем улучшились. Более пессимистическое представление о методах невероятной выборки см. В Целевой группе AAPOR по выборочной выборке (Baker et al. 2013) , и я также рекомендую прочитать комментарий, следующий за итоговым отчетом.

  • Как спросить (раздел 3.5)

Conrad and Schober (2008) - отредактированный том под названием « Представление интервью с интервью будущего» и предлагает различные точки зрения о будущем задавать вопросы. Couper (2011) рассматривает аналогичные темы, и Schober et al. (2015) предлагают хороший пример того, как методы сбора данных, адаптированные к новым параметрам, могут привести к получению более качественных данных. Schober and Conrad (2015) предлагают более общий аргумент в отношении продолжения корректировки процесса исследовательских исследований, чтобы соответствовать изменениям в обществе.

Tourangeau and Yan (2007) рассматривают проблемы социальной склонности к нежелательности в чувствительных вопросах, и Lind et al. (2013) предлагают некоторые возможные причины, по которым люди могут раскрыть более конфиденциальную информацию в интервью с компьютером. Более подробно о роли респондентов-респондентов в повышении уровня участия в опросах см. Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) и Schaeffer et al. (2013) . Более подробно о смешанных съемках см. Dillman, Smyth, and Christian (2014) .

Stone et al. (2007) предлагают книжную обработку экологической сиюминутной оценки и связанных с ней методов.

Дополнительные советы по проведению опросов - приятный и ценный опыт для участников, см. Работу над методом индивидуального проектирования (Dillman, Smyth, and Christian 2014) . Еще один интересный пример использования приложений Facebook для социальных исследований см. В Bail (2015) .

  • Опросы, связанные с большими источниками данных (раздел 3.6)

Judson (2007) описывает процесс объединения опросов и административных данных как «интеграцию информации» и обсуждает некоторые преимущества этого подхода, а также предлагает некоторые примеры.

Что касается обогащенного запроса, было много предыдущих попыток утвердить голосование. Обзор этой литературы см. В Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) , и Berent, Krosnick, and Lupia (2016) . См. Berent, Krosnick, and Lupia (2016) для более скептического взгляда на результаты, представленные в Ansolabehere and Hersh (2012) .

Важно отметить, что, хотя Ansolabehere и Hersh поощрялись качеством данных Catalyst, другие оценки коммерческих поставщиков были менее востребованы. Pasek et al. (2014) обнаружил низкое качество, когда данные опроса сравнивались с файлом-потребителем от Marketing Systems Group (который сам объединил данные трех поставщиков: Acxiom, Experian и InfoUSA). То есть файл данных не соответствовал ответам опроса, которые, как полагают исследователи, были правильными, у потребительского файла отсутствовали данные по большому числу вопросов, а отсутствующий образец данных коррелировал с сообщенным значением опроса (другими словами, отсутствующий данные были систематическими, а не случайными).

Подробнее о рекордной связи между обследованием и административными данными см. Sakshaug and Kreuter (2012) и Schnell (2013) . Более подробно о Fellegi and Sunter (1969) связи в целом см. Dunn (1946) и Fellegi and Sunter (1969) (исторический) и Larsen and Winkler (2014) (современный). Аналогичные подходы также были разработаны в области компьютерных наук под такими именами, как дедупликация данных, идентификация экземпляра, совпадение имен, обнаружение дубликатов и обнаружение дублированных записей (Elmagarmid, Ipeirotis, and Verykios 2007) . Существуют также способы сохранения конфиденциальности для записи связей, которые не требуют передачи персональной информации (Schnell 2013) . Исследователи из Facebook разработали процедуру, позволяющую достоверно связать свои записи с правилами голосования (Jones et al. 2013) ; эта связь была сделана для оценки эксперимента, о котором я расскажу в главе 4 (Bond et al. 2012) . Подробнее о получении согласия на запись связи см. Sakshaug et al. (2012) .

Еще один пример связывания крупномасштабного социального опроса с государственными административными документами - из обзора состояния здоровья и пенсионного обеспечения и Управления социального обеспечения. Более подробно об этом исследовании, включая информацию о процедуре согласия, см. Olson (1996, 1999) .

Процесс объединения многих источников административных записей в основной файл данных - процесс, который использует Каталист, - распространен в статистических управлениях некоторых национальных правительств. Два исследователя из Статистического управления Швеции написали подробную книгу по этой теме (Wallgren and Wallgren 2007) . Пример такого подхода в одном графстве в Соединенных Штатах (графство Олмстед, штат Миннесота, где находится клиника Майо), см. Sauver et al. (2011) . Подробнее об ошибках, которые могут появиться в административных записях, см. Groen (2012) .

Другой способ, с помощью которого исследователи могут использовать большие источники данных в исследовательских исследованиях, - это выборка для людей с определенными характеристиками. К сожалению, этот подход может вызвать вопросы, связанные с уединением (Beskow, Sandler, and Weinberger 2006) .

Что касается расширенного запроса, этот подход не так уж и нов, как может показаться из того, как я его описал. Он имеет глубокие связи с тремя большими областями статистики: модельная постстратификация (Little 1993) , условное исчисление (Rubin 2004) и оценка малых площадей (Rao and Molina 2015) . Это также связано с использованием суррогатных переменных в медицинских исследованиях (Pepe 1992) .

Оценки затрат и времени в Blumenstock, Cadamuro, and On (2015) относятся скорее к переменной стоимости - стоимости одного дополнительного обследования - и не включают фиксированные затраты, такие как стоимость очистки и обработки данных вызова. В общем случае усиленное задание, вероятно, будет иметь высокие фиксированные затраты и низкие переменные затраты, аналогичные тем, которые имеют цифровые эксперименты (см. Главу 4). Более подробно об исследованиях на мобильных телефонах в развивающихся странах см. Dabalen et al. (2016) .

Для представления о том, как усилить просьбу лучше, я бы рекомендовал узнать больше о множественном вменении (Rubin 2004) . Кроме того, если исследователи, делающие усиленные запросы о совокупности, а не чертах индивидуального уровня, тогда могут быть полезны подходы в King and Lu (2008) и Hopkins and King (2010) . Наконец, более подробно о подходах машинного обучения в Blumenstock, Cadamuro, and On (2015) см. James et al. (2013) (более вводный) или Hastie, Tibshirani, and Friedman (2009) (более продвинутый).

Один из этических вопросов, касающихся усиленного запроса, заключается в том, что его можно использовать для определения чувствительных черт, которые люди не могут выбрать в опросе, как описано в Kosinski, Stillwell, and Graepel (2013) .

Powered by Open Review Toolkit

Buy The Book

Image of Bit by Bit cover Princeton University Press Amazon Barnes and Noble IndieBound