3.3.1 Представление

Этот перевод был создан с помощью компьютера. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.3.1 Представление

Представление о том , чтобы выводы из ваших респондентов к вашей целевой аудитории.

Для того , чтобы понять вид ошибок , которые могут произойти , когда выводя от респондентов к большей части населения, давайте рассмотрим выборочный опрос Literary Digest , которые пытались предсказать исход выборов 1936 года президента США. Хотя это было более 75 лет назад, это Разгром по-прежнему имеет важный урок, чтобы научить исследователей сегодня.

Literary Digest был популярный журнал общий интерес, а начиная с 1920 года они начали работать соломенные опросы , чтобы предсказать результаты президентских выборов. Для того, чтобы сделать эти предсказания они будут посылать бюллетени к большому количеству людей, а потом просто подсчитывать бюллетени , которые были возвращены; Literary Digest с гордостью сообщили , что бюллетени , которые они получили не были ни "взвешенное, с поправкой, ни интерпретировать" . Эта процедура правильно предсказал победителя выборов в 1920, 1924, 1928 и 1932 г. в 1936 году, в разгар Великой депрессии, Literary Digest разослал бюллетени до 10 миллионов человек, чьи имена преимущественно пришли из телефонных справочников и регистрационных записей об автомобиле. Вот как они описали свою методику:

"Отлаженная машина движется дайджеста с быстрой точностью опыта тридцать лет, чтобы уменьшить догадок к жестким фактам. , , .Это Неделю 500 ручки зачеркнул более четверти миллиона адресов в день. Каждый день, в большой комнате, высоко над моторно-авеню четвертой лентами, в Нью-Йорке, 400 рабочих ловко скользят миллион штук печатной продукции, достаточно, чтобы проложить сорок городских кварталов, записанными в адресованных конвертах [так в оригинале]. Каждый час, в собственное почтовое отделение ПС дайджеста'S, три дискутирующие доставку дозировочные машины герметизируют и штампованные белые прямоугольники; квалифицированные работники почты перебросил их в выпученными mailsacks; флот ДАЙДЖЕСТ грузовики ускорило их экспресс-почты поездов. , , На следующей неделе, первые ответы из этих десяти миллионов человек начнет приливом отмеченных бюллетеней, чтобы быть тройным проверено, проверено, пять раз перекрестной классификации и составил. Когда последняя цифра была totted и проверяется, если прошлый опыт является критерием, страна будет знать с точностью до долей 1 процента фактического всенародного голосования сорока миллионов [избирателей]. "(22 августа 1936)

фетишизация дайджеста по размеру мгновенно узнаваемым для любого исследователя "большие данные" сегодня. Из 10 миллионов бюллетеней распределены, удивительные 2,4 миллиона бюллетеней были возвращены, что примерно в 1000 раз больше, чем современных политических опросов. Из этих 2,4 миллиона респондентов вердикт был ясен: Literary Digest предсказал , что претендентом Альф Лэндон собирался победить действующего Франклина Рузвельта. Но, по сути, прямо противоположное произошло. Рузвельт победил Лэндон в оползне. Как Literary Digest может пойти не так , с таким количеством данных? Наше современное понимание выборки делает ошибки Literary Digest ясно и помогает нам избежать подобных ошибок в будущем.

Мышление ясно о выборке требует от нас рассмотреть четыре разные группы людей (Рисунок 3.1). Первая группа людей является целевой группы населения; это группа, что исследование определяет как интерес населения. В случае Literary Digest целевая группа населения была избиратели в 1936 году президентских выборах. После принятия решения о целевой группе населения, исследователь следующий необходимо разработать список людей, которые могут быть использованы для отбора проб. Этот список называется структура выборки и население на выборочной совокупности называется население кадров. В случае Literary Digest население кадров было 10 миллионов человек , чьи имена пришли главным образом из телефонных справочников и регистрационных записей об автомобиле. В идеале целевая группа населения и население кадров будет точно такой же, но на практике это часто не так. Различия между целевой группы населения и населения кадра называются ошибки охвата. Ошибка Покрытие не само по себе гарантирует проблемы. Но, если люди в кадре населения систематически отличаются от людей не в популяции кадров будет уклон покрытия. Ошибка покрытия была первой из главных недостатков с опроса Literary Digest. Они хотели узнать о избирателей-это их целевая группа населения, но они построили структуру выборки преимущественно из телефонных справочников и автомобильных реестров источников, которые чрезмерно представлены богаче американцев, которые были более склонны поддерживать Альф Лэндон (напомним, что обе эти технологии, которые являются общими сегодня, были относительно новым в то время и что США в разгар Великой депрессии).

Рисунок 3.1: ошибки представления.

После определения популяции кадра, следующий шаг для исследователя , чтобы выбрать выборки населения; это те люди, которые исследователь будут пытаться взять интервью. Если образец имеет различные характеристики , чем население кадра, то можно ввести ошибку выборки. Это своего рода ошибка количественно в пределах погрешности, которая обычно сопутствует оценки. В случае провала Literary Digest, там на самом деле не было никакого образца; они попытались связаться со всеми в популяции кадра. Несмотря на то, что не было никакой ошибки выборки, то, очевидно, до сих пор ошибка. Это проясняет, что поля ошибок, которые, как правило, сообщается с оценками по результатам обследований, как правило, обманчиво малы; они не включают в себя все источники ошибок.

Наконец, исследователь пытается взять интервью у всех в группе людей. Те люди, которые успешно Опрошенные называют респондентов. В идеале, население выборки и респонденты были бы точно такими же, но на практике не является ответом. То есть, люди, которые выбирают в образце отказаться от участия. Если люди , которые отвечают отличаются от тех , кто не отвечает, то есть может быть без ответа смещения. Без ответа смещения была вторая главная проблема опроса Literary Digest. Только 24% людей, получивших избирательный бюллетень ответил, и оказалось, что люди, которые поддерживали Лэндон были более склонны реагировать.

Помимо просто быть примером представить идеи представления, опрос Литературный дайджест является часто повторяемая притча, предупреждая исследователей об опасности бессистемной выборки. К сожалению, я думаю, что урок, что многие люди извлечь из этой истории является не тот. Наиболее распространенным мораль этой истории является то, что исследователи не могут что-либо из образцов невероятности узнать (т.е. образцов без строгих правил на основе вероятностных отбора участников). Но, как я покажу далее в этой главе, это не совсем верно. Вместо этого, я думаю, что на самом деле есть две морали этой истории; морали, которые так же верно сегодня, как они были в 1936 г. Во-первых, большое количество бессистемно собранных данных не гарантирует хорошую оценку. Во-вторых, исследователи должны учитывать, как собирали их данные, когда они делают оценки от него. Другими словами, так как процесс сбора данных в опросе Literary Digest систематически перекос в сторону некоторых респондентов, исследователи должны использовать более сложный процесс оценки , что веса некоторые респонденты больше , чем другие. Позже в этой главе я покажу вам один такой весовой порядок-постстратификация-что может позволить вам сделать лучшие оценки образцов невероятности.