3.4 Кой да попитам

Този превод е създаден от компютър. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4 Кой да попитам

Случайни извадки и неслучайни извадки, не са толкова различни в практиката; и в двата случая, всичко е въпрос на тежести.

Вземането на проби е от основно значение, за да се проучат изследвания. Изследователите почти никога не задават своите въпроси към всички в тяхната целева група. В тази връзка, проучвания не са уникални. Повечето изследвания, по един или друг начин, включва вземане на проби. Понякога тази извадка се прави изрично от изследователя; Друг път това се случва по подразбиране. Например, един изследовател, който работи с лабораторен експеримент на студенти в нея университет също е взета проба. По този начин, за вземане на проби е проблем, който се появява в тази книга. В действителност, един от най-честите опасения, че чувам за цифровата ера източници на данни е "те не са представителни." Както ще видим в този раздел, тази загриженост е едновременно по-малко сериозни и по-фини, отколкото много скептици осъзнават. Всъщност, аз ще твърдят, че цялата концепция за "представителност" не е от полза за мислене за вероятностите и не-случайни извадки. Вместо това, най-важното е да се мисли за това как са събрани данните и как някакви отклонения при които събирането на данни може да бъде отменено, когато прави оценки.

В момента, доминиращата теоретична подход за представяне е случайната извадка. Когато данните са събрани с метода на случайната извадка, която е била перфектно изпълнен, изследователите са в състояние да теглото си данни въз основа на начина, по който те се събират, за да направят обективни оценки за целевото население. Въпреки това, перфектна за вземане на проби вероятност основно никога не се случва в реалния свят. Там обикновено са два основни проблема 1) разлики между целевото население и населението на рама и 2) на неотговорилите (това са точно проблемите, които разбиха Литературния Digest анкетата). По този начин, вместо да мисли за случайни извадки като реалистичен модел на това, което действително се случва в света, по-добре е да се мисли за случайни извадки като полезно, абстрактен модел, който много прилича на начина, по който физиците смятат за триене топка се търкаля безкрайно дълго рампа.

Алтернативата на случайни извадки е не-случайни извадки. Основната разлика между вероятност и не-случайни извадки е, че с вероятност за вземане на проби на всички в населението има известна вероятност за включване. Има, в действителност, много разновидности на не-случайни извадки, и тези методи за събиране на данни стават все по-чести в дигиталната епоха. Но, не-случайни извадки има ужасна репутация сред социолози и статистици. В действителност, не-случайни извадки се свързва с някои от най-драматичните неуспехите на изследователи от проучването, като фиаското на Литературен преглед (по-рано) и неправилното прогнозата за президентските избори в САЩ от 1948 г. ( "Dewey Загуби Труман") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .

Въпреки това, времето е подходящо да се преразгледа не-случайни извадки по две причини. Първо, като случайни извадки са станали все по-трудно да се направи на практика, че границата между случайни извадки и неслучайни извадки, се размива. Когато има високи нива на липса на отговор (колкото са в реални проучвания предприятието), действителното вероятността от включвания на респондентите не са известни, и по този начин, случайни извадки и неслучайни извадки, не са толкова различни, колкото много изследователи смятат. В действителност, както ще видим по-долу, и двата подхода основно разчитат на същия метод за оценка: пост-стратификация. Второ, има много разработки в областта на събирането и анализа на не-случайни извадки. Тези методи са достатъчно различни от методите, които предизвикват проблеми в миналото, че аз мисля, че има смисъл да се мисли за тях като за "не-случайни извадки 2.0." Ние не трябва да има ирационално отвращение към не-вероятностни методи, защото на грешки, което се случи преди много време.

На следващо място, за да се направи този аргумент по-конкретен, аз ще преразгледа стандарт случайни извадки и претегляне (раздел 3.4.1). Ключовата идея е, че начина, по който събира данните ви трябва да повлияе на начина, по който се правят приблизителни оценки. По-специално, ако всички не разполага с еднаква вероятност за включване, след това всеки трябва да не са едно и също тегло. С други думи, ако си за вземане на проби не е демократично, тогава вашите оценки не трябва да бъдат демократични. След преглед на претегляне, аз ще опиша два подхода към не-случайни извадки: един, който се фокусира върху претеглянето да се справят с проблема на случайно събрани данни (раздел 3.4.2), и този, който се опитва да се постави по-голям контрол над това как данните са събрана (раздел 3.4.3). Аргументите в основния текст ще бъдат обяснени по-долу с думи и картини; читатели, които биха искали по-математическата лечение също трябва да видят техническото приложение.