3.4.3 Не-случайни извадки: проба съвпадение

Този превод е създаден от компютър. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 Не-случайни извадки: проба съвпадение

Не всички неслучайни извадки, са едни и същи. Можем да добавим по-голям контрол върху предния край.

Ван The подход и колегите, използвани за оценка на резултатите от президентските избори в САЩ през 2012 г. са зависели изцяло от подобрения в анализ на данни. Тоест, те събира колкото се може повече отговори, тъй като те биха могли и след това се опита да ги възстанови теглото. Допълнителна стратегия за работа с не-случайни извадки е да имате повече контрол върху процеса на събиране на данни.

Най-простият пример на частично контролиран процес на вземане на проби, които не са вероятностите е извадка квота, техника, която датира от ранните дни на изследователското. В извадка квота, изследователите разделят населението в различни групи (например, млади мъже, млади жени и т.н.) и след това задайте квоти за броя на хората, за да бъдат избрани във всяка група. Анкетираните са избрани по случаен начин, докато изследователят е изпълнила квотата си във всяка група. Заради квотите, получената проба прилича повече на целевото население, отколкото би било вярно друго, а защото вероятностите за включване не са известни много изследователи са скептични по отношение на вземането на проби квота. В действителност, вземане на проби квота е била причина за "Дюи Загуби Труман" грешка през 1948 г. в САЩ президентски социологическите. Тъй като тя осигурява някакъв контрол върху процеса на вземане на проби, обаче, може да се види как извадка квота може да има някои предимства пред напълно безконтролно събиране на данни.

Извън извадка квота, по-модерни подходи за контролиране на процеса на вземане на проби, които не са вероятност вече са възможни. Един такъв подход се нарича проба съвпадение, и тя се използва от някои търговски доставчици на онлайн панел. В най-простата си форма, проба съвпадение изисква два източници на данни: 1) пълен регистър на населението и 2) по-голяма група от доброволци. Важно е, че доброволците не трябва да бъде вероятност проба от всяка популация; да се подчертае, че не са налице изискванията за подбор в панела, аз ще го наричаме мръсна панел. Също така, както на регистъра на населението и мръсната панел трябва да включва някои спомагателни информация за всеки човек, в този пример, аз ще разгледа възраст и пол, но в реални ситуации тази спомагателна информация може да бъде много по-подробно. Номерът на проба съвпадение е да изберете проби от мръсна панел по начин, който произвежда проби, които изглеждат като случайни извадки.

съвпадение проба започва, когато една симулирана вероятност се взема проба от регистъра на населението; тази симулирана проба се превръща в мишена проба. След това, на базата на помощната информация, случаи в целевата извадка са съчетани с хората в мръсна панел, за да образуват съчетана проба. Например, ако има 25 годишна жена в целевата извадка, тогава изследователят открива 25 годишна жена от мръсната панел, за да бъде в съответстващата проба. Накрая, членове на съответстващата проба са интервюирани, за да се получи крайният набор от анкетираните.

Въпреки че съответстващата проба прилича целевата извадка, е важно да се помни, че съответстващата проба не е случайна извадка. Посрещнати проби могат да се сравняват само целевата извадка на известни спомагателни информация (например, възраст и пол), но не и на непремерено характеристики. Например, ако хората на мръсни панел са склонни да бъдат по-бедни-в края на краищата, една от причините да се присъединят панел проучване е да се печелят пари, а след това дори и ако съответстващата проба прилича целевата извадка по отношение на пол и възраст тя все още ще има пристрастие към бедните хора. Магията на истинската случайни извадки е да се изключи проблеми от двете измерени и непремерено характеристики (една точка, която е в съответствие с нашата дискусия за съвпадение за причинно-следствена извод от наблюдателни проучвания в глава 2).

На практика, проба съвпадение зависи от наличието на голяма и разнообразна панел желание да завършат проучвания, и по този начин то се извършва предимно от фирми, които могат да си позволят да се разработи и поддържа такъв панел. Също така, на практика, не може да има проблеми с съвпадение (понякога добър мач за някой в целевата извадка не съществува в панела) и липса на отговор (понякога хората в съответстващата проба отказват да участват в проучването). Поради това, на практика, изследователите правят проба съвпадение също изпълняват някаква корекция след стратификация да се правят приблизителни оценки.

Трудно е да се предостави полезни теоретични гаранции за проба съвпадение, но на практика това може да се представят добре. Например, Стивън Ansolabehere и Brian Schaffner (2014) в сравнение три паралелни изследвания на около 1000 души, проведени през 2010 г. с помощта на три различни проби и интервюиране методи: поща, телефон и интернет панел с помощта на проба съвпадение и настройка пост-стратификация. Оценките от трите подхода са доста сходни с оценки от висококачествени показатели като обзор на сегашното население (CPS) и интервюто National Health Survey (НЗОК). По-конкретно, както на изследванията на интернет и поща са били на разстояние средно с 3 процентни пункта и проучването на телефон беше изключен от 4 процентни пункта. Грешки това големи са приблизително какво може да се очаква от проби от около 1000 души. Въпреки че нито един от тези режими, произведени значително по-добри данни, както проучването интернет и телефон (който взе дни или седмици) са били значително по-бързо, за да поле от проучването на поща (която взе осем месеца), и проучването на Интернет, който се използва проба съвпадение, е по-евтина от другите два режима.

В заключение, социолози и статистици са изключително скептични по отношение на изводите от тези не-случайни извадки, отчасти защото те са свързани с някои притеснителни откази на изследователското като анкетата на Литературен преглед. В част, аз съм съгласен с този скептицизъм: некоригирани проби неслучайни са склонни да произвеждат лоши оценки. Въпреки това, ако изследователи могат да се приспособят за отклоненията в процеса на вземане на проби (например, пост-стратификация) или контролират процеса на вземане на проби до известна степен (например, проба съвпадение), те могат да произвеждат по-добри оценки, а дори и оценки на достатъчно добро качество за повечето цели. Разбира се, че би било по-добре да се направи перфектно изпълнен случайни извадки, но това вече не изглежда да е реалистичен вариант.

И двата не са случайни извадки и случайни извадки се различават по качество, и в момента е вероятно вярно, че повечето оценки от случайни извадки са по-надеждни, отколкото данните от не-случайни извадки. Но, дори и сега, оценки от добре проведени неслучайни извадки, вероятно са по-добри от прогнозите от недобре извършени случайни извадки. Освен това, не-случайни извадки са значително по-евтини. Така се оказва, че вероятността срещу не-случайни извадки предлага на разходите и качеството на компромис (Фигура 3.6). Очакваме, аз очаквам, че оценките от добре свършена неслучайни извадки, ще станат по-евтини и по-добри. Освен това, поради разграждането на стационарни телефонни проучвания и нарастващите цени на липса на отговор, аз очаквам, че случайни извадки ще стават все по-скъпи и по-ниско качество. Поради тези дългосрочни тенденции, аз мисля, че не са случайни извадки ще става все по-важно в третата ера на изследвания изследване.

Фигура 3.6: вземане на проби на вероятностите на практика и не-случайни извадки са двете големи, разнородни категории. Като цяло, има цена-грешка компромис с не-случайни извадки са по-ниски разходи, но по-висока грешка. Все пак, добре направено не-случайни извадки може да произвежда по-добри оценки от недобре свършена случайни извадки. В бъдеще, аз очаквам, че не са случайни извадки ще получите по-добре и по-евтино, докато случайни извадки ще се влоши и по-скъпи.