3.4 Кой да попитам

Цифровата ера прави практически по-трудно вземането на проби и създава нови възможности за вземане на проби, които не са вероятни.

В историята на вземането на проби съществуват два конкурентни подхода: методите за вземане на проби с вероятност и методите за вземане на проби, които не са вероятни. Въпреки че бяха използвани и двата подхода в първите дни на вземане на проби, доминира вероятността за вземане на проби и много социални изследователи се учат да гледат на неслучайно вземане на проби с голям скептицизъм. Както обаче ще опиша по-долу, промените, създадени от цифровата ера, означават, че е време изследователите да преразгледат извадката, която не е вероятна. По-конкретно, вероятността за вземане на проби е трудно да се направи на практика, и не-вероятността вземане на проби е все по-бързо, по-евтино и по-добре. По-бързите и по-евтини проучвания не са само сами по себе си: те дават възможност за нови възможности, като по-чести проучвания и по-големи размери на извадките. Например, чрез използване на методи с не-вероятност, кооперативното избирателно изследване на Конгреса (CCES) може да има приблизително 10 пъти повече участници в сравнение с по-ранните проучвания, като използва вероятностни извадки. Тази много по-голяма извадка дава възможност на политическите изследователи да проучват вариациите в нагласите и поведението в подгрупите и социалните контексти. Освен това, цялата тази добавена скала дойде без намаляване на качеството на оценките (Ansolabehere and Rivers 2013) .

Понастоящем доминиращият подход към вземането на проби за социални изследвания е вероятността за вземане на проби . При вземането на проби с вероятност, всички членове на целевата популация имат известна, ненужна вероятност да бъдат взети проби и всички хора, които са включени в извадката, отговарят на проучването. Когато тези условия са изпълнени, елегантните математически резултати предлагат доказуеми гаранции за способността на изследователя да използва пробата, за да направи изводи за целевата група.

В реалния свят, обаче, условията, на които се основават тези математически резултати, рядко се изпълняват. Например, често има грешки на покритие и неотговори. Поради тези проблеми изследователите често трябва да използват различни статистически корекции, за да направят извод от извадката си към целевото си население. Поради това е важно да се прави разграничение между теоретичните извадки на вероятностите , които имат силни теоретични гаранции и вероятността за вземане на проби в практиката , която не предлага такива гаранции и зависи от разнообразни статистически корекции.

С течение на времето разликите между вероятността за вземане на проби на теория и вероятността за вземане на проби на практика се увеличават. Например процентът на незачитане на отговорността непрекъснато се увеличава, дори при висококачествени и скъпи проучвания (фигура 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Процентите на неотговорилите са много по-високи в проучванията за телефонни телефонни разговори - понякога дори до 90% (Kohut et al. 2012) . Тези увеличения на липсата на отговор застрашават качеството на оценките, тъй като оценките все повече зависят от статистическите модели, които изследователите използват, за да се приспособят към липсата на отговор. Освен това, тези намаления в качеството са се случили въпреки все по-скъпите усилия на изследователите да поддържат високи нива на отговор. Някои хора се опасяват, че тези двойни тенденции за намаляване на качеството и увеличаване на разходите застрашават основата на изследванията (National Research Council 2013) .

Фигура 3.5: Неотговорът е все по-устойчив дори при висококачествени скъпи проучвания (Национален съвет за научни изследвания за 2013 г., Б. Д. Майер, Мок и Съливан 2015). Процентите на неотговорилите са много по-високи при проучвания на търговски телефони, понякога дори до 90% (Kohut et al., 2012 г.). Тези дългосрочни тенденции в липсата на отговор означават, че събирането на данни е по-скъпо и оценките са по-малко надеждни. Адаптирано от Б. Д. Майер, Мок и Съливан (2015), фигура 1.

Фигура 3.5: Неотговорът е все по-устойчив дори при висококачествени скъпи проучвания (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Процентите на неотговорилите са много по-високи при проучвания на търговски телефони, понякога дори до 90% (Kohut et al. 2012) . Тези дългосрочни тенденции в липсата на отговор означават, че събирането на данни е по-скъпо и оценките са по-малко надеждни. Адаптирано от BD Meyer, Mok, and Sullivan (2015) , фигура 1.

В същото време, че има нарастващи трудности при методите за вземане на проби с вероятност, има също така вълнуващо развитие в методите за вземане на проби, които не са вероятни . Съществуват различни стилове на методите за вземане на проби, които не са вероятни, но едно от общите неща е, че те не могат лесно да се впишат в математическата рамка на вероятността за вземане на проби (Baker et al. 2013) . С други думи, при методите за вземане на проби, които не са вероятни, не всеки има известна и незначителна вероятност за включване. Методите за вземане на проби, които не са с вероятност, имат ужасна репутация сред социалните изследователи и са свързани с някои от най-драматичните провали на изследователите като лиаторното фиаско (обсъдено по-рано) и "Dewey Defeats Truman", неправилната прогноза за САЩ президентски избори през 1948 г. (фигура 3.6).

Фигура 3.6: Президентът Хари Труман, който държи заглавието на вестник, който неправилно обяви поражението си. Това заглавие се основаваше отчасти на прогнози от проби с вероятност (Mosteller 1949, Bean 1950, Freedman, Pisani и Purves 2007). Въпреки че Dewey Defeats Truman се случи през 1948 г., той все още е сред причините някои изследователи да са скептични по отношение на оценките от проби, които не са вероятни. Източник: библиотека и музей Хари С. Труман.

Фигура 3.6: Президентът Хари Труман, който държи заглавието на вестник, който неправилно обяви поражението си. Това заглавие се основаваше отчасти на прогнози от проби с вероятност (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Въпреки че "Dewey Defeats Truman" се случи през 1948 г., той все още е сред причините някои изследователи да са скептични по отношение на оценките от проби с вероятност. Източник: библиотека и музей Хари С. Труман .

Една форма на вземане на проби, която е извънредно подходяща за цифровата епоха, е използването на онлайн панели . Изследователите, които използват онлайн панели, зависят от някой доставчик на панели, обикновено компания, правителство или университет, за да изградят голяма, разнообразна група от хора, които се съгласяват да служат като респонденти за проучвания. Тези участници в панела често се наемат с помощта на различни ad hoc методи, като например реклами с банери онлайн. След това изследовател може да плати на доставчика на панели за достъп до извадка от респонденти с желани характеристики (напр. Национално представителни за възрастни). Тези онлайн панели са методи, които не са вероятни, защото не всеки има известна вероятност за включване. Макар че не са вероятни онлайн панели, вече се използват от социални изследователи (напр. CCES), все още има дебат за качеството на оценките, които идват от тях (Callegaro et al. 2014) .

Въпреки тези дебати, мисля, че има две причини, поради които е подходящо време социалните изследователи да преразгледат извадката, която не е вероятна. Първо, в дигиталната епоха има много събития в събирането и анализа на проби с вероятност. Тези по-нови методи са достатъчно различни от методите, които са причинили проблеми в миналото, че мисля, че има смисъл да се мисли за тях като "вероятност за вземане на проби 2.0". Втората причина, поради която изследователите трябва да преразгледат непропорционалното вземане на проби е, практика стават все по-трудни. Когато има високи нива на липса на реакция - както в реални проучвания сега - действителните вероятности за включване за респондентите не са известни и по този начин вероятностните проби и пробите с вероятност не са толкова различни, колкото смятат много учени.

Както казах по-рано, многобройните социални изследователи разглеждат с голяма скептичност пробите, които не са вероятни, отчасти заради ролята им в някои от най-неудобните провали в ранните дни на проучването. Ясен пример за това докъде сме стигнали с проби с вероятност е изследването на Wei Wang, David Rothschild, Sharad Goel и Andrew Gelman (2015) които правилно са възстановили резултата от изборите за САЩ през 2012 г., използвайки проба с вероятност Американските потребители на Xbox - определено неприемлива извадка от американците. Изследователите набират респонденти от системата за игри XBox и, както бихте могли да очаквате, пробата Xbox изкриви мъжки и изкривени млади хора: 18- до 29-годишните съставляват 19% от избирателите, но 65% от Xbox пробата, а мъжете съставляват 47% от избирателите, но 93% от извадката Xbox (фигура 3.7). Поради тези силни демографски отклонения суровите данни за Xbox бяха слаб индикатор за връщането на изборите. Той прогнозира силна победа за Мит Ромни за Барак Обама. Отново това е още един пример за опасността от сурови, некоригирани проби с нестабилност и напомня за фиаското на литературния речник.

Фигура 3.7: Демографски данни на респондентите в W. Wang et al. (2015). Тъй като респондентите бяха наети от Xbox, те по-вероятно са били млади и по-вероятно да бъдат мъже, в сравнение с избирателите на изборите през 2012 г. Адаптирано от W. Wang et al. (2015), фигура 1.

Фигура 3.7: Демографски данни на респондентите в W. Wang et al. (2015) . Тъй като респондентите бяха наети от Xbox, те по-вероятно са били млади и по-вероятно да бъдат мъже, в сравнение с избирателите на изборите през 2012 г. Адаптирано от W. Wang et al. (2015) , фигура 1.

Въпреки това, Уанг и колегите са били наясно с тези проблеми и са се опитали да се приспособят към своя случайно извадков процес, когато правят оценки. По-специално, те са използвали пост-стратификация , техника, която също е широко използвана за корекция на вероятностни проби, които имат грешки на покритие и липса на отговор.

Основната идея за пост-стратификацията е да се използва допълнителна информация за целевата популация, за да се подобри оценката, която идва от извадката. При използване на пост-стратификация, за да направят оценки от тяхната непропорционална извадка, Уанг и колега нарязаха населението в различни групи, оцениха подкрепата за Обама във всяка група и след това взеха средно претеглена от груповите оценки, за да направят обща оценка. Например, те биха могли да разделят населението на две групи (мъже и жени), да оценят подкрепата за Обама сред мъжете и жените и след това да оценят общата подкрепа за Обама, като вземат средно претеглена стойност, за да отчетат факта, 53% от избирателите и 47% от мъжете. Обикновено, пост-стратификацията помага да се коригира небалансираната проба чрез внасяне на допълнителна информация за размерите на групите.

Ключът към пост-стратификацията е да се формират правилните групи. Ако можете да насилвате населението в хомогенни групи, така че склонността на реакциите да е еднакво за всеки във всяка група, тогава след стратификацията ще се получат безпристрастни оценки. С други думи, пост-стратификацията по пол ще доведе до безпристрастни оценки, ако всички хора имат склонността да реагират и всички жени имат еднаква склонност към реакция. Това предположение се нарича хомогенно отклонение-склонност в рамките на групи предположение, и го описвам малко повече в математическите бележки в края на тази глава.

Разбира се, изглежда малко вероятно склонността към реакция да бъде еднаква за всички мъже и всички жени. Въпреки това, предположението за хомогенна реакция-склонност в рамките на групите става по-правдоподобно с нарастването на броя на групите. Обикновено става по-лесно да се насича населението в хомогенни групи, ако създавате повече групи. Например, може да изглежда неправдоподобно, че всички жени имат еднаква склонност към отговор, но може да изглежда по-правдоподобно, че има еднаква склонност към реакция за всички жени на възраст 18-29 години, които завършват колеж и живеят в Калифорния , Следователно, тъй като броят на групите, използвани при пост-стратификацията, става по-голям, предположенията, необходими за поддържане на метода, стават по-разумни. Като се има предвид този факт, изследователите често искат да създадат огромен брой групи за пост-стратификация. Въпреки това, тъй като броят на групите се увеличава, изследователите се сблъскват с различен проблем: изолирането на данните. Ако има само малък брой хора във всяка група, тогава оценките ще бъдат по-несигурни, а в крайния случай, когато има група, която няма респонденти, тогава след разслояването напълно се разпада.

Съществуват два начина за излизане от това присъщо напрежение между правдоподобността на допускането за хомогенна реакция-склонност в рамките на групите и търсенето на разумни размери на пробите във всяка група. Първо, изследователите могат да съберат по-голяма, по-разнообразна извадка, която помага да се осигурят разумни размери на пробите във всяка група. Второ, те могат да използват по-сложен статистически модел за изготвяне на прогнози в рамките на групи. И всъщност понякога изследователите правят и двете, както Уан и колегите си направиха с изучаването на изборите, използвайки респондентите от Xbox.

Тъй като използваха метода за вземане на проби с невъзможност за вземане на проби с компютърно администрирани интервюта (аз ще говоря повече за интервюта, администрирани от компютър в раздел 3.5), Уанг и колегите им имаха много евтино събиране на данни, което им позволи да съберат информация от 345 858 уникални участници , огромен брой от стандартите на изборите. Този масивен размер на извадката им позволи да формират огромен брой групи, които след стратификацията. Докато стратификацията обикновено включва нарязване на населението в стотици групи, Уанг и неговите колеги разделят населението на 176 256 групи, определени по пол (2 категории), раса (4 категории), възраст (4 категории), образование (4 категории) (51 категории), партия ID (3 категории), идеология (3 категории) и гласуване през 2008 г. (3 категории). С други думи, техният огромен размер на извадката, който беше разрешен от събирането на данни с ниски разходи, им позволи да направят по-правдоподобно предположение в своя процес на оценка.

Дори и с 345 858 уникални участници, все още имаше много, много групи, за които Уанг и колегите му почти нямаха респонденти. Поради това те използват техника, наречена многостепенна регресия, за да преценят подкрепата във всяка група. По същество, за да се оцени подкрепата за Обама в рамките на конкретна група, многостепенната регресия обедини информацията от много тясно свързани групи. Например, представете си, че се опитвате да прецените подкрепата за Обама сред жените испанци на възраст между 18 и 29 години, които са завършили колеж, регистрирани демократи, които се самоопределят като умерени и които гласуваха за Обама през 2008 г. Това е много , много специфична група и е възможно в пробата да няма никой с тези характеристики. Следователно, за да се правят оценки за тази група, многостепенната регресия използва статистически модел, за да обедини прогнози от хора в много сходни групи.

По този начин Уанг и колегите използваха подход, който комбинира многостепенна регресия и следслотификация, така че те нарекоха стратегията си на многостепенна регресия с пост-стратификация или, по-любезно, "г- П. "Когато Уанг и колегите му използваха г-н П., за да направят прогнози от извадката XBox, която не е вероятна, те изготвиха оценки, много близки до общата подкрепа, която Обама получи на изборите през 2012 г. (фигура 3.8). Всъщност оценките им бяха по-точни от съвкупността от традиционни проучвания на общественото мнение. Така, в този случай, статистическите корекции - по-специално г-н P. - изглежда правят добра работа, коригирайки отклоненията в данните, които не са вероятни; които са ясно видими, когато разглеждате прогнозите от некоригираните данни на Xbox.

Фигура 3.8: Прогнози от W. Wang et al. (2015). Некоригираната извадка XBox генерира неточни оценки. Но претеглената извадка XBox дава оценки, които са по-точни от средните телефонни проучвания, базирани на вероятности. Адаптирано от W. Wang et al. (2015), фигури 2 и 3.

Фигура 3.8: Прогнози от W. Wang et al. (2015) . Некоригираната извадка XBox генерира неточни оценки. Но претеглената извадка XBox дава оценки, които са по-точни от средните телефонни проучвания, базирани на вероятности. Адаптирано от W. Wang et al. (2015) , фигури 2 и 3.

Има две основни поуки от изследването на Уанг и колегите му. Първо, некоригираните проби с нестабилност могат да доведат до лоши оценки; това е урок, който много учени са чували преди това. Вторият урок обаче е, че пробите, които не са вероятни, при правилно анализиране действително могат да генерират добри оценки; проби, които не са вероятни, не трябва автоматично да доведат до нещо като фиаското на литературното поглъщане.

Придвижване напред, ако се опитвате да решите да използвате подход за вземане на проби с вероятност и подход за вземане на проби без вероятност, вие сте изправени пред труден избор. Понякога изследователите искат бързо и твърдо правило (напр. Винаги да използват методите за вземане на проби с вероятност), но все по-трудно е да се предложи такова правило. Изследователите се сблъскват с труден избор между методите за вземане на проби на практика - които са все по-скъпи и далеч от теоретичните резултати, които оправдават методите за вземане на проби - които са по-евтини и по-бързи, но по-малко познати и по-разнообразни. Едно нещо обаче, което е ясно, е, че ако сте принудени да работите с непропорционални проби или непредставителни големи източници на данни (помислете отново за глава 2), тогава има сериозни основания да смятате, че направените оценки, свързани с техниките ще бъдат по-добри от некоригираните, сурови оценки.