3.4 kogo zapytać

Era cyfrowa sprawia, że ​​próbkowanie prawdopodobieństwa jest w praktyce coraz trudniejsze i stwarza nowe możliwości próbkowania niezwiązanego z prawdopodobieństwem.

W historii pobierania próbek istniały dwa konkurujące ze sobą podejścia: metody próbkowania prawdopodobieństwa i metody próbkowania niepodobne. Chociaż oba podejścia były stosowane we wczesnych dniach pobierania próbek, próbkowanie prawdopodobieństwa zdominowało, a wielu badaczy społecznych uczy się, jak postrzegać próbkowanie z prawdopodobieństwem z wielkim sceptycyzmem. Jednak, jak to opiszę poniżej, zmiany stworzone przez erę cyfrową oznaczają, że nadszedł czas, aby badacze ponownie rozważyli próbkowanie pozaprawdopodobne. W szczególności próbkowanie prawdopodobieństwa stało się trudne w praktyce, a próbkowanie prawdopodobieństwa było coraz szybsze, tańsze i lepsze. Szybsze i tańsze ankiety to nie tylko cele same w sobie: umożliwiają nowe możliwości, takie jak częstsze ankiety i większe próby. Na przykład, przy użyciu metod braku prawdopodobieństwa, Kolektywne Kongresowe Badanie Wyborcze (CCES) może mieć około 10 razy więcej uczestników niż wcześniejsze badania wykorzystujące próbkowanie prawdopodobieństwa. Ta o wiele większa próba umożliwia badaczom politycznym zbadanie różnic w postawach i zachowaniach w podgrupach i kontekstach społecznych. Co więcej, cała ta dodana skala pojawiła się bez obniżenia jakości szacunków (Ansolabehere and Rivers 2013) .

Obecnie dominującym podejściem do pobierania próbek do badań społecznych jest pobieranie próbek prawdopodobieństwa . Przy próbkowaniu prawdopodobieństwa wszyscy członkowie populacji docelowej mają znane, niezerowe prawdopodobieństwo, że zostaną pobrani na próbę, a wszystkie osoby, które są próbkowane, odpowiadają na ankietę. Kiedy te warunki są spełnione, eleganckie wyniki matematyczne dają dowody na potwierdzenie zdolności badacza do wykorzystania próbki do wnioskowania o populacji docelowej.

Jednak w realnym świecie warunki leżące u podstaw tych matematycznych wyników są rzadko spotykane. Na przykład często występują błędy zasięgu i brak odpowiedzi. Z powodu tych problemów badacze często muszą stosować szereg dostosowań statystycznych, aby wnioskować z próbki do populacji docelowej. Dlatego ważne jest rozróżnienie między próbkowaniem prawdopodobieństwa w teorii , które ma silne teoretyczne gwarancje, a próbą prawdopodobieństwa w praktyce , która nie oferuje takich gwarancji i zależy od różnych dostosowań statystycznych.

Z biegiem czasu różnice między próbą prawdopodobieństwa w teorii a próbą prawdopodobieństwa w praktyce wzrastały. Na przykład stale rosnące wskaźniki braku odpowiedzi, nawet w wysokiej jakości, kosztownych ankietach (rysunek 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Wskaźniki braku odpowiedzi są znacznie wyższe w ankietach telefonicznych - czasami nawet aż 90% (Kohut et al. 2012) . Te wzrosty braku odpowiedzi zagrażają jakości szacunków, ponieważ szacunki w coraz większym stopniu zależą od modeli statystycznych używanych przez naukowców w celu dostosowania się do braku odpowiedzi. Co więcej, te spadki jakości miały miejsce pomimo coraz bardziej kosztownych wysiłków podejmowanych przez badaczy badań, aby utrzymać wysoki wskaźnik odpowiedzi. Niektórzy obawiają się, że te bliźniacze tendencje obniżania jakości i rosnących kosztów zagrażają podstawom badań ankietowych (National Research Council 2013) .

Wykres 3.5: Brak odpowiedzi stale rośnie, nawet w wysokiej jakości kosztownych ankietach (National Research Council 2013, B. D. Meyer, Mok i Sullivan 2015). Wskaźniki braku odpowiedzi są znacznie wyższe w ankietach komercyjnych telefonów komórkowych, czasami nawet w 90% (Kohut i wsp. 2012). Te długoterminowe trendy braku reakcji oznaczają, że gromadzenie danych jest droższe, a szacunki są mniej wiarygodne. Adaptacja z B. D. Meyer, Mok i Sullivan (2015), rysunek 1.

Wykres 3.5: Brak odpowiedzi stale rośnie, nawet w kosztownych ankietach wysokiej jakości (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Wskaźniki braku odpowiedzi są znacznie wyższe w ankietach komercyjnych telefonów komórkowych, czasami nawet w 90% (Kohut et al. 2012) . Te długoterminowe trendy braku reakcji oznaczają, że gromadzenie danych jest droższe, a szacunki są mniej wiarygodne. Na podstawie BD Meyer, Mok, and Sullivan (2015) , rysunek 1.

W tym samym czasie, gdy pojawiły się coraz większe trudności z metodami prób probabilistycznych, pojawiły się również ekscytujące zmiany w metodach prób losowych . Istnieje wiele różnych metod próbkowania, które nie są prawdopodobne, ale jedyne co łączy to to, że nie mogą one łatwo dopasować się do matematycznego schematu próbkowania prawdopodobieństwa (Baker et al. 2013) . Innymi słowy, w metodach prób losowych nie istnieje prawdopodobieństwo, że każdy ma znane i niezerowe prawdopodobieństwo włączenia. Metody pobierania próbek o nieznanym prawdopodobieństwie mają straszną reputację wśród badaczy społecznych i wiążą się z niektórymi z najbardziej dramatycznych niepowodzeń badaczy ankiet, takich jak fiasko literackiego przegryzienia (omówione wcześniej) i "Dewey Defeats Truman", niepoprawne przewidywania dotyczące USA wybory prezydenckie w 1948 r. (wykres 3.6).

Ilustracja 3.6: Prezydent Harry Truman podtrzymuje nagłówek gazety, która błędnie ogłosiła jego porażkę. Ten nagłówek był częściowo oparty na szacunkach z próbek innych niż prawdopodobne (Mosteller 1949, Bean 1950, Freedman, Pisani i Purves 2007). Chociaż Dewey Defeats Truman wydarzył się w 1948 roku, to nadal jest jednym z powodów, dla których niektórzy badacze sceptycznie odnoszą się do oszacowań na podstawie próbek innych niż prawdopodobne. Źródło: Harry S. Truman Library & Museum.

Ilustracja 3.6: Prezydent Harry Truman podtrzymuje nagłówek gazety, która błędnie ogłosiła jego porażkę. Ten nagłówek był częściowo oparty na szacunkach z próbek innych niż prawdopodobne (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Chociaż "Dewey Defeats Truman" wydarzyło się w 1948 roku, to nadal jest jednym z powodów, dla których niektórzy badacze sceptycznie odnoszą się do szacunków z próbek innych niż prawdopodobieństwo. Źródło: Harry S. Truman Library & Museum .

Jedną z form próbkowania braku prawdopodobieństwa, która jest szczególnie odpowiednia dla epoki cyfrowej, jest wykorzystanie paneli online . Naukowcy używający paneli online zależą od jakiegoś dostawcy panelu - zazwyczaj firmy, rządu lub uczelni - w celu skonstruowania dużej, zróżnicowanej grupy osób, które zgodzą się służyć jako respondenci do ankiet. Uczestnicy tego panelu są często rekrutowani przy użyciu różnych metod ad hoc, takich jak internetowe banery reklamowe. Następnie naukowiec może zapłacić operatorowi panelu za dostęp do próbki respondentów o pożądanych cechach (np. Przedstawicielom dorosłych w danym kraju). Te panele online są metodami mało prawdopodobnymi, ponieważ nie każdy ma znane, niezerowe prawdopodobieństwo włączenia. Mimo że panele online, które nie są prawdopodobnie używane, są już wykorzystywane przez badaczy społecznych (np. CCES), nadal toczy się debata na temat jakości danych szacunkowych (Callegaro et al. 2014) .

Pomimo tych debat, uważam, że istnieją dwa powody, dla których czas jest odpowiedni dla badaczy społecznych, aby ponownie rozważyli próbkowanie braku prawdopodobieństwa. Po pierwsze, w erze cyfrowej nastąpiło wiele zmian w gromadzeniu i analizie próbek niepodobnych. Te nowsze metody są na tyle różne od metod, które powodowały problemy w przeszłości, i uważam, że sensowne jest, aby uważać je za "próbkowanie niesatysfakcjonujące 2.0". Drugim powodem, dla którego naukowcy powinni ponownie rozważyć próbkowanie braku prawdopodobieństwa, jest to, że próbkowanie prawdopodobieństwa w praktyki stają się coraz trudniejsze. Kiedy występuje wysoki odsetek braku odpowiedzi - ponieważ obecnie są to rzeczywiste ankiety - rzeczywiste prawdopodobieństwa włączenia dla respondentów nie są znane, a zatem próbki probabilistyczne i próbki niesatysfakcjonujące nie są tak różne, jak uważa wielu naukowców.

Jak już wcześniej wspomniałem, próby niesatysfakcjonujące są postrzegane z wielkim sceptycyzmem przez wielu badaczy społecznych, częściowo z powodu ich roli w niektórych z najbardziej zawstydzających niepowodzeń we wczesnych dniach badań ankietowych. Wyraźnym przykładem tego, jak daleko zaszliśmy z próbkami niesatysfakcjonującymi, są badania Wei Wanga, Davida Rothschilda, Sharada Goela i Andrew Gelmana (2015) które poprawnie odzyskali wynik wyborów prezydenckich w 2012 r., Wykorzystując próbę, która nie jest prawdopodobna. Amerykańscy użytkownicy Xboksa - zdecydowanie niewymyślna próba Amerykanów. Naukowcy zwerbowali respondentów z systemu gier XBox i jak można się było spodziewać, próbka Xboksa przekrzywiła mężczyznę i skrzywioną młodość: 18- do 29-latków stanowią 19% elektoratu, ale 65% próbki Xbox i mężczyzn stanowią 47% wyborców, ale 93% próby Xbox (rysunek 3.7). Z powodu tych silnych uprzedzeń demograficznych surowe dane Xbox były słabym wskaźnikiem zwrotów wyborczych. Przewidywano silne zwycięstwo Mitta Romneya nad Barackiem Obamą. Ponownie, jest to kolejny przykład niebezpieczeństw związanych z surowymi, nieskorygowanymi próbami niesatysfakcjonującymi i przypomina fiasko literackiej degresji.

Rysunek 3.7: Demografia respondentów w W. Wang et al. (2015). Ponieważ respondenci byli rekrutowani z XBox, byli bardziej skłonni do bycia młodszymi i częściej byli mężczyznami w stosunku do wyborców w wyborach w 2012 roku. Zaadaptowane z W. Wang i in. (2015), rysunek 1.

Rysunek 3.7: Demografia respondentów w W. Wang et al. (2015) . Ponieważ respondenci byli rekrutowani z XBox, byli bardziej skłonni do bycia młodszymi i częściej byli mężczyznami w stosunku do wyborców w wyborach w 2012 roku. Zaadaptowane z W. Wang et al. (2015) , rysunek 1.

Jednak Wang i współpracownicy zdawali sobie sprawę z tych problemów i próbowali dostosować się do ich losowego procesu pobierania próbek podczas dokonywania oszacowań. W szczególności wykorzystali technikę po-warstwowaniu , technikę, która jest również szeroko stosowana do korygowania próbek probabilistycznych, które mają błędy zasięgu i brak odpowiedzi.

Główną ideą po stratyfikacji jest wykorzystanie informacji pomocniczych na temat populacji docelowej, aby poprawić oszacowanie pochodzące z próbki. Używając po stratyfikacji, aby oszacować na podstawie ich próby niezwiązanej z prawdopodobieństwem, Wang i kolega podzielili populację na różne grupy, oszacowali poparcie dla Obamy w każdej grupie, a następnie przyjęli średnią ważoną oszacowań grupy, aby uzyskać ogólne oszacowanie. Na przykład mogli podzielić ludność na dwie grupy (mężczyźni i kobiety), oszacować poparcie dla Obamy wśród mężczyzn i kobiet, a następnie oszacować ogólne poparcie dla Obamy, biorąc średnią ważoną, aby uwzględnić fakt, że kobiety robią aż 53% wyborców i mężczyzn 47%. Z grubsza, po stratyfikacji pomaga skorygować niezrównoważoną próbkę, dostarczając pomocnicze informacje o rozmiarach grup.

Kluczem do post stratyfikacji jest stworzenie właściwych grup. Jeśli możesz pokroić populację w grupy homogeniczne, tak aby skłonności odpowiedzi były takie same dla wszystkich w każdej grupie, to po stratyfikacji będzie produkowany obiektywny szacunek. Innymi słowy, stratyfikacja według płci da obiektywne oceny, jeśli wszyscy mężczyźni mają skłonność do reakcji, a wszystkie kobiety mają taką samą skłonność do reakcji. To założenie nazywa się założeniem homogeniczno-reakcyjności-skłonności-w obrębie grupy i opisuję je nieco więcej w matematycznych uwagach na końcu tego rozdziału.

Oczywiście wydaje się mało prawdopodobne, aby skłonności odpowiedzi były takie same dla wszystkich mężczyzn i wszystkich kobiet. Jednak założenie homogenicznych odpowiedzi i predyspozycji do grup staje się bardziej prawdopodobne w miarę wzrostu liczby grup. Z grubsza łatwiej jest posiekać populację w jednorodne grupy, jeśli utworzy się więcej grup. Na przykład może wydawać się nieprawdopodobne, że wszystkie kobiety mają taką samą skłonność do reakcji, ale może się wydawać, że istnieje większa skłonność do odpowiedzi na wszystkie kobiety w wieku 18-29 lat, które ukończyły studia i mieszkają w Kalifornii. . Zatem wraz ze wzrostem liczby grup stosowanych w procesie stratyfikacji, założenia potrzebne do wsparcia tej metody stają się bardziej uzasadnione. Biorąc pod uwagę ten fakt, badacze często chcą stworzyć ogromną liczbę grup do stratyfikacji. Jednak wraz ze wzrostem liczby grup naukowcy napotykają na inny problem: niespójność danych. Jeśli w każdej grupie jest tylko niewielka liczba osób, wówczas szacunki będą bardziej niepewne, aw skrajnym przypadku, gdy istnieje grupa, która nie ma respondentów, po stratyfikacji całkowicie się psuje.

Istnieją dwa wyjścia z tego nieodłącznego napięcia pomiędzy wiarygodnością założenia homogenicznej odpowiedzi a skłonnością do grup a zapotrzebowaniem na rozsądne wielkości próbek w każdej grupie. Po pierwsze, naukowcy mogą zebrać większą, bardziej zróżnicowaną próbkę, która pomaga zapewnić rozsądne rozmiary próbek w każdej grupie. Po drugie, mogą użyć bardziej wyrafinowanego modelu statystycznego do szacowania w grupach. I faktycznie, czasami badacze robią jedno i drugie, tak jak Wang i jego współpracownicy z badaniem wyborów za pomocą respondentów z Xbox.

Ponieważ korzystali z metody próbkowania bez prawdopodobieństwa z wywiady udzielane komputerowo (będę mówić więcej o wywiady udzielane komputerowo w sekcji 3.5), Wang i współpracownicy mieli bardzo tanie gromadzenie danych, co umożliwiło im zbieranie informacji od 345,858 unikalnych uczestników , ogromna liczba według standardów wyborów wyborczych. Ta ogromna próba pozwoliła im stworzyć ogromną liczbę grup stratyfikacyjnych. Podczas gdy po stratyfikacji zwykle obejmuje siekanie populacji na setki grup, Wang i jego koledzy podzielili populację na 176 256 grup zdefiniowanych według płci (2 kategorie), rasy (4 kategorie), wieku (4 kategorie), edukacji (4 kategorie), stanu (51 kategorii), identyfikator partii (3 kategorie), ideologia (3 kategorie) i głosowanie w 2008 r. (3 kategorie). Innymi słowy, ich ogromny rozmiar próby, który umożliwiły tanie zbiory danych, pozwolił im na bardziej wiarygodne założenie w procesie ich szacowania.

Jednak nawet z 345 858 wyjątkowymi uczestnikami wciąż istniało wiele, wiele grup, dla których Wang i jego koledzy prawie nie mieli respondentów. Dlatego wykorzystali technikę zwaną regresją wielopoziomową do oszacowania wsparcia w każdej grupie. Zasadniczo, aby oszacować poparcie dla Obamy w ramach określonej grupy, wielopoziomowa regresja zgromadziła informacje z wielu ściśle powiązanych ze sobą grup. Na przykład wyobraźmy sobie, jak próbujemy oszacować poparcie dla Obamy wśród kobiet Latynoskich pomiędzy 18 a 29 rokiem życia, którzy są absolwentami szkół wyższych, którzy są zarejestrowanymi Demokratami, którzy identyfikują się jako umiarkowani i którzy głosowali na Obamę w 2008 roku. Jest to bardzo bardzo specyficzna grupa i możliwe jest, że w próbce nie ma nikogo z tymi cechami. W związku z tym, aby dokonać szacunków na temat tej grupy, regresja wielopoziomowa wykorzystuje model statystyczny do łączenia szacunków od osób w bardzo podobnych grupach.

Dlatego Wang i współpracownicy zastosowali podejście, które łączyło wielopoziomową regresję i posttaryfikację, więc nazwali swoją strategię wielopoziomową regresją za pomocą stratyfikacji lub, bardziej czule, "Mr. P. "Kiedy Wang i współpracownicy użyli Pana P. do oszacowania z próby prawdopodobieństwa XBoxa, przedstawili oszacowania bardzo zbliżone do ogólnego wsparcia, które Obama otrzymał w wyborach w 2012 roku (rysunek 3.8). W rzeczywistości ich szacunki były dokładniejsze niż zestawienie tradycyjnych sondaży opinii publicznej. Tak więc w tym przypadku korekty statystyczne - w szczególności Pan P. - wydają się wykonywać dobrą robotę, korygując błędy w danych niesatysfakcjonujących; błędy, które były wyraźnie widoczne, gdy spojrzysz na szacunki z nieskorygowanych danych Xbox.

Wykres 3.8: Szacunki W. Wanga i in. (2015). Nieskorygowana próbka XBox wygenerowała niedokładne oszacowania. Ale ważona próbka XBoxa wygenerowała szacunki, które były dokładniejsze niż średnia z badań telefonicznych opartych na prawdopodobieństwie. Zaadaptowane z W. Wang i in. (2015), ryciny 2 i 3.

Wykres 3.8: Szacunki W. Wang et al. (2015) . Nieskorygowana próbka XBox wygenerowała niedokładne oszacowania. Ale ważona próbka XBoxa wygenerowała szacunki, które były dokładniejsze niż średnia z badań telefonicznych opartych na prawdopodobieństwie. Zaadaptowane z W. Wang et al. (2015) , ryciny 2 i 3.

Z badania Wanga i współpracowników wynikają dwie główne lekcje. Po pierwsze, nieskorygowane próbki niesatysfakcjonujące mogą prowadzić do złych szacunków; jest to lekcja, którą wielu badaczy już wcześniej słyszało. Drugą lekcją jest jednak to, że próbki, które nie są prawdopodobne, po odpowiednim przeanalizowaniu, mogą faktycznie wytworzyć dobre oszacowania; próbki niepodobne nie muszą automatycznie prowadzić do czegoś takiego jak fiasko literackiej degresji.

Idąc dalej, jeśli próbujesz zdecydować się na użycie metody próbkowania prawdopodobieństwa i metody próbkowania bez prawdopodobieństwa, stajesz przed trudnym wyborem. Czasami badacze chcą szybkiej i sztywnej reguły (np. Zawsze stosuj metody próbkowania prawdopodobieństwa), ale coraz trudniej jest zaproponować taką regułę. Badacze napotykają trudny wybór między metodami prób prawdopodobieństwa w praktyce - które są coraz droższe i dalekie od teoretycznych wyników, które uzasadniają ich zastosowanie - i nie prawdopodobieństwo metod próbkowania - które są tańsze i szybsze, ale mniej znane i bardziej zróżnicowane. Jedno jest jednak oczywiste, że jeśli jesteś zmuszony do pracy z próbkami niesatysfakcjonującymi lub niereprezentatywnymi dużymi źródłami danych (powróć do rozdziału 2), to istnieje silny powód, by sądzić, że szacunki dokonane za pomocą stratyfikacji i powiązane techniki będą lepsze niż nieskorygowane, surowe szacunki.