3.4.2 Próbki dla prawdopodobieństwa: waga

Ten przekład został stworzony przez komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 Próbki dla prawdopodobieństwa: waga

Z próbek bez prawdopodobieństwa, wagi można cofnąć zakłóceń powodowanych przez zakładanego procesu próbkowania.

W ten sam sposób, że badacze obciążać reakcji z próbek prawdopodobieństwem mogą również masy reakcji z próbek nie prawdopodobieństwa. Na przykład, jako alternatywa do CPS, wyobraź sobie, że banery reklamowe umieszczone na tysiącach stron internetowych do rekrutacji uczestników do badania w celu oszacowania stopy bezrobocia. Oczywiście, można byłoby sceptyczni, że proste średnią próbkę byłoby dobre oszacowanie stopy bezrobocia. Twój sceptycyzm jest prawdopodobnie dlatego, że niektórzy ludzie są bardziej prawdopodobne, aby zakończyć badanie niż inne. Na przykład ludzie, którzy nie spędzają dużo czasu w internecie są mniej prawdopodobne, aby zakończyć badanie.

Jak widzieliśmy w poprzednim rozdziale, jednak jeśli wiemy, jak próba została dobrana, tak jak my z prawdopodobieństwem próbek, wtedy możemy cofnąć zakłóceń wywołanych przez proces próbkowania. Niestety, podczas pracy z próbkami bez prawdopodobieństwa, nie wiemy, jak próba została dobrana. Ale możemy przyjąć założenia dotyczące procesu pobierania próbek, a następnie zastosować wagę w taki sam sposób. Jeśli te założenia są słuszne, to waga będzie cofnąć zakłóceń wywołanych przez proces próbkowania.

Na przykład, wyobraźmy sobie, że w odpowiedzi na reklamach banerowych, jesteś zatrudniony 100.000 respondentów. Jednak nie sądzę, że te 100.000 respondentów prosta próba losowa dorosłych Amerykanów. W rzeczywistości, jeśli porównać swoje respondentów populacji Stanów Zjednoczonych, można zauważyć, że ludzie z niektórych państw (np New York) są nadreprezentowane i że ludzie z niektórych państw (np Alaska) są niedostatecznie reprezentowane. Tym samym stopa bezrobocia próbkę może być złe oszacowanie stopy bezrobocia w populacji docelowej.

Jednym ze sposobów wyeliminowania zakłócenia, które miało miejsce w procesie próbkowania jest przypisanie wagi do każdej osoby; niższe ciężary dla ludzi z krajów, które są nadmiernie reprezentowane w próbce (np Nowy Jork) i wyższych ciężarach dla ludzi z krajów, które są niedostatecznie reprezentowane w próbce (np Alaska). Dokładniej, waga dla każdego respondenta jest związana z ich występowania w próbce w stosunku do ich częstość występowania w populacji amerykańskiej. Procedura ta waga jest nazywany po stratyfikacji, a pomysł ważenia powinny przypominać o tym przykładzie w punkcie 3.4.1, gdzie respondenci z Rhode Island miały mniejszą wagę niż badani z Kalifornii. Po stratyfikacji wymaga, że wiesz, wystarczy umieścić swoje respondentów na grupy i poznać część populacji docelowej w każdej grupie.

Chociaż waga próbki prawdopodobieństwa, a próbki nie są takie same prawdopodobieństwa matematycznie (patrz dodatek techniczny), pracują dobrze w różnych sytuacjach. Jeżeli badacz ma doskonałą próbkę prawdopodobieństwa (czyli brak błędu zasięg i nie ma braku odpowiedzi), wtedy waga produkują bezstronne szacunki dla wszystkich cech we wszystkich przypadkach. Ta silna gwarancję teoretyczna dlatego zwolennicy próbach probabilistycznych znaleźć je tak atrakcyjne. Z drugiej strony, waga próbki nie prawdopodobieństwa będzie produkować jedynie bezstronne szacunki dla wszystkich cech czy skłonności odpowiedzi są takie same dla wszystkich osób w każdej grupie. Innymi słowy, wracając myślami do naszego przykładu, za pomocą post-rozwarstwienie będzie produkować bezstronne szacunków, jeśli wszyscy w Nowym Jorku ma takie samo prawdopodobieństwo uczestniczenia i wszyscy na Alasce ma takie samo prawdopodobieństwo uczestniczenia i tak dalej. To założenie jest nazywany założenie jednorodne-response-skłonności-w grupach, a także odgrywa kluczową rolę w wiedząc, czy po rozwarstwienie będzie dobrze współpracować z próbek nie prawdopodobieństwa.

Niestety, w naszym przykładzie, przy założeniu jednorodna-odpowiedź-skłonności-obrębie grup wydaje się mało prawdopodobne, aby mogło być prawdziwe. Oznacza to, że wydaje się mało prawdopodobne, że każdy w Alasce ma taką samą szansę bycia w swoim badaniu. Ale istnieją trzy ważne punkty, aby pamiętać o post-rozwarstwienia, co sprawia, że wydają się bardziej obiecujące.

Po pierwsze, jednorodna-odpowiedź-skłonności-obrębie grup założenie staje się bardziej wiarygodna jako liczba grup wzrasta. I badacze nie są ograniczone do grup opiera się tylko w jednym wymiarze geograficznym. Na przykład, możemy tworzyć grupy na podstawie stanu, wieku, płci i poziomu wykształcenia. Wydaje się bardziej prawdopodobne, że nie jest jednorodne skłonności odpowiedzi w grupie 18-29, absolwentów kobieta, kolegium mieszkających na Alasce niż w grupie wszystkich osób mieszkających na Alasce. Tak więc, liczba grup stosowanych do wzrostu po stratyfikacji założenia konieczna do utrzymania go bardziej racjonalne. Biorąc pod uwagę ten fakt, wydaje się, że naukowcy nie chcą tworzyć ogromną liczbę grup dla post-stratyfikacji. Jednak, ponieważ liczba grup wzrasta badacze działać w inny problem: sparsity danych. Jeśli istnieje tylko niewielka liczba osób w każdej grupie, a następnie oszacowania będzie bardziej niepewne, aw skrajnym przypadku, gdy istnieje grupa, która nie ma respondentów, a następnie po stratyfikacji całkowicie zepsuje. Istnieją dwie drogi wyjścia z tej wrodzonej napięcia między wiarygodności homogeneous- odpowiedzią-skłonność-we-grupach założeń i popytu na rozsądnych rozmiarów próbek w każdej grupie. Jednym ze sposobów jest, aby przenieść się do bardziej wyrafinowanego modelu statystycznego obliczania wagi, a druga jest zebranie większej, bardziej zróżnicowanej próbkę, która pomaga zapewnić rozsądne rozmiary próbek w każdej grupie. A czasem naukowcy robić jedno i drugie, jak opiszę bardziej szczegółowo poniżej.

Drugim czynnikiem przy pracy z post-stratyfikacji z próbek innych niż prawdopodobieństwo, że założenie jednorodna-odpowiedź-skłonność-obrębie grup jest już często wykonane podczas analizy próbek prawdopodobieństwa. Dlatego, że to założenie jest konieczne dla próbek prawdopodobieństwa w praktyce jest to, że próbki mają prawdopodobieństwo braku odpowiedzi, a najczęściej stosowaną metodą regulacji dla braku odpowiedzi jest po stratyfikacji, jak opisano powyżej. Oczywiście, tylko dlatego, że wielu badaczy, aby pewne założenie, nie znaczy, że należy to zrobić też. Ale to nie znaczy, że przy porównywaniu próbek niż prawdopodobieństwo próbach probabilistycznych w praktyce, musimy pamiętać, że oba zależą od założeń i informacji pomocniczych w celu wytworzenia szacunki. W najbardziej realistyczne ustawienia, po prostu nie ma założenie wolne podejście do wnioskowania.

Wreszcie, jeśli zależy Ci na oszacować w szczególności w naszym przykładzie stopa bezrobocia, to trzeba warunek słabszy niż jednorodne-response-propensity-obrębie grupy założeniu. W szczególności, nie trzeba zakładać, że każdy ma taką samą skłonność do reagowania, trzeba tylko założyć, że nie ma korelacji pomiędzy skłonnością odpowiedzi i stopy bezrobocia w każdej grupie. Oczywiście, nawet ten słabszy warunek nie będzie trzymać w niektórych sytuacjach. Na przykład, wyobraźmy oszacowania odsetka Amerykanów, które wykonują pracę wolontariuszy. Jeśli ludzie, którzy robią wolontariatu są bardziej skłonni zgodzić się na badania, to naukowcy będą systematycznie przeceniają ilość wolontariatu, nawet jeśli robią korekty po stratyfikacji, wyniku której wykazano empirycznie przez Abraham, Helms, and Presser (2009) .

Jak powiedziałem wcześniej, niż prawdopodobieństwo próbki są oglądane z wielkim sceptycyzmem przez naukowców społecznych, w części ze względu na ich rolę w niektórych z najbardziej żenujących porażek w pierwszych dniach badań ankietowych. Wyraźnym przykładem na to, jak daleko zaszliśmy z próbkami bez prawdopodobieństwo jest badanie Wei Wang, David Rothschild Sharad Goel i Andrew Gelman, że prawidłowo odzyskiwane na wynik wyborów w USA 2012 stosując próbkę bez prawdopodobieństwa użytkowników amerykański Xbox -a zdecydowanie nieprzypadkowy próbka Amerykanów (Wang et al. 2015) . Naukowcy zatrudnieni respondenci z systemu gier Xbox, a jak można się spodziewać, że próbka Xbox przekrzywiony samiec i przekrzywiony Young: 18 - latków 29 roku nadrobić 19% elektoratu, ale 65% próbki Xbox i mężczyźni stanowią 47% wyborców i 93% próby Xbox (rysunek 3.4). Z powodu tych silnych uprzedzeń demograficznych, nieprzetworzone dane Xbox był słabym wskaźnikiem wyników wyborów. Przewiduje się silny zwycięstwo Mitt Romney na Baracka Obamę. Ponownie, jest to kolejny przykład niebezpieczeństw związanych z surowych, niedostosowanych próbek nie Prawdopodobieństwa i przypomina fiasko Literary Digest.

Rysunek 3.4: Demografia respondentów w Wang et al. (2015) . Ponieważ Respondentów rekrutowano XBox, były bardziej narażone na młodych i bardziej prawdopodobne, aby być mężczyzną, w stosunku do wyborców w wyborach 2012 roku.

Jednak Wang i jego współpracownicy byli świadomi tych problemów i próbował obciążać respondentów do skorygowania w procesie próbkowania. W szczególności są one wykorzystywane bardziej wyrafinowane formy post-stratyfikacji ci opowiadałem. Warto uczenia się nieco więcej o swoim podejściu, ponieważ buduje intuicji o post-stratyfikacji, a zwłaszcza wersji Wang i wsp stosowany jest jednym z najbardziej ekscytujących podejścia do ważenia próbek bez prawdopodobieństwa.

W naszym prostym przykładzie około szacowania bezrobocia w sekcji 3.4.1, możemy podzielić populację na grupy na podstawie stanu zamieszkania. W przeciwieństwie do tego, Wang i wsp dzieli populację pod do 176,256 grup zdefiniowanych przez: płci (2 kategorie), rasy (4 kategorie), wiek (4 kategorie), edukacja (4 kategorie), państwa (51 kategorii), Partia ID (3 kategorie) ideologia (3 kategorie) oraz 2008 głosów (3 kategorie). Dzięki większej liczbie grup, naukowcy nadzieję, że będzie coraz bardziej prawdopodobne, że w każdej grupie skłonność odpowiedzią było skorelowane ze wsparciem dla Obamy. Następnie, zamiast budowania indywidualnego poziomu wagi, jak my w naszym przykładzie, Wang i jego współpracownicy wykorzystali złożony model do oszacowania liczby osób w każdej grupie, że głosować na Obamę. Wreszcie, w połączeniu tych szacunków grupy wsparcia ze znanym wielkości każdej grupy do produkcji szacowany całkowity poziom wsparcia. Innymi słowy, porąbane populację na różne grupy, oszacował poparcie dla Obamy w każdej grupie, a następnie wziął średnią ważoną szacunków grupowych w celu przedstawienia całościowej oszacowania.

W związku z tym wielkim wyzwaniem w swoim podejściu jest oszacowanie poparcie dla Obamy w każdej z tych grup 176,256. Chociaż ich panel zawarte 345,858 unikalnych uczestników, ogromną liczbę według standardów wyborczych wyborów, było wiele, wiele grup, dla których Wang i jego współpracownicy mieli prawie żadnych respondentów. Dlatego, aby oszacować wsparcie w każdej grupie użyli techniki zwanej wielopoziomowe regresji z post-stratyfikacji, które naukowcy nazywają pana P. czule Zasadniczo oszacować poparcie dla Obamy w ramach określonej grupy, pan P. informacje z wielu basenów ściśle powiązane grupy. Na przykład, rozważmy wyzwanie szacowania poparcie dla Obamy wśród kobiet, Latynosów, pomiędzy 18-29 lat, którzy są absolwentami uczelni, którzy są zarejestrowani Demokraci, którzy identyfikują się jako self-umiarkowanych, a którzy głosowali na Obamę w 2008 roku jest to bardzo specyficznych grup, i jest możliwe, że nikt nie jest w próbce z tych właściwości. Dlatego też, aby szacunki dotyczące tej grupy, pan P. baseny wraz szacuje, od ludzi w bardzo podobnych grup.

Stosując tę strategię analizy, Wang i jego współpracownicy byli w stanie wykorzystać Xbox próbkę niż prawdopodobieństwo, aby bardzo dokładnie oszacować ogólne poparcie, że Obama otrzymane w wyborach 2012 roku (rysunek 3.5). W rzeczywistości ich szacunki były bardziej dokładne niż suma sondażach. Tak więc, w tym przypadku, waga specyficznie pan P., wydaje się zrobić dobrą robotę korekcji błędu systematycznego w danych non-prawdopodobieństwa; uprzedzeń, które są widoczne, jeśli spojrzeć na szacunkach od niedostosowanych danych Xbox.

Rysunek 3.5: Szacunki Wang et al. (2015) . Nieskorygowane próbka XBox produkowane niedokładne szacunki. Ale, ważona próbka XBox produkowane szacunków, które były bardziej dokładne niż średnio ankiet telefonicznych opartych prawdopodobieństwa.

Istnieją dwa główne wnioski z badania Wanga i wsp. Po pierwsze, niedostosowanych próbki bez prawdopodobieństwa może prowadzić do złych szacunków; Jest to lekcja, że wielu badaczy słyszał. Jednak druga lekcja to, że próbki nie prawdopodobieństwa, gdy ważone prawidłowo, może faktycznie produkują bardzo dobre prognozy. W rzeczywistości, ich szacunki były bardziej dokładne niż szacunki z pollster.com, agregacji bardziej tradycyjnych sondażach wyborczych.

Wreszcie, istnieją istotne ograniczenia czego możemy się nauczyć od tego jednego konkretnego badania. Tylko dlatego, że po stratyfikacji działa dobrze w tym konkretnym przypadku, nie ma gwarancji, że będzie działać także w innych przypadkach. W rzeczywistości, wybory są chyba jednym z najprostszych ustawień, ponieważ Ankieterzy badali wyborów przez prawie 100 lat, jest regularne informacje zwrotne (możemy zobaczyć, kto wygra wybory) i identyfikacji partii i cechy demograficzne są stosunkowo predykcyjna głosowania. W tym momencie brakuje nam solidnej teorii i empirycznego doświadczenia, aby wiedzieć, kiedy o masie dostosowania próbek bez prawdopodobieństwa będzie produkować wystarczająco dokładnych szacunków. Jedno jest jednak jasne, jest, jeśli są zmuszeni do pracy z próbkami bez prawdopodobieństwa, to istnieje silne podejrzenie, że skorygowane oszacowania będzie lepiej niż nie skorygowanych szacunków.