3.4.3 Próbki dla prawdopodobieństwa: dopasowanie próbki

Ten przekład został stworzony przez komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 Próbki dla prawdopodobieństwa: dopasowanie próbki

Nie wszystkie próbki nielosowej są takie same. Możemy dodać więcej kontroli na przednim końcu.

Podejście Wang i wsp wykorzystane do oszacowania wyników wyborów prezydenckich w USA 2012 zależała wyłącznie od ulepszeń w analizie danych. Oznacza to, że zebrano tyle odpowiedzi, jak tylko mogli, a potem próbowali je ponownie ważony. Strategia uzupełniający do pracy z próbkowaniem bez prawdopodobieństwo jest, aby mieć większą kontrolę nad procesem zbierania danych.

Najprostszym przykładem częściowo kontrolowanym procesie próbkowania niż prawdopodobieństwo jest próbkowanie kontyngent, techniką, która sięga początków badań ankietowych. W próbkowania kwotowego naukowcy podzielić na różne grupy ludności (np młodych mężczyzn, młodych kobiet, etc), a następnie ustawić kwot na liczbę osób, które zostaną wybrane w każdej grupie. Respondenci są wybierane w sposób chaotyczny, aż badacz spełnił swoje kwoty w każdej grupie. Ponieważ kontyngentów otrzymaną próbkę wygląda bardziej jak w populacji docelowej, niż byłoby prawdziwe inaczej, ale z powodu prawdopodobieństwa integracji nie są znane wielu naukowców są sceptyczni pobierania próbek kwot. W rzeczywistości, próbkowanie kontyngent był przyczyną "Dewey Porażki Trumana" błąd w ankietach US prezydenckich w 1948 roku. Ponieważ zapewnia pewną kontrolę nad procesem pobierania próbek, jednak widać, jak próbkowanie kontyngent może mieć pewne zalety w stosunku do całkowicie niekontrolowanego gromadzenia danych.

Wyjście poza próbkowania kontyngentu, bardziej nowoczesne podejście do kontrolowania procesu próbkowania zakaz prawdopodobieństwa są teraz możliwe. Jedno takie podejście jest nazywane dopasowanie próbki i jest używany przez niektórych komercyjnych dostawców paneli internetowych. W najprostszej formie, dobieranie próbka wymaga dwóch źródeł danych: 1) pełną ewidencję ludności i 2) duży panel ochotników. Istotne jest to, że wolontariusze nie muszą być próbka prawdopodobieństwem z dowolnego ludności; podkreślić, że nie istnieją żadne wymogi dotyczące selekcji do panelu, zadzwonię to brudna panel. Ponadto, zarówno rejestr ludności i brudne panel musi zawierać pewne informacje pomocnicze dotyczące każdej osoby, w tym przypadku, to uważam, wiek i płeć, ale w realnych sytuacjach, ta informacja pomocnicza może być znacznie bardziej szczegółowe. Sztuką dopasowywania próbki musi wybrać próbki z brudnym panelu w sposób, który wytwarza próbki, które wyglądają jak próbach probabilistycznych.

dopasowanie próbka zaczyna się, gdy próbka symulowana prawdopodobieństwo jest pobierana z ewidencji ludności; Ten symulowany próbka staje się próbkę celem. Następnie, na podstawie informacji pomocniczych przypadki, w próbce docelowej są dopasowane do ludzi w brudnej panelu w celu utworzenia dopasowanej próbki. Na przykład, jeśli jest 25-letnia kobieta w próbce docelowej, po czym badacz stwierdza 25-letnia kobieta z brudną panelu się w dopasowanej próbki. Wreszcie członkowie dopasowane próbki są wywiady, aby wyprodukować ostateczny zestaw respondentów.

Pomimo tego, że dopasowany próbka wygląda próbie docelowej, ważne jest, aby pamiętać, że próbka nie jest dopasowana próbka prawdopodobieństwa. Łączone próbki można dopasować tylko próbkę docelowy na znanej informacji pomocniczej (np, wiek i płeć), ale nie na cechach niemierzalnych. Na przykład, jeśli ludzie na brudnej płycie wydają się być uboższe-wszak jeden powód, aby przyłączyć się do panelu badania jest-wtedy pieniądze zarobić nawet jeśli dopasowane próbka wygląda próbie docelowej pod względem wieku i płci będzie jeszcze odchylenie ku biednych ludzi. Magia wyborze probabilistycznym prawdziwym jest, aby wykluczyć problemy z obu pomiarów, jak i niemierzalnych cech (punkt, który jest zgodny z naszej dyskusji o dopasowanie do wnioskowania przyczynowego z badań obserwacyjnych w rozdziale 2).

W praktyce dopasowywania próbki zależy od posiadania dużej i zróżnicowanej panel chętny do zakończenia badań, a więc odbywa się głównie przez firmy, które mogą sobie pozwolić na rozwój i utrzymanie takiego panelu. Ponadto, w praktyce, nie mogą być problemy z pasującymi (czasami dobry mecz dla kogoś w próbie docelowej nie istnieje na panelu) i braku odpowiedzi (czasem ludzie w dopasowanej próbki odmówić udziału w badaniu). Dlatego w praktyce, naukowcy robią dopasowanie próbki również wykonać jakieś korekty po stratyfikacji dokonania szacunków.

Trudno jest dostarczyć użytecznych teoretyczne gwarancje o dopasowanie próbki, ale w praktyce może to wykonać dobrze. Na przykład Stephen Ansolabehere i Brian Schaffner (2014) w porównaniu z trzech równoległych badań przeprowadzanych około 1000 osób w 2010 roku stosując trzy różne metody pobierania próbek i wywiadów: poczta, telefon, Internet, używając panel dopasowanie próbek i regulacji po stratyfikacji. Szacunki z trzech podejść były dość zbliżone do szacunków z wysokiej jakości standardy, takie jak obecny Population Survey (CPS) oraz National Health Interview Survey (NHIS). Dokładniej, oba sondaże internetowe i poczta były od średnio o 3 punkty procentowe i badania telefon był wyłączony o 4 punkty procentowe. Błędy tego duże są w przybliżeniu, czego można by oczekiwać od próbie około 1000 osób. Chociaż żaden z tych trybów produkowanych znacznie lepsze dane, zarówno Internet i telefon badania (co trwało kilka dni lub tygodni) były znacznie szybsze dziedzinie niż ankiety elektronicznej (które miało osiem miesięcy), a badania internetowe, które wykorzystywane dopasowanie próbki, było tańsze niż w pozostałych dwóch trybach.

Podsumowując, socjologowie i statystycy są bardzo sceptycznie nastawieni do wniosków z tych próbek nie prawdopodobieństwa, po części dlatego, że są związane z pewnymi żenujących porażek badań ankietowych, takich jak ankiety Literary Digest. Po części zgadzam się z tym sceptycyzmu: niedostosowanych próbki bez prawdopodobieństwa mają szanse przynieść złe prognozy. Jednakże, jeśli badacze może dostosować do odchyleń w procesie próbkowania (na przykład, po warstwowym) lub sterować procesem nieco próbkowania (na przykład, łączenie próbki), można wytwarzać lepsze oszacowania, a nawet oszacowania jakości wystarczającej dla większości celów. Oczywiście, byłoby lepiej zrobić perfekcyjnie wykonane próbkowanie prawdopodobieństwa, ale to nie wydaje się być realną opcją.

Obie próbki bez prawdopodobieństwa i próbki prawdopodobieństwa różnią się pod względem jakości, a obecnie jest to prawdopodobnie jest tak, że większość próbek szacunki prawdopodobieństwa są bardziej wiarygodne niż szacunki z próbek nie prawdopodobieństwa. Ale nawet teraz, szacunki dobrze przeprowadzonych prób nie prawdopodobieństwa są prawdopodobnie lepsze niż szacunków źle przeprowadzonych próbach probabilistycznych. Ponadto, próbki nielosowej są znacznie tańsze. Tak więc wydaje się, że prawdopodobieństwo vs próbkowania niż prawdopodobieństwo oferuje kosztów jakości kompromis (rysunek 3.6). Patrząc w przyszłość, spodziewam się, że szacunki dobrze wykonanych próbek bez prawdopodobieństwa będzie tańsze i lepsze. Ponadto, ze względu na załamanie ankiet telefonicznych stacjonarnych i zwiększenie wskaźników braku odpowiedzi, spodziewam się, że próbki prawdopodobieństwa staną się droższe i gorszej jakości. Z powodu tych długoterminowych trendów, myślę, że kontrola wyrywkowa nie prawdopodobieństwem staną się coraz ważniejsze w trzeciej dobie badań ankietowych.

Rysunek 3.6: próbkowanie Prawdopodobieństwo w praktyce i pobierania próbek innych niż prawdopodobieństwa są zarówno duże, niejednorodne kategorie. Ogólnie rzecz biorąc, nie jest kosztem błędów kompromis z próbkowaniem bez prawdopodobieństwo jest niższe koszty, ale wyższe o błędzie. Jednak dobrze zrobione próbkowania niż prawdopodobieństwo może produkować lepsze szacunki niż źle wykonanej wyborze probabilistycznym. W przyszłości, spodziewam się, że kontrola wyrywkowa nie prawdopodobieństwem będzie lepiej i taniej, podczas próbkowania prawdopodobieństwem będzie jeszcze gorzej i bardziej kosztowne.