3.4.1 Analiza zbieranie danych Dane: Prawdopodobieństwo próbkowania

Wagi mogą cofnąć zakłóceń spowodowanych umyślnie przez proces próbkowania.

Próbki prawdopodobieństwa są te, w których wszyscy ludzie mają znaną niezerowa prawdopodobieństwo włączenia i najprostszy plan pobierania próbek prawdopodobieństwo jest proste próbkowanie losowe, gdzie każda osoba ma równe prawdopodobieństwo włączenia. Gdy badani wybierane są za pomocą prostego losowego pobierania próbek z doskonałym wykonaniem (np bez pokrycia i bez błędu braku odpowiedzi), a następnie oszacowanie jest prosta, ponieważ próbka będzie na średniej być miniaturowa wersja populacji.

Proste losowe próbkowanie jest rzadko stosowane w praktyce, jednak. Przeciwnie, badacze celowo wybrać osoby z nierównymi prawdopodobieństwa integracji w celu zmniejszenia kosztów i zwiększenia dokładności. Gdy naukowcy celowo wybrać ludzi z różnych prawdopodobieństw włączenia, to potrzebne są korekty, aby cofnąć zakłóceń wywołanych przez proces próbkowania. Innymi słowy, jak uogólnić z próbki zależy od tego, jak próbka została wybrana.

Na przykład obecnej populacji Survey (CPS) jest wykorzystywany przez rząd Stanów Zjednoczonych, aby oszacować stopę bezrobocia. W każdym miesiącu około 100 tysięcy osób, są wywiady, albo twarzą w twarz lub przez telefon, a wyniki są wykorzystywane do produkcji szacowanej stopy bezrobocia. Ponieważ rząd chce oszacować stopę bezrobocia w każdym stanie, że nie można zrobić zwykłej próby losowej dorosłych bo to przyniesie zbyt małą liczbę respondentów w krajach o małych populacjach (np Rhode Island) i zbyt wiele z krajów o dużej liczbie ludności (np , Kalifornia). Zamiast CPS próbki ludzie w różnych państwach w różnym tempie, proces zwany losowanie warstwowe z nierównego prawdopodobieństwem wyboru. Na przykład, jeśli chciał CPS 2000 respondentów na państwo, a potem dorosłych w Rhode Island miałaby około 30 razy wyższe prawdopodobieństwo włączenia niż dorośli w Kalifornii (Rhode Island: 2,000 respondentów na 800.000 osób dorosłych vs Kalifornia: 2,000 respondentów za 30.000.000 osób dorosłych). Jak zobaczymy później, tego rodzaju próbek z nierównym prawdopodobieństwie dzieje się ze źródłami danych zbyt internetowych, ale w przeciwieństwie do CPS, mechanizm pobierania próbek zazwyczaj nie jest znana lub kontrolowane przez badacza.

Biorąc pod uwagę jego konstrukcja próbkowania, CPS nie jest bezpośrednio przedstawiciel USA; zawiera ona zbyt wielu ludzi z Rhode Island i zbyt mało z Kalifornii. Dlatego nierozsądne byłoby oszacować stopę bezrobocia w kraju, a stopa bezrobocia w próbce. Zamiast średniej próbki, to lepiej wziąć średnią ważoną, gdzie stanowią wagi do faktu, że ludzie z Rhode Island były bardziej prawdopodobne niż zawarte ludzi z Kalifornii. Na przykład, każda osoba z Kalifornii będzie upweighted- będzie liczyć więcej w oszacowaniu-i każdy z Rhode Island będzie downweighted-oni liczyć mniej w szacunkach. W istocie, dostaniesz więcej głos ludziom, że są mniej prawdopodobne, aby poznać.

Ten przykład ilustruje ważną zabawka, ale często niezrozumiany punkt: próbka nie muszą być miniaturową wersję populacji w celu wytworzenia dobre szacunki. Jeśli mało wiadomo o tym, w jaki sposób zebrano dane, a następnie, że informacje mogą być wykorzystane przy dokonywaniu szacunków z próbki. Podejście Właśnie opisane oraz aby opisać matematycznie w dodatku technicznym-spada prosto w klasycznej ramy próbkowania prawdopodobieństwa. Teraz pokażę, jak to sama technika może być stosowana do próbek nie prawdopodobieństwa.