3.4.1 mostreig probabilístic: recollida i anàlisi de dades

Els pesos poden desfer distorsions causades intencionadament pel procés de mostreig.

Mostres de probabilitat són aquells en què totes les persones tenen un conegut probabilitat no nul·la, de la inclusió, i el disseny més simple mostreig probabilístic és simple mostreig aleatori, on cada persona té la mateixa probabilitat d'inclusió. Quan els enquestats són seleccionats a través d'un mostreig aleatori simple amb una perfecta execució (per exemple, no hi ha error de cobertura i no hi ha falta de resposta), llavors l'estimació és senzilla, ja que la mostra-de mitjana-ser una versió en miniatura de la població.

El mostreig aleatori simple s'utilitza rarament en la pràctica, però. Per contra, els investigadors intencionalment seleccionar persones amb probabilitats desiguals d'inclusió per tal de reduir els costos i augmentar la precisió. Quan els investigadors intencionalment seleccionar persones amb diferents probabilitats d'inclusió, a continuació, cal fer ajustos per desfer les distorsions causades pel procés de mostreig. En altres paraules, com es generalitza a partir d'una mostra depèn de com es va seleccionar la mostra.

Per exemple, la Current Population Survey (CPS) és utilitzat pel govern dels Estats Units per estimar la taxa d'atur. Cada mes prop de 100.000 persones són entrevistats, ja sigui cara a cara o per telèfon, i els resultats s'utilitzen per produir la taxa d'atur estimada. A causa que el govern desitja estimar la taxa d'atur en cada estat, que no pot fer una mostra aleatòria simple dels adults, ja que produiria molt pocs enquestats en estats amb poblacions petites (per exemple, Rhode Island) i també molts dels estats de gran població (per exemple, , Califòrnia). En canvi, les mostres de CPS persones en diferents estats a diferents velocitats, un procés anomenat mostreig estratificat amb probabilitat desigual de selecció. Per exemple, si els CPS volgut 2.000 enquestats per estat, a continuació, els adults a Rhode Island tindrien aproximadament 30 vegades més probabilitat d'inclusió que els adults a Califòrnia (Rhode Island: 2.000 enquestats per 800.000 adults vs Califòrnia: 2.000 enquestats per 30.000.000 adults). Com veurem més endavant, aquest tipus de mostreig amb probabilitats desiguals succeeix amb les fonts de dades en línia també, però a diferència dels CPS, el mecanisme de mostreig és normalment desconeguda o controlada per l'investigador.

Donat el seu disseny de mostreig, el CPS no és directament representatiu dels EUA .; que inclou massa persones de Rhode Island i molt pocs de Califòrnia. Per tant, no seria prudent per a estimar la taxa d'atur al país amb la taxa d'atur a la mostra. En lloc de la mitjana de la mostra, és millor prendre una mitjana ponderada, on representen els pesos pel fet que la gent de Rhode Island eren més propensos a ser inclosos que les persones de Califòrnia. Per exemple, cada persona de Califòrnia seria upweighted- que comptarien més en l'estimació, i cada persona de Rhode Island es downweighted-ells compten menys en l'estimació. En essència, se li dóna més participació a la gent que vostè és menys probable que aprendre.

Aquest exemple il·lustra una joguina important, però comunament mal entès punt: una mostra no ha de ser una versió en miniatura de la població amb la finalitat de produir bones estimacions. Si se sap prou sobre com es van recollir les dades, a continuació, aquesta informació pot ser utilitzada en realitzar les estimacions de la mostra. L'enfocament que acabo de descriure, i que descric matemàticament a l'apèndix tècnic-cau de ple dins el marc de mostreig probabilístic clàssic. Ara, vaig a mostrar com aquesta mateixa idea es pot aplicar a les mostres no probabilístiques.