3.4.2 Ikke-sannsynlighetsutvalg: vektings

Med ikke-sannsynlighetsutvalg, kan vekter angre forvrengninger forårsaket av den antatte innsamlingen.

På samme måte som forskere vekt responser fra sannsynlighet prøver, kan de også vekten svar fra ikke-sannsynlighets prøver. For eksempel, som et alternativ til barnevernet, forestill deg at du har plassert bannerannonser på tusenvis av nettsteder for å rekruttere deltakere til en undersøkelse for å anslå ledighet. Naturligvis ville du være skeptisk til at det enkle gjennomsnittet av prøven vil være et godt estimat på arbeidsledigheten. Din skepsis er sannsynligvis fordi du tror at noen mennesker er mer sannsynlig å fullføre undersøkelsen enn andre. For eksempel folk som ikke bruker mye tid på nettet er mindre sannsynlig å fullføre undersøkelsen.

Som vi så i forrige avsnitt, men hvis vi vet hvordan prøven ble valgt-som vi gjør med sannsynlighetsutvalg-så kan vi angre forvrengninger forårsaket av datainnsamlingen. Dessverre, når du arbeider med ikke-sannsynlighetsutvalg, vi vet ikke hvordan prøven ble valgt. Men, kan vi gjøre antagelser om datainnsamlingen og deretter bruke vekting på samme måte. Dersom disse forutsetningene er riktige, da vektingen vil angre forvrengninger forårsaket av datainnsamlingen.

Tenk deg for eksempel at i respons på bannerannonser, rekruttert du 100.000 respondenter. Men du trenger ikke tro at disse 100.000 respondenter er et enkelt tilfeldig utvalg av amerikanske voksne. Faktisk, når du sammenligner dine respondenter til den amerikanske befolkningen, finner du at folk fra enkelte stater (f.eks, New York) er overrepresentert, og at folk fra noen stater (f.eks Alaska) er underrepresentert. Dermed er sannsynlig å være en dårlig anslag på ledigheten i målgruppen ledigheten på prøven.

En måte å angre forvrengning som skjedde i datainnsamlingen er å tilordne vekter til hver person; lavere vekter til mennesker fra stater som er overrepresentert i utvalget (f.eks New York) og høyere vekter til folk fra stater som er underrepresentert i utvalget (f.eks Alaska). Mer spesifikt er vekten for hver respondent relatert til deres utbredelse i prøven i forhold til sin utbredelse i den amerikanske befolkningen. Denne vektingen prosedyren kalles post-lagdeling, og ideen om veiing bør minne deg om eksempelet i avsnitt 3.4.1 hvor respondentene fra Rhode Island fikk mindre vekt enn respondenter fra California. Post-stratifisering krever at du vet nok til å sette respondentene inn i grupper, og å vite hvor stor andel av målgruppen i hver gruppe.

Selv om vekting av sannsynlighetsutvalg og ikke-sannsynlighetsutvalg er de samme matematisk (se teknisk vedlegg), de fungerer godt i ulike situasjoner. Dersom forskeren har en perfekt sannsynlighetsutvalg (dvs. ingen dekning feil og ingen frafall), deretter vekting vil produsere objektive anslag for alle trekk i alle tilfeller. Denne sterke teoretisk garantien er derfor tilhengere av sannsynlighetsutvalg finner dem så attraktive. På den annen side vil vekt ikke-sannsynlighetsutvalg bare produsere objektive anslag for alle egenskaper hvis respons tilbøyeligheter er de samme for alle i hver gruppe. Med andre ord, tenker tilbake til vårt eksempel, ved hjelp av post-stratifisering vil produsere objektive anslag hvis alle i New York har samme sannsynlighet for å delta, og alle i Alaska har samme sannsynlighet for å delta og så videre. Denne antakelsen kalles homogene-respons-tilbøyeligheter-i-grupper antagelse, og det spiller en nøkkelrolle i å vite om post-stratifisering vil fungere godt med ikke-sannsynlighetsutvalg.

Dessverre, i vårt eksempel, virker usannsynlig til å være sant den homogene-respons-tilbøyeligheter-i-grupper antakelsen. Det er, virker det usannsynlig at alle i Alaska har samme sannsynlighet for å være i undersøkelsen. Men, det er tre viktige punkter å huske på om post-lagdeling, som alle gjør det virke mer lovende.

Først blir homogen respons-tilbøyeligheter-i-grupper antagelse mer plausibel som antall grupper øker. Og, er forskerne ikke begrenset til grupper bare basert på en enkelt geografisk dimensjon. For eksempel kan vi lage grupper basert på tilstand, alder, kjønn og utdanningsnivå. Det virker mer sannsynlig at det er homogene respons tilbøyeligheter innen gruppen av 18-29, kvinnelig, universitetsutdannet bor i Alaska enn i gruppen av alle mennesker som bor i Alaska. Således, som det antall grupper som brukes for post-stratifisering øker, forutsetningene for å understøtte det blitt mer fornuftig. Gitt dette faktum, det virker som et forskerne ønsker å skape et stort antall grupper for post-stratifisering. Men, som antall grupper øker, forskerne kjøre inn i et annet problem: data sparsity. Hvis det er bare et lite antall personer i hver gruppe, og estimatene vil være mer usikre, og i ekstreme tilfeller hvor det er en gruppe som ikke har noen respondenter, deretter etter stratifisering bryter helt ned. Det er to veier ut av denne iboende spenningen mellom troverdigheten i homogene respons-tilbøyelighet-i-grupper fortsatt drift og etterspørselen etter rimelige utvalgsstørrelser i hver gruppe. En tilnærming er å bevege seg til en mer sofistikert statistisk modell for beregning av vekter og den andre er å samle en større og mer variert prøven, noe som bidrar til å sikre rimelige prøvestørrelsene i hver gruppe. Og noen ganger forskere gjøre begge deler, som jeg vil beskrive i mer detalj nedenfor.

En annen faktor når du arbeider med post-lagdeling fra ikke-sannsynlighetsutvalg er at den homogene-respons-tilbøyelighet-i-grupper antakelsen er allerede ofte gjort ved analyse av sannsynlighetsutvalg. Grunnen til at denne antagelsen er nødvendig for sannsynlighet prøver i praksis er det sannsynlighet prøver har ikke-respons, og den vanligste metoden for å korrigere for ikke-respons er post-lagdeling som beskrevet ovenfor. Selvfølgelig, bare fordi mange forskere gjør en viss antakelse betyr ikke at du bør gjøre det også. Men, betyr det at når man sammenligner ikke-sannsynlighetsutvalg til sannsynlighetsutvalg i praksis, må vi huske på at både avhenge av forutsetninger og hjelpeinformasjon for å produsere estimater. I de fleste realistiske innstillinger, det er rett og slett ingen forutsetning-fri tilnærming til slutning.

Til slutt, hvis du bryr deg om en estimat spesielt i vårt eksempel ledigheten-så må en tilstand svakere enn homogene-respons-tilbøyelighet-i-grupper antakelsen. Spesielt trenger du ikke å anta at alle har det samme svaret tilbøyelighet, du trenger bare å anta at det ikke er noen sammenheng mellom respons tilbøyelighet og ledigheten innenfor hver gruppe. Selvfølgelig, vil også dette svakere tilstanden ikke holde i noen situasjoner. Tenk deg for eksempel estimere andelen amerikanere som gjør frivillig arbeid. Hvis folk som gjør frivillig arbeid er mer sannsynlig å bli enige for å være i en undersøkelse, så forskerne vil systematisk overvurdere hvor mye frivillig arbeid, selv om de gjør etter stratifisering justeringer, et resultat som er påvist empirisk av Abraham, Helms, and Presser (2009) .

Som jeg sa tidligere, er ikke-sannsynlighetsutvalg sett på med stor skepsis av samfunnsvitere, delvis på grunn av sin rolle i noen av de mest pinlige feil i de tidlige dager av undersøkelsen forskning. Et klart eksempel på hvor langt vi har kommet med ikke-sannsynlighetsutvalg er forskning av Wei Wang, David Rothschild, Sharad Goel, og Andrew Gelman det riktig gjenvunnet utfallet av 2012 amerikanske valget med et ikke-sannsynlighetsutvalg av amerikansk Xbox brukere -a desidert ikke-tilfeldig utvalg av amerikanere (Wang et al. 2015) . Forskerne rekrutterte respondenter fra XBox gaming system, og som du kanskje forventer, Xbox prøven skjevt mannlige og skjevt unge: 18 - 29 åringer utgjør 19% av velgerne, men 65% av Xbox prøven og menn utgjør 47% av velgerne og 93% av Xbox prøven (figur 3.4). På grunn av disse sterke demografiske skjevheter, rå Xbox data var en dårlig indikator på valg avkastning. Det spådd en sterk seier for Mitt Romney i løpet av Barack Obama. Igjen, dette er et annet eksempel på farene ved rå, ujusterte ikke-sannsynlighetsutvalg og minner om Literary Digest fiasko.

Figur 3.4: Demografi respondenter i Wang et al. (2015). Fordi respondentene ble rekruttert fra XBox, de var mer sannsynlig å være ung og mer sannsynlig å være mann, i forhold til velgerne i 2012 valget.

Figur 3.4: Demografi respondenter i Wang et al. (2015) . Fordi respondentene ble rekruttert fra XBox, de var mer sannsynlig å være ung og mer sannsynlig å være mann, i forhold til velgerne i 2012 valget.

Men Wang og kolleger var klar over disse problemene og forsøkte å vekte de respondentene å korrigere for datainnsamlingen. Spesielt de brukte en mer sofistikert form for post-stratifisering jeg fortalte deg om. Det er verdt å lære litt mer om deres tilnærming fordi det bygger intuisjon om post-lagdeling, og den spesielle versjonen Wang og kolleger brukte er en av de mest spennende tilnærminger til vekting ikke-sannsynlighetsutvalg.

I vår enkle eksemplet om estimering arbeidsledighet i avsnitt 3.4.1, fordelt vi befolkningen inn i grupper basert på bostedsstaten. I kontrast, Wang og kollegene delt befolkningen inn i 176,256 grupper definert av: kjønn (2 kategorier), rase (4 kategorier), alder (4 kategorier), utdanning (4 kategorier), stat (51 kategorier), party-ID (3 kategorier), ideologi (3 kategorier) og 2008 stemmer (3 kategorier). Med flere grupper, forskerne håpet at det ville være stadig mer sannsynlig at det innenfor hver gruppe, svar tilbøyelighet var ukorrelert med støtte for Obama. Neste, snarere enn å bygge et individuelt plan som vekter, slik vi gjorde i vårt eksempel, Wang og kolleger brukte en kompleks modell for å beregne andelen personer i hver gruppe som ville stemme på Obama. Til slutt, kombinert de disse gruppe beregninger av støtte med kjent størrelse i hver gruppe til å produsere en estimert samlet oppslutning. Med andre ord, hakket de opp befolkningen i ulike grupper, anslo oppslutningen om Obama i hver gruppe, og deretter tok et veid gjennomsnitt av gruppeestimatene for å produsere en samlet anslag.

Dermed blir stor utfordring i sin tilnærming er å estimere støtte for Obama i hver av disse gruppene 176,256. Selv om deres panel inkludert 345,858 unike deltakere, et stort antall av standarder for valg polling, var det mange, mange grupper som Wang og kollegene hadde nesten ingen respondenter. Derfor, for å anslå støtte i hver gruppe de brukte en teknikk som kalles multilevel regresjon med post-lagdeling, der forskere kjærlig kaller Mr. P. hovedsak å anslå støtte for Obama innenfor en bestemt gruppe, Mr. P. bassenger informasjon fra mange nært beslektede grupper. For eksempel vurdere utfordringen med å estimere støtte til Obama blant kvinnelige, latinamerikanere, mellom 18-29 år, som er universitetsutdannet, som er registrerte demokrater, som selv identifiserer seg som moderate, og som stemte på Obama i 2008. Dette er et meget, meget spesifikk gruppe, og det er mulig at det er ingen i prøven med disse egenskapene. Derfor, for å gjøre anslag om denne gruppen, Mr. P. bassenger sammen estimater fra folk i svært lignende grupper.

Ved hjelp av denne analysen strategi, Wang og kolleger var i stand til å bruke XBox ikke-sannsynlighetsutvalg til svært tett anslå den samlede støtten som Obama mottok i 2012 valget (figur 3.5). Faktisk sine estimater var mer nøyaktig enn en samling av meningsmålingene. Således, i dette tilfellet, veiende spesifikt Mr. P.-ser ut til å gjøre en god jobb å korrigere skjevheter i ikke-sannsynlighetsdata; skjevheter som er synlige når du ser på estimatene fra de ujusterte Xbox data.

Figur 3.5: Estimater fra Wang et al. (2015). Ujustert XBox sample produsert unøyaktige estimater. Men, den veide XBox prøven produsert anslag som var mer nøyaktig enn et gjennomsnitt på sannsynlighetsbasert telefon undersøkelser.

Figur 3.5: Estimater fra Wang et al. (2015) . Ujustert XBox sample produsert unøyaktige estimater. Men, den veide XBox prøven produsert anslag som var mer nøyaktig enn et gjennomsnitt på sannsynlighetsbasert telefon undersøkelser.

Det er to hoved lærdom fra studiet av Wang og kolleger. Først kan ujusterte ikke-sannsynlighetsutvalg føre til dårlige estimater; Dette er en lærdom som mange forskere har hørt før. Men den andre lærdommen at ikke-sannsynlighetsutvalg, da vektet riktig, kan faktisk produsere ganske gode estimater. Faktisk sine estimater var mer nøyaktig enn anslagene fra pollster.com, en samling av mer tradisjonelle valgmålingene.

Endelig er det viktige begrensninger for hva vi kan lære av dette en spesifikk studie. Bare fordi post-stratifisering fungert bra i dette tilfellet, er det ingen garanti for at det vil fungere godt i andre tilfeller. Faktisk valg er kanskje en av de enkleste innstillinger fordi meningsmålere har studert valget i nesten 100 år, er det jevnlige tilbakemeldinger (vi kan se hvem som vinner valget), og partitilhørighet og demografiske kjennetegn er relativt logisk av stemmegivningen. På dette punktet, mangler vi solid teori og empirisk erfaring til å vite når veie justeringer ikke-sannsynlighetsutvalg vil produsere tilstrekkelig nøyaktige anslag. En ting som er klart, er imidlertid hvis du er tvunget til å arbeide med ikke-sannsynlighetsutvalg, så det er sterk grunn til å tro at justerte estimater vil være bedre enn ikke-justerte estimater.