3.4.2 Ikke-stikprøver med tilfældig udvælgelse: vægtning

Denne oversættelse blev skabt af en computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 Ikke-stikprøver med tilfældig udvælgelse: vægtning

Med ikke-sandsynlighed prøver, kan vægte fortryde forvridninger forårsaget af den forudsatte prøveudtagning proces.

På samme måde, som forskerne vægt svar fra sandsynlighed prøver, kan de også vægt reaktioner fra ikke-stikprøver med tilfældig udvælgelse. For eksempel, som et alternativ til de CPS, forestille sig, at du har placeret bannerreklamer på tusindvis af hjemmesider for at rekruttere deltagere for en undersøgelse for at vurdere arbejdsløsheden. Naturligvis, ville du være skeptisk, at den simple gennemsnit af din prøve ville være et godt skøn over ledigheden. Din skepsis er nok fordi du tror, at nogle mennesker er mere tilbøjelige til at fuldføre din undersøgelse end andre. For eksempel folk, der ikke bruger en masse tid på nettet er mindre tilbøjelige til at fuldføre din undersøgelse.

Som vi så i sidste afsnit, men hvis vi ved, hvordan prøven blev valgt-som vi gør med sandsynlighed prøver-så kan vi fortryde forvridninger forårsaget af stikprøver proces. Desværre, når du arbejder med ikke-sandsynlighed prøver, vi ved ikke, hvordan prøven blev valgt. Men kan vi gøre antagelser om prøveudtagning proces og derefter anvende vægtning på samme måde. Hvis disse antagelser er korrekte, så vægtningen vil fortryde de forvridninger forårsaget af stikprøver proces.

For eksempel forestille sig, at som svar på dine bannerannoncer, du rekrutteret 100.000 respondenter. Du behøver dog ikke mener, at disse 100.000 respondenter er en simpel tilfældig stikprøve af amerikanske voksne. I virkeligheden, når du sammenligner dine respondenter til den amerikanske befolkning, du oplever, at folk fra nogle stater (f.eks, New York) er overrepræsenteret, og at folk fra nogle stater (f.eks Alaska) er underrepræsenteret. Således er ledigheden for din prøve er sandsynligvis at være en dårlig skøn over ledigheden i målgruppen.

En måde at fortryde den forvrængning, der skete i prøvetagning proces er at tildele vægte til hver person; lavere vægt til folk fra stater, der er overrepræsenteret i stikprøven (f.eks, New York) og højere vægte til folk fra stater, der er underrepræsenteret i stikprøven (f.eks Alaska). Mere specifikt er vægten for hver respondent relateret til deres forekomst i din prøve i forhold til deres forekomst i den amerikanske befolkning. Denne vægtning procedure kaldes post-lagdeling, og tanken om vejningen skal minde dig om eksemplet i afsnit 3.4.1, hvor respondenter fra Rhode Island fik mindre vægt end respondenter fra Californien. Post-lagdeling kræver, at du ved nok til at sætte dine respondenter i grupper og at kende den andel af målgruppen i hver gruppe.

Selvom vægtningen af sandsynligheden prøven og af den ikke-stikprøve er de samme matematisk (se teknisk bilag), at de fungerer godt i forskellige situationer. Hvis forskeren har en perfekt stikprøve (dvs. ingen dækning fejl og ingen ikke-svar), så vægtningen vil producere uvildige skøn for alle egenskaber i alle tilfælde. Denne stærke teoretiske garanti er derfor fortalere for stikprøver med tilfældig udvælgelse finder dem så tiltrækkende. På den anden side vil vægtning ikke-sandsynlighed prøver kun producerer uvildige skøn for alle egenskaber, hvis respons tilbøjeligheder er ens for alle i hver gruppe. Med andre ord, tænker tilbage til vores eksempel, bruger post-lagdeling vil producere uvildige skøn hvis alle i New York har samme sandsynlighed for at deltage og alle i Alaska har samme sandsynlighed for at deltage og så videre. Denne antagelse kaldes homogene-respons-tilbøjeligheder-indenfor-grupper antagelse, og det spiller en central rolle i at vide, hvis post-lagdeling vil fungere godt med ikke-stikprøver med tilfældig udvælgelse.

Desværre, i vores eksempel, forekommer usandsynligt til at være sandt det homogene-respons-tilbøjeligheder-inden-grupper antagelse. Det vil sige, synes det usandsynligt, at alle i Alaska har samme sandsynlighed for at være i din undersøgelse. Men der er tre vigtige punkter at huske på om post-lagdeling, som alle gør det synes mere lovende.

Først homogen-respons-tilbøjeligheder-inden-grupper antagelse bliver mere plausibel, da antallet af grupper stiger. Og, er forskerne ikke begrænset til grupper netop er baseret på en enkelt geografisk dimension. For eksempel kunne vi oprette grupper baseret på tilstand, alder, køn og uddannelsesniveau. Det virker mere sandsynligt, at der er homogene respons tilbøjeligheder inden for gruppen af 18-29, kvindelig, college kandidater bor i Alaska, end i gruppen af alle mennesker, der bor i Alaska. Således, som antallet af grupper, der anvendes til efterfølgende stratificering stiger, de antagelser nødvendige for at støtte det blevet mere rimeligt. I betragtning af dette faktum, det virker som en forskerne ønsker at skabe et stort antal grupper for post-lagdeling. Men som antallet af grupper øges, forskere løber ind et andet problem: data sparsity. Hvis der kun er et lille antal mennesker i hver gruppe, så estimaterne vil være mere usikker, og i ekstreme tilfælde, hvor der er en gruppe, der ikke har nogen respondenter, så post-lagdeling helt bryder. Der er to veje ud af denne iboende spænding mellem sandsynligheden af homogeneous- respons-tilbøjelighed-inden-grupper antagelse og efterspørgslen efter fornuftige stikprøvestørrelser i hver gruppe. En fremgangsmåde er at flytte til en mere sofistikeret statistisk model til beregning af vægte og den anden er at indsamle en større, mere forskelligartet prøve, som hjælper med at sikre rimelige stikprøvestørrelser i hver gruppe. Og nogle gange forskere gøre begge, som jeg vil beskrive nærmere nedenfor.

En anden overvejelse, når der arbejdes med post-lagdeling fra ikke-sandsynlighed prøver er, at den homogene-respons-tilbøjelighed-inden-grupper antagelse allerede ofte lavet, når man analyserer stikprøver med tilfældig udvælgelse. Grunden til, at der er behov for denne antagelse for stikprøver i praksis er, at sandsynligheden prøver har manglende svar, og den mest almindelige metode til justering for manglende besvarelse er efterfølgende stratificering, som beskrevet ovenfor. Selvfølgelig, bare fordi mange forskere gør en vis antagelse betyder ikke, at du skal gøre det også. Men betyder det, at når man sammenligner ikke-sandsynlighed prøver sandsynlighed prøver i praksis, må vi huske på, at begge er afhængige af antagelser og ekstra oplysninger for at udarbejde skøn. I de fleste realistiske indstillinger, er der simpelthen ingen antagelse-fri tilgang til inferens.

Endelig, hvis du interesserer en skøn især-i vores eksempel ledigheden-så har du brug en tilstand svagere end homogene-respons-tilbøjeligheden-indenfor-grupper antagelse. Konkret behøver du ikke at antage, at alle har den samme reaktion tilbøjelighed, behøver du kun at antage, at der er nogen sammenhæng mellem respons tilbøjelighed og arbejdsløshed inden for hver gruppe. Selvfølgelig vil selv dette svagere betingelse ikke holde i nogle situationer. For eksempel forestille sig at estimere andelen af amerikanere, der gør frivilligt arbejde. Hvis folk, der gør frivilligt arbejde er mere tilbøjelige til at acceptere at være i en undersøgelse, så forskere vil systematisk overvurderer mængden af frivilligt arbejde, selv hvis de gør post-lagdeling justeringer, et resultat, der er blevet påvist empirisk ved Abraham, Helms, and Presser (2009) .

Som jeg sagde tidligere, er ikke-sandsynlighed prøver set med stor skepsis af samfundsforskere, dels på grund af deres rolle i nogle af de mest pinlige fejl i de tidlige dage af undersøgelsen forskning. Et tydeligt eksempel på, hvor langt vi er kommet med ikke-sandsynlighed prøver er forskningen af Wei Wang, David Rothschild, Sharad Goel, og Andrew Gelman, der korrekt genvundet resultatet af 2012 amerikanske valg ved hjælp af en ikke-stikprøve af amerikansk Xbox-brugere -a decideret ikke-stikprøve af amerikanerne (Wang et al. 2015) . Forskerne rekrutterede respondenter fra Xbox gaming system, og som man kunne forvente, Xbox prøve skæv mandlige og skæv unge: 18-29 årige udgør 19% af vælgerne, men 65% af Xbox prøven og mænd udgør 47% af vælgerne og 93% af Xbox prøve (Figur 3.4). På grund af disse stærke demografiske skævheder, den rå Xbox data var en dårlig indikator for valget afkast. Det forudsagde en stærk sejr for Mitt Romney i Barack Obama. Igen, dette er endnu et eksempel på farerne ved rå ujusterede ikke-sandsynlighed prøver og minder om den litterære Digest fiasko.

Figur 3.4: demografi respondenter i Wang et al. (2015) . Fordi respondenterne blev rekrutteret fra XBox, de var mere tilbøjelige til at være ung og mere tilbøjelige til at være mand, i forhold til vælgerne i 2012 valget.

Men Wang og kolleger var klar over disse problemer og forsøgt at vægte respondenterne at korrigere for prøveudtagning proces. Især de brugte en mere sofistikeret form for post-lagdeling jeg fortalte dig om. Det er værd at lære lidt mere om deres tilgang, fordi det bygger intuition om post-lagdeling, og den version Wang og kolleger brugte er en af de mest spændende tilgange til vægtning ikke-stikprøver med tilfældig udvælgelse.

I vores simple eksempel om estimering arbejdsløshed i afsnit 3.4.1, delte vi befolkningen i grupper baseret på bopælsland. I modsætning hertil Wang og kolleger delte befolkningen i ind 176,256 grupper defineret ved: køn (2 kategorier), race (4 kategorier), alder (4 kategorier), uddannelse (4 kategorier), tilstand (51 kategorier), party-id (3 kategorier), ideologi (3 kategorier) og 2008 stemme (3 kategorier). Med flere grupper, forskerne håbede, at det ville være mere sandsynligt, at inden for hver gruppe, respons tilbøjelighed var ukorrelerede med understøttelse af Obama. Næste, snarere end at konstruere individuelle niveau vægte, som vi gjorde i vores eksempel, Wang og hans kolleger brugte en kompleks model til at estimere andelen af personer i hver gruppe, der ville stemme for Obama. Endelig kombineret de disse gruppe estimater af støtte med den kendte størrelse af hver gruppe til at producere en anslået samlet niveau af støtte. Med andre ord, de hakkede op befolkningen i forskellige grupper, anslået støtten til Obama i hver gruppe, og derefter tog et vægtet gennemsnit af gruppens skøn til at producere et samlet skøn.

Således er den store udfordring i deres tilgang er at estimere støtte til Obama i hver af disse 176,256 grupper. Selv om deres panel inkluderet 345,858 unikke deltagere, et stort antal af standarder for valg polling, der var mange, mange grupper, som Wang og hans kolleger havde næsten ingen respondenter. Derfor, for at estimere støtte i hver gruppe, de brugte en teknik kaldet multilevel regression med post-lagdeling, som forskerne kærligt kalder Mr. P. Væsentlige, at estimere støtte til Obama inden for en bestemt gruppe, Mr. P. pools oplysninger fra mange nært beslægtede grupper. For eksempel overveje den udfordring at estimere støtten til Obama blandt kvindelige, Hispanics, mellem 18-29 år, der er college kandidater, der er registreret Demokrater, der selv identificerer sig som moderate, og der stemte for Obama i 2008. Dette er en meget, meget specifik gruppe, og det er muligt, at der er ingen i prøven med disse egenskaber. Derfor, for at foretage skøn om denne gruppe, Mr. P. puljer sammen estimater fra folk i meget lignende grupper.

Ved hjælp af denne analyse strategi, Wang og hans kolleger var i stand til at bruge ikke-stikprøve XBox til meget nøje vurdere den samlede støtte, som Obama fik i 2012 valget (Figur 3.5). Faktisk deres skøn var mere præcis end et aggregat af meningsmålinger. Således, i dette tilfælde, vægtning-specifikt Mr. P.-synes at gøre et godt stykke arbejde korrigere skævheder i ikke-sandsynlighed data fordomme, der er synlige, når man ser på skøn fra de ikke-justerede Xbox data.

Figur 3.5: Skøn fra Wang et al. (2015) . Ujusterede XBox prøve produceret unøjagtige skøn. Men, produceret den vægtede XBox prøve skøn, der var mere præcis end et gennemsnit af sandsynlighed-baserede telefon undersøgelser.

Der er to primære erfaringer fra studiet af Wang og kolleger. For det første kan ujusterede ikke-sandsynlighed prøver føre til dårlige overslag; dette er en lektie, som mange forskere har hørt før. , Den anden lektion er imidlertid, at ikke-sandsynlighed prøver, når vægtet korrekt, kan faktisk producere ganske gode skøn. Faktisk deres skøn var mere præcis end estimaterne fra pollster.com, en sammenlægning af mere traditionelle valg afstemninger.

Endelig er der vigtige begrænsninger for, hvad vi kan lære af denne ene specifikke undersøgelse. Bare fordi post-lagdeling fungerede godt i dette særlige tilfælde, er der ingen garanti for, at det vil fungere godt i andre tilfælde. Faktisk valg er måske en af de nemmeste indstillinger fordi opinionsmålinger har studeret valg i næsten 100 år, der er regelmæssig feedback (vi kan se hvem der vinder valget), og identifikation parti og demografiske karakteristika er relativt prædiktive for at stemme. På dette tidspunkt, vi mangler solid teori og empirisk erfaring til at vide, hvornår vejer justeringer ikke-sandsynlighed prøver vil producere tilstrækkeligt nøjagtige skøn. En ting, der står klart, er imidlertid, hvis du er tvunget til at arbejde med ikke-sandsynlighed prøver, så er der god grund til at tro, at tilpassede estimater vil være bedre end ikke-justerede estimater.