3.4.3 Ikke-sannsynlighetsutvalg: sample tilpasning

Denne oversettelsen ble skapt av en datamaskin. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 Ikke-sannsynlighetsutvalg: sample tilpasning

Ikke alle ikke-sannsynlighets prøver er de samme. Vi kan legge til mer kontroll på fronten.

Tilnærmingen Wang og kolleger som brukes til å anslå utfallet av 2012 amerikanske presidentvalget helt avhengig forbedringer i dataanalyse. Det er, samlet de så mange svar som de kunne, og deretter forsøkt å re-weight dem. En utfyllende strategi for å arbeide med ikke-sannsynlighetsutvalg er å ha mer kontroll over datainnsamlingen.

Det enkleste eksempel på en delvis kontrollert ikke-sannsynlighetsutvalg prosessen er kvote prøvetaking, en teknikk som går tilbake til de tidlige dager av undersøkelsen forskning. I kvote prøvetaking, forskerne dele befolkningen inn i ulike grupper (f.eks, unge menn, unge kvinner, etc) og deretter sette kvoter for antall personer som skal velges i hver gruppe. Respondentene er valgt i en tilfeldig måte til forskeren har møtt sin kvote i hver gruppe. På grunn av kvotene, ser resulterende prøve mer som målgruppen enn det som ville være sant ellers, men fordi sannsynligheten for inkludering er ukjent mange forskere er skeptiske til kvote prøvetaking. Faktisk kvote prøvetaking var en årsak til "Dewey Tap Truman" feil i 1948 amerikanske president avstemninger. Fordi det gir en viss kontroll over den samplingsprosess, men kan man se hvordan kvote sampling kan ha noen fordeler i forhold til en helt ukontrollert datainnsamling.

Flytte utover kvote prøvetaking, mer moderne tilnærminger til å styre ikke-sannsynlighetsutvalg prosessen er nå mulig. En slik tilnærming kalles prøven matching, og det er brukt av noen kommersielle elektroniske panelleverandører. I sin enkleste form, krever prøven samsvarende to datakilder: 1) en fullstendig register av befolkningen og 2) et stort panel av frivillige. Det er viktig at de frivillige ikke trenger å være en sannsynlighet prøve fra en hvilken som helst populasjon; å understreke at det ikke er noen krav til valg i panelet, vil jeg kalle det en skitten panel. Dessuten må både folkeregisteret og skitne panel inkluderer noen ekstra informasjon om hver person, i dette eksempelet, vil jeg vurdere alder og kjønn, men i realistiske situasjoner denne hjelpe informasjonen kan være mye mer detaljert. Trikset prøvetilpasning er å velge prøver fra en skitten panel på en måte som gir eksempler som ser ut som sannsynlighetsutvalg.

Eksempel matchende begynner når en simulert sannsynlighet prøven er tatt fra folkeregisteret; dette simulert prøven blir et mål prøve. Deretter, basert på hjelpeinformasjon tilfeller i målet utvalget er tilpasset folk i skitne panelet for å danne en matchet prøve. For eksempel, hvis det er en 25 år gammel kvinne på mål-prøven, så forskeren finner en 25 år gammel kvinne fra det skitne panel for å være i det samsvarende prøven. Endelig er medlemmer av matchet utvalget intervjuet for å gi det endelige settet av respondentene.

Selv om den samsvar slik ut målet prøven, er det viktig å huske at det samsvarende prøven er ikke en sannsynlighet prøve. Matchet prøver kan bare matche målet prøven på det kjente hjelpe informasjon (for eksempel alder og kjønn), men ikke på umålte egenskaper. For eksempel, hvis folk på skittent panel tendens til å være dårligere-tross alt en grunn til å bli en undersøkelse panel er å tjene penger så selv om matchet slik ut målet prøven i forhold til alder og kjønn det vil fortsatt ha en skjevhet mot fattige mennesker. Magien av sanne sannsynlighetsutvalg er å utelukke problemer på begge målte og umålte egenskaper (et punkt som er forenlig med vår diskusjon av matchende for kausale slutninger fra observasjonsstudier i kapittel 2).

I praksis avhenger sample målrettet på å ha en stor og mangfoldig panel ivrig etter å fullføre undersøkelser, og dermed er det i hovedsak gjort av selskaper som har råd til å utvikle og vedlikeholde et slikt panel. Også i praksis, kan det være problemer med matchende (noen ganger en god match for noen i målet prøven ikke finnes på panelet) og ikke-respons (noen ganger folk i matchet utvalget nekter å delta i undersøkelsen). Derfor, i praksis, forskere gjør prøven matching også utføre noen form for post-stratifisering justering for å gjøre estimater.

Det er vanskelig å gi nyttige teoretiske garantier om prøven matching, men i praksis kan det gi gode resultater. For eksempel, Stephen Ansolabehere og Brian Schaffner (2014) sammenlignet tre parallelle undersøkelser av om lag 1000 mennesker utført i 2010 ved hjelp av tre forskjellige prøvetaking og intervjue metoder: post, telefon og en Internett panelet med prøven matching og post-stratifisering justering. Estimatene fra de tre tilnærmingene var ganske lik estimater fra høykvalitets benchmarks som Current Population Survey (CPS) og National Health Interview Survey (NHIS). Mer spesifikt, både Internett og e-post undersøkelser ble slått med et gjennomsnitt på 3 prosentpoeng og telefonen undersøkelsen var av med 4 prosentpoeng. Feil av denne store er omtrent hva man kan forvente fra prøver av ca 1000 mennesker. Selv om ingen av disse modusene produserte vesentlig bedre data, både Internett og telefon undersøkelse (som tok dager eller uker) var vesentlig raskere å felt enn postundersøkelse (som tok åtte måneder), og Internett undersøkelsen, som brukes prøve matching, var billigere enn de to andre modi.

I konklusjonen, samfunnsvitere og statistikere er utrolig skeptisk til slutninger fra disse ikke-sannsynlighetsutvalg, blant annet fordi de er forbundet med noen pinlige feil av undersøkelsen forskning som Literary Digest meningsmåling. I del, jeg er enig med denne skepsisen: ujusterte ikke-sannsynlighetsutvalg er sannsynlig å produsere dårlige estimater. Hvis imidlertid forskere kan justere for skjevheter i samplingsprosessen (for eksempel post-stratifisering) eller tak i samplingsprosessen noe (f.eks prøve matching), kan de gi bedre estimater, og til og med estimater av tilstrekkelig kvalitet for de fleste formål. Selvfølgelig ville det være bedre å gjøre perfekt utført sannsynlighetsutvalg, men som ikke lenger ser ut til å være et realistisk alternativ.

Både ikke-sannsynlighetsutvalg og sannsynlighetsutvalg varierer i kvalitet, og for tiden er det sannsynlig slik at de fleste anslagene fra sannsynlighetsutvalg er mer troverdig enn anslag fra ikke-sannsynlighetsutvalg. Men selv nå, estimater fra godt utformede ikke-sannsynlighetsutvalg er trolig bedre enn estimatene fra dårlig utført sannsynlighetsutvalg. Videre, ikke-sannsynlighets prøver er vesentlig billigere. Dermed ser det ut til at sannsynligheten vs ikke-sannsynlighetsutvalg er et kostnads kvalitet trade-off (figur 3.6). Ser frem, forventer jeg at estimater fra godt gjort ikke-sannsynlighetsutvalg vil bli billigere og bedre. Videre, på grunn av sammenbrudd i faste telefonundersøkelser og økende forekomst av ikke-svar, forventer jeg at sannsynlighetsutvalg vil bli dyrere og av lavere kvalitet. På grunn av disse langsiktige trender, tror jeg at ikke-sannsynlighetsutvalg vil bli stadig viktigere i den tredje æra av undersøkelsen forskning.

Figur 3.6: Sannsynlighet prøvetaking i praksis og ikke-sannsynlighetsutvalg er både store, heterogene kategorier. Generelt er det et kostnads feil avveining med ikke-sannsynlighet sampling blir lavere kostnader, men høyere feil. Imidlertid kan godt gjort ikke-sannsynlighetsutvalg gi bedre estimater enn dårlig gjort sannsynlighetsutvalg. I fremtiden forventer jeg at ikke-sannsynlighetsutvalg vil bli bedre og billigere, mens sannsynlighetsutvalg vil bli verre og dyrere.