3.4.3 Icke-sannolikhetsurval: provmatchning

Denna översättning skapades av en dator. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 Icke-sannolikhetsurval: provmatchning

Inte alla icke-sannolikhetsurval är desamma. Vi kan lägga till mer kontroll på fronten.

Tillvägagångssättet Wang och kollegor som används för att beräkna resultatet av 2012 amerikanska presidentvalet berodde helt och hållet på förbättringar i dataanalys. Det vill säga, de insamlade så många svar som de kunde och sedan försökt att åter vikt dem. En kompletterande strategi för att arbeta med icke-sannolikhetsurval är att ha mer kontroll över datainsamlingsprocessen.

Det enklaste exemplet på en delvis kontrollerad icke-sannolikhetsurval process är kvoturval, en teknik som går tillbaka till början av undersökningen forskning. I kvoturval, forskare delar befolkningen i olika grupper (t.ex. unga män, unga kvinnor, etc) och sedan ställa kvoter för antalet personer som skall väljas i varje grupp. Respondenterna väljs på ett slumpartat sätt tills forskaren har uppfyllt sin kvot i varje grupp. På grund av kvoterna, ser det resulterande provet mer som målgruppen än vad som skulle vara sant annars, men eftersom sannolikheterna för integration är okända många forskare är skeptiska till kvoturval. I själva verket, kvoturval var en orsak till "Dewey Förluster Truman" fel i 1948 US presidentval. Eftersom det ger en viss kontroll över provtagningsprocessen, dock kan man se hur kvoturval kan ha vissa fördelar jämfört med ett helt okontrollerat datainsamling.

Flytta bortom kvoturval, modernare metoder för att kontrollera samplingsprocessen icke-sannolikhet är nu möjligt. Ett sådant tillvägagångssätt kallas prov matchning, och det används av vissa kommersiella onlinepanel leverantörer. I sin enklaste form kräver prov matchning två datakällor: 1) Ett fullständigt register över befolkningen och 2) en stor panel av frivilliga. Det är viktigt att de frivilliga inte behöver vara en sannolikhetsurval från en befolkning; understryka att det inte finns några krav på val i panelen, jag kallar det en smutsig panel. Dessutom måste både befolkningsregistret och smutsiga panelen inkludera någon extra information om varje person, i det här exemplet, ska jag överväga ålder och kön, men i realistiska situationer denna hjälpinformation kan vara mycket mer detaljerad. Tricket prov matchning är att ta prov från en smutsig panel på ett sätt som ger prover som ser ut som sannolikhetsurval.

Prov matchning börjar när en simulerad sannolikhetsurval tas från befolkningsregistret; Detta simulerade prov blir ett mål prov. Därefter, baserat på den hjälpinformation, är fall i det riktade urvalet matchas till människor i den smutsiga panelen för att bilda en matchad prov. Till exempel, om det finns en 25-årig kvinna i det riktade urvalet, då forskaren finner en 25-årig kvinna från smutsiga panelen att vara i den matchade provet. Slutligen är medlemmar i matchade provet intervjuades för att producera den sista uppsättningen av de tillfrågade.

Även om det matchade provet ser ut målprovets, är det viktigt att komma ihåg att matchas provet är inte ett sannolikhetsurval. Matchade prov kan bara matcha målet provet på kända hjälpinformation (t.ex. ålder och kön), men inte på unmeasured egenskaper. Till exempel, om folk på smutsiga panelen tenderar att vara sämre, trots allt, en anledning att gå med i en undersökning panel är att tjäna pengar så även om den matchade provet ser ut målet prov i fråga om ålder och kön det kommer fortfarande att ha en bias mot fattiga människor. Det magiska sanna sannolikhetsurval är att utesluta problem på både uppmätta och unmeasured egenskaper (en punkt som ligger i linje med vår diskussion om matchning för orsaks slutsats från observationsstudier i kapitel 2).

I praktiken prov matchning beror på att ha ett stort och vari panel ivrig att slutföra undersökningar, och därför är det i huvudsak görs av företag som har råd att utveckla och upprätthålla en sådan panel. Även i praktiken kan det finnas problem med att matcha (ibland en bra match för någon i det riktade urvalet existerar inte på panelen) och icke-respons (ibland människor i matchade provet vägra att delta i undersökningen). Därför, i praktiken, forskare gör prov matchning utför också någon form av post-skiktning justering för att göra beräkningar.

Det är svårt att ge användbara teoretiska garantier om prov matchning, men i praktiken kan prestera bra. Till exempel, Stephen Ansolabehere och Brian Schaffner (2014) jämförde tre parallella undersökningar av cirka 1000 personer som genomförts i 2010 med tre olika provtagnings- och intervjua metoder: post, telefon och en Internet panel med prov matchning och poststratifiering justering. Uppskattningarna från de tre metoder var ganska lika uppskattningar från högkvalitativa riktmärken såsom Current Population Survey (CPS) och National hälsoenkäten (NHIS). Närmare bestämt, både Internet och e-postundersökningar var utanför med i genomsnitt 3 procentenheter och telefonen undersökningen var av med 4 procentenheter. Fel denna stora är ungefär vad man skulle förvänta sig från prover av cirka 1000 personer. Även ingen av dessa lägen producerade betydligt bättre data, både Internet och telefon undersökning (som tog dagar eller veckor) var betydligt snabbare att fält än postenkät (som tog åtta månader), och internetundersökning, som använde prov matchning, var billigare än de andra två lägena.

Sammanfattningsvis, samhällsvetare och statistiker är oerhört skeptiska till slutsatser från dessa icke-sannolikhetsurval, delvis eftersom de är förknippade med några pinsamma misslyckanden undersökning forskning som litterära Digest enkät. I del, jag håller med om detta skepsis: ojusterade icke-sannolikhetsurval kommer sannolikt att producera dåliga beräkningar. Men om forskarna kan justera för fördomar i processen provtagning (t.ex. poststratifiering) eller styra samplingsprocessen något (t.ex. prov matchning), de kan producera bättre uppskattningar, och även uppskattningar av tillräcklig kvalitet för de flesta ändamål. Naturligtvis skulle det vara bättre att göra perfekt utförda sannolikhetsurval, men som inte längre verkar vara ett realistiskt alternativ.

Både icke-sannolikhetsurval och sannolikhetsurval varierar i kvalitet, och för närvarande är det sannolikt så att de flesta uppskattningar från sannolikhetsurval är mer pålitlig än uppskattningar från icke-sannolikhetsurval. Men även nu, uppskattningar från väl genomförda icke-sannolikhetsurval är förmodligen bättre än uppskattningar från dåligt genomförda sannolikhetsurval. Ytterligare icke-sannolikhetsurval är betydligt billigare. Således verkar det som om sannolikheten vs icke-sannolikhetsurval erbjuder en kostnads kvalitet avvägning (Figur 3.6). Ser fram emot, jag räknar med att uppskattningar från väl gjort icke-sannolikhetsurval kommer att bli billigare och bättre. Vidare, på grund av uppdelningen i fasta telefonundersökningar och ökande andelen icke-svar, jag räknar med att sannolikhetsurval kommer att bli dyrare och av sämre kvalitet. På grund av dessa långsiktiga trender, jag tror att icke-sannolikhetsurval kommer att bli allt viktigare i den tredje eran av enkätundersökningar.

Figur 3.6: Sannolikhets provtagning i praktiken och icke-sannolikhetsurval är både stora, heterogena kategorier. I allmänhet finns det en kostnads fel avvägning med icke-sannolikhetsurval är lägre kostnad men högre fel. Däremot kan välgjord icke-sannolikhetsurval producera bättre uppskattningar än dåligt gjort sannolikhetsurval. I framtiden förväntar jag mig att icke-sannolikhetsurval kommer att bli bättre och billigare medan sannolikhetsurval kommer att bli värre och dyrare.