3.4 Vem att fråga

Sannolikhetsurval och icke-sannolikhetsurval är inte så annorlunda i praktiken; I båda fallen handlar det om vikterna.

Provtagning är grundläggande att kartlägga forskning. Forskare nästan aldrig ställa sina frågor till alla i sin målgrupp. I detta avseende undersökningar är inte unik. Den mesta forskningen, på ett eller annat sätt, involverar provtagning. Ibland provtagning uttryckligen görs av forskare; andra gånger det händer underförstått. Till exempel har en forskare som driver en laboration på studenter i hennes universitet också tagit ett prov. Således är provtagning ett problem som kommer upp i den här boken. I själva verket är en av de vanligaste problem som jag hör om digitala åldersdatakällor "de är inte representativa." Som vi kommer att se i detta avsnitt, denna oro är både mindre allvarliga och mer subtila än många skeptiker inser. I själva verket kommer jag hävda att hela konceptet med "representativitet" är inte till hjälp för att tänka på sannolikhets och icke-sannolikhetsurval. I stället är den viktigaste att tänka på hur data samlas in och hur eventuella fördomar i att datainsamlingen kan ångras när du gör beräkningar.

För närvarande, den dominerande teoretisk syn på representation är sannolikhetsurval. När data samlas in med ett sannolikhetsurval metod som har fullständigt avrättad, forskare möjlighet att väga sina data baserat på det sätt som de samlades in för att göra objektiva bedömningar om målgruppen. Men perfekt sannolikhetsurval i princip aldrig händer i den verkliga världen. Det finns vanligtvis två huvudproblem 1) skillnader mellan målpopulationen och rampopulationen och 2) bortfalls (dessa är exakt de problem som havererade den litterära Digest enkät). I stället för att tänka på sannolikhetsurval som en realistisk modell av vad som faktiskt händer i världen, är det bättre att tänka på sannolikhetsurval som en hjälp, abstrakt modell, likt hur fysiker tycker om en friktionsfri bollen i rullning ned en oändligt lång ramp.

Alternativet till sannolikhetsurval är icke-sannolikhetsurval. Den huvudsakliga skillnaden mellan sannolikhet och icke-sannolikhetsurval är att med sannolikhetsurval alla i befolkningen har en känd sannolikhet för integration. Det finns i själva verket många sorter av icke-sannolikhetsurval, och dessa metoder för datainsamling blir allt vanligare i den digitala tidsåldern. Men, har icke-sannolikhetsurval en fruktansvärd rykte bland samhällsvetare och statistiker. I själva verket är icke-sannolikhetsurval i samband med några av de mest dramatiska misslyckanden undersöknings forskare, såsom litterära Digest fiasko (diskuterats tidigare) och felaktig förutsägelse om presidentvalet i USA 1948 ( "Dewey Förluster Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .

Men är det rätt tillfälle att ompröva icke-sannolikhetsurval av två skäl. Först, som sannolikhetsurval har blivit allt svårare att göra i praktiken linjen mellan sannolikhetsurval och icke-sannolikhetsurval oskärpa. När det finns en hög grad av icke-respons (som det finns i riktiga undersökningar nu), den faktiska sannolikheten för inneslutningar för de svarande inte är kända, och därmed, sannolikhetsurval och icke-sannolikhetsurval är inte så olika som många forskare tror. I själva verket, som vi kommer att se nedan, båda tillvägagångssätten är beroende i princip på samma beräkningsmetod: poststratifiering. För det andra har det funnits många utvecklingen inom insamling och analys av icke-sannolikhetsurval. Dessa metoder skiljer sig tillräckligt från de metoder som orsakade problem i det förflutna som jag tycker det är vettigt att tänka på dem som "icke-sannolikhetsurval 2.0." Vi ska inte ha en irrationell motvilja mot icke-sannolikhetsmetoder på grund av fel som inträffade för länge sedan.

Nästa, för att göra detta argument mer konkret, jag granska standardsannolikhetsurval och viktning (avsnitt 3.4.1). Huvudtanken är att hur du samlat data bör påverka hur du gör beräkningar. I synnerhet om alla inte har samma sannolikhet för integration, då alla inte har samma vikt. Med andra ord, om din provtagning inte är demokratisk, då dina uppskattningar bör inte vara demokratisk. Efter att ha granskat viktning, jag beskriver två metoder för icke-sannolikhetsurval: en som fokuserar på viktning för att ta itu med problemet med slumpmässigt insamlade data (avsnitt 3.4.2), och en som försöker placera mer kontroll över hur data samlas (avsnitt 3.4.3). Argumenten i huvudtexten kommer att förklaras nedan med ord och bilder; läsare som vill ha en mer matematisk behandling bör också finns i tekniskt appendix.