3.4.2 Icke-sannolikhetsurval: viktnings

Med icke-sannolikhetsurval, kan vikter ångra snedvridningar som orsakas av den antagna samplingsprocessen.

På samma sätt som forskare vikt svar från sannolikhetsurval, kan de också vikta svar från icke-sannolikhetsurval. Till exempel, som ett alternativ till de CPS, tänk dig att du placerat bannerannonser på tusentals webbplatser för att rekrytera deltagare för en undersökning för att uppskatta arbetslösheten. Naturligtvis skulle du vara skeptisk till att det enkla medelvärdet av ditt prov skulle vara en bra uppskattning av arbetslösheten. Din skepsis är förmodligen för att du tror att vissa människor är mer benägna att slutföra din undersökning än andra. Till exempel människor som inte tillbringar mycket tid på nätet är mindre benägna att slutföra din undersökning.

Som vi såg i förra avsnittet, men om vi vet hur Urvalet gjordes-som vi gör med sannolikhetsurval-då kan vi ångra snedvridningar som orsakas av samplingsprocessen. Tyvärr, när man arbetar med icke-sannolikhetsurval, vi vet inte hur Urvalet gjordes. Men kan vi göra antaganden om samplingsprocessen och sedan vikta på samma sätt. Om dessa antaganden är korrekta, då viktningen kommer ångra de snedvridningar som orsakas av samplingsprocessen.

Tänk dig till exempel att som svar på dina bannerannonser, rekryterade du 100.000 respondenter. Men tror du inte att dessa 100.000 respondenter är ett enkelt slumpmässigt urval av vuxna amerikaner. Faktum är att när du jämför dina respondenter till den amerikanska befolkningen, du att människor från vissa stater (t.ex. New York) är överrepresenterade och att människor från vissa stater (t.ex. Alaska) är underrepresenterade. Således, kommer sannolikt att vara en dålig uppskattning av arbetslösheten i målgruppen arbetslösheten i ditt prov.

Ett sätt att ångra distorsion som hände i samplingsprocessen är att tilldela vikter till varje person; lägre vikter för människor från stater som är överrepresenterade i urvalet (t.ex. New York) och högre vikter för att människor från stater som är underrepresenterade i urvalet (t.ex. Alaska). Närmare bestämt är vikten för varje svarande i samband med deras förekomst i provet i förhållande till deras förekomst i den amerikanska befolkningen. Denna viktning förfarande kallas poststratifiering, och idén att väga bör påminna om exemplet i avsnitt 3.4.1 där respondenter från Rhode Island fick mindre vikt än respondenter från Kalifornien. Poststratifiering kräver att du vet tillräckligt för att sätta dina respondenter i grupper och att veta hur stor andel av målgruppen i varje grupp.

Även om viktningen av sannolikhetsurval och icke-sannolikhetsurval är samma matematiskt (se teknisk bilaga), de fungerar bra i olika situationer. Om forskaren har ett perfekt sannolikhetsurval (dvs, ingen täckning fel och ingen bortfall), då viktningen kommer att producera objektiva uppskattningar för alla egenskaper i alla fall. Den starka teoretiska garanti är varför förespråkare av sannolikhetsurval hitta dem så attraktiv. Å andra sidan, kommer viktnings icke-sannolikhetsurval bara producera objektiva uppskattningar för alla egenskaper om svarsbenägen är lika för alla i varje grupp. Med andra ord, tänker tillbaka till vårt exempel, genom att använda efter stratifiering kommer att producera objektiva bedömningar om alla i New York har samma sannolikhet att delta och alla i Alaska har samma sannolikhet att delta och så vidare. Detta antagande kallas homogena-svar-benägen-inom-grupper antagande, och den spelar en viktig roll i att veta om poststratifiering kommer att fungera bra med icke-sannolikhetsurval.

Tyvärr, i vårt exempel, verkar osannolikt att vara sant homogen-respons-benägen-i-grupper antagande. Det vill säga, verkar det osannolikt att alla i Alaska har samma sannolikhet att vara i din undersökning. Men det finns tre viktiga punkter att tänka på om poststratifiering, som alla gör det verkar mer lovande.

Först blir homogen-respons-benägen-i-grupper antagande mer troligt eftersom antalet grupper ökar. Och forskarna inte begränsade till grupper bara baserat på en enda geografisk dimension. Till exempel kan vi skapa grupper baserat på tillstånd, ålder, kön och utbildningsnivå. Det verkar mer troligt att det finns homogena svarsbenägenheter inom gruppen 18-29, kvinnlig, akademiker som bor i Alaska än inom gruppen av alla människor som lever i Alaska. Således, eftersom antalet grupper som används för post-skiktnings ökar, de antaganden som behövs för att stödja det blivit mer rimlig. Med tanke på detta faktum, verkar det som om en forskare vill skapa ett stort antal grupper för poststratifiering. Men eftersom antalet grupper ökar, forskare stöter på ett annat problem: data gleshet. Om det finns endast ett fåtal personer i varje grupp, då beräkningarna kommer att bli mer osäker, och i extrema fall där det finns en grupp som inte har några respondenter, bryter sedan poststratifiering helt. Det finns två vägar ut ur denna inneboende spänning mellan rimligheten i homogeneous- svarsbenägenhet-i-grupper antagande och efterfrågan på rimliga provstorlekar i varje grupp. Ett sätt är att flytta till en mer sofistikerad statistisk modell för beräkning av vikter och den andra är att samla in en större, mer varierat urval, vilket bidrar till rimliga provstorlekar i varje grupp. Och ibland forskare göra båda, som jag ska beskriva mer i detalj nedan.

Ett andra övervägande när man arbetar med poststratifiering från icke-sannolikhetsurval är att den homogena-svarsbenägenhet-i-grupper antagande redan ofta görs vid analys av sannolikhetsurval. Anledningen till att detta antagande behövs för sannolikhetsurval i praktiken är att sannolikhetsurval har bortfall, och den vanligaste metoden för justering för icke-respons är poststratifiering som beskrivits ovan. Naturligtvis, bara för att många forskare göra en viss antagande betyder inte att du ska göra det också. Men betyder det att när man jämför icke-sannolikhetsurval till sannolikhetsurval i praktiken måste vi komma ihåg att både beroende på antaganden och hjälpinformation för att producera uppskattningar. I mest realistiska inställningar, det finns helt enkelt inget antagande fria inställning till slutledning.

Slutligen, om du bryr dig om en uppskattning särskilt in vårt exempel arbetslösheten-då du behöver ett tillstånd svagare än homogena-svar-benägenheten-inom-grupper antagande. Specifikt behöver du inte anta att alla har samma svar benägenheten, du behöver bara anta att det inte finns något samband mellan svar benägenhet och arbetslösheten inom varje grupp. Naturligtvis kommer även denna svagare villkor inte hålla i vissa situationer. Tänk dig till exempel att uppskatta andelen amerikaner som gör volontärarbete. Om människor som gör frivilligt arbete är mer benägna att gå med på att vara i en undersökning, då forskare systematiskt överskatta mängden volontär, även om de gör justeringar efter skiktning, ett resultat som har visats empiriskt genom Abraham, Helms, and Presser (2009) .

Som jag sa tidigare, är icke-sannolikhetsurval betraktas med stor skepsis av samhällsvetare, delvis på grund av deras roll i några av de mest pinsamma misslyckanden i början av undersökningen forskning. Ett tydligt exempel på hur långt vi har kommit med icke-sannolikhetsurval är forskning av Wei Wang, David Rothschild, Sharad Goel, och Andrew Gelman att korrekt återhämtat resultatet av 2012 amerikanska valet med hjälp av ett icke-sannolikhetsurval av amerikansk Xbox användare -a avgjort icke-slumpmässigt urval av amerikaner (Wang et al. 2015) . Forskarna rekryterade respondenter från Xbox spelsystem, och som man kan förvänta sig, Xbox prov skev manliga och skev unga: 18-29 åringar utgör 19% av väljarna, men 65% av Xbox provet och män utgör 47% av väljarna och 93% av Xbox provet (Figur 3.4). På grund av dessa starka demografiska fördomar, rå Xbox uppgifter var en dålig indikator på valet avkastning. Det förutspås en stark seger för Mitt Romney över Barack Obama. Återigen, detta är ett annat exempel på farorna med råa, ojusterade icke-sannolikhetsurval och påminner om litterära Digest fiasko.

Figur 3.4: Demografi av de svarande i Wang et al. (2015). Eftersom de svarande rekryterades från Xbox, de var mer benägna att vara ung och mer benägna att vara manlig, i förhållande till väljarna i valet 2012.

Figur 3.4: Demografi av de svarande i Wang et al. (2015) . Eftersom de svarande rekryterades från Xbox, de var mer benägna att vara ung och mer benägna att vara manlig, i förhållande till väljarna i valet 2012.

Men Wang och hans kollegor var medvetna om dessa problem och försökt att väga de svarande att korrigera för samplingsprocessen. I synnerhet de använde en mer sofistikerad form av efterskiktn jag berättade om. Det är värt att lära sig lite mer om deras förhållningssätt, eftersom det bygger intuition om poststratifiering, och den version Wang och kollegor som används är en av de mest spännande metoder för viktning icke-sannolikhetsurval.

I vår enkelt exempel om att beräkna arbetslösheten i avsnitt 3.4.1, vi delat befolkningen i grupper baserat på bosättningslandet. I motsats, Wang och kollegor delade befolkningen i till 176,256 grupper som definieras av: kön (2 kategorier), ras (4 kategorier), ålder (4 kategorier), utbildning (4 kategorier), tillstånd (51 kategorier), parti-ID (3 kategorier), ideologi (3 kategorier) och 2008 röst (3 kategorier). Med fler grupper, forskarna hoppades att det skulle vara allt mer sannolikt att det inom varje grupp, svarsbenägenhet var okorrelerad med stöd för Obama. Därefter snarare än att bygga på individnivå vikter, som vi gjorde i vårt exempel, Wang och kollegor använde en komplex modell för att uppskatta andelen personer i varje grupp som skulle rösta för Obama. Slutligen kombineras de dessa grupp uppskattningar av stöd med den kända storleken på varje grupp för att producera en beräknad total stödnivå. Med andra ord, hackade de upp befolkningen i olika grupper, beräknat stöd för Obama i varje grupp, och tog sedan ett vägt genomsnitt av beräkningarna grupp så att en samlad bedömning.

Således är den stora utmaningen i sin inställning att uppskatta stödet för Obama i var och en av dessa 176,256 grupper. Även om deras panel ingår 345,858 unika deltagare, ett stort antal av de normer för val röstningen, det fanns många, många grupper som Wang och kollegor hade nästan inga respondenter. Därför att uppskatta stöd i varje grupp de använde en teknik som kallas fler regression med poststratifiering, som forskarna kallar kärleks Mr P. huvudsak att uppskatta stödet för Obama i en viss grupp, Mr P. pooler information från många nära besläktade grupper. Till exempel anser utmaningen att uppskatta stödet för Obama bland kvinnliga, latinamerikaner, mellan 18-29 år gamla, som är akademiker, som är registrerade demokrater, som själv identifierar sig som moderata, och som röstade för Obama i 2008. Detta är en mycket, mycket specifik grupp, och det är möjligt att det finns ingen i provet med dessa egenskaper. Därför att göra uppskattningar om denna grupp, Mr P. pooler uppskattar tillsammans från människor i mycket liknande grupper.

Med hjälp av denna analys strategi, Wang och hans kollegor kunde använda icke-sannolikhetsurval XBox att mycket noggrant uppskatta den totala stöd som Obama fick i valet 2012 (Figur 3.5). I själva verket var mer exakt än ett aggregat av opinionsundersökningar sina beräkningar. Således, i detta fall, särskilt viktnings Mr P.-verkar göra ett bra jobb att korrigera bias i icke-sannolikhetsdata; fördomar som är synliga när man tittar på de uppskattningar från ojusterade Xbox data.

Figur 3.5: Uppskattningar från Wang et al. (2015). Ojusterad Xbox prov producerade felaktiga uppskattningar. Men producerade vägda Xbox provet uppskattningar som var mer exakt än ett genomsnitt av sannolikhetsbaserade telefonundersökningar.

Figur 3.5: Uppskattningar från Wang et al. (2015) . Ojusterad Xbox prov producerade felaktiga uppskattningar. Men producerade vägda Xbox provet uppskattningar som var mer exakt än ett genomsnitt av sannolikhetsbaserade telefonundersökningar.

Det finns två viktiga lärdomar från studiet av Wang och kollegor. För det första kan ojusterade icke-sannolikhetsurval leda till dåliga bedömningar; Detta är en lärdom som många forskare har hört förut. Dock är den andra lektionen att icke-sannolikhetsurval, när viktade rätt sätt, kan faktiskt producera ganska bra uppskattningar. I själva verket, deras beräkningar var mer exakt än de uppskattningar från pollster.com, en sammanläggning av mer traditionella val undersökningar.

Slutligen finns det viktiga begränsningar för vad vi kan lära av detta en särskild undersökning. Bara för att poststratifiering fungerat bra i det här fallet finns det ingen garanti för att det kommer att fungera bra i andra fall. I själva verket, val är kanske ett av de enklaste inställningar eftersom opinionsundersökare har studerat val för nästan 100 år, det är regelbunden feedback (vi kan se vem som vinner valet), och partiidentifikation och demografiska egenskaper är relativt förutsägande av röstningen. Vid det här laget, vi saknar fast teori och empirisk erfarenhet för att veta när viktning justeringar till icke-sannolikhetsurval kommer att producera tillräckligt noggranna beräkningar. En sak som är klar är dock om du tvingas arbeta med icke-sannolikhetsurval, då det finns starka skäl att tro att justerade beräkningar kommer att vara bättre än icke-justerade beräkningar.