3.4 Vem att fråga

Denna översättning skapades av en dator. ×

3.4 Vem att fråga

Den digitala tidsåldern gör sannolikhetsprovtagningen i praktiken svårare och skapar nya möjligheter för icke-sannolikhetsprovtagning.

I provtagningens historia har det funnits två konkurrerande tillvägagångssätt: sannolikhetsprovtagningsmetoder och icke-sannolikhetsprovtagningsmetoder. Trots att båda metoderna användes under provtagningens tidiga dagar, har sannolikhetsprovtagningen kommit att dominera, och många sociala forskare lär sig att se icke-sannolikhetsprovtagning med stor skepticism. Men som jag kommer att beskriva nedan betyder förändringar som skapas av den digitala tiden att det är dags för forskare att ompröva icke-sannolikhetsprovtagning. I synnerhet har sannolikhetsprovtagningen varit svårt att göra i praktiken, och sannolikhetsprovtagning har blivit snabbare, billigare och bättre. Snabbare och billigare undersökningar slutar inte bara i sig: de möjliggör nya möjligheter som täta undersökningar och större provstorlekar. Till exempel, genom att använda icke-sannolikhetsmetoder kan den kooperativa kongressens valstudie (CCES) ha ungefär 10 gånger mer deltagare än tidigare studier med hjälp av sannolikhetsprovtagning. Detta mycket större prov gör det möjligt för politiska forskare att studera variationer i attityder och beteende i undergrupper och sociala sammanhang. Vidare kom all denna tillförda skala utan minskningar i uppskattningarnas kvalitet (Ansolabehere and Rivers 2013) .

För närvarande är den dominerande metoden för provtagning för social forskning sannolikhetsprovtagning . Vid sannolikhetsprovtagning har alla medlemmar av målpopulationen en känd, icke-sällsynt sannolikhet att samplas, och alla som samplas svarar på undersökningen. När dessa villkor är uppfyllda erbjuder eleganta matematiska resultat bevisliga garantier om en forskares förmåga att använda provet för att göra slutsatser om målpopulationen.

I den verkliga världen är förutsättningarna för dessa matematiska resultat dock sällan uppfyllda. Till exempel finns det ofta täckningsfel och nonresponse. På grund av dessa problem måste forskare ofta använda olika statistiska anpassningar för att göra inferens från sitt prov till deras målgrupp. Det är således viktigt att skilja mellan sannolikhetsprovtagning i teorin , som har starka teoretiska garantier och sannolikhetsprovtagning i praktiken , vilket inte ger sådana garantier och beror på en mängd olika statistiska anpassningar.

Över tiden har skillnaderna mellan sannolikhetsprovtagning i teorin och sannolikhetsprovtagning i praktiken ökat. Till exempel har nonresponse-priserna stadigt ökat, även i dyra undersökningar av hög kvalitet (figur 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Nonresponse-räntorna är mycket högre i kommersiella telefonundersökningar, ibland till och med så hög som 90% (Kohut et al. 2012) . Dessa ökningar i nonresponse hotar kvaliteten på uppskattningarna eftersom uppskattningarna alltmer beror på de statistiska modellerna som forskare använder för att anpassa sig för nonresponse. Vidare har dessa kvalitetsminskningar skett trots allt mer dyra insatser av undersökningsforskare för att upprätthålla höga svarsfrekvenser. Vissa människor är rädda för att dessa tvillingtrender av minskad kvalitet och ökad kostnad hotar grunden för undersökningsforskningen (National Research Council 2013) .

Figur 3.5: Nonresponse har blivit alltmer stadigt även i högkvalitativa dyra undersökningar (National Research Council 2013, B. D. Meyer, Mok och Sullivan 2015). Nonresponse satser är mycket högre för undersökningar av kommersiella telefoner, ibland till och med så hög som 90% (Kohut et al. 2012). Dessa långsiktiga trender i nonresponse innebär att datainsamling är dyrare och uppskattningar är mindre tillförlitliga. Anpassad från B. D. Meyer, Mok och Sullivan (2015), figur 1.

Figur 3.5: Nonresponse har blivit alltmer stadigt även i högkvalitativa dyra undersökningar (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Nonresponse satser är mycket högre för undersökningar av kommersiella telefoner, ibland till och med så hög som 90% (Kohut et al. 2012) . Dessa långsiktiga trender i nonresponse innebär att datainsamling är dyrare och uppskattningar är mindre tillförlitliga. Anpassad från BD Meyer, Mok, and Sullivan (2015) , figur 1.

Samtidigt som det har förekommit ökande svårigheter för sannolikhetsprovtagningsmetoder har det också funnits spännande utveckling i icke-sannolikhetsprovtagningsmetoder . Det finns en mängd olika stilar med metoder som inte är sannolikhetsprovtagning, men den sak som de har gemensamt är att de inte lätt kan passa in i den matematiska ramen för sannolikhetsprovtagning (Baker et al. 2013) . Med andra ord, i icke-sannolikhetsprovtagningsmetoder har inte alla en känd och icke-sannolik sannolikhet för inkludering. Icke-sannolikhetsprovtagningsmetoder har ett fruktansvärt rykte bland sociala forskare och de är associerade med några av de mest dramatiska misslyckandena hos undersökningsforskare, såsom Literary Digest Fiasco (diskuterad tidigare) och "Dewey Defeats Truman", den felaktiga förutsägelsen om USA presidentvalet 1948 (figur 3.6).

Figur 3.6: President Harry Truman håller huvudet på en tidning som felaktigt meddelat sitt nederlag. Denna rubrik baserades delvis på uppskattningar från icke-sannolikhetsprover (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Även om "Dewey Defeats Truman" hände 1948, är det fortfarande bland anledningen till att vissa forskare är skeptiska till uppskattningar från icke-sannolikhetsprover. Källa: Harry S. Truman Library & Museum .

En form av icke-sannolikhetsprovtagning som är särskilt lämpad för den digitala tiden är användningen av online paneler . Forskare som använder online paneler beror på någon panelleverantör, vanligtvis ett företag, en regering eller ett universitet, för att bygga en stor och mångsidig grupp människor som är överens om att fungera som respondenter för undersökningar. Dessa paneldeltagare rekryteras ofta med en rad olika ad hoc-metoder, som t.ex. webbannonser. Därefter kan en forskare betala panelleverantören för tillgång till ett urval av respondenter med önskade egenskaper (t.ex. nationellt representativ för vuxna). Dessa online-paneler är icke-sannolikhetsmetoder eftersom inte alla har en känd, icke-sällsynt sannolikhet för inkludering. Även om icke-sannolikhet online paneler redan används av sociala forskare (t.ex. CCES), är det fortfarande en del debatt om kvaliteten på uppskattningar som kommer från dem (Callegaro et al. 2014) .

Trots dessa debatter tycker jag att det finns två skäl till varför tiden är rätt för sociala forskare att ompröva icke-sannolikhetsprovtagning. Först i den digitala tidsåldern har det funnits många utvecklingar i insamling och analys av icke-sannolikhetsprover. Dessa nyare metoder skiljer sig från de metoder som orsakade problem tidigare, som jag tycker är vettigt att tänka på dem som "icke-sannolikhetsprovtagning 2.0". Den andra anledningen till att forskare bör ompröva icke-sannolikhetsprovtagning är att sannolikhetsprovtagning i övning blir allt svårare. När det finns höga svarsnivåer - som det nu finns i reella undersökningar - är de faktiska sannolikheterna för inkludering för svarande inte kända, och sålunda är sannolikhetsprover och icke-sannolikhetsprov inte lika olika som många forskare tror.

Som jag sa tidigare ses icke-sannolikhetsprover med stor skepsis av många sociala forskare, delvis på grund av deras roll i några av de mest pinsamma misslyckandena i undersökningsforskningens tidiga dagar. Ett tydligt exempel på hur långt vi har kommit med icke-sannolikhetsprover är forskningen Wei Wang, David Rothschild, Sharad Goel och Andrew Gelman (2015) som på rätt sätt återhämtade resultatet av valet 2012 i USA med hjälp av ett icke-sannolikhetsprov av Amerikanska Xbox-användare - ett bestämt nonrandom urval av amerikaner. Forskarna rekryterade respondenterna från XBox-spelsystemet, och som du kanske förväntar sig, snedde Xbox-provet manligt och skevt ungt: 18-29-åringar utgör 19% av väljarna men 65% av Xbox-provet och män utgör 47% av väljarna men 93% av Xbox-provet (figur 3.7). På grund av dessa starka demografiska förspänningar var den råa Xbox-data en dålig indikator på avkastning. Det förutsagde en stark seger för Mitt Romney över Barack Obama. Återigen, detta är ett annat exempel på farorna med råa, ojusterade icke-sannolikhetsprover och påminner om litterära Digest- fiasko.

Figur 3.7: Demografi av respondenter i W. Wang et al. (2015) . Eftersom respondenterna rekryterades från XBox var de mer benägna att vara unga och mer benägna att vara män i förhållande till väljare i valet 2012. Anpassad från W. Wang et al. (2015) , figur 1.

Wang och kollegor var dock medvetna om dessa problem och försökte anpassa sig för sin icke-slumpmässiga provtagningsprocess vid uppskattningar. I synnerhet använde de efter stratifiering , en teknik som också används i stor utsträckning för att justera sannolikhetsprover som har täckningsfel och icke-svar.

Huvudideen för efterlagring är att använda hjälpinformation om målpopulationen för att förbättra beräkningen som kommer från ett prov. När man använde poststratifiering för att göra uppskattningar från sitt icke-sannolikhetsprov huggade Wang och kollega befolkningen till olika grupper, uppskattade stödet för Obama i varje grupp och tog sedan ett vägt genomsnitt av gruppens uppskattningar för att producera en övergripande uppskattning. De kunde till exempel ha delat befolkningen i två grupper (män och kvinnor), uppskattade stödet till Obama bland män och kvinnor och sedan uppskattade det övergripande stödet till Obama genom att ta ett vägt genomsnitt för att redogöra för det faktum att kvinnor gör upp 53% av väljare och män 47%. Grovt, efter stratifieringen hjälper till att korrigera för ett obalanserat prov genom att ge extra information om storleken på grupperna.

Nyckeln till efterlagring är att bilda rätt grupper. Om du kan hugga upp befolkningen till homogena grupper så att svarförutsättningarna är desamma för alla i varje grupp, kommer efterlagring att producera objektiva uppskattningar. Med andra ord, efter stratifiering efter kön kommer att producera objektiva uppskattningar om alla män har svarbenägenheten och alla kvinnor har samma responsberoende. Detta antagande kallas för homogena-respons-benägenheter-inom-gruppens antagande, och jag beskriver det lite mer i de matematiska noterna i slutet av detta kapitel.

Naturligtvis verkar det osannolikt att svarprognoserna kommer att vara desamma för alla män och alla kvinnor. Imidlertid blir homogena responsresponserna-inom-gruppens antagande mer plausibla, eftersom antalet grupper ökar. Grovt blir det lättare att hugga befolkningen till homogena grupper om du skapar fler grupper. Det kan till exempel tyckas osannolikt att alla kvinnor har samma reaktionsförmåga, men det kan tyckas mer troligt att det finns samma svarbefolkning för alla kvinnor i åldern 18-29 år, som avgick från college och som bor i Kalifornien . Således som antalet grupper som används efter stratifieringen blir större, blir de antaganden som behövs för att stödja metoden rimligare. Med tanke på detta, vill forskare ofta skapa ett stort antal grupper för efterlagring. Men eftersom antalet grupper ökar forskar forskare in i ett annat problem: data sparsity. Om det bara finns ett litet antal personer i varje grupp, kommer uppskattningarna att vara osäkra, och i det extrema fallet där det finns en grupp som inte har några svarande, bryts ned stratifieringen helt.

Det finns två sätt utav denna inneboende spänning mellan plausibiliteten hos homogena-respons-benägenhet-inom-gruppens antagande och efterfrågan på rimliga provstorlekar i varje grupp. För det första kan forskare samla ett större, mer varierat prov, vilket hjälper till att säkerställa rimliga provstorlekar i varje grupp. För det andra kan de använda en mer sofistikerad statistisk modell för att göra uppskattningar inom grupper. Och faktiskt, ibland gör forskare båda, som Wang och kollegor gjorde med sin studie av valet med hjälp av respondenter från Xbox.

Eftersom de använde en icke-sannolikhetsprovtagningsmetod med datoradministrerade intervjuer (jag talar mer om datoradministrerade intervjuer i avsnitt 3.5) hade Wang och kollegor mycket billig datainsamling, vilket gjorde det möjligt för dem att samla information från 345 858 unika deltagare , ett stort antal enligt valmöjligheterna. Denna massiva urvalsstorlek gjorde det möjligt för dem att bilda ett stort antal poststratifieringsgrupper. Medan stratifieringen i regel innebär att befolkningen hakar i hundratals grupper, delade Wang och kollegor befolkningen i 176.256 grupper definierade av kön (2 kategorier), ras (4 kategorier), ålder (4 kategorier), utbildning (4 kategorier) (51 kategorier), part ID (3 kategorier), ideologi (3 kategorier) och 2008 röst (3 kategorier). Med andra ord gjorde deras stora samplingsstorlek, som möjliggjordes av lågprisinsamling, dem att göra ett mer trovärdigt antagande i sin uppskattningsprocess.

Även med 345.858 unika deltagare var det dock fortfarande många, många grupper för vilka Wang och kollegor hade nästan inga svarande. Därför använde de en teknik som kallades multilevelregression för att uppskatta stödet i varje grupp. I huvudsak, för att uppskatta stödet till Obama inom en viss grupp, samlade multilevelregressionen information från många närbesläktade grupper. Tänk dig att du försöker att uppskatta stödet till Obama bland kvinnliga latinamerikaner mellan 18 och 29 år, vilka är högskoleexamen, vilka är registrerade demokrater, som själv identifierar sig som moderata och som röstade för Obama 2008. Det här är en väldigt mycket , mycket specifik grupp, och det är möjligt att det inte finns någon i provet med dessa egenskaper. För att göra uppskattningar om den här gruppen använder multilevelregression en statistisk modell för att sammanställa beräkningar från personer i mycket liknande grupper.

Således använde Wang och kollegor ett tillvägagångssätt som kombinerade multilevelregression och post-stratifiering, så de kallade sin strategi för regenerering av flera nivåer med post-stratification eller mer affectionately "Mr. P. "När Wang och kollegor använde Mr P. för att göra uppskattningar från XBox-icke-sannolikhetsprovet, producerade de uppskattningar mycket nära det övergripande stöd som Obama fick i valet 2012 (figur 3.8). Faktum är att deras uppskattningar var mer exakta än en samling av traditionella opinionsundersökningar. Således verkar i detta fall statistiska justeringar, speciellt Mr. P., göra ett bra jobb för att korrigera förspänningarna i icke-sannolikhetsdata. förspänningar som var tydligt synliga när du tittar på uppskattningarna från de oanpassade Xbox-data.

Figur 3.8: Uppskattningar från W. Wang et al. (2015) . Ojusterat XBox-prov producerade felaktiga uppskattningar. Men det vägda XBox-provet producerade uppskattningar som var mer exakta än ett genomsnitt av sannolikhetsbaserade telefonundersökningar. Anpassad från W. Wang et al. (2015) , figurerna 2 och 3.

Det finns två huvudlektioner från studien av Wang och kollegor. För det första kan oanpassade icke-sannolikhetsprover leda till dåliga uppskattningar. Det här är en lektion som många forskare har hört förut. Den andra lektionen är emellertid att icke-sannolikhetsprover, när de analyseras ordentligt, faktiskt kan producera bra uppskattningar. icke-sannolikhetsprover behöver inte automatiskt leda till något som Literary Digest fiasco.

Att gå framåt, om du försöker bestämma mellan att använda en sannolikhetsprovtagning och ett icke-sannolikhetsprovtagning, möter du ett svårt val. Ibland önskar forskare en snabb och styv regel (t.ex. använd alltid sannolikhetsprovtagningsmetoder), men det är allt svårare att erbjuda en sådan regel. Forskare står inför ett svårt val mellan sannolikhetsprovtagningsmetoder i praktiken - som blir allt dyrare och långt ifrån de teoretiska resultaten som motiverar deras provtagningsmetoder för användning och icke-sannolikhet - som är billigare och snabbare men mindre kända och mer varierade. En sak som är tydligt är dock att om du är tvungen att arbeta med icke-sannolikhetsprover eller icke-representativa stora datakällor (tänk tillbaka till kapitel 2), då finns det en stark anledning att tro att uppskattningar gjorda med användning av efterlagring och relaterade tekniker kommer att vara bättre än oanpassade, råa uppskattningar.