3.4 Hvem at spørge

Denne oversættelse blev skabt af en computer. ×

3.4 Hvem at spørge

Den digitale tidsalder gør sandsynlighedsprøvetagningen i praksis hårdere og skaber nye muligheder for ikke-sandsynlighedsprøvetagning.

I prøveudtagningens historie har der været to konkurrerende tilgange: sandsynlighedsprøvetagningsmetoder og ikke-sandsynlighedsprøvetagningsmetoder. Selvom begge tilgange blev brugt i de tidlige prøvetagningsdage, er sandsynlighedsprøvetagningen kommet til at dominere, og mange sociale forskere læres at se, at der ikke er sandsynlighed for prøveudtagning med stor skepsis. Men som jeg vil beskrive nedenfor, betyder ændringer, der er skabt af den digitale tidsalder, at det er tid for forskere at genoverveje ikke-sandsynlighedsprøvetagning. Især er sandsynlighedsprøvetagningen blevet svært at gøre i praksis, og det er ikke sandsynligt, at prøveudtagningen er blevet hurtigere, billigere og bedre. Hurtigere og billigere undersøgelser er ikke bare ender i sig selv: de giver mulighed for nye muligheder som hyppigere undersøgelser og større stikprøver. For eksempel kan Cooperative Congressional Election Study (CCES) ved hjælp af ikke-sandsynlighedsmetoder have ca. 10 gange flere deltagere end tidligere studier ved hjælp af sandsynlighedsprøvetagning. Denne meget større prøve gør det muligt for politiske forskere at studere variation i holdninger og adfærd på tværs af undergrupper og sociale sammenhænge. Endvidere kom alt dette tilføjede omfang uden fald i estimaternes kvalitet (Ansolabehere and Rivers 2013) .

I øjeblikket er den dominerende tilgang til prøveudtagning for social forskning sandsynlighedsprøvetagning . Ved sandsynlighedsprøveudtagning har alle medlemmer af målpopulationen en kendt, ikke-sandsynlig sandsynlighed for at blive udtaget, og alle personer, der udtages prøver, svarer på undersøgelsen. Når disse betingelser er opfyldt, giver elegante matematiske resultater beviselige garantier for en forskers evne til at bruge prøven til at udlede afledninger om målpopulationen.

I den virkelige verden er forholdene til disse matematiske resultater dog sjældent opfyldt. For eksempel er der ofte dækning fejl og nonresponse. På grund af disse problemer må forskere ofte anvende en række statistiske tilpasninger for at gøre indledning fra deres prøve til deres målgruppe. Det er således vigtigt at skelne mellem sandsynlighedsprøvning i teorien , som har stærke teoretiske garantier og sandsynlighedsprøvetagning i praksis , hvilket ikke giver sådanne garantier og afhænger af en række statistiske tilpasninger.

Over tid er forskellene mellem sandsynlighedsprøvetagning i teori og sandsynlighedsprøvetagning i praksis steget. For eksempel er antallet af nonresponse steget støt, selv i dyreundersøgelser af høj kvalitet (figur 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Nonresponse satser er meget højere i kommercielle telefonundersøgelser - nogle gange lige så højt som 90% (Kohut et al. 2012) . Disse stigninger i nonresponse truer kvaliteten af skøn, fordi estimaterne i stigende grad er afhængige af de statistiske modeller, som forskere bruger til at tilpasse til nonresponse. Desuden er disse fald i kvalitet sket selv om det stadig er dyrere indsatser fra undersøgelsesforskere at opretholde høje responsrater. Nogle mennesker frygter, at disse tvillingstrends aftagende kvalitet og stigende omkostninger truer grundlæggelsen af undersøgelsesforskning (National Research Council 2013) .

Figur 3.5: Ikke-respons har været stadigt stadigt, selv i dyreundersøgelser af høj kvalitet (National Research Council 2013, B. D. Meyer, Mok og Sullivan 2015). Nonresponse satser er meget højere for undersøgelser af kommercielle telefoner, nogle gange endda så højt som 90% (Kohut et al. 2012). Disse langsigtede tendenser i nonresponse betyder, at dataindsamling er dyrere, og estimaterne er mindre pålidelige. Tilpasset fra B. D. Meyer, Mok og Sullivan (2015), figur 1.

Figur 3.5: Nonresponse har været stadigt stadigt, selv i dyreundersøgelser af høj kvalitet (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Nonresponse satser er meget højere for undersøgelser af kommercielle telefoner, nogle gange endda så højt som 90% (Kohut et al. 2012) . Disse langsigtede tendenser i nonresponse betyder, at dataindsamling er dyrere, og estimaterne er mindre pålidelige. Tilpasset fra BD Meyer, Mok, and Sullivan (2015) , figur 1.

Samtidig med at der har været voksende vanskeligheder med sandsynlighedsprøvetagningsmetoder, har der også været spændende udvikling i ikke-sandsynlighedsprøvetagningsmetoder . Der er en række forskellige former for ikke-sandsynlighedsprøvetagningsmetoder, men den ene ting, de har til fælles, er, at de ikke nemt kan passe i den matematiske ramme for sandsynlighedsprøvetagning (Baker et al. 2013) . Med andre ord, i ikke-sandsynlighed prøvetagningsmetoder ikke alle har en kendt og nonzero sandsynlighed for integration. Ikke-sandsynlighedsprøvetagningsmetoder har et frygteligt ry blandt sociale forskere, og de er forbundet med nogle af de mest dramatiske fejl i undersøgelsesforskere, såsom Literary Digest fiasco (diskuteret tidligere) og "Dewey Defeats Truman", den forkerte forudsigelse om USA præsidentvalg i 1948 (figur 3.6).

Figur 3.6: Præsident Harry Truman holder hovedet på en avis, der fejlagtigt meddelte sit nederlag. Denne overskrift var delvis baseret på estimater fra ikke-sandsynlighedsprøver (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Selv om "Dewey Defeats Truman" skete i 1948, er det stadig blandt grundene til, at nogle forskere er skeptiske over estimater fra ikke-sandsynlighedsprøver. Kilde: Harry S. Truman Library & Museum .

En form for ikke-sandsynlighedsprøvetagning, der er specielt velegnet til den digitale tidsalder, er brugen af online paneler . Forskere, der bruger onlinepaneler, er afhængige af nogle paneludbydere - som regel en virksomhed, regering eller universitet - for at opbygge en stor forskelligartet gruppe af mennesker, der er enige om at tjene som respondenter til undersøgelser. Disse paneldeltagere rekrutteres ofte ved hjælp af en række ad hoc-metoder, såsom online-bannerannoncer. Derefter kan en forsker betale paneludbyderen adgang til en stikprøve af respondenter med ønskede karakteristika (f.eks. Nationalt repræsentativ for voksne). Disse online-paneler er ikke-sandsynlighedsmetoder, fordi ikke alle har en kendt, usikker sandsynlighed for inklusion. Selvom det ikke er sandsynligt, at online paneler allerede anvendes af sociale forskere (fx CCES), er der stadig en debat om kvaliteten af de skøn, der kommer fra dem (Callegaro et al. 2014) .

På trods af disse debatter mener jeg, at der er to grunde til, at tiden er rigtig for sociale forskere at tage hensyn til ikke-sandsynlighedsprøvetagning. Først i den digitale tidsalder har der været mange udviklinger i indsamling og analyse af ikke-sandsynlighedsprøver. Disse nyere metoder er forskellige nok fra de metoder, der tidligere har forårsaget problemer, som jeg synes, det er fornuftigt at tænke på dem som "ikke-sandsynlighedsprøveudtagning 2.0". Den anden grund til, at forskere bør revurdere ikke sandsynlighedsprøvetagning, er fordi sandsynlighedsprøvetagning i praksis er blevet stadig vanskeligere. Når der er høje svarfrekvenser - som det nu findes i reelle undersøgelser - er de faktiske sandsynligheder for inklusion for respondenter ikke kendt, og sandsynlighedsprøver og ikke-sandsynlighedsprøver er ikke så forskellige, som mange forskere mener.

Som jeg sagde tidligere, ses ikke-sandsynlighedsprøver med stor skepsis af mange sociale forskere, dels på grund af deres rolle i nogle af de mest pinlige fejl i de tidlige undersøgelsesundersøgelser. Et klart eksempel på, hvor langt vi er kommet med ikke-sandsynlighedsprøver er forskningen fra Wei Wang, David Rothschild, Sharad Goel og Andrew Gelman (2015) der korrekt genoprettede resultatet af valget i 2012 i USA ved hjælp af en ikke-sandsynlig prøve af Amerikanske Xbox-brugere - en bestemt nonrandom stikprøve af amerikanere. Forskerne rekrutterede respondenter fra XBox-spil systemet, og som du måske ville forvente, skød Xbox-prøven mandlige og skævt unge: 18- til 29-årige udgør 19% af vælgerne, men 65% af Xbox-prøven og mænd udgør 47% af vælgerne, men 93% af Xbox-prøven (figur 3.7). På grund af disse stærke demografiske forstyrrelser var de rå Xbox-data en dårlig indikator for valgret. Det forudsagde en stærk sejr til Mitt Romney over Barack Obama. Igen er dette et andet eksempel på farerne ved rå, ujusterede ikke-sandsynlighedsprøver og minder om Literary Digest fiasco.

Figur 3.7: Demografik af respondenter i W. Wang et al. (2015) . Fordi respondenter blev rekrutteret fra XBox, var de mere tilbøjelige til at være unge og mere tilbøjelige til at være mandlige i forhold til vælgerne i 2012-valget. Tilpasset fra W. Wang et al. (2015) , figur 1.

Men Wang og kolleger var opmærksomme på disse problemer og forsøgte at tilpasse sig for deres ikke-stikprøveudtagningsproces, når de lavede skøn. Især brugte de efter stratificering , en teknik, der også er meget udbredt til at justere sandsynlighedsprøver, der har dækningsfejl og manglende respons.

Hovedideen med post-stratificering er at bruge hjælpefunktioner om målpopulationen for at hjælpe med at forbedre estimatet, der kommer fra en prøve. Når man anvender postlagring til at foretage skøn fra deres ikke-sandsynlighedsprøve, huggede Wang og kollega befolkningen ind i forskellige grupper, estimerede støtten til Obama i hver gruppe og tog derefter et vægtet gennemsnit af gruppens skøn for at producere et samlet skøn. For eksempel kunne de have splittet befolkningen i to grupper (mænd og kvinder), estimeret støtten til Obama blandt mænd og kvinder og derefter estimeret den samlede støtte til Obama ved at tage et vejet gennemsnit for at tage højde for det faktum, at kvinder gør op 53% af vælgerne og mænd 47%. Omfattende hjælper poststratifikation med at korrigere for en ubalanceret prøve ved at indlæse ekstra information om størrelserne af grupperne.

Nøglen til post-stratifikation er at danne de rette grupper. Hvis du kan hugge befolkningen ind i homogene grupper, så svarrespektiverne er de samme for alle i hver gruppe, så vil efterlagring producere upartiske estimater. Med andre ord, efter stratificering efter køn vil der fremkomme upartiske estimater, hvis alle mænd har reaktionstendensen, og alle kvinder har samme tilbøjelighed til tilbøjelighed. Denne antagelse kaldes homogen-respons-tilbøjelighed-indenfor gruppens antagelse, og jeg beskriver det lidt mere i de matematiske noter i slutningen af dette kapitel.

Selvfølgelig forekommer det usandsynligt, at tilbøjeligheden vil være ens for alle mænd og alle kvinder. Imidlertid bliver homogen-respons-tilbøjelighed-indenfor-gruppens antagelse mere plausibel, idet antallet af grupper stiger. Groft bliver det lettere at hugge befolkningen til homogene grupper, hvis du opretter flere grupper. Det kan for eksempel virke utroligt, at alle kvinder har samme tilbøjelighed til tilbagegang, men det kan synes mere sandsynligt, at der er samme svartilstrækkelighed for alle kvinder i alderen 18-29, der er uddannet fra college, og som bor i Californien . Således som antallet af grupper, der anvendes efter stratifikation bliver større, bliver de forudsætninger, der er nødvendige for at understøtte metoden, mere rimelige. På den baggrund ønsker forskere ofte at skabe et stort antal grupper til postlagring. Men som antallet af grupper stiger, forskere løber ind i et andet problem: data sparsity. Hvis der kun er et lille antal personer i hver gruppe, vil estimaterne være mere usikre, og i det ekstreme tilfælde, hvor der er en gruppe, der ikke har nogen respondenter, brydes poststratifikationen helt ned.

Der er to måder ud af denne iboende spænding mellem plausibiliteten af den homogene respons-tilbøjelighed-inden-gruppes antagelse og efterspørgslen efter rimelige stikstørrelser i hver gruppe. For det første kan forskere indsamle en større, mere forskellig prøve, som hjælper med at sikre rimelige stikstørrelser i hver gruppe. For det andet kan de bruge en mere sofistikeret statistisk model til at lave estimater inden for grupper. Og i virkeligheden undertiden gør forskere begge, som Wang og kolleger gjorde med deres undersøgelse af valget ved hjælp af respondenter fra Xbox.

Fordi de brugte en metode til ikke-sandsynlighedsprøvning med computeradministrerede interviews (jeg vil snakke mere om computeradministrerede interviews i afsnit 3.5), havde Wang og kolleger meget billigt dataindsamling, som gjorde det muligt for dem at indsamle oplysninger fra 345.858 unikke deltagere , et stort antal ved valget af valgmøder. Denne massive stikstørrelse gjorde dem i stand til at danne et stort antal post-stratificeringsgrupper. Mens post-stratificering typisk indebærer at hugge befolkningen i hundredvis af grupper, delte Wang og kolleger befolkningen i 176.256 grupper defineret af køn (2 kategorier), race (4 kategorier), alder (4 kategorier), uddannelse (4 kategorier), stat (51 kategorier), part ID (3 kategorier), ideologi (3 kategorier) og 2008 stemme (3 kategorier). Med andre ord gjorde deres store stikstørrelse, som var aktiveret ved lavprisindsamling, det muligt for dem at gøre en mere plausibel antagelse i deres estimeringsproces.

Selv med 345.858 unikke deltagere var der dog stadig mange, mange grupper, hvor Wang og kolleger næsten ikke havde nogen respondenter. Derfor brugte de en teknik, der hedder multilevelregression, til at estimere støtten i hver gruppe. For at estimere støtten til Obama inden for en bestemt gruppe samlede flerniveauregressionen information fra mange nært beslægtede grupper. For eksempel forestille sig at forsøge at estimere støtten til Obama blandt kvindelige asfanske mellem 18 og 29 år, der er universitetsstuderende, som er registrerede demokrater, som selvidentificerer som moderate, og som stemte for Obama i 2008. Dette er en meget , meget specifik gruppe, og det er muligt, at der ikke er nogen i prøven med disse egenskaber. For at foretage overslag over denne gruppe bruger multilevelregression en statistisk model til at sammenlægge estimater fra personer i meget ens grupper.

Således brugte Wang og kolleger en tilgang, der kombinerede multilevelregression og post-stratificering, så de kaldte deres strategi multilevelregression med post-stratifikation eller mere kærligt "Mr. P. "Da Wang og kollegaer brugte Mr. P. til at lave estimater fra XBox-ikke-sandsynlighedsprøven, producerede de skøn meget tæt på den overordnede støtte, Obama modtog i 2012-valget (figur 3.8). Faktisk var deres skøn mere præcise end et aggregat af traditionelle meningsmålinger. Således synes statistiske tilpasninger - specifikt hr. P. - at gøre et godt stykke arbejde, der korrigerer forspændingerne i ikke-sandsynlighedsdata; forspændinger, der var tydeligt synlige, når man ser på estimaterne fra de ujusterede Xbox-data.

Figur 3.8: Estimater fra W. Wang et al. (2015) . Ujusteret XBox-prøve produceret unøjagtige estimater. Men den vægtede XBox-prøve producerede estimater, der var mere præcise end et gennemsnit af sandsynlighedsbaserede telefonundersøgelser. Tilpasset fra W. Wang et al. (2015) , figur 2 og 3.

Der er to hovedundervisning fra studiet af Wang og kolleger. For det første kan ujusterede ikke-sandsynlighedsprøver føre til dårlige skøn; Det er en lektion, som mange forskere har hørt før. Den anden lektion er imidlertid, at ikke-sandsynlighedsprøver, når de analyseres korrekt, rent faktisk kan producere gode estimater; ikke-sandsynlighedsprøver behøver ikke automatisk føre til noget som den litterære digest fiasco.

Hvis du forsøger at bestemme mellem at bruge en sandsynlighedsprøvetagningsmetode og en ikke-sandsynlighedsprøvetagningsmetode, står du frem for et vanskeligt valg. Nogle gange vil forskere have en hurtig og stiv regel (fx altid bruge sandsynlighedsprøvetagningsmetoder), men det er stadig vanskeligere at tilbyde en sådan regel. Forskere står over for et vanskeligt valg mellem sandsynlighedsprøvetagningsmetoder i praksis - som bliver stadig dyrere og langt fra de teoretiske resultater, som retfærdiggør deres brugs- og ikke-sandsynlighedsprøvetagningsmetoder-som er billigere og hurtigere, men mindre velkendte og mere varierede. En ting der er klart, er imidlertid, at hvis du er tvunget til at arbejde med ikke-sandsynlighedsprøver eller ikke-repræsentative store datakilder (tænk tilbage til kapitel 2), så er der en stærk grund til at tro på, at estimater foretaget ved brug af post-stratification og relaterede teknikker vil være bedre end ujusterede, rå skøn.