3.4 Hvem å spørre

Den digitale tidsalderen gjør sannsynlighetsprøvetaking i praksis vanskeligere og skaper nye muligheter for ikke-sannsynlig prøvetaking.

I prøvetakingens historie har det vært to konkurrerende tilnærminger: sannsynlighetsprøvemetode og ikke-sannsynligheten for prøvetaking. Selv om begge tilnærmingene ble brukt i de tidlige prøvetakingsdagene, har sannsynlighetsprøvingen kommet for å dominere, og mange sosialforskere blir undervist for å se ikke-sannsynlig prøvetaking med stor skepsis. Imidlertid, som jeg vil beskrive nedenfor, betyr endringer som er skapt av den digitale tidsalderen at det er tid for forskere å revurdere prøvetaking uten sannsynlighet. Spesielt har sannsynlighetsprøvingen blitt vanskelig å gjøre i praksis, og ikke-sannsynligheten for prøvetaking har blitt raskere, billigere og bedre. Hurtigere og billigere undersøkelser er ikke bare ender i seg selv: de muliggjør nye muligheter som hyppigere undersøkelser og større utvalgsstørrelser. For eksempel, ved å bruke ikke-sannsynlighetsmetoder, kan den kooperative kongresjonsvalgstudien (CCES) ha omtrent 10 ganger flere deltakere enn tidligere studier ved hjelp av sannsynlighetsprøvetaking. Denne mye større prøven gjør det mulig for politiske forskere å studere variasjon i holdninger og atferd på tvers av undergrupper og sosiale sammenhenger. Videre kom alt denne tilleggsskalaen uten nedgang i kvaliteten på estimatene (Ansolabehere and Rivers 2013) .

For tiden er den dominerende tilnærmingen til prøvetaking for sosial forskning sannsynlighetsprøvetaking . I sannsynlighetsprøvetaking har alle medlemmer av målpopulasjonen en kjent, ikke-sannsynlig sannsynlighet for å bli samplet, og alle som er samplet, svarer på undersøkelsen. Når disse betingelsene er oppfylt, gir elegante matematiske resultater bevisbare garantier for en forskers evne til å bruke prøven for å gjøre avledninger om målpopulasjonen.

I den virkelige verden møtes imidlertid sjelden betingelsene som ligger til grund for disse matematiske resultatene. For eksempel er det ofte dekning feil og nonresponse. På grunn av disse problemene, må forskere ofte benytte en rekke statistiske tilpasninger for å gjøre innfall fra prøven til deres målgruppe. Det er derfor viktig å skille mellom sannsynlighetsprøvetaking i teorien , som har sterke teoretiske garantier og sannsynlighetsprøvetaking i praksis , som ikke gir slike garantier og avhenger av en rekke statistiske tilpasninger.

Over tid har forskjellene mellom sannsynlighetsprøvetaking i teori og sannsynlighetsprøvetaking i praksis økt. For eksempel har ikke-responspriser økt jevnt, selv i dyre undersøkelser av høy kvalitet (figur 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Nonresponse priser er mye høyere i kommersielle telefonundersøkelser, noen ganger like høye som 90% (Kohut et al. 2012) . Disse økene i nonresponse truer kvaliteten på estimater fordi estimatene i økende grad avhenger av de statistiske modellene som forskere bruker til å tilpasse seg for ikke-respons. Videre har disse kvalitetsnedgangene skjedd til tross for stadig dyrere innsats fra undersøkelsesforskere for å opprettholde høye responsrater. Noen frykter at disse tvillingstrendene av avtagende kvalitet og økende kostnad truer grunnlaget for undersøkelsesforskning (National Research Council 2013) .

Figur 3.5: Ikke-respons har vært stadig jevnere, selv i dyreundersøkelser av høy kvalitet (National Research Council 2013, B. D. Meyer, Mok og Sullivan 2015). Nonresponse priser er mye høyere for undersøkelser av kommersielle telefoner, noen ganger like høye som 90% (Kohut et al. 2012). Disse langsiktige trender i ikke-respons betyr at datainnsamling er dyrere og estimater er mindre pålitelige. Tilpasset fra B. D. Meyer, Mok og Sullivan (2015), figur 1.

Figur 3.5: Ikke-respons har vært stadig jevnere, selv i dyreundersøkelser av høy kvalitet (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Nonresponse priser er mye høyere for undersøkelser av kommersielle telefoner, noen ganger like høye som 90% (Kohut et al. 2012) . Disse langsiktige trender i ikke-respons betyr at datainnsamling er dyrere og estimater er mindre pålitelige. Tilpasset fra BD Meyer, Mok, and Sullivan (2015) , figur 1.

Samtidig som det har vært voksende vanskeligheter for sannsynlighetsprøvemetoder, har det også vært spennende utviklinger i ikke-sannsynlige prøvetakingsmetoder . Det finnes en rekke stilarter av ikke-sannsynlighetsprøvemetoder, men den ene tingen de har til felles er at de ikke lett kan passe inn i det matematiske rammebetinget for sannsynlighetsprøving (Baker et al. 2013) . Med andre ord, i ikke-sannsynlighet prøvetaking metoder ikke alle har en kjent og ikke-sannsynlighet for inkludering. Ikke-sannsynlighets prøvetakingsmetoder har et fryktelig rykte blant sosiale forskere, og de er knyttet til noen av de mest dramatiske feilene i undersøkelsesforskere, som for eksempel Literary Digest Fiasco (diskutert tidligere) og "Dewey Defeats Truman", den ukorrekte prediksjonen om USA presidentvalget i 1948 (figur 3.6).

Figur 3.6: President Harry Truman holder opp overskriften til en avis som feilt hadde annonsert sitt nederlag. Denne overskriften ble delvis basert på estimater fra ikke-sannsynlighetsprøver (Mosteller 1949; Bean 1950; Freedman, Pisani, og Purves 2007). Selv om Dewey Defeats Truman skjedde i 1948, er det fortsatt blant grunnen til at enkelte forskere er skeptiske til estimater fra ikke-sannsynlighetsprøver. Kilde: Harry S. Truman Library & Museum.

Figur 3.6: President Harry Truman holder opp overskriften til en avis som feilt hadde annonsert sitt nederlag. Denne overskriften ble delvis basert på estimater fra ikke-sannsynlighetsprøver (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Selv om "Dewey Defeats Truman" skjedde i 1948, er det fortsatt blant grunnen til at enkelte forskere er skeptiske til estimater fra ikke-sannsynlighetsprøver. Kilde: Harry S. Truman Library & Museum .

En form for ikke-sannsynlig prøvetaking som er spesielt egnet for den digitale tidsalderen, er bruken av elektroniske paneler . Forskere som bruker nettpaneler, er avhengige av noen panelleverandør, vanligvis et selskap, regjering eller universitet, for å bygge en stor, mangfoldig gruppe mennesker som er enige om å tjene som respondenter for undersøkelser. Disse paneldeltakere rekrutteres ofte ved hjelp av en rekke ad hoc-metoder som for eksempel bannerannonser på nettet. Deretter kan en forsker betale panelleverandøren for tilgang til et utvalg av respondenter med ønskede egenskaper (f.eks. Nasjonalt representativ for voksne). Disse elektroniske panelene er ikke-sannsynlighetsmetoder fordi ikke alle har en kjent, ikke-sannsynlig sannsynlighet for inkludering. Selv om ikke-sannsynlige nettpaneler allerede blir brukt av sosiale forskere (f.eks. CCES), er det fortsatt en debatt om kvaliteten på estimatene som kommer fra dem (Callegaro et al. 2014) .

Til tross for disse debattene, tror jeg det er to grunner til at tiden er riktig for sosiale forskere å revurdere ikke-sannsynlighetstesting. Først i digitalalderen har det vært mange utviklinger i innsamling og analyse av ikke-sannsynlighetsprøver. Disse nyere metodene er forskjellige nok fra metodene som førte til problemer i fortiden, som jeg synes det er fornuftig å tenke på dem som "ikke-sannsynlighet prøvetaking 2.0." Den andre grunnen til at forskerne bør revurdere ikke-sannsynlighet prøvetaking er fordi sannsynlighet prøvetaking i praksis er blitt stadig vanskeligere. Når det er høy grad av manglende respons - som det er i virkelige undersøkelser nå - er det ikke kjent de faktiske sannsynlighetene for inkludering for respondenter, og sannsynlighetsprøver og ikke-sannsynlighetsprøver er ikke like forskjellige som mange forskere tror.

Som jeg sa tidligere, ses ikke-sannsynlighetsprøver med stor skepsis av mange sosiale forskere, delvis på grunn av deres rolle i noen av de mest pinlige feilene i undersøkelsesforskningens tidlige dager. Et klart eksempel på hvor langt vi har kommet med ikke-sannsynlighetsprøver er forskningen fra Wei Wang, David Rothschild, Sharad Goel og Andrew Gelman (2015) som korrekt gjenopprettet utfallet av valget i 2012 i USA ved hjelp av en ikke-sannsynlig prøve av Amerikanske Xbox-brukere - en bestemt nonrandom utvalg av amerikanere. Forskerne rekrutterte respondenter fra XBox-spillsystemet, og som du kanskje forventer, skjedde Xbox-prøven mannlig og skrå ung: 18 til 29-åringene utgjorde 19% av velgerne, men 65% av Xbox-prøven, og menn utgjør 47% av velgerne, men 93% av Xbox-prøven (figur 3.7). På grunn av disse sterke demografiske forstyrrelsene var de raske Xbox-dataene en dårlig indikator på valgutkast. Det forutslo en sterk seier for Mitt Romney over Barack Obama. Igjen, dette er et annet eksempel på farene ved raske, ujusterte ikke-sannsynlighetsprøver og minner om den litterære fordøyelsesfasoen .

Figur 3.7: Demografisk analyse av respondenter i W. Wang et al. (2015). Fordi respondentene ble rekruttert fra XBox, var de mer sannsynlig å være unge og mer sannsynlig å være mannlige, i forhold til velgerne i valget i 2012. Tilpasset fra W. Wang et al. (2015), figur 1.

Figur 3.7: Demografisk analyse av respondenter i W. Wang et al. (2015) . Fordi respondentene ble rekruttert fra XBox, var de mer sannsynlig å være unge og mer sannsynlig å være mannlige, i forhold til velgerne i valget i 2012. Tilpasset fra W. Wang et al. (2015) , figur 1.

Imidlertid var Wang og kolleger oppmerksomme på disse problemene og forsøkte å justere for sin ikke-tilfeldige prøvetakingsprosess når de anslår. Spesielt brukte de etter stratifisering , en teknikk som også er mye brukt til å justere sannsynlighetsprøver som har dekningsfeil og manglende respons.

Hovedideen med post-stratifisering er å bruke tilleggsinformasjon om målpopulasjonen for å forbedre estimatet som kommer fra en prøve. Ved bruk av postlagring for å lage estimater fra deres ikke-sannsynlighetsprøve, hakket Wang og kollega befolkningen til forskjellige grupper, anslått støtten til Obama i hver gruppe, og tok deretter et veid gjennomsnitt av gruppestimatene for å produsere et samlet estimat. De kunne for eksempel ha delt befolkningen i to grupper (menn og kvinner), estimert støtten til Obama blant menn og kvinner, og deretter estimert generell støtte til Obama ved å ta et veid gjennomsnitt for å kunne redegjøre for at kvinner gjør opp 53% av velgerne og mennene 47%. Grovt, etter stratifisering hjelper til med å korrigere for en ubalansert prøve ved å legge inn tilleggsinformasjon om størrelsene på gruppene.

Nøkkelen til post-stratifisering er å danne de riktige gruppene. Hvis du kan hugge opp befolkningen til homogene grupper slik at respons-tilbøyelighetene er de samme for alle i hver gruppe, vil etter stratifisering produsere objektive estimater. Med andre ord, etter stratifisering etter kjønn vil produsere objektive estimater dersom alle menn har responstilnærmingen, og alle kvinner har samme tilbøyelighetsgenerasjon. Denne antagelsen kalles homogen-respons-tilbøyelighet-innenfor-gruppens antagelse, og jeg beskriver det litt mer i de matematiske notatene i slutten av dette kapitlet.

Selvfølgelig virker det lite sannsynlig at tilbakemeldingene vil være de samme for alle menn og alle kvinner. Imidlertid blir antagelsen om homogen-respons-tilbøyelighet-innenfor-gruppene mer troverdig ettersom antall grupper øker. Grovt blir det lettere å hugge befolkningen til homogene grupper hvis du lager flere grupper. Det kan for eksempel virke unødvendig at alle kvinner har samme tilbøyelighet, men det kan virke mer troverdig at det er samme responstilstand for alle kvinner i alderen 18-29, som har uteksaminert fra college, og som bor i California . Dermed blir antall antagelser som blir brukt etter stratifisering større, forutsetningene som er nødvendige for å støtte metoden, blitt mer fornuftige. På grunn av dette, vil forskere ofte lage et stort antall grupper for etterlagring. Men etter hvert som antall grupper øker, går forskerne inn i et annet problem: data sparsity. Hvis det bare er et lite antall personer i hver gruppe, vil estimatene være mer usikre, og i det ekstreme tilfellet der det er en gruppe som ikke har noen respondenter, bryter helt etter stratifisering.

Det er to måter ut av denne inneboende spenningen mellom plausibiliteten til homogen-respons-tilbøyelighet-innenfor-gruppens antagelse og etterspørselen etter rimelige utvalgsstørrelser i hver gruppe. For det første kan forskere samle en større, mer mangfoldig prøve, som bidrar til å sikre rimelige utvalgsstørrelser i hver gruppe. For det andre kan de bruke en mer sofistikert statistisk modell for å lage estimater innenfor grupper. Og faktisk, gjør noen ganger forskere begge, som Wang og kollegaer gjorde med studiet av valget ved hjelp av respondenter fra Xbox.

Fordi de brukte en ikke-sannsynlig prøvetakingsmetode med dataadministrerte intervjuer (jeg snakker mer om dataadministrerte intervjuer i avsnitt 3.5), hadde Wang og kolleger svært rimelig datainnsamling, noe som gjorde dem i stand til å samle informasjon fra 345.858 unike deltakere , et stort antall i henhold til valgstyringsstandardene. Denne massive utvalgsstørrelsen gjorde det mulig for dem å danne et stort antall post-stratifiseringsgrupper. Mens post-stratifisering vanligvis innebærer å kutte befolkningen i hundrevis av grupper, delte Wang og kolleger befolkningen i 176,256 grupper definert etter kjønn (2 kategorier), rase (4 kategorier), alder (4 kategorier), utdanning (4 kategorier), stat (51 kategorier), part ID (3 kategorier), ideologi (3 kategorier) og 2008 stemme (3 kategorier). Med andre ord, deres store utvalgsstørrelse, som ble aktivert ved lavpris datainnsamling, gjorde det mulig for dem å gjøre en mer plausibel antagelse i deres estimeringsprosess.

Selv med 345.858 unike deltakere var det likevel mange, mange grupper som Wang og kolleger hadde nesten ingen respondenter. Derfor brukte de en teknikk som kalles multilevelregresjon for å estimere støtten i hver gruppe. I hovedsak, for å estimere støtten til Obama i en bestemt gruppe, samlet multilevelregresjonen informasjon fra mange nært beslektede grupper. For eksempel, tenk å prøve å estimere støtten til Obama blant kvinnelige Hispanics mellom 18 og 29 år, hvem er akademikere, som er registrerte demokrater, som selv identifiserer som moderat, og som stemte for Obama i 2008. Dette er en veldig , veldig spesifikk gruppe, og det er mulig at det ikke finnes noen i prøven med disse egenskapene. Derfor, for å gjøre anslag om denne gruppen, bruker multilevelregresjon en statistisk modell for å samle estimater fra personer i svært liknende grupper.

Således brukte Wang og kolleger en tilnærming som kombinerte multilevel-regresjon og post-stratifisering, så de kalte deres strategi multilevelregresjon med post-stratifisering eller, mer kjærlig, "Mr. P. "Da Wang og kollegaer brukte Mr. P. å lage estimater fra XBox-sannsynligheten, ga de estimater svært nær den generelle støtten Obama mottok i valget i 2012 (figur 3.8). Faktisk var deres estimater mer nøyaktige enn et aggregat av tradisjonelle meningsmålinger. Således, i dette tilfellet, synes statistiske justeringer, spesielt Mr. P., å gjøre en god jobb som korrigerer forspenningene i ikke-sannsynlighetsdata; forvirrer det som var tydelig synlig når du ser på estimatene fra de ujusterte Xbox-dataene.

Figur 3.8: Estimater fra W. Wang et al. (2015). Ujustert XBox-prøve produserte unøyaktige estimater. Men den vektede XBox-prøven ga estimater som var mer nøyaktige enn et gjennomsnitt av sannsynlighetsbaserte telefonundersøkelser. Tilpasset fra W. Wang et al. (2015), figur 2 og 3.

Figur 3.8: Estimater fra W. Wang et al. (2015) . Ujustert XBox-prøve produserte unøyaktige estimater. Men den vektede XBox-prøven ga estimater som var mer nøyaktige enn et gjennomsnitt av sannsynlighetsbaserte telefonundersøkelser. Tilpasset fra W. Wang et al. (2015) , figur 2 og 3.

Det er to hovedundervisning fra studiet av Wang og kolleger. For det første kan ujusterte ikke-sannsynlighetsprøver føre til dårlige estimater; Dette er en leksjon som mange forskere har hørt før. Den andre leksjonen er imidlertid at ikke-sannsynlighetsprøver, når de analyseres riktig, faktisk kan produsere gode estimater; Ikke-sannsynlighetsprøver trenger ikke automatisk å føre til noe som Literary Digest fiasco.

Å gå fremover, hvis du prøver å bestemme mellom å bruke en sannsynlighetsprøvemetode og en ikke-sannsynlig prøvetakingsmetode, står du overfor et vanskelig valg. Noen ganger ønsker forskere en rask og stiv regel (f.eks. Bruk alltid sannsynlighetsprøvemetoder), men det er stadig vanskeligere å tilby en slik regel. Forskere står overfor et vanskelig valg mellom sannsynlighetsprøvemetoder i praksis - som blir stadig dyrere og langt fra de teoretiske resultatene som rettferdiggjør deres bruk- og ikke-sannsynlige prøvetakingsmetoder - som er billigere og raskere, men mindre kjent og mer varierte. En ting som er tydelig, er imidlertid at hvis du er tvunget til å jobbe med ikke-sannsynlighetsprøver eller ikke-representative store datakilder (tenk tilbake til kapittel 2), er det en sterk grunn til å tro at estimater gjort ved bruk av stratifisering og relaterte teknikker vil være bedre enn ujusterte, rå estimater.