3.4.3 Ikke-sandsynlighed prøver: prøve matching

Denne oversættelse blev skabt af en computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 Ikke-sandsynlighed prøver: prøve matching

Ikke alle ikke-stikprøver er de samme. Vi kan tilføje mere kontrol på den forreste ende.

Tilgangen Wang og hans kolleger, der anvendes til at vurdere resultatet af 2012 amerikanske præsidentvalg afhang helt på forbedringer i dataanalyse. Det vil sige, at de indsamlede så mange svar, som de kunne, og derefter forsøgte at re-vægt dem. En supplerende strategi for at arbejde med ikke-stikprøver er at have mere kontrol over indsamlingen af data.

Den enkleste eksempel på en delvist kontrolleret ikke-stikprøver proces er sampling kvote, en teknik, der går tilbage til de tidlige dage af undersøgelsen forskning. I prøveudtagning kvote, opdele forskerne befolkningen i forskellige grupper (f.eks unge mænd, unge kvinder osv) og derefter indstille kvoter for antallet af personer, der skal vælges i hver gruppe. Respondenterne er udvalgt på en tilfældig måde, indtil forskeren har opfyldt deres kvote i hver gruppe. På grund af de kvoter, den resulterende prøve ligner mere målgruppen, end det ville være tilfældet ellers, men fordi sandsynlighederne for inklusion er ukendte mange forskere er skeptiske over for prøveudtagning kvote. Faktisk sampling kvoten var en årsag til den "Dewey Nederlag Truman" fejl i 1948 US Presidential meningsmålinger. Fordi det giver en vis kontrol over stikprøveprocessen, dog kan man se, hvordan prøveudtagning kvote kan have nogle fordele i forhold til en helt ukontrolleret dataindsamling.

Flytning uden prøveudtagning kvote, mere moderne strategier til bekæmpelse af den ikke-stikprøver proces er nu muligt. En sådan fremgangsmåde kaldes prøve matching, og det bruges af nogle kommercielle online panel udbydere. I sin enkleste form, prøve matching kræver to datakilder: 1) Et fuldstændigt register over befolkningen og 2) et stort panel af frivillige. Det er vigtigt, at de frivillige ikke behøver at være en sandsynlighed prøve fra enhver befolkningsgruppe; at understrege, at der ikke er nogen krav til udvælgelse i panelet, vil jeg kalde det en beskidt panel. Desuden skal både folkeregistret og beskidt panel omfatter nogle ekstra oplysninger om hver person, i dette eksempel, vil jeg overveje alder og køn, men i realistiske situationer denne ekstra information kunne være meget mere detaljeret. Kunsten af prøve matching er at udvælge prøver fra en beskidt panel på en måde, der producerer prøver, der ligner sandsynligheds- prøver.

Prøve matching begynder, når en simuleret stikprøve er taget fra folkeregistret; denne simulerede prøve bliver et mål prøve. Derefter, baseret på hjælpeinformationen, sager i målstikprøven matches med personer i den beskidte panel til dannelse af en matchet prøve. For eksempel, hvis der er en 25 år gammel kvinde i målet prøven, hvorefter forskeren finder en 25 år gammel kvinde fra den snavsede panel til at være i den matchede prøve. Endelig er medlemmer af den matchede stikprøve interviewet at producere det endelige sæt af respondenterne.

Selvom det matchede prøve ligner målstikprøven, er det vigtigt at huske, at den matchede prøven til en stikprøve. Matchede prøver kan kun matche målprøven på den kendte hjælpeinformation (f.eks, alder og køn), men ikke på ikke-målte karakteristika. For eksempel, hvis folk på beskidt panel tendens til at være dårligere jo en grund til at deltage i en undersøgelse panel er at tjene penge så selvom matchede prøve ligner målstikprøven med hensyn til alder og køn det vil stadig have en bias i retning af fattige mennesker. Magien i ægte stikprøver er at udelukke problemer på både målte og ikke målte karakteristika (et punkt, som er i overensstemmelse med vores diskussion af matching for kausal inferens fra observationsstudier i kapitel 2).

I praksis prøve matching afhænger af at have et stort og varieret panel ivrige efter at udfylde undersøgelser, og dermed er det hovedsageligt udført af virksomheder, der har råd til at udvikle og vedligeholde et sådant panel. Også i praksis, kan der være problemer med matching (undertiden et godt match for en person i målstikprøven findes ikke på panelet) og ikke-respons (nogle gange folk i den matchede stikprøve nægter at deltage i undersøgelsen). Derfor i praksis, forskere gør prøve matching også udføre en form for efterfølgende stratificering justering at foretage skøn.

Det er svært at give nyttige teoretiske garantier om prøve matching, men i praksis kan klare sig godt. For eksempel, Stephen Ansolabehere og Brian Schaffner (2014) sammenlignet tre parallelle undersøgelser af omkring 1.000 mennesker gennemført i 2010 ved hjælp af tre forskellige prøveudtagning og interviewe metoder: mail, telefon og en internet-panel ved hjælp prøve matching og post-lagdeling justering. Estimaterne fra de tre metoder var meget lig skøn fra høj kvalitet benchmarks såsom Current Population Survey (CPS) og National Health Interview Survey (NHIS). Mere specifikt både internet og e-mail-undersøgelser var slukket ved et gennemsnit på 3 procentpoint og telefonen undersøgelsen var slukket med 4 procentpoint. Fejl denne store er cirka hvad man ville forvente fra prøver af omkring 1.000 mennesker. Selvom ingen af disse tilstande produceret væsentligt bedre data, både internet og telefon-undersøgelse (som tog dage eller uger) var væsentligt hurtigere til felt end post-undersøgelsen (som tog otte måneder), og internettet undersøgelsen, som anvendte prøve matching, var billigere end de andre to tilstande.

Konklusionen er, samfundsforskere og statistikere er utroligt skeptiske over for følgeslutninger fra disse ikke-sandsynlighed prøver, dels fordi de er forbundet med nogle pinlige fejl i undersøgelsen forskning såsom Literary Digest meningsmåling. I del, er jeg enig i denne skepsis: ujusterede ikke-sandsynlighed prøver tilbøjelige til at producere dårlige skøn. Men hvis forskerne kan justere for skævheder i prøvetagning proces (f.eks, efterfølgende stratificering) eller styre prøvetagning proces noget (fx prøve matching), de kan producere bedre skøn, og selv estimater af tilstrækkelig kvalitet til de fleste formål. Selvfølgelig ville det være bedre at gøre perfekt udført stikprøver, men som ikke længere synes at være en realistisk mulighed.

Både ikke-sandsynlighed prøver og sandsynlighedsfordelinger prøver varierer i deres kvalitet, og det er i øjeblikket sandsynligt sådan, at de fleste estimater fra sandsynlighed prøver er mere troværdige end estimater fra ikke-stikprøver med tilfældig udvælgelse. Men selv nu, skøn fra velgennemførte ikke-sandsynlighed prøver er formentlig bedre end estimater fra dårligt udført stikprøver med tilfældig udvælgelse. Yderligere, ikke-stikprøver er væsentligt billigere. Det fremgår således, at sandsynligheden vs ikke-tilfældig stikprøveudtagning giver en billig kvalitet afvejning (figur 3.6). Fremadrettet forventer jeg, at skøn fra godt gjort ikke-sandsynlighed prøver bliver billigere og bedre. Endvidere på grund af fordelingen i fastnet telefon undersøgelser og stigende rater af ikke-svar, forventer jeg, at sandsynligheden prøver vil blive dyrere og af ringere kvalitet. På grund af disse langsigtede tendenser, tror jeg, at ikke-stikprøver vil blive stadig vigtigere i den tredje æra af undersøgelsen forskning.

Figur 3.6: Sandsynlighed prøvetagning i praksis og ikke-stikprøver er både store, heterogene kategorier. Generelt er der en cost-error trade-off med ikke-tilfældig stikprøveudtagning er lavere omkostninger, men højere fejl. Dog kan gennemstegt ikke-stikprøver producere bedre estimater end dårligt udført stikprøver. I fremtiden forventer jeg, at ikke-stikprøver vil få bedre og billigere, mens stikprøver vil blive værre og dyrere.