3.4.2 Non-kans monsters: weging

Bij niet-waarschijnlijkheid monsters, kunnen gewichten verstoringen die worden veroorzaakt door de veronderstelde sampling proces ongedaan te maken.

Op dezelfde wijze dat onderzoekers gewicht antwoorden van kanssteekproeven, kunnen ze ook reacties van niet-waarschijnlijkheid monsters gewicht. Bijvoorbeeld, als een alternatief voor de CPS, stel dat je banner advertenties geplaatst op duizenden websites om deelnemers te werven voor een onderzoek naar de werkloosheid te schatten. Natuurlijk, zou u sceptisch dat de eenvoudige gemiddelde van uw steekproef een goede schatting van de werkloosheid zou zijn. Uw scepsis is waarschijnlijk omdat je denkt dat sommige mensen hebben meer kans op uw enquête dan anderen te voltooien. Bijvoorbeeld, mensen die niet veel tijd hoeft te besteden aan het web hebben minder kans om uw enquête in te vullen.

Zoals we zagen in de vorige paragraaf, maar als we weten hoe de steekproef was-zoals wij dat doen met een waarschijnlijkheid monsters-dan kunnen we verstoringen die worden veroorzaakt door de bemonstering proces ongedaan te maken. Helaas, bij het werken met niet-waarschijnlijkheid monsters, we weten niet hoe het monster werd geselecteerd. Maar kunnen we aannames over de bemonstering proces en breng weging op dezelfde manier. Als deze veronderstellingen juist zijn, dan zal de weging van de verstoringen die worden veroorzaakt door de bemonstering proces ongedaan te maken.

Stel bijvoorbeeld dat in reactie op uw banner advertenties, je 100.000 respondenten geworven. Echter, hoeft u niet van mening dat deze 100.000 respondenten zijn een makkelijke aselecte steekproef van de Amerikaanse volwassenen. In feite, wanneer u uw respondenten te vergelijken met de Amerikaanse bevolking, vind je dat mensen uit sommige landen (bv, New York) zijn oververtegenwoordigd en dat mensen uit sommige landen (bijvoorbeeld Alaska) zijn ondervertegenwoordigd. Zo is het werkloosheidspercentage van uw monster is waarschijnlijk een slechte inschatting van de werkloosheid in de doelgroep zijn.

Een manier om de vervorming die gebeurde in de sampling proces ongedaan te maken is om de gewichten aan elke persoon toe te wijzen; lagere gewichten om mensen uit landen die oververtegenwoordigd zijn in de steekproef (bijvoorbeeld New York) en hogere gewichten om mensen uit landen die ondervertegenwoordigd zijn in de steekproef (bijvoorbeeld Alaska). Meer specifiek wordt het gewicht per respondent gerelateerd aan de prevalentie in monster ten opzichte van de prevalentie in de Amerikaanse bevolking. Deze weging procedure heet post-stratificatie, en het idee van wegen moet je denken aan het voorbeeld in paragraaf 3.4.1, waar de respondenten uit Rhode Island minder gewicht kregen dan respondenten uit Californië. Post-stratificatie vereist dat u genoeg om uw respondenten in groepen te zetten en om het aandeel van de doelgroep van elke groep weten.

Hoewel de weging van de aselecte steekproef en van de niet-aselecte steekproef zijn hetzelfde wiskundig (zie technische bijlage), werken ze goed in verschillende situaties. Als de onderzoeker heeft een perfecte kans monster (dat wil zeggen, geen dekking fout en geen non-respons), dan zal weging onpartijdige ramingen voor alle kenmerken in alle gevallen. Deze sterke theoretische garantie is de reden waarom voorstanders van waarschijnlijkheid monsters vindt ze zo aantrekkelijk. Anderzijds zullen weging niet-kanssteekproeven alleen produceren zuivere schattingen voor alle kenmerken als het antwoord neigingen zijn hetzelfde voor iedereen in elke groep. Met andere woorden, denken terug naar ons voorbeeld, met behulp van post-stratificatie zal onpartijdige schattingen als iedereen in New York heeft dezelfde kans om deel te nemen en iedereen in Alaska heeft dezelfde kans om deel te nemen en ga zo maar door. Deze aanname wordt de homogene-response-neigingen-binnen-groepen aanname, en het speelt een belangrijke rol in de wetenschap als post-stratificatie goed zal werken met niet-waarschijnlijkheid monsters.

Helaas, in ons voorbeeld, lijkt onwaarschijnlijk om waar te zijn de homogene-response-neigingen-binnen-groepen veronderstelling. Dat wil zeggen, lijkt het onwaarschijnlijk dat iedereen in Alaska heeft dezelfde kans om in uw enquête. Maar er zijn drie belangrijke punten in gedachten te houden over de post-stratificatie, die allemaal het lijkt veelbelovend.

Eerst, homogene-respons-neigingen-in-groepen aanname wordt aannemelijker als het aantal groepen toeneemt. En, zijn de onderzoekers niet beperkt tot groepen alleen gebaseerd op één enkele geografische dimensie. Zo kunnen we groepen maken op basis van de staat, leeftijd, geslacht en opleidingsniveau. Het lijkt aannemelijk dat er homogene reactie neigingen binnen de groep van 18-29, vrouwelijke, afgestudeerden leven in Alaska dan binnen de groep van alle mensen in Alaska. Zoals de aantal groepen voor poststratificatie toeneemt, de aannames nodig ondersteunen worden redelijker. Gegeven dit feit, het lijkt een onderzoekers zou willen een groot aantal groepen voor post-stratificatie. Maar, als het aantal groepen toeneemt, onderzoekers tegenkomen een ander probleem: data sparsity. Als er slechts een klein aantal mensen in elke groep, dan zal de schattingen meer onzeker te zijn, en in het uiterste geval waar sprake is van een groep die geen respondenten heeft, dan is post-stratificatie breekt helemaal naar beneden. Er zijn twee manieren om uit deze inherente spanning tussen de plausibiliteit van homogeneous- response-geneigdheid-binnen-groepen aanname en de vraag naar redelijke steekproefomvang in elke groep. Een benadering is om naar een geavanceerde statistische model waardoor gewichten en de andere is om een ​​grotere, meer diverse monster, wat ervoor zorgt redelijke steekproefomvang elke groep verzamelen. En soms onderzoekers beide doen, zoals ik hieronder in meer detail beschrijven.

Een tweede overweging bij het werken met post-stratificatie van niet-waarschijnlijkheid monsters is dat de homogene-response-geneigdheid-binnen-groepen aanname is al vaak gemaakt bij de analyse van waarschijnlijkheid monsters. De reden dat deze veronderstelling is nodig voor waarschijnlijkheid monsters in de praktijk dat waarschijnlijkheid monsters non-respons en de meest gebruikte methode voor correctie van niet-respons poststratificatie zoals hierboven beschreven. Natuurlijk, gewoon omdat veel onderzoekers maken een bepaalde veronderstelling betekent niet dat je het ook moet doen. Maar, betekent het dat bij de vergelijking van niet-waarschijnlijkheid monsters waarschijnlijkheid monsters in de praktijk, moeten we er rekening mee dat beide afhankelijk zijn van aannames en hulpstoffen in om schattingen te houden. In de meeste realistische settings, er is gewoon geen aanname-vrije benadering van de gevolgtrekking.

Tot slot, als je de zorg over een schatting in het bijzonder in ons voorbeeld werkloosheidspercentage-dan heb je een aandoening zwakker dan homogene-response-geneigdheid-binnen-groepen aanname nodig. In het bijzonder, heb je niet nodig om te veronderstellen dat iedereen hetzelfde antwoord neiging, hoeft u alleen maar om te veronderstellen dat er geen correlatie bestaat tussen de respons neiging en het werkloosheidspercentage binnen elke groep. Natuurlijk zal ook deze zwakkere voorwaarde houdt in sommige situaties. Stel bijvoorbeeld het schatten van het aandeel van de Amerikanen die vrijwilligerswerk doen. Als mensen die vrijwilligerswerk doen hebben meer kans om het eens te worden in een enquête, dan onderzoekers systematisch overschatten de hoeveelheid vrijwilligerswerk, zelfs als ze post-stratificatie aanpassingen, een resultaat dat empirisch aangetoond door Abraham, Helms, and Presser (2009) .

Zoals ik al eerder zei, zijn niet-kans monsters bekeken met grote scepsis door sociale wetenschappers, omdat in een deel van hun rol in een aantal van de meest beschamende storingen in de vroege dagen van survey-onderzoek. Een duidelijk voorbeeld van hoe ver we zijn gekomen met niet-aselecte steekproeven is het onderzoek van Wei Wang, David Rothschild, Sharad Goel, en Andrew Gelman dat de uitkomst van de 2012 Amerikaanse verkiezingen correct hersteld met behulp van een niet-aselecte steekproef van de Amerikaanse Xbox-gebruikers -een uitgesproken niet-aselecte steekproef van de Amerikanen (Wang et al. 2015) . De onderzoekers aangeworven respondenten uit de Xbox gaming systeem, en zoals je zou verwachten, de Xbox steekproef scheef mannelijke en scheef jong: 18 - 29 jarigen maken 19% van de kiezers, maar 65% van de Xbox monster en mannen vormen 47% van de kiezers en 93% van de Xbox monster (Figuur 3.4). Vanwege deze sterke demografische vooroordelen, de ruwe data Xbox was een slechte indicator van de verkiezing rendementen. Het voorspelde een sterke overwinning voor Mitt Romney dan Barack Obama. Nogmaals, dit is een ander voorbeeld van de gevaren van de ruwe, ongecorrigeerde niet-waarschijnlijkheid monsters en doet denken aan de Literaire Digest fiasco.

Figuur 3.4: Demografie van de respondenten in Wang et al. (2015). Omdat respondenten werden gerekruteerd uit XBox, waren eerder jonge en vaker mannelijke opzichte van kiezers in de verkiezing 2012 te zijn.

Figuur 3.4: Demografie van de respondenten in Wang et al. (2015) . Omdat respondenten werden gerekruteerd uit XBox, waren eerder jonge en vaker mannelijke opzichte van kiezers in de verkiezing 2012 te zijn.

Echter, Wang en zijn collega's waren zich bewust van deze problemen en probeerde de respondenten te wegen om te corrigeren voor de bemonstering proces. In het bijzonder, gebruikten ze een meer verfijnde vorm van de post-stratificatie ik je vertelde. Het is de moeite waard te leren een beetje meer over hun aanpak, omdat het intuïtie over post-stratificatie bouwt, en de specifieke versie Wang en collega's gebruikt is een van de meest opwindende manieren om gewicht niet-waarschijnlijkheid monsters.

In ons eenvoudige voorbeeld over de raming van de werkloosheid in paragraaf 3.4.1, we verdeeld de bevolking in groepen op basis van de staat van de woonplaats. In contrast, Wang en zijn collega's verdeelde de bevolking in naar 176.256 groepen gedefinieerd door: geslacht (2 categorieën), ras (4 categorieën), leeftijd (4 categorieën), onderwijs (4 categorieën), staat (51 categorieën), partij-ID (3 categorieën), ideologie (3 categorieën) en 2008 stemmen (3 categorieën). Met meer groepen, de onderzoekers hoopten dat het steeds waarschijnlijker dat binnen elke groep, reactie neiging was niet gecorreleerd met ondersteuning voor Obama zou zijn. Volgende, in plaats van de bouw van individueel niveau gewichten, zoals we in ons voorbeeld deed, Wang en zijn collega's gebruikten een complex model om het aandeel van de mensen schatten in elke groep die voor Obama zou stemmen. Tot slot, combineerden zij deze groep schattingen van de steun met de bekende grootte van elke groep een geschatte totale omvang van de steun te produceren. Met andere woorden, gehakt ze de bevolking in verschillende groepen, schatte de steun voor Obama in elke groep, en nam toen een gewogen gemiddelde van de ramingen groep een globale schatting te produceren.

Dus de grote uitdaging die benaderen om de steun voor Obama schatten in elk van deze groepen 176.256. Hoewel hun panel opgenomen 345.858 unieke deelnemers, een groot aantal door de normen van de verkiezing polling, waren er vele, vele groepen waarvoor Wang en zijn collega's had bijna geen respondenten. Daarom is de steun in elke groep ze gebruik gemaakt van een techniek genaamd multilevel regressie met post-stratificatie, waarin onderzoekers liefkozend heer P. In wezen noemen, naar de steun voor Obama te schatten binnen een specifieke groep, de heer P. pools informatie uit vele schatten nauw verwante groepen. Denk bijvoorbeeld aan de uitdaging van het schatten van de steun voor Obama onder vrouwelijke, Hispanics, tussen de 18-29 jaar oud, die afgestudeerden, die zijn ingeschreven democraten, die zichzelf identificeren als gematigden, en wie in 2008. Dit stemde voor Obama is een zeer, zeer specifieke groep, en het is mogelijk dat er niemand in het monster met deze kenmerken. Daarom schattingen over deze groep te maken, de heer P. zwembaden schat samen van mensen in zeer vergelijkbare groepen.

Met deze analysestrategie, Wang en collega's konden de XBox niet- kanssteekproef om nauw schatten de totale steun die Obama ontvangen in de verkiezing 2012 (figuur 3,5). In feite waren hun schattingen nauwkeuriger dan een aggregaat van de publieke opinie peilingen. Dus, in dit geval, weging-specifiek heer P.-lijkt een goede baan het corrigeren van de vooroordelen in non-waarschijnlijkheid data te doen; biases die zichtbaar zijn als je kijkt naar de raming van de niet-aangepaste Xbox data.

Figuur 3.5: Schattingen van Wang et al. (2015). Ongecorrigeerde XBox sample geproduceerd onnauwkeurige schattingen. Maar, de gewogen XBox monster geproduceerd schattingen die nauwkeuriger is dan het gemiddelde van waarschijnlijkheid op basis van telefonische enquêtes waren.

Figuur 3.5: Schattingen van Wang et al. (2015) . Ongecorrigeerde XBox sample geproduceerd onnauwkeurige schattingen. Maar, de gewogen XBox monster geproduceerd schattingen die nauwkeuriger is dan het gemiddelde van waarschijnlijkheid op basis van telefonische enquêtes waren.

Er zijn twee belangrijke lessen uit de studie van Wang en collega's. Ten eerste kan niet-gecorrigeerde non-kans monsters leiden tot slechte ramingen; Dit is een les die veel onderzoekers eerder hebben gehoord. Echter, de tweede les is dat de niet-waarschijnlijkheid monsters, wanneer behoorlijk gewogen, kan eigenlijk produceren heel goed schattingen. In feite, hun schattingen waren nauwkeuriger dan de ramingen van pollster.com, een samenvoeging van de meer traditionele verkiezing peilingen.

Tenslotte zijn er belangrijke beperkingen aan wat we kunnen leren van deze specifieke studie. Gewoon omdat post-stratificatie goed gewerkt in dit specifieke geval is er geen garantie dat het goed zal werken in andere gevallen. In feite, de verkiezingen zijn misschien wel een van de gemakkelijkste instellingen omdat enquêteurs zijn het bestuderen van de verkiezingen voor bijna 100 jaar, is er regelmatig feedback (we kunnen zien wie de verkiezingen wint), en de identificatie partij en demografische kenmerken zijn relatief voorspellend voor de stemming. Op dit moment ontbreekt ons solide theorie en empirische ervaring weten wanneer gewicht aanpassing van niet-kanssteekproeven voldoende nauwkeurige schattingen te produceren. Een ding dat duidelijk is, is echter als je gedwongen wordt om te werken met niet-waarschijnlijkheid monsters, dan is er een sterke reden om te geloven dat de aangepaste ramingen beter dan niet-aangepaste ramingen zal zijn.