3.4.1 Waarschijnlijkheid bemonstering: dataverzameling en analyse

Gewichten kunnen verstoringen opzettelijk veroorzaakt door de sampling proces ongedaan te maken.

Probability monsters zijn die waar alle mensen hebben een bekende, niet-nul kans op integratie, en de eenvoudigste kanssteekproeven ontwerp is eenvoudig aselecte steekproef, waar elke persoon heeft gelijke kans op integratie. Wanneer respondenten worden geselecteerd via een enkelvoudige aselecte steekproef met een perfecte uitvoering (bijvoorbeeld geen dekking fout en geen non-respons), dan is de schatting is eenvoudig, omdat de sample-op een miniatuur versie van de bevolking gemiddeld-zijn.

Enkelvoudige aselecte steekproef wordt zelden gebruikt in de praktijk echter. Integendeel, de onderzoekers mensen met ongelijke kansen van opname selecteren opzettelijk met het oog op de kosten te verminderen en de nauwkeurigheid. Toen onderzoekers opzettelijk mensen met verschillende kansen op integratie te selecteren en aanpassingen zijn nodig om de verstoringen die worden veroorzaakt door de bemonstering proces ongedaan te maken. Met andere woorden, hoe we generaliseren een monster hangt af van hoe het monster is gekozen.

Zo is de huidige bevolking Survey (CPS) die door de Amerikaanse regering om de werkloosheid te schatten. Elke maand ongeveer 100.000 mensen worden geïnterviewd, hetzij face-to-face of via de telefoon, en de resultaten worden gebruikt om de geschatte werkloosheidspercentage produceren. Omdat de overheid wil de werkloosheid in elke staat te schatten, kan het een eenvoudige aselecte steekproef van volwassenen niet doen omdat dat te weinig respondenten zou opleveren in landen met kleine populaties (bv, Rhode Island) en te veel van staten met een grote bevolking (bv , Californië). In plaats daarvan, de CPS monsters mensen in verschillende landen met verschillende snelheden, een proces genaamd gestratificeerde steekproef met ongelijke kans op selectie. Bijvoorbeeld, als de CPS gezocht 2000 respondenten per toestand, dan volwassenen Rhode Island zou ongeveer 30 maal hogere kans dan volwassenen opneming in Californië (Rhode Island: 2000 respondenten per 800.000 volwassenen vs California: 2000 respondenten per 30.000.000 volwassenen). Zoals we later zullen zien, dit soort bemonstering met ongelijke kans gebeurt met online bronnen van de gegevens ook, maar in tegenstelling tot de CPS, wordt de sampling mechanisme meestal niet bekend of gecontroleerd door de onderzoeker.

Gezien de bemonstering ontwerp, de CPS is niet direct representatief voor de VS; het bevat te veel mensen uit Rhode Island en te weinig uit Californië. Daarom zou het onverstandig zijn om de werkloosheid in het land te schatten met het werkloosheidspercentage in de steekproef. In plaats van het monster betekenen, is het beter om een ​​gewogen gemiddelde, waarbij de gewichten het feit verklaren dat mensen uit Rhode Island waren eerder worden opgenomen dan mensen uit Californië nemen. Zo zou elke persoon uit Californië zijn upweighted- ze meer in de schatting-en elke persoon uit Rhode Island zou worden zou tellen downweighted-zij zouden minder in de schatting tellen. In wezen, krijgt u meer stem aan mensen die je minder kans om te leren over.

Dit speelgoed voorbeeld illustreert een belangrijke maar vaak verkeerd begrepen onder: een monster hoeft niet een miniatuurversie van de bevolking om goede schattingen. Als er genoeg bekend over hoe de gegevens zijn verzameld, dan is dat informatie kan worden gebruikt bij het maken van schattingen van het monster. De benadering die ik heb zojuist beschreven, en dat ik wiskundig beschreven in de technische bijlage-valt volledig binnen de klassieke kanssteekproeven kader. Nu zal ik tonen hoe hetzelfde idee kan worden toegepast op niet-waarschijnlijkheid monsters.