3.4.1 sannolikhetsurval: datainsamling och dataanalys

Vikter kan ångra snedvridningar avsikt orsakas av samplingsprocessen.

Sannolikhetsurval är de där alla människor har en känd, icke-noll sannolikhet för integration och den enklaste sannolikhetsurval design är slumpmässigt urval där varje person har lika sannolikhet för integration. När respondenterna väljs via obundet slumpmässigt urval med perfekt utförande (t.ex. ingen täckning fel och ingen bortfall), då uppskattning är okomplicerad, eftersom provet kommer-i genomsnitt-vara en miniatyr av befolkningen.

Slumpmässigt urval används sällan i praktiken. Snarare forskare väljer avsiktligt människor med ojämlika sannolikheter för integration i syfte att minska kostnaderna och öka noggrannheten. När forskare väljer avsiktligt människor med olika sannolikheter för integration, sedan nödvändiga justeringar för att ångra den snedvridning som orsakas av samplingsprocessen. Med andra ord, hur vi generaliserar från ett prov beror på hur provet valdes.

Till exempel är det Current Population Survey (CPS) som används av den amerikanska regeringen för att uppskatta arbetslösheten. Varje månad omkring 100.000 personer intervjuas, antingen ansikte mot ansikte eller via telefon, och resultaten används för att producera den uppskattade arbetslösheten. Eftersom regeringen vill att uppskatta arbetslösheten i varje stat, kan det inte göra ett enkelt slumpmässigt urval av vuxna eftersom det skulle ge alltför få respondenter i stater med små populationer (t.ex. Rhode Island) och alltför många från stater med stora befolkningar (t.ex. , Kalifornien). Istället CPS prover människor i olika länder med olika hastigheter, en process som kallas stratifierad sampling med olika sannolikhet för urval. Till exempel, om CPS ville 2.000 respondenter per stat, vuxna i Rhode Island skulle ha ungefär 30 gånger högre sannolikhet för upptagande än vuxna i Kalifornien (Rhode Island: 2.000 personer per 800.000 vuxna vs Kalifornien: 2.000 personer per 30.000.000 vuxna). Som vi kommer att se senare, den här typen av provtagning med olika sannolikhet händer med online datakällor också, men till skillnad från CPS är provmekanismen vanligtvis inte känd eller kontrolleras av forskaren.

Med tanke på dess provtagningsplan, är CPS inte direkt företrädare för USA; det finns alltför många människor från Rhode Island och för få från Kalifornien. Därför skulle det vara oklokt att uppskatta arbetslösheten i landet med arbetslösheten i provet. I stället för provet medelvärdet, är det bättre att ta ett viktat medelvärde, där vikterna hänsyn till det faktum att människor från Rhode Island var mer benägna att ingå än människor från Kalifornien. Till exempel skulle varje person från Kalifornien vara upweighted- de skulle starkare i uppskattningen-och varje person från Rhode Island skulle downweighted-de skulle räkna mindre i uppskattningen. I huvudsak får du mer röst till människor som du är mindre benägna att lära sig om.

Denna leksak exempel illustrerar en viktig men vanligtvis missförstådda punkt: ett prov behöver inte vara en miniatyrversion av befolkningen för att producera bra uppskattningar. Om tillräckligt är känt om hur data samlades in, då denna information kan användas för att göra uppskattningar från provet. Tillvägagångssättet har jag just beskrivit, och att jag beskriver matematiskt i den tekniska bilagan-faller rakt inom den klassiska ramen sannolikhetsurval. Nu ska jag visa hur samma idé kan tillämpas på icke-sannolikhetsurval.