3.4.1 Vjerojatnost uzorkovanja: prikupljanje podataka i analiza podataka

Utezi se mogu poništiti poremećaje namjerno uzrokovane postupkom uzorkovanja.

Uzorci vjerojatnosti su one gdje svi ljudi imaju poznati nule vjerojatnost uključivanja i najjednostavniji uzorkovanja vjerojatnost je jednostavan slučajni uzorak, gdje svaka osoba ima jednaku vjerojatnost uključivanja. Kada su ispitanici odabrani putem jednostavnog slučajnog uzorkovanja sa savršenom izvršenja (npr bez greške pokrivenosti i bez neodaziva), a zatim procjena je jednostavan zato jer će uzorak na prosječne biti minijaturna verzija stanovništva.

Jednostavan slučajni uzorak se rijetko koristi u praksi, međutim. Umjesto toga, znanstvenici su namjerno odabrali ljude s nejednakim vjerojatnosti uključivanja u cilju smanjenja troškova i povećanja točnosti. Kad su istraživači namjerno odabir ljudi s različitim vjerojatnostima uključivanje, a zatim prilagodbe potrebne za poništavanje distorzije uzrokovane postupkom uzorkovanja. Drugim riječima, kako ćemo generalizirati iz uzorka ovisi o tome koliko je izabran uzorak.

Na primjer, Trenutni Stanovništvo Survey (CPS) se koristi od strane američke vlade za procjenu stope nezaposlenosti. Svaki mjesec oko 100.000 ljudi razgovarali, bilo licem u lice ili putem telefona, a rezultati se koriste za proizvodnju stopu procijenjeni nezaposlenosti. Budući da vlada želi procijeniti stopu nezaposlenosti u svakoj državi, to ne može napraviti jednostavan slučajni uzorak odraslih jer bi se dobio premalo ispitanika u zemljama s malim populacijama (npr Rhode Island) i previše od država s velikim populacijama (npr , California). Umjesto toga, CPS uzoraka ljudi u različitim državama u različito vrijeme, proces koji se naziva slojevitog uzorkovanja s nejednakom vjerojatnost selekcije. Na primjer, ako CPS htjeli 2.000 ispitanika po državi, onda odrasli u Rhode Island će imati oko 30 puta veća vjerojatnost uključivanja od odraslih u Kaliforniji (Rhode Island: 2.000 ispitanika po 800.000 odraslih vs Kaliforniji: 2.000 ispitanika po 30.000.000 odrasle). Kao što ćemo vidjeti kasnije, ta vrsta uzorkovanja s nejednakom vjerojatnosti događa s online izvora podataka previše, ali za razliku od CPS, mehanizam uzorkovanja obično ne zna, ili pod kontrolom istraživača.

S obzirom na njegov dizajn uzorka, CPS nije izravno predstavnik SAD-a; to uključuje previše ljudi iz Rhode Islanda i premalo iz Kalifornije. Stoga bi bilo mudro procijeniti stopu nezaposlenosti u zemlji sa stopom nezaposlenosti u uzorku. Umjesto uzorka srednje, bolje je da se ponderirani prosjek, gdje su ponderi objasniti činjenicu da su ljudi iz Rhode Islanda bili su više vjerojatno da će biti uključeni od ljudi iz Kalifornije. Na primjer, svaka osoba iz Kalifornije će biti upweighted- će brojati više u procjeni-a svake osobe iz Rhode Island će otpasti-oni će brojati manje u procjeni. U biti, ti si dao više glasa za ljude koji su manje vjerojatno da će učiti o tome.

Ovaj primjer igračka ilustrira važan, ali često pogrešno shvaćen point: uzorak ne mora biti minijaturna verzija stanovništva kako bi se proizvoditi dobre procjene. Ako dovoljno je poznato o tome kako se podaci prikupljaju, a zatim da se informacije mogu koristiti prilikom procjene iz uzorka. Pristup sam upravo opisao, a to sam opisati matematički u tehničkom dodatku-padne ravno u klasičnom okviru uzorkovanja vjerojatnosti. Sada ću pokazati kako da ista ideja može primijeniti na uzorcima koji nisu vjerojatnosti.