3.4 Ko da pitam

Uzoraka verovatnoća i uzorci nisu verovatnoća nisu toliko različiti u praksi; u oba slučaja, to je sve o težine.

Uzorkovanje je fundamentalna istraživanju istraživanja. Istraživači gotovo nikad ne pitaju pitanja svima u svoje ciljne populacije. U tom smislu, istraživanja nisu jedinstveni. Većina istraživanja, na ovaj ili onaj način, uključuje uzorkovanje. Ponekad uzorkovanje vrši izričito istraživač; drugi puta to dogodi implicitno. Na primjer, istraživač koji vodi laboratorijski eksperiment na studente u njoj Univerzitet je također uzima uzorak. Stoga, uzorkovanje je problem koji se pojavljuje u ovoj knjizi. U stvari, jedan od najčešćih problema da čujem o digitalnom dobu izvora podataka ", oni nisu reprezentativni." Kao što ćemo vidjeti u ovom poglavlju, ova zabrinutost je i manje ozbiljna i suptilnije od mnogih skeptika shvatiti. U stvari, ja ću reći da je čitav koncept "reprezentativnosti" nije od pomoći za razmišljanje o uzorcima vjerojatnost i ne-vjerovatnoće. Umjesto toga, ključ je da razmišlja o tome kako je prikupljenih podataka i kako bilo predrasude u tom prikupljanje podataka se može poništiti prilikom procjene.

Trenutno, dominantni teorijski pristup zastupljenost je vjerojatnost uzorkovanje. Kada su podaci prikupljeni sa vjerovatnoćom metodom uzorkovanja koji je savršeno izvršen, istraživači su u mogućnosti da težinu svoje podatke na osnovu načina na koji su prikupljeni da nepristrasno procjene o ciljanoj populaciji. Međutim, savršena vjerojatnost uzorkovanje u osnovi se nikada ne događa u stvarnom svijetu. Postoje obično dva glavna problema 1) razlike između ciljne populacije i stanovništva okvir i 2) ne-odgovor (to su upravo problemi koje uništio Književna Digest anketi). Stoga, umjesto da razmišlja vjerovatnoće uzorkovanja kao realan model onoga što se zaista događa u svijetu, da je bolje da misle vjerovatnoće uzorkovanja kao koristan, apstraktni model, baš kao način na koji fizičari misle o trenja loptu valjanje niz beskonačno dugo rampa.

Alternativa vjerojatnost uzorkovanja je non-verovatnoća uzorkovanje. Glavna razlika između vjerojatnost i ne-verovatnoća uzorkovanje je da uz vjerojatnost uzorkovanja svima u populaciji ima poznata vjerojatnost uključivanja. Postoji, u stvari, mnoge vrste ne-vjerovatnoće uzorkovanja, i ove metode prikupljanja podataka postaju sve češći u digitalnom dobu. Ali, ne-verovatnoća uzorkovanja ima strašnu reputaciju među sociolozi i statističari. U stvari, ne-verovatnoća uzorkovanje je povezan sa nekim od najdramatičnijih kvarova istraživača istraživanja, kao što su Književna Digest fijasko (ranije rečeno) i pogrešnog predviđanja o SAD-u predsjedničkim izborima 1948. godine ( "Dewey Defeats Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .

Međutim, vrijeme je pravo da se preispita nisu vjerojatnost uzorkovanje iz dva razloga. Prvo, kao uzorci verovatnoća postaju sve teže učiniti u praksi, linija između uzoraka vjerojatnost i uzorci nisu verovatnoća je zamućenje. Kada postoje visoke stope neodaziva (kao što postoje u realnom istraživanja sada), stvarna vjerojatnost Uključene za ispitanika nisu poznati, i na taj način, uzorci vjerojatnost i uzoraka ne verovatnoća nisu kao različiti kao mnogi istraživači vjeruju. U stvari, kao što ćemo vidjeti u nastavku, oba pristupa u osnovi se oslanjaju na isti način procjene: post-stratifikacije. Drugo, bilo je mnogo kretanja u prikupljanje i analizu uzoraka ne verovatnoća. Ove metode su dovoljno razlikuju od metoda koja je uzrokovala probleme u prošlosti da mislim da ima smisla razmišljati o njima kao "non-verovatnoća uzorkovanja 2.0." Ne treba imati iracionalan averziju prema metodama ne verovatnoća zbog grešaka koje su se dogodile prije mnogo vremena.

Zatim, kako bi ovaj argument konkretnije, ja ću komentar standard vjerojatnost uzorkovanje i pondera (Odjeljak 3.4.1). Ključna ideja je da kako ste prikupili vaše podatke treba uticati kako bi procjene. Konkretno, ako svi nemaju istu vjerojatnost uključivanja, onda svi ne bi trebalo da imaju istu težinu. Drugim riječima, ako nije demokratska svoj uzorkovanja, onda tvoj procjenama ne bi trebala biti demokratska. Nakon razmatranja pondera, ja ću opisati dva pristupa nisu vjerojatnost uzorkovanja: onaj koji se fokusira na ponder se bave problemom slučajno prikupljenih podataka (Poglavlje 3.4.2), i koji pokušava da postavi više kontrole nad time kako su podaci prikupljeni (odjeljak 3.4.3). Argumenti u glavnom tekstu će biti objašnjeno u nastavku s riječima i slikama; čitaocima koji žele više matematički tretman treba da vidi tehnički dodatak.