3.3.1 Zastupanje

Predstavljanje je o pravljenju zaključaka iz vašeg ispitanika na ciljane populacije.

Da bi se shvatilo vrstu greške koje se može dogoditi kada se izvođenje zaključka od ispitanika na veće populacije, razmotrimo Književni Digest slame ankete koja je pokušala da predvidi ishod američkih predsjedničkih izbora 1936. godine. Iako je to bilo prije više od 75 godina, ovaj debakl i dalje ima važnu lekciju danas naučiti istraživači.

Književna Digest je popularan opšteg interesa časopisa, a od 1920. godine počeli su radi slame ankete za predviđanje ishoda predsedničkih izbora. Da bi ova predviđanja da će poslati glasačke listiće na mnogo ljudi, a onda jednostavno poklapaju se glasačkih listića koji su se vratili; Književna Digest ponosom izvijestio da je glasački listići su dobili bili ni "weighted, prilagođen, niti tumačiti." Ovaj postupak ispravno predvidio pobjednika izbora 1920. godine, 1924. godine, 1928. godine, a 1932. Godine 1936., u jeku Velike depresije, Književna Digest poslao glasačkih listića do 10 miliona ljudi, čija imena uglavnom dolazi iz telefonskim imenicima i registraciji vozila zapisa. Evo kako su opisali svoje metodologije:

"Glatko-radnih mašina Pomera Digest sa brzim preciznost trideset godina iskustva da se smanji nagađanja da čvrstim činjenicama. . . .Ovaj Tjedan 500 olovke izgreban više od četvrt milijuna adresa dnevno. Svaki dan, u velikoj prostoriji visoko iznad motor-trakama Fourth Avenue, u New Yorku, 400 radnika spretno klizi milion komada tiskovina-dovoljno da otvori četrdeset gradskih blokova-u obratio koverte [sic]. Svaki sat, u Digesta vlastite Post Office trafostanice, tri cvokotanje poštarina mjerne mašine zapečaćena i ovjeren beli pravougaonik; stručnih poštanski zaposlenih ih prevrnuo u ispupčen mailsacks; flota DIGEST kamioni ubrzao im da izraze mail-vozova. . . Naredne sedmice, prvi odgovore od ovih deset miliona će početi dolazeći plima glasačke listiće, da bi treći put, potvrditi, pet puta cross-tajnih i iznosio. Kada je poslednja cifra je totted i provjeren, ako prethodno iskustvo je kriterij, zemlja će znati da u deliću 1 posto stvarnih glasova od 40.000.000 [birača]. "(22. avgust 1936)

U Digest je fetišizacija veličine je odmah prepoznatljiv na bilo "Big Data" istraživač danas. Od 10 miliona glasačkih listića distribuiranih, nevjerovatan 2,4 miliona glasačkih listića vraćeni-to je oko 1.000 puta veća od moderne političke anketama. Iz tih 2,4 milijuna ispitanika je presuda jasna Literary Digest je predvidio da je izazivač Alf Landon je da pobjedi sadašnjeg Franklin Roosevelt. Ali, u stvari, upravo suprotno se dogodilo. Roosevelt porazio Landon u klizišta. Kako je mogao Literary Digest pogriješiti s toliko podataka? Naš moderni razumijevanje uzorkovanja čini grešaka Književna Digest je jasan i pomaže nam da izbegnu da slične greške u budućnosti.

jasno Razmišljanje o uzorkovanje nas traži da razmotrimo četiri različite grupe ljudi (Slika 3.1). Prva grupa ljudi je ciljna populacija; ovo je grupa koja je istraživanje definira kao populacije od interesa. U slučaju književnih Digest ciljne populacije bio birača u 1936. na predsedničkim izborima. Nakon donošenja odluke o ciljne populacije, istraživač pored mora razviti spisak ljudi koji se mogu koristiti za uzorkovanje. Ova lista se naziva uzorkovanje okvira i stanovništvo na okvir uzorkovanja se zove okvir stanovništva. U slučaju književnih Digest stanovništva okvir bio je 10 milijuna ljudi čija imena su uglavnom iz telefonskim imenicima i registraciji vozila zapisa. Idealno ciljne populacije i stanovništvo okvir će biti potpuno isti, ali u praksi to često nije slučaj. Razlike između ciljne populacije i okvir stanovništvo se nazivaju pokrivenosti pogreške. greška Pokrivenost ne, samo po sebi garantuje problema. Ali, ako ljudi u populaciji kadru su sistematski razlikuju od ljudi koji nisu u populaciji kadru neće biti pokrivenost predrasuda. Greška Pokrivenost je bio prvi od glavnih nedostataka sa književne Digest anketi. Oni su htjeli da se upoznaju birače-to je njihova ciljna populacija-ali su izgrađeni okvir uzorkovanja pretežno iz telefonskim imenicima i auto registara, izvora koji više zastupljeni bogatiji Amerikanci koji su bili skloniji podržati Alf Landon (opoziv da su oba ova tehnologija, koji su zajednički danas, bili su relativno novi u to vrijeme i da su SAD u jeku Velike depresije).

Slika 3.1: Reprezentacija greške.

Slika 3.1: Reprezentacija greške.

Nakon definisanja stanovništva okvir, sljedeći korak je za istraživač za odabir uzorka stanovništva; to su ljudi koji će istraživač pokušati da razgovara. Ako uzorak ima različite karakteristike od populacije okvir, onda možemo uvesti greška uzorka. To je vrsta pogreške kvantificirane u margina greške koje obično prati procjene. U slučaju književnih Digest fijasko, da zapravo nije bilo uzorka; oni su pokušali kontaktirati svima u populaciji kadru. Iako nije bilo greške uzorkovanja, bilo je očigledno još uvijek greška. To pojašnjava da marginama greške koje se obično prijavljena s procjenama iz istraživanja su obično pogrešno mali; oni ne uključuju sve izvore pogreške.

Konačno, istraživač pokušava da razgovara sa svima u uzorku stanovništva. Ti ljudi koji su uspješno anketiranih nazivaju ispitanika. U idealnom slučaju, uzorak stanovništva i ispitanici će biti potpuno isti, ali u praksi ne postoji ne-odgovor. To je, ljudi koji su izabrani u uzorak odbijaju da učestvuju. Ako ljudi koji odgovaraju su drugačiji od onih koji ne odgovaraju, onda ne može biti pristrasnost ne-odgovor. Pristrasnost neodaziva je bio drugi glavni problem sa književne Digest anketi. Samo 24% ljudi koji su dobili glasačke odgovorio, a ispostavilo se da su ljudi koji su podržavali Landon su veće šanse da odgovori.

Osim samo što je primjer da se uvedu ideje zastupanja, Književna Digest ankete je često ponavlja parabolu, upozoravajući istraživači o opasnostima nasumičnih uzorkovanja. Nažalost, mislim da je lekcija koju mnogi ljudi izvući iz ove priče je pogrešan. Najčešći Pouka priče je da istraživači ne mogu ništa naučiti iz uzoraka ne verovatnoća (tj uzorci bez strogih pravila vjerojatnost na bazi za odabir učesnika). Ali, kao što ću pokazati kasnije u ovom poglavlju, to nije sasvim u pravu. Umjesto toga, mislim da su zaista dva morala u ovoj priči; morala da su pravi danas kao što su bili u 1936. Prvo, veliku količinu slučajno prikupljeni podaci neće garantirati dobar procjena. Drugo, istraživači moraju da čine kako je njihov prikupljenih podataka kada su čineći procjene od toga. Drugim riječima, jer je proces prikupljanja podataka u književnom Digest Anketa je sistematski iskrivljen prema nekim ispitanika, istraživači moraju da koriste složeniji proces procjene da težine neki ispitanici više od drugih. Kasnije u ovom poglavlju, ja ću vam pokazati jedan takav pondera postupak-post-stratifikacije-koje možete omogućiti da se bolje procjene sa uzorcima ne verovatnoća.