3.3.1 Zastupljenost

Ovaj prijevod je stvoren od strane računala. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.3.1 Zastupljenost

Predstavljanje je o tome da zaključke iz svojih ispitanika za ciljanu populaciju.

Da bi se razumjelo kakve pogreške koje se mogu dogoditi kada se zaključi sa ispitanika u većoj populaciji, neka je uzeti u obzir Književna Digest slame anketu koji je pokušao predvidjeti ishod izbora predsjednika SAD 1936. Iako je to bilo prije više od 75 godina, ovaj debakl i dalje ima važnu lekciju za naučiti istraživače i danas.

Književna Digest je popularan opći interes časopis, a od 1920. godine počeli prikazivati slame ankete predvidjeti rezultate predsjedničkih izbora. Da bi ta predviđanja da će poslati listića na puno ljudi, a onda jednostavno raboš glasačkih listića koji su se vratili, Književna Digest ponosno objavili da su glasački listići su primili su ni "weighted, prilagoditi, niti tumačiti." Ovaj postupak ispravno predvidio pobjednika izbora u 1920., 1924., 1928. i 1932. u 1936, u jeku Velike depresije, Književna Digest poslao listiće za 10 milijuna ljudi, čija imena većinom došli iz telefonskih imenika i registraciju automobilske zapisa. Evo kako su opisali svoje metodologije:

"Digest je glatko trčanje kreće stroj s brzim preciznošću od trideset godina iskustva da se smanji nagađanja da tvrdim činjenicama. , , .To Tjedan 500 olovke ogreban više od četvrt milijuna adresa dnevno. Svaki dan, u velikoj prostoriji visoko iznad Četvrtoj aveniji motorni vrpčastu, u New Yorku, 400 radnika spretno klizanje milijun komada tiskovina, što je dovoljno za asfaltiranje četrdeset gradskih blokova-u se obratio obavija [sic]. Svaki sat, u pregledu vlastiti Post Office TS, tri brbljala poštarina mjerni strojevi zapečaćena i žigom bijele pravokutnika; vješti poštanskih zaposlenici ih bacio u ispupčen mailsacks; Flota GML kamioni jurili im da izraze mail vlakova. , , Sljedeći tjedan, prve odgovore od tih deset milijuna počet će dolazni plima označenim glasačkih listića, biti triple-ček, provjereno, pet puta unakrsno klasificiran te iznose. Kada je zadnji lik je totted i provjeriti, ako je dosadašnje iskustvo je kriterij, zemlja će znati da se u djeliću 1 posto stvarni glasova od četrdeset milijuna [birača]. "(22. kolovoza 1936.)

Digest je fetishization veličine je odmah prepoznatljiv bilo "veliko podaci" istraživač danas. Od 10 milijuna listića distribuirati, nevjerojatna 2,4 milijuna glasačkih listića vratio-to je otprilike 1000 puta veći od modernih političkih izbora. Od tih 2,4 milijuna ispitanika je presuda bila jasna: Literary Digest predviđa da će izazivač Alf Landon bio idući u pobijediti sadašnji Franklina Roosevelta. Ali, u stvari, upravo suprotno se dogodilo. Roosevelt porazio Landon u klizišta. Kako bi Literary Digest pogriješiti s toliko podataka? Naš moderni razumijevanje uzorkovanja čini književnim Digest pogreške jasan i pomaže nam da se izbjegne stvaranje slične pogreške u budućnosti.

Razmišljajući jasno o uzorkovanju od nas zahtijeva da razmislite o četiri različite skupine ljudi (slika 3.1). Prva skupina ljudi je ciljna populacija; ovo je grupa koja je istraživanje definira kao populacije od interesa. U slučaju književnog Digest ciljna populacija bila birača na predsjedničkim izborima 1936. Nakon odlučivanja o ciljanu populaciju, istraživač pored mora razviti popis osoba koje se mogu koristiti za uzorkovanje. Ovaj popis se zove Okvir za uzorak i populacija na okvir uzorka naziva se okvir stanovništva. U slučaju književnog Digest okvir stanovništvo je 10 milijuna ljudi čija su imena došli pretežno iz telefonskog imenika i registraciju automobilske zapisa. Idealno je ciljna populacija i okvir populacija će biti potpuno isti, ali u praksi to često nije slučaj. Razlike između ciljane populacije i okvira stanovništva zovu pokrivenost pogreška. Pokrivenost pogreška ne, sama po sebi garancija problema. Ali, ako ljudi u okviru populacije sustavno razlikuje od ljudi koji nisu u okvirnu stanovništva bit će pokrivenost pristranost. Pokrivenost greška je bila prva od glavnih nedostataka s književnim Digest anketi. Oni su htjeli saznati o biračima-to je njihova ciljana populacija, ali njih izgrađena okvira uzorkovanja pretežno iz telefonskog imenika i automobilski registara, izvora koji prezastupljene bogatiji Amerikanci, koji su više vjerojatno da će podržati Alf Landon (Sjetite se da obje ove tehnologije, koji su zajednički i danas, bile su relativno novi u to vrijeme i da je SAD u jeku Velike depresije).

Slika 3.1: Zastupanje pogreške.

Nakon definiranja okvira populaciju, sljedeći korak je istraživač za odabir populacije uzorka; to su ljudi koji istraživač će pokušati razgovarati. Ako uzorak ima različite karakteristike od okvira stanovništva, tada možemo uvesti uzorkovanja pogreška. To je vrsta pogreške kvantificirane u margine pogreške koje obično prati procjene. U slučaju Književna Digest fijaska, zapravo nije bilo uzorka; su pokušali kontaktirati sve u okvirnu stanovništva. Iako nije bilo odstupanje uzorka, bilo je očito još uvijek pogreška. To pojašnjava da marginama pogreške koje su najčešće zabilježene s procjenama iz ankete su obično misleadingly mala; oni ne obuhvaćaju sve izvore pogrešaka.

Konačno, istraživač pokušava ispitati sve u uzorku populacije. Oni ljudi koji su uspješno Ispitani su pozvani ispitanika. U idealnom slučaju, uzorak stanovništva i ispitanici će biti isti, ali u praksi ne postoji ne-odgovor. To je, ljudi koji su izabrani u uzorak odbiti sudjelovanje. Ako ljudi koji odgovaraju različiti od onih koji ne reagiraju, onda ne može biti pristranost neodaziva. Pristranost neodaziva je bio drugi glavni problem s Književna Digest anketi. Samo 24% ljudi koji su dobili glasački listić je odgovorio, a ispostavilo se da su ljudi koji podržavaju Landon bili su više vjerojatno da će odgovoriti.

Osim samo jedan primjer da uvedu ideje zastupljenosti, Literary Digest Anketa je često-ponovio parabola, te upozoravaju znanstvenici o opasnostima slučajan nalaz. Nažalost, mislim da je pouka da se mnogi ljudi izvući iz ove priče je pogrešna. Najčešći pouka ove priče je da znanstvenici ne mogu naučiti ništa iz uzoraka koji nisu vjerojatnosti (tj uzorcima bez strogih vjerojatnosti temeljene na pravilima za izbor sudionika). Ali, kao što ću pokazati kasnije u ovom poglavlju, to nije sasvim točno. Umjesto toga, mislim da postoje zapravo dva moral u ovoj priči; moral koji su, kao i danas, kao što su bili u 1936. Prvo, velika količina slučajno prikupljenih podataka ne jamči dobru procjenu. Drugo, znanstvenici trebao uzeti u obzir kako se njihovi podaci prikupljeni kada su stvaranje procjena od njega. Drugim riječima, jer je proces prikupljanja podataka u Književna Digest anketi sustavno nakrivljen prema nekim ispitanika, istraživači trebaju koristiti složeniji proces procjene da utezi neki ispitanici više od drugih. Kasnije u ovom poglavlju, ja ću vam pokazati jedan takav ponderiranje postupak-post-slojevitost-koje vam mogu omogućiti da se bolje procjene s uzorcima koji nisu vjerojatnosti.