3.3.1 Zastupanje

Predstavljanje je o pravljenju zaključaka iz vašeg ispitanika na ciljane populacije.

Da bismo razumeli greške koje se mogu dogoditi kada se od ispitanika izjasne na veću populaciju, uzmemo u obzir Anketa o književnom dijalogu koja je pokušala predvidjeti ishod američkih predsjedničkih izbora iz 1936. godine. Iako se to dogodilo prije više od 75 godina, ova debakla i dalje ima važnu lekciju za predavanje istraživača danas.

Literarni Digest je bio popularan časopis za opšti interes, a počevši od 1920. godine počeli su da vrše ankete slame kako bi predvidjeli ishod predsedničkih izbora. Da bi napravili ove predviđanja, poslali bi glasačke listi puno ljudi, a zatim jednostavno naveli glasačke liste koje su vraćene; Literarni Digest je sa ponosom objavio da glasački listići koje su dobili nisu ni "ponderisani, prilagođeni ili tumačeni". Ovaj postupak je tačno predvidio pobednike izbora 1920, 1924, 1928 i 1932. Godine 1936. usred Velike depresije, književni Digest je poslala glasačke listiće na 10 miliona ljudi, čije su imena dolazila pretežno iz telefonskih imenica i evidencije o registraciji automobila. Evo kako su opisali njihovu metodologiju:

"Mašina glatkog pokreta DIGEST-a se kreće brzom preciznošću od tridesetogodišnjeg iskustva kako bi se smanjila nagađanja na teške činjenice ... Ove nedelje 500 olovaka su grebale više od četvrtine miliona adresa dnevno. Svakodnevno, u velikoj prostoriji iznad četvrte avenije u četvrtoj aveniji, u Njujorku, 400 radnika pokvareno sklizne milion komada štampanih materijala - dovoljno da utapaju četrdeset blokova grada - u adresirane koverte [sic]. Svaki sat, u svojoj poštanskoj podstanici DIGEST-a, tri mašine za merenje poštarine su zapečatile i potiskivale bele oblake; zaposleni u poštanskom broju su ih prebacivali u ispupčene poštanske pošiljke; flota DIGEST kamioni su ih spustili da ekspresuju poštanske vozove. . . Sledeće sedmice, prvi odgovori iz ovih deset miliona će započeti dolaznu ploču označenih glasačkih listića, biti trostruki, verifikovani, pet puta unakrsno klasifikovani i ukupno. Kada je poslednja brojka obustavljena i proverena, ako je prošlost iskustvo kriterijum, zemlja će u roku od 1% procijeniti stvarno popularno glasanje od četrdeset miliona [birača]. "(22. avgust 1936.)

Fetišiziranje veličine Literarnog Digesta je odmah prepoznato bilo kojem istraživaču "velikih podataka" danas. Od distribuiranih 10 miliona glasačkih listića vraćeno je neverovatnih 2,4 miliona - što je otprilike 1.000 puta veće od modernih političkih anketa. Od ovih 2,4 miliona ispitanika, presuda je bila jasna: Alf Landon će poraziti aktuelnog Franklina Roosevelta. Ali, zapravo, Roosevelt je pobedio Landona u klizanju. Kako bi Literarni digest mogao pogrešiti sa toliko podataka? Naše savremeno razumevanje uzorkovanja čini greške Literarnog Digesta jasnim i pomaže nam da izbjegnemo slične greške u budućnosti.

Jasno razmišljanje o uzimanju uzoraka zahteva da razmotrimo četiri različite grupe ljudi (slika 3.2). Prva grupa je ciljna populacija ; ovo je grupa koju istraživač definira kao populaciju od interesa. U slučaju Literarnog dijaloga , ciljna populacija bila je glasača na predsedničkim izborima 1936. godine.

Nakon odlučivanja o ciljnoj populaciji, istraživač treba da razvije spisak ljudi koji se mogu koristiti za uzimanje uzoraka. Ova lista se naziva okvir za uzorkovanje , a ljudi na njemu se zovu populacija kadrova . Idealno, ciljna populacija i populacija kadrova biće potpuno isti, ali u praksi to često nije slučaj. Na primer, u slučaju Literarnog dijaloga , broj stanovnika bio je 10 miliona ljudi čije su imena pretežno dolazile iz telefonskih imenica i evidencije o registraciji automobila. Razlike između ciljne populacije i populacije kadrova se nazivaju greškom pokrivanja . Greška pokrivanja ne samo po sebi garantuje probleme. Međutim, to može dovesti do pristranosti pokrivenosti ako se ljudi u okviru populacije sistematski razlikuju od ljudi u ciljnoj populaciji koji nisu u okvirima populacije. To je, zapravo, upravo ono što se dogodilo u Anketi Literarnog Digesta . Ljudi u njihovoj populaciji su verovatnije podržavali Alf Landona, dijelom zato što su bili bogatiji (podsetimo da su i telefoni i automobili bili relativno novi i skupi 1936. godine). Dakle, u anketi Literarnog Digesta greška pokrivanja dovela je do pristrasnosti pokrivenosti.

Slika 3.2: Greške reprezentacije.

Slika 3.2: Greške reprezentacije.

Nakon definisanja populacije kadrova , sledeći korak je da istraživač odabere populaciju uzoraka ; ovo su ljudi na koje istraživač pokuša da intervjuiše. Ako uzorak ima različite karakteristike od populacije okvira, onda uzorkovanje može predstaviti grešku uzorkovanja . Međutim, u slučaju filatelja Literary Digest , zapravo nije bilo uzorkovanja - časopisa da kontaktira sve u okviru populacije - i stoga nije bilo greške uzorkovanja. Mnogi istraživači imaju tendenciju da se usredsrede na grešku uzorkovanja - to je tipično jedina vrsta greške zabeležene u margini greške prijavljene u istraživanjima - ali filozof Literarnog Digesta podseća na to da treba uzeti u obzir sve izvore grešaka, slučajne i sistematične.

Na kraju, nakon izbora populacije uzoraka, istraživač pokušava da intervjuiše sve svoje članove. Oni koji su uspešno anketirani se zovu ispitanici . U idealnom slučaju, populacija uzoraka i ispitanika biće potpuno isti, ali u praksi nema odgovora. To znači da ljudi koji su odabrani u uzorku ponekad ne učestvuju. Ako ljudi koji se odazovu razlikuju od onih koji ne reaguju, onda može postojati pristrasnost bez odgovora. Nepriznavanje pristrasnosti je bio drugi glavni problem istraživanja Literarnog Digesta. Samo 24% ljudi koji su dobili glasački listić su odgovorili, a ispostavilo se da su ljudi koji su podržali Landon-a verovatnije odgovorili.

Osim što je samo primjer predstavljanja ideja reprezentacije, anketa Literarnog Digesta je često ponovljena parabola, upozoravajući istraživače o opasnostima slučajnog uzimanja uzoraka. Nažalost, mislim da je lekcija koju mnogi ljudi prikupe iz ove priče pogrešna. Najčešći moralni element priče je da istraživači ne mogu naučiti ništa od uzoraka koji nisu vjerojatni (tj. Uzorci bez strogih pravila zasnovanih na verovatnoći za odabir učesnika). Ali, kao što ću kasnije pokazati u ovom poglavlju, to nije sasvim ispravno. Umjesto toga, mislim da postoje stvarno dva morala za ovu priču; Morali su danas toliko istiniti koliko su bili 1936. godine. Prvo, velika količina slučajno prikupljenih podataka neće garantovati dobru procjenu. Općenito, imajući veliki broj ispitanika smanjuje varijansu procjena, ali to ne mora nužno smanjiti pristrasnost. Sa puno podataka, istraživači mogu ponekad dobiti tačnu procjenu pogrešne stvari; oni mogu biti precizni netačni (McFarland and McFarland 2015) . Druga glavna lekcija filozofa Literarnog Digesta je da istraživači moraju da objasne kako je njihov uzorak prikupljen prilikom procenjivanja. Drugim rečima, pošto je proces uzorkovanja u istraživanju Literarnog Digesta bio sistematski iskrivljen prema nekim ispitanicima, istraživači su morali da koriste složeniji proces procene koji je ponderisao neke ispitanike više od drugih. Kasnije u ovom poglavlju, pokazaću vam jednu takvu proceduru pondera - post-stratifikaciju - koja vam omogućava da napravite bolje procjene iz slučajnih uzoraka.