3.3.1 Zastopanje

Zastopstvo je v tem, sklepe iz svoje vprašanih vaši ciljni populaciji.

Da bi razumeli vrsto napak, ki se lahko zgodi, ko sklepanja od sodelujočih v večje populacije, kaj menijo o Literary Digest slame anketo, ki so poskušali napovedati izid 1936 ameriških predsedniških volitev. Čeprav je bilo pred več kot 75 leti, je to polom še vedno pomembno lekcijo nauči raziskovalcev danes.

Literarno Digest je bila priljubljena splošnem interesu revije, z začetkom leta 1920 so začeli prikazovati slame ankete napovedati izide predsedniških volitvah. Da bi te napovedi, ki bi jih poslali glasovnice, da veliko ljudi, nato pa preprosto ujemajo up glasovnic, ki so bili vrnjeni; Literary Digest ponosno so poročali, da so glasovnice so prejeli bili niti "tehtajo, prilagojena niti razlagati." Ta postopek pravilno napovedal zmagovalca volitev v 1920, 1924, 1928 in 1932. leta 1936, sredi velike depresije, Literary Digest poslala glasovnice za 10 milijonov ljudi, katerih imena v glavnem prišel iz telefonskih imenikov in evidenc o registraciji avtomobilov. Tukaj je, kako je opisana njihova metodologija:

"THE Digest je gladko tekoča stroj premika s hitro natančnostjo izkušenj trideset let, da se zmanjša ugiba na trdna dejstva. . . .Ta Teden 500 pisala izpraskamo več kot četrt milijona naslovov na dan. Vsak dan, v veliki sobi visoko nad motorni ribboned četrti Avenue v New Yorku, 400 delavcev, spretno drsi milijon kosov tiskovine, dovolj, da se utre štirideset mestne bloke-v naslovljene kuverte [sic]. Vsako uro, v katerem izvleček lastno pošta Substation, trije klepetajo poštnina merilne naprave zaprti in ožigosa bele Oblongs; usposobljenih poštne zaposleni jih obrnil v izbuljene mailsacks; flota DIGEST tovornjaki pospešiti njihovo hitri pošti-vlakov. . . Naslednji teden, bodo prvi odgovori iz teh deset milijonov začeti dohodni plima označenih glasovnic, da bi triple-preveri, preveri, pet-krat cross-tajni in so znašali. Ko je zadnja številka totted in preveriti, če pretekle izkušnje je merilo, bo država vedeti, da v delčku 1 odstotek dejansko priljubljena glasovanje štirideset milijonov [volivcev]. «(22. avgust 1936)

fetišizacije v Digest je velikosti je takoj prepoznaven za vsako "big podatkov" raziskovalec danes. Izmed 10 milijonov glasovnic porazdeljene, so se vrnili, da so za neverjetno 2,4 milijona glasovnic je približno 1000-krat večja od sodobne politične volitve. Od teh 2,4 milijona anketirancev razsodba je bil jasen: Literary Digest je napovedal, da izzivalec Alf Landon je šlo za poraz prvotnih Franklin Roosevelt. Toda v resnici se je zgodilo ravno nasprotno. Roosevelt poražen Landon v plazu. Kako lahko literatura Digest iti narobe s toliko podatkov? Naša sodobna razumevanje vzorčenja naredi napake literarnih Digest je jasno in nam pomaga izogniti podobnim napakam v prihodnje.

jasno razmišljanje o vzorčenju od nas zahteva, da preuči štiri različne skupine ljudi (Slika 3.1). Prva skupina ljudi, ki je ciljno populacijo; To je skupina, ki raziskave opredeljuje kot prebivalstvo obresti. V primeru literarnega Digest je bila ciljna populacija volivci v 1936 predsedniške volitve. Po odločitvi o ciljno populacijo, raziskovalec poleg potrebuje, naj pripravi seznam oseb, ki se lahko uporabljajo za vzorčenje. Ta seznam se imenuje okvir vzorčenja in prebivalstvo na vzorčni okvir se imenuje populacija okvir. V primeru literarnega Digest prebivalstvo okvir je imelo 10 milijonov ljudi, katerih imena so prišli večinoma iz telefonskih imenikov in evidenc o registraciji avtomobilov. V idealnem primeru bi ciljna populacija in populacija okvir je popolnoma enaka, vendar se to v praksi pogosto ni tako. Razlike med ciljno populacijo in okvirjem prebivalstva se imenujejo pokritost napake. Napaka pokritost ne, sama po sebi zagotavljajo probleme. Ampak, če so ljudje v populaciji okvirja sistematično razlikuje od ljudi, ki niso v populaciji okvir ne bo pokritost pristranskosti. Napaka pokritost je bila prva od večjih napak z Literarni Digest anketi. Želeli so, da spoznajo volivcev-, da je njihova ciljna populacija, vendar pa zgradili vzorčni okvir pretežno iz telefonskih imenikov in avtomobilskih registrov virov, ki prekomerno zastopane premožnejši Američani, ki so bili bolj naklonjeni Alf Landon (Spomnimo se, da sta od teh tehnologij, ki so pogosti danes, so relativno nova v času in da so ZDA sredi velike depresije).

Slika 3.1: Zastopanje napake.

Slika 3.1: Zastopanje napake.

Po določitvi prebivalstvo okvirja, naslednji korak je za raziskovalca, da izberete populacijo vzorcev; to so ljudje, ki bo raziskovalec poskušali razgovor. Če ima vzorec drugačne značilnosti kot prebivalstvo okvirja, potem lahko uvedejo vzorčno napako. To je neke vrste napake, izmerjenih v toleranco, ki običajno spremlja ocene. V primeru Literary Digest polom, pa pravzaprav ni vzorec; so poskušali stopiti v stik vsi v populaciji okvirja. Čeprav ni bilo nobene napake vzorčenja, se je očitno še vedno napake. To pojasnjuje, da so stopnje napak, ki so običajno poročali z ocenami od raziskav običajno zavajajoče majhna; ne vključujejo vse vire napak.

Končno, raziskovalec poskuša razgovor vse v populaciji vzorca. Ti ljudje, ki uspešno razgovor se imenujejo anketirancev. Idealno bi bilo, bi se populacija vzorec anketirancev je popolnoma enaka, vendar v praksi pa je ne odziva. To pomeni, da ljudje, ki so izbrani v vzorec, zavrne sodelovanje. Če so ljudje, ki se odzivajo drugačni od tistih, ki se ne odzivajo, potem ne more biti brez odgovora pristranskosti. Neodgovora pristranskosti je drugi glavni problem pri Literarni Digest anketi. Le 24% ljudi, ki so prejeli glasovnice odzvala, in izkazalo se je, da so ljudje, ki podpirajo Landon bolj verjetno, da se odzove.

Več kot le primer za uvedbo ideje zastopanja Literary Digest anketa je večkrat ponovil parabola, opozarjajo raziskovalci o nevarnostih negotov vzorčenja. Na žalost, mislim, da je nauk, da je veliko ljudi, da iz te zgodbe napačen. Najpogostejši Nauk zgodbe je, da raziskovalci ne morejo ničesar naučiti iz ne-verjetnosti vzorcev (tj vzorcev brez strogih pravil, ki temeljijo na verjetnosti za izbiro udeležencev). Ampak, kot bom pokazal v nadaljevanju tega poglavja, da to ni čisto v redu. Namesto tega, mislim, da so res dva morala te zgodbe; morale, ki so, kot pravi danes, kot so bili v 1936. Prvič, velika količina naključno zbranih podatkov ne bo zagotovilo dobro oceno. Drugič, morajo raziskovalci predstavljajo, kako so njihovi podatki zbirali, ko so kar ocen iz nje. Z drugimi besedami, ker je bil postopek zbiranja podatkov v Literary Digest anketi sistematično nagnjen k nekateri udeleženci, raziskovalci morali uporabiti bolj zapleten proces ocenjevanja, ki tehta nekaj anketirancev več kot drugi. Kasneje v tem poglavju, bom pokazal vam eno tako ponderiranje postopek post-stratifikacije-, ki vam lahko omogoči, da bi bolje ocenili z nevladnimi verjetnostnih vzorcih.