3.3.1 Zastoupení

Tento překlad byl vytvořen na počítači. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.3.1 Zastoupení

Zastoupení je asi dělat závěry ze svých respondentů pro vaši cílovou populaci.

Aby bylo možné pochopit druh chyb, které mohou nastat při odvozovat od respondentů na širší populaci, pojďme zvážit Literární Digest slámy hlasování, které se snažily předpovědět výsledek 1936 amerických prezidentských volbách. Ačkoli to bylo před více než 75 lety, tento debakl má stále důležitou lekci učit výzkumníky dnes.

Literární Digest byl populární generál-zájem časopis, a počínaje rokem 1920 začali běží slámy ankety předpovídat výsledky prezidentských voleb. Chcete-li tyto předpovědi by posílat hlasovací lístky pro mnoho lidí, a pak jednoduše shodují se hlasovací lístky, které byly vráceny; Literary Digest hrdě hlásil, že hlasovací lístky se jim dostalo nebyly ani "váženy, nastavovat ani interpretovány." Tento postup správně předpověděl vítěze voleb v roce 1920, 1924, 1928 a 1932. v roce 1936, ve středu velké deprese, Literary Digest rozesláno lístky na 10 milionů lidí, jejichž jména převážně pocházeli z telefonních seznamů a registračních automobil záznamů. Zde je návod, jak popsali svou metodiku:

"Mineralizovaný je snadno ovladatelný stroj pohybuje se rychlým přesností třiceti let praxe na snížení dohady na tvrdých faktech. , , .To Týden 500 pera poškrábal na více než čtvrt milionu adres denně. Každý den, ve velké místnosti vysoko nad motorem stužkami Fourth Avenue v New Yorku, 400 pracovníků obratně klouzat milion kusů tiskovin, dostatečně připravit čtyřicet městské bloky-do oslovených obálek [sic]. Každou hodinu, ve Sbírce vlastním Post Office rozvodny, tři žvanícím poštovné měřící zařízení zapečetěny a orazítkované bílé Obdélníky; kvalifikovaní poštovní zaměstnanci hodil je do vypouklé mailsacks; flotila DIGEST kamiony spěchal, aby vyjádřili mail-vlaky. , , Příští týden, první odpovědi od těchto deset milionů začne přílivem značených hlasovacích lístků, aby triple-zkontrolovat, ověřeno, pětinásobný cross-utajované a sčítají se. Jakmile poslední postava byla totted a kontrolovat, jestli minulé zkušenosti je kritériem, země bude vědět, aby se ve zlomku o 1 procento skutečné lidové hlasování čtyřiceti milionů voličů []. "(22. srpna 1936)

Mineralizovaný je fetišizací velikosti je okamžitě rozeznatelný na jakoukoli "velká data" výzkumníka dnes. Distribuovaných na 10 milionů hlasovacích lístků, neuvěřitelných 2,4 milionu hlasovacích lístků byly vráceny, to je zhruba 1000 krát větší než moderních politických volbách. Z těchto 2,4 milionu respondentů verdikt byl jasný: Literární Digest předpověděl, že challenger Alf Landon se chystá porazit úřadujícího Franklin Roosevelt. Ale ve skutečnosti pravý opak se stalo. Roosevelt porazil Landon v lavině. Jak by mohla Literární Digest jít s tak velkým množstvím dat špatně? Naše moderní chápání odběru dělá chyby Literární Digest je jasný a nám pomáhá zabránit tomu, aby se podobné chyby v budoucnu.

Přemýšlíte jasně o odběr vzorků vyžaduje vzít v úvahu čtyři různé skupiny lidí (Obrázek 3.1). První skupina lidí je cílová populace; To je skupina, která výzkum definuje jako zkoumané populace. V případě literárního Digest cílové populace byla voliči v 1936 prezidentských voleb. Po rozhodování o cílovou populaci, výzkumník vedle potřebuje vytvořit seznam lidí, které mohou být použity pro odběr vzorků. Tento seznam se nazývá rámec odběru vzorků a počet obyvatel na opory výběru se nazývá rám populace. V případě literárního Digest populace frame byl 10 milionů lidí, jejichž jména přišli převážně z telefonních seznamů a registračních automobil záznamů. V ideálním případě by cílová populace a populace rám by být přesně stejné, ale v praxi je to často není tento případ. Rozdíly mezi cílové populace a populace rámu se nazývají chyby pokrytí. Chyba pokrytí není sama o sobě zárukou problémy. Ale pokud lidé v populaci rámu jsou systematicky liší od lidí, kteří nejsou v populaci rámu tam bude pokrytí zaujatost. Chyba pokrytí byla první z velkých nedostatků s Literární Digest hlasování. Chtěli se dozvědět o voličům-to je jejich cílová populace, ale oni postavili opory výběru převážně z telefonních seznamů a automobilových registrů, zdrojů, které nadměrně zastoupeny bohatší Američany, kteří byli s větší pravděpodobností podporovat Alf Landon (připomeňme, že obě tyto technologie, které jsou dnes běžné, byly relativně nové v té době a že USA ve středu velké deprese).

Obrázek 3.1: chyby reprezentace.

Po definování populace rámu, je dalším krokem pro výzkumný pracovník pro výběr vzorku populace; to jsou lidé, že výzkumný pracovník se pokusí rozhovor. V případě, že vzorek má jiné vlastnosti než populace rámu, pak můžeme představit výběrové chyby. Jedná se o druh chyby kvantifikovat tolerance chyb, které obvykle doprovází odhady. V případě Literary Digest fiasko, tam ve skutečnosti nebyl žádný vzorek; oni pokoušeli kontaktovat každého v populaci rámu. I přesto, že nedošlo k chybě vzorkování, došlo zřejmě ještě chyba. To vysvětluje, že rozpětí chyby, které jsou typicky hlášené v souvislosti s odhady z průzkumů jsou obvykle mylně malé; že nejsou uvedeny všechny zdroje chyb.

A konečně, výzkumník pokusí vyslechnout každého v populaci vzorku. Ti lidé, které se úspěšně dotazovaných se nazývají respondentů. V ideálním případě se vzorek populace a respondenti by být přesně stejné, ale v praxi je non-response. To znamená, že lidé, kteří jsou vybráni do vzorku odmítnout účast. V případě, že lidé, kteří reagují se liší od těch, kteří nereagují, pak tam může být zaujatost non-response. Bias Non-odezva byl druhým hlavním problémem s Literary Digest hlasování. Pouze 24% lidí, kteří dostali lístek reagoval, a ukázalo se, že lidé, kteří podporovali Landon byli s větší pravděpodobností reagovat.

Pouhého příklad představit myšlenky na reprezentaci, Literární Digest hlasování je často opakovaný podobenství, varoval výzkumníky o nebezpečích nahodilá vzorkování. Bohužel si myslím, že poučení, že mnoho lidí čerpat z tohoto příběhu je ten špatný. Nejběžnější morální příběhu je, že výzkumníci mohou cokoli od vzorků non-pravděpodobnostní neučí (tj vzorků bez přísných pravidel pravděpodobnosti bázi pro výběr účastníků). Ale, jak ukážu později v této kapitole, že to není úplně v pořádku. Místo toho si myslím, že jsou opravdu dvě morálka k tomuto příběhu; morálka, které jsou dnes jako pravdivé, jak tomu bylo v roce 1936. Za prvé, velké množství náhodně sebraných dat nezaručí dobrý odhad. Za druhé, výzkumní pracovníci potřebují vysvětlit, jak byly jejich údaje shromažďovány, když dělají odhady z něj. Jinými slovy, protože sběr dat proces v Literární Digest průzkumu bylo systematicky vychýlena směrem někteří respondenti, výzkumníci třeba použít složitější proces odhadování, která váží někteří respondenti více než ostatní. Později v této kapitole, ukážu vám jeden takový postup vážení post-rozvrstvení-, které vám umožní lépe odhadů se vzorky non-pravděpodobnosti.