3.3.1 Zastúpenie

Tento preklad bol vytvorený na počítači. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.3.1 Zastúpenie

Zastúpenie je asi robiť závery zo svojich respondentov pre vašu cieľovú populáciu.

Aby bolo možné pochopiť druh chýb, ktoré môžu nastať pri odvodzovať od respondentov na širšiu populáciu, poďme zvážiť Literárne Digest slamy hlasovania, ktoré sa snažili predpovedať výsledok 1936 amerických prezidentských voľbách. Hoci to bolo pred viac ako 75 rokmi, tento debakel má stále dôležitú lekciu učiť výskumníkmi dnes.

Literárne Digest bol populárny generál-záujem časopis, a počnúc rokom 1920 začali beží slamy ankety predpovedať výsledky prezidentských volieb. Ak chcete tieto predpovede by posielať hlasovacie lístky pre mnoho ľudí, a potom jednoducho zhodujú sa hlasovacie lístky, ktoré boli vrátené; Literary Digest hrdo hlásil, že hlasovacie lístky sa im dostalo neboli ani "odvážia, nastavovať ani interpretované." Tento postup správne predpovedal víťaza volieb v roku 1920, 1924, 1928 a 1932. v roku 1936, v stredu veľkej depresie, Literary Digest rozposlané lístky na 10 miliónov ľudí, ktorých mená prevažne pochádzali z telefónnych zoznamov a registračných automobil záznamov. Tu je návod, ako popísali svoju metodiku:

"Mineralizované je ľahko ovládateľný stroj pohybuje sa rýchlym presnosťou tridsiatich rokov praxe na zníženie dohady na tvrdých faktoch. , , .To Týždeň 500 pera poškrabal na viac ako štvrť milióna adries denne. Každý deň, vo veľkej miestnosti vysoko nad motorom stužkami Fourth Avenue v New Yorku, 400 pracovníkov obratne kĺzať milión kusov tlačovín, dostatočne pripraviť štyridsať mestskej bloky-do oslovených obálok [sic]. Každú hodinu, v Zbierke vlastnom Post Office rozvodne, tri žvanícím poštovné meracie zariadenie zapečatené a opečiatkované biele Obdĺžniky; kvalifikovaní poštové zamestnanci hodil ich do vypuklé mailsacks; flotila DIGEST kamióny ponáhľal, aby vyjadrili mail-vlaky. , , Budúci týždeň, prvé odpovede od týchto desať miliónov začne prílivom značených hlasovacích lístkov, aby triple-skontrolovať, overené, päťnásobný cross-utajované a sčítajú sa. Akonáhle posledná postava bola totted a kontrolovať, či minulé skúsenosti je kritériom, krajina bude vedieť, aby sa v zlomku o 1 percento skutočnej ľudové hlasovanie štyridsiatich miliónov voličov []. "(22. augusta 1936)

Mineralizované je fetišizací veľkosti je okamžite rozoznateľný na akúkoľvek "veľká dáta" výskumníka dnes. Distribuovaných na 10 miliónov hlasovacích lístkov, neuveriteľných 2,4 milióna hlasovacích lístkov boli vrátené, to je zhruba 1000 krát väčšia ako moderných politických voľbách. Z týchto 2,4 milióna respondentov verdikt bol jasný: Literárne Digest predpovedal, že challenger Alf Landon sa chystá poraziť úradujúceho Franklin Roosevelt. Ale v skutočnosti pravý opak sa stalo. Roosevelt porazil Landon v lavíne. Ako by mohla Literárne Digest ísť s tak veľkým množstvom dát zle? Naše moderné chápanie odberu robí chyby Literárne Digest je jasný a nám pomáha zabrániť tomu, aby sa podobné chyby v budúcnosti.

Premýšľate jasne o odber vzoriek vyžaduje vziať do úvahy štyri rôzne skupiny ľudí (Obrázok 3.1). Prvá skupina ľudí je cieľová populácia; To je skupina, ktorá výskum definuje ako skúmanej populácie. V prípade literárneho Digest cieľovej populácie bola voliči v 1936 prezidentských volieb. Po rozhodovaní o cieľovú populáciu, výskumník vedľa potrebuje vytvoriť zoznam ľudí, ktoré môžu byť použité pre odber vzoriek. Tento zoznam sa nazýva rámec odberu vzoriek a počet obyvateľov na opory výberu sa nazýva rám populácie. V prípade literárneho Digest populácie frame bol 10 miliónov ľudí, ktorých mená prišli prevažne z telefónnych zoznamov a registračných automobil záznamov. V ideálnom prípade by cieľová populácia a populácie rám by byť presne rovnaké, ale v praxi je to často nie je tento prípad. Rozdiely medzi cieľovej populácie a populácie rámu sa nazývajú chyby pokrytia. Chyba pokrytie nie je sama o sebe zárukou problémy. Ale ak ľudia v populácii ráme sú systematicky líši od ľudí, ktorí nie sú v populácii ráme tam bude pokrytie zaujatosť. Chyba pokrytie bola prvá z veľkých nedostatkov s Literárne Digest hlasovania. Chceli sa dozvedieť o voličom-to je ich cieľová populácia, ale oni postavili opory výberu prevažne z telefónnych zoznamov a automobilových registrov, zdrojov, ktoré nadmerne zastúpené bohatšie Američanov, ktorí boli s väčšou pravdepodobnosťou podporovať Alf Landon (pripomeňme, že obe tieto technológie, ktoré sú dnes bežné, boli relatívne nové v tej dobe a že USA v strede veľkej depresie).

Obrázok 3.1: chyby reprezentácie.

Po definovaní populácie rámu, je ďalším krokom pre výskumný pracovník na výber vzorky populácie; to sú ľudia, že výskumný pracovník sa pokúsi rozhovor. V prípade, že vzorka má iné vlastnosti než populácie rámu, potom môžeme predstaviť výberové chyby. Jedná sa o druh chyby kvantifikovať tolerancie chýb, ktoré obvykle sprevádza odhady. V prípade Literary Digest fiasko, tam v skutočnosti nebol žiadny vzorku; oni pokúšali kontaktovať každého v populácii ráme. Aj napriek tomu, že nedošlo k chybe vzorkovanie, došlo zrejme ešte chyba. To vysvetľuje, že rozpätie chyby, ktoré sú typicky zaznamenali v súvislosti s odhadmi z prieskumov sú zvyčajne mylne malé; že nie sú uvedené všetky zdroje chýb.

A konečne, výskumník pokúsi vypočuť každého v populácii vzorke. Tí ľudia, ktoré sa úspešne opýtaných sa nazývajú respondentov. V ideálnom prípade sa vzorka populácie a respondenti by byť presne rovnaké, ale v praxi je non-response. To znamená, že ľudia, ktorí sú vybraní do vzorky odmietnuť účasť. V prípade, že ľudia, ktorí reagujú sa líšia od tých, ktorí nereagujú, potom tam môže byť zaujatosť non-response. Bias Non-odozva bol druhým hlavným problémom s Literary Digest hlasovania. Iba 24% ľudí, ktorí dostali lístok reagoval, a ukázalo sa, že ľudia, ktorí podporovali Landon boli s väčšou pravdepodobnosťou reagovať.

Púheho príklad predstaviť myšlienky na reprezentáciu, Literárne Digest hlasovanie je často opakovaný podobenstvo, varoval výskumníkmi o nebezpečenstvách náhodná vzorkovanie. Bohužiaľ si myslím, že poučenie, že mnoho ľudí čerpať z tohto príbehu je ten zlý. Najbežnejšia morálne príbehu je, že výskumníci môžu čokoľvek od vzoriek non-pravdepodobnostné neučí (tj vzoriek bez prísnych pravidiel pravdepodobnosti báze pre výber účastníkov). Ale, ako ukážem neskôr v tejto kapitole, že to nie je úplne v poriadku. Namiesto toho si myslím, že sú naozaj dve morálka k tomuto príbehu; morálka, ktoré sú dnes ako pravdivé, ako tomu bolo v roku 1936. Po prvé, veľké množstvo náhodne zozbieraných dát nezaručí dobrý odhad. Po druhé, výskumní pracovníci potrebujú vysvetliť, ako boli ich údaje zhromažďujú, keď robia odhady z neho. Inými slovami, pretože zber dát proces v Literárne Digest prieskumu bolo systematicky vychýlená smerom niektorí respondenti, výskumníci treba použiť zložitejší proces odhadovania, ktorá váži niektorí respondenti viac než ostatní. Neskôr v tejto kapitole, ukážem vám jeden taký postup váženia post-rozvrstvení-, ktoré vám umožnia lepšie odhadov sa vzorky non-pravdepodobnosti.