3.3.1 Representation

translation na ito ay nilikha sa pamamagitan ng isang computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.3.1 Representation

Representasyon ay tungkol sa paggawa inferences mula sa iyong respondents sa iyong target na populasyon.

Upang maunawaan ang mga uri ng mga error na maaaring mangyari kapag inferring mula respondents sa mas malaking populasyon, sabihin isaalang-alang ang Pampanitikan Digest straw poll na sinubukan upang mahulaan ang kinahinatnan ng 1936 US Presidential halalan. Kahit na ito ay higit sa 75 taon na ang nakaraan, ito debacle ay pa rin ng isang mahalagang aral upang magturo mananaliksik ngayon.

Literary Digest ay isang popular na pangkalahatang-interes magazine, at simula sa 1920 sila ay nagsimulang tumakbo straw polls upang mahulaan ang mga kinalabasan ng Presidential Elections. Upang gumawa ng mga hulang ito ang mga ito ay ipadala balota sa maraming mga tao, at pagkatapos ay i-tally ang mga balota na nagbalik; Literary Digest proudly iniulat na ang mga balota na kanilang natanggap ay hindi "tinimbang, nababagay, at hindi rin interpreted." Ang pamamaraan na ito tama hinulaang ang winner ng halalan sa 1920, 1924, 1928 at 1932. Noong 1936, sa gitna ng Great Depression, Literary Digest ipinadala out balota sa 10 milyong mga tao, na ang mga pangalan predominately ay dumating mula sa mga direktoryo ng telepono at automobile registration records. Narito kung paano sila inilarawan ang kanilang pamamaraan:

"ANG digest ni makinis-running machine gumagalaw sa swift precision ng tatlumpung taon 'karanasan upang mabawasan panghuhula sa hard katotohanan. . . .Ito Week 500 pens scratched ang higit pa kaysa sa isang isang-kapat ng isang milyong mga address sa isang araw. Araw-araw, sa isang malaking room na mataas sa itaas motor-naggagayak ng mga laso Fourth Avenue, sa New York, 400 manggagawa deftly slide isang milyong piraso ng mga nakalimbag-sapat upang ihanda apatnapung bloke-sa direksiyon envelops [tama] siyudad. Ang bawat oras, sa THE digest'S sariling Post Office Substation, tatlo daldalan postage sumusukat machine selyadong at naselyohang ang puting oblongs; skilled postal empleyado Binaligtad ito sa nakaumbok mailsacks; fleet digest trucks sped ito upang ipahayag ang mail-tren. . . Sa susunod na linggo, ang unang sagot mula sa mga sampung milyong ay magsisimula ang mga papasok na tubig ng markadong balota, upang maging triple-check, na-verify, limang-beses cross-uri-uri ng at totaled. Kapag ang huling figure ay tinanggal totted at naka-check, kung nakalipas na karanasan ay isang criterion, ang bansa ay alam sa loob ng isang maliit na bahagi ng 1 porsiyento ang aktwal na popular na boto apatnapung milyong [botante]. "(Agosto 22, 1936)

Ang Digest ni fetishization ng sukat ay agad na makikilala sa anumang "malaki data" researcher ngayon. Sa mga 10 milyong balota na ibinahagi, isang kahanga-hangang 2.4 milyong balota ay ibabalik-na halos 1,000 beses na mas malaki kaysa sa modernong pampulitika polls. Mula sa mga 2.4 milyong respondents ang hatol ay malinaw: Literary Digest hinulaang na ang challenger Alf Landon ay pagpunta upang talunin ang incumbent Franklin Roosevelt. Ngunit, sa katunayan, ang eksaktong kabaligtaran ang nangyari. Roosevelt bagsak Landon sa isang guho ng lupa. Paano maaaring Literary Digest magkamali na may kaya magkano data? Ang aming mga modernong pang-unawa ng sampling gumagawa ng mga error Literary Digest malinaw at tumutulong sa amin maiwasan ang paggawa ng katulad na mga error sa hinaharap.

Pag-iisip nang malinaw tungkol sa sampling nangangailangan sa amin upang isaalang-alang ang apat na iba't ibang grupo ng mga tao (Figure 3.1). Ang unang grupo ng mga tao ay ang target na populasyon; ito ay ang grupo na ang pananaliksik ay tumutukoy sa bilang ng populasyon ng interes. Sa kaso ng Literary Digest ang target na populasyon ay mga botante noong 1936 Presidential Halalan. Matapos ang pagpapasya sa isang target na populasyon, ang isang researcher susunod pangangailangan upang bumuo ng isang listahan ng mga tao na maaaring magamit para sa sampling. Ang listahang ito ay tinatawag na isang sampling frame at ang populasyon sa sampling frame ay tinatawag na ang frame populasyon. Sa kaso ng Literary Digest frame populasyon ay ang 10 milyong mga tao na ang mga pangalan ay dumating predominately mula sa mga direktoryo ng telepono at automobile registration records. Sa isip ang target na populasyon at ang frame populasyon ay eksakto ang parehong, ngunit sa pagsasanay na ito ay madalas na hindi ito ang kaso. Pagkakaiba sa pagitan ng target na populasyon at frame populasyon ay tinatawag na coverage error. Coverage error ay hindi, sa pamamagitan ng sarili nito ginagarantiya problema. Subalit, kung ang mga tao sa populasyon frame ay systematically naiiba mula sa tao ay hindi sa populasyon frame magkakaroon coverage bias. Coverage error ay ang unang mga pangunahing flaws sa poll Literary Digest. Gusto nilang malaman ang tungkol sa mga botante-na ay ang kanilang target na populasyon-ngunit sila na itinayo ng isang sampling frame predominately mula sa mga direktoryo ng telepono at automobile Registry, mga pinagkukunan na over-kinakatawan wealthier Amerikano na ay mas malamang na sumusuporta sa Alf Landon (pagpapabalik na ang parehong ng mga teknolohiya, kung saan ay karaniwan sa araw na ito, ay relatibong bago sa oras at na ang US ay sa gitna ng Great Depression).

Figure 3.1: error Representation.

Pagkatapos ng pagtukoy sa frame populasyon, ang susunod na hakbang ay para sa isang researcher upang piliin ang sample populasyon; ito ay ang mga tao na ang researcher ay pagtatangka sa interbiyu. Kung ang sample ay may iba't ibang mga katangian kaysa sa populasyon frame, pagkatapos ay maaari naming ipakilala ang sampling error. Ito ang uri ng error quantified sa margin ng error na karaniwang accompanies mga pagtatantya. Sa kaso ng Pampanitikan Digest ganap na kabiguan, may tunay ay walang sample; sila tinangka upang makipag-ugnayan sa lahat ng tao sa populasyon frame. Kahit na walang sampling error, diyan ay malinaw naman pa rin error. Ito clarifies na ang mga margin ng error na karaniwang iniulat na may mga pagtatantya mula sa mga survey ay karaniwang misleadingly maliit; hindi sila isama ang lahat ng mga mapagkukunan ng error.

Sa wakas, isang researcher na susubok sa pakikipanayam lahat ng tao sa sample populasyon. Yaong mga tao na matagumpay na kapanayamin ay tinatawag respondents. Sa isip, ang sample populasyon at ang respondents ay eksakto ang parehong, ngunit sa pagsasanay mayroong non-response. Iyon ay, ang mga taong ay pinili sa sample tumangging lumahok. Kung ang mga tao na tumugon ay naiiba mula sa mga taong hindi tumugon, at pagkatapos ay doon ay maaaring maging di-tugon bias. Non-response bias ay ang pangalawang pangunahing problema sa poll Literary Digest. Only 24% ng mga tao na nakatanggap ng isang balota ay tumugon, at ito naka-out na ang mga tao na sumuporta Landon ay mas malamang na tumugon.

Higit pa sa pagiging isang halimbawa upang ipakilala ang mga ideya ng representasyon, ang Literary Digest poll ay isang malimit-paulit-ulit na talinghaga, cautioning mananaliksik tungkol sa mga panganib ng walang tuos sampling. Sa kasamaang palad, sa tingin ko na ang mga aralin na ang maraming tao gumuhit mula sa kuwentong ito ay ang maling isa. Ang pinaka-karaniwang moral na ng kuwento ay na ang mga mananaliksik ay hindi maaaring malaman ang anumang bagay mula sa mga di-posibilidad samples (ie, mga halimbawa nang walang mahigpit na posibilidad-based patakaran para sa pagpili ng kalahok). Subalit, tulad ng kukunin ko na ipakita sa ibang pagkakataon sa kabanatang ito, iyan ay hindi masyadong tama. Sa halip, tingin ko may mga talagang dalawang moral sa kuwentong ito; moral na bilang tunay na ngayon bilang sila ay sa 1936. Una, ang isang malaking halaga ng padaskul-daskol nakolektang data ay hindi nagbibigay ng garantiya ng isang magandang pagtatantya. Pangalawa, mga mananaliksik kailangan upang account para sa kung paano ang kanilang data ay tinipon kapag sila ay nagsasagawa ng mga pagtatantya mula dito. Sa ibang salita, dahil ang data collection na proseso sa poll Literary Digest ay systematically skewed patungo sa ilang respondents, ang mga mananaliksik na kailangan na gumamit ng isang mas kumplikadong proseso ng pagpapahalaga na weights ilang respondents higit sa iba. Mamaya sa kabanata na ito, kukunin ko na ipakita sa iyo ang isa tulad weighting procedure-post-pagsasapin-sapin-na maaaring daan sa iyo upang gumawa ng mas mahusay estima sa mga di-posibilidad samples.