3.4 Sino ang magtanong

translation na ito ay nilikha sa pamamagitan ng isang computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4 Sino ang magtanong

Probability samples at di-posibilidad halimbawa ay hindi na naiiba sa pagsasanay; sa parehong mga kaso, ito ay lahat ng tungkol sa weights.

Sampling ay pangunahing sa survey research. Mananaliksik halos hindi kailanman magtanong sa kanilang mga katanungan sa lahat ng tao sa kanilang mga target na populasyon. Kaugnay nito, survey ay hindi na kakaiba. Karamihan pananaliksik, sa isang paraan o iba, ay nagsasangkot ng sampling. Minsan ito sampling ay ginagawa explicitly sa pamamagitan ng researcher; iba pang mga beses ito ang mangyayari nang kataon lamang. Halimbawa, ang isang researcher na nagpapatakbo ng isang laboratoryo eksperimento sa undergraduate mga mag-aaral sa kanyang unibersidad ay kinuha din ng isang sample. Kaya, sampling ay isang problema na ay lumalabas sa buong aklat na ito. Sa katunayan, isa sa mga pinaka-karaniwang mga alalahanin na nababalitaan ko tungkol sa digital age pinagkukunan ng data ay "ang mga ito ay hindi na kinatawan." Gaya ng makikita natin sa Seksyong ito, ang pag-aalala ay parehong mas mababa malubhang at mas pino kaysa sa maraming skeptics mapagtanto. Sa katunayan, ako ay magtaltalan na ang buong konsepto ng "representativeness" ay hindi kapaki-pakinabang para sa iniisip tungkol na maaaring mangyari at non-bagay na maaaring mangyari samples. Sa halip, ang susi ay mag-isip tungkol sa kung paano ang data ay nakolekta at kung paano ang anumang biases sa na pagkolekta ng data na mababawi kapag nagsasagawa ng mga pagtatantya.

Sa kasalukuyan, ang mga nangingibabaw na panteorya diskarte sa representasyon ay probabilidad sampling. Kapag ang data ay nakolekta sa isang bagay na maaaring mangyari sampling paraan na na-perpektong pinaandar, ang mga mananaliksik ay magagawang sa pagbaba ng kanilang data batay sa paraan na sila ay tinipon upang gumawa ng walang pinapanigan pagtatantya tungkol sa target na populasyon. Gayunman, perpekto probabilidad sampling talaga ay hindi kailanman mangyayari sa tunay na mundo. May mga karaniwang dalawang pangunahing problema 1) pagkakaiba sa pagitan ng target na populasyon at ang frame populasyon at 2) non-response (ang mga ito ay eksakto ang mga problema na ang bagbag ang Literary Digest poll). Kaya, sa halip na pag-iisip ng probabilidad sampling bilang makatotohanang modelo ng kung ano talaga ang mangyayari sa mundo, ito ay mas mahusay na mag-isip ng probabilidad sampling bilang helpful, abstract modelo, marami na tulad ng paraan physicists isip tungkol sa isang frictionless ball lawit isang walang katapusan ang haba ramp.

Ang mga alternatibo sa probabilidad sampling ay non-bagay na maaaring mangyari sampling. Ang pangunahing pagkakaiba sa pagitan ng bagay na maaaring mangyari at mga di-posibilidad sampling ay na may probabilidad sampling lahat ng tao sa populasyon ay may isang kilalang posibilidad ng pagsasama. Mayroong mga, sa katunayan, maraming mga varieties ng mga di-posibilidad sampling, at ang mga pamamaraan ng pagkolekta ng data ay nagiging unting karaniwang sa digital age. Ngunit, non-bagay na maaaring mangyari sampling ay may isang kahila-hilakbot na reputasyon sa mga sosyal na mga siyentipiko at statisticians. Sa katunayan, non-bagay na maaaring mangyari sampling ay nauugnay sa ilan sa mga pinaka dramatic pagkabigo ng survey mananaliksik, tulad ng Literary Digest fiasco (tinalakay nang mas maaga) at ang hindi tamang hula tungkol sa mga pampanguluhan halalan ng 1948 ( "Dewey Defeats Truman") US (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .

Gayunpaman, ang oras ay karapatan na muling isaalang-alang non-bagay na maaaring mangyari sampling para sa dalawang dahilan. Una, bilang bagay na maaaring mangyari samples ay naging unting mahirap na gawin sa pagsasagawa, ang linya sa pagitan ng probabilidad halimbawa at di-posibilidad samples ay blurring. Kapag may mga mataas na mga rate ng mga di-tugon (bilang may mga sa real survey ngayon), ang aktwal na posibilidad ng inclusions para respondents ay hindi kilala, at sa gayon, probabilidad halimbawa at di-posibilidad halimbawa ay hindi bilang iba't ibang mga bilang ng maraming mga mananaliksik ay naniniwala. Sa katunayan, gaya ng makikita natin sa ibaba, parehong pamamaraang talaga umasa sa ang parehong paraan ng kuru-kuro: post-pagsasapin-sapin. Pangalawa, nagkaroon ng maraming mga developments sa koleksyon at pagtatasa ng mga di-posibilidad samples. Ang mga pamamaraan ay naiiba sapat na mula sa mga pamamaraan na sanhi ng mga problema sa nakalipas na sa tingin ko ito ang akma na mag-isip ng mga ito bilang "non-bagay na maaaring mangyari sampling 2.0." Hindi namin ay dapat magkaroon ng isang hindi makatwiran na pag-ayaw sa mga di-posibilidad pamamaraan dahil sa mga error na nangyari matagal na panahon.

Susunod, upang gumawa ng mga ito argument mas kongkreto, makikita ko bang suriin muli karaniwang probabilidad sampling at weighting (Seksyon 3.4.1). Ang mga pangunahing ideya ay na kung paano mo nakolekta iyong data ay dapat makaapekto sa kung paano mo gumawa ng mga pagtatantya. Sa partikular, kung ang lahat ay hindi may ang parehong posibilidad ng pagsasama, at pagkatapos ang lahat ay dapat hindi magkakaroon ng parehong timbang. Sa ibang salita, kung ang iyong sampling ay hindi demokratiko, at pagkatapos ang iyong mga pagtatantya ay hindi dapat maging demokratiko. Pagkatapos suriin ang weighting, kukunin ko na ilarawan dalawang pamamaraang sa mga di-posibilidad sampling: ang isa na nakatutok sa weighting sa pakikitungo sa mga problema ng padaskul-daskol nakolektang data (Seksyon 3.4.2), at isa na sumusubok na ilagay ang higit na kontrol sa kung paano ang data ay nakolekta (Seksyon 3.4.3). Ang mga argumento sa mismong teksto ay ipinaliwanag sa ibaba sa mga salita at mga larawan; mga mambabasa na nais ng isang mas matematikal na paggamot ay dapat ring makita ang mga teknikal na apendiks.