3.4 Hver á að spyrja

Líkindaúrtökum og ekki líkindaúrtökum eru ekki annað í reynd; í báðum tilvikum, það er allt um þyngd.

Sýnataka er grundvallaratriði að kanna rannsóknir. Vísindamenn nánast aldrei spyrja spurninga sínum til hjá markhópnum þeirra alla. Í þessu sambandi eru kannanir ekki einstakt. Flestar rannsóknir, á einn eða annan hátt, felur sýnatöku. Stundum sýnatöku er gert sérstaklega með því að rannsóknir; öðrum tímum það gerist óbeint. Til dæmis, rannsóknir sem rekur rannsóknarstofu tilraun á grunnnámi í háskóla hennar hefur einnig tekið sýni. Þannig sýnatöku er vandamál sem kemur upp í þessari bók. Í raun einn af algengustu áhyggjur sem ég heyri um stafræna heimildum Aldur gögnum er "þeir eru ekki dæmigerð." Eins og við munum sjá í þessum kafla, þetta áhyggjuefni er bæði minna alvarlegt og slægari en margir efasemdamenn sér grein fyrir. Í raun, mun ég halda því fram að allt hugtakið "dæmigert" er ekki gagnlegt fyrir að hugsa um líkur og ekki líkindaúrtökum. Þess í stað, the lykill er að hugsa um hvernig gögnum var safnað og hvernig allir bjagi í að gagnasöfnunin hægt að afturkalla þegar áætlanir.

Eins og er, ríkjandi fræðileg nálgun að framsetning er Úrtakslíkur. Þegar gögnum er safnað með líkur sýnatöku aðferð sem hefur verið fullkomlega framkvæma, vísindamenn eru fær um að þyngd þeirra gögn byggð á þann hátt sem þeir voru safnað til að gera óhlutdræg mat um markhópnum. Hins vegar fullkomin líkur sýnatöku grundvallaratriðum aldrei gerist í hinum raunverulega heimi. Það eru yfirleitt tvær helstu vandamál 1) munur milli markhópnum og ramma íbúa og 2) skortur á svörun (þetta eru nákvæmlega þau vandamál sem sjóslys á Literary Digest könnun). Svona, frekar en að hugsa um líkindaúrtaks sem raunhæf líkan af hvað raunverulega gerist í heiminum, það er betra að hugsa um líkindaúrtaks sem hjálpsamur, abstrakt fyrirmynd, mikið eins og the vegur eðlisfræðingar hugsa um viðnámslausri boltanum rúllandi niður óendanlega langur ramp.

The val til líkindaúrtaks er sýnatöku ekki líkur. The aðalæð mismunur á milli líkinda og sýnatöku utan líkur er að með líkur sýnatöku í íbúa allir hafi þekkt líkur á skráningu. Það eru í raun margar afbrigði af sýnatöku ekki líkur, og þessar aðferðir við öflun gagna eru að verða æ algengari í stafrænni öld. En, sýnatöku ekki líkur eru hræðileg orðspor meðal félagslegum vísindamenn og tölfræðinga. Í raun, sýnatöku ekki líkur tengist sumir af the stórkostlegar mistök vísindamanna könnun, ss Literary Digest misheppnað tiltæki (rætt fyrr) og röng spá um bandaríska forsetakosningunum 1948 ( "Dewey sigraði Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .

Hins vegar er tíminn er réttur til að endurskoða sýnatöku ekki líkur fyrir tveimur ástæðum. Fyrst, eins líkindaúrtökum hafa orðið sífellt erfiðara að gera í reynd, línan milli sýnum líkur og ekki líkindaúrtökum er blurring. Þegar það eru háir skortur á svörun (eins og það er í alvöru könnunum núna), í raun líkurnar á innifalið fyrir svarenda eru ekki þekkt, og þannig, líkindaúrtökum og ekki líkur sýnin eru ekki eins mismunandi eins og margir vísindamenn telja. Í raun, eins og við munum sjá hér að neðan, bæði aðferðir treysta í grundvallaratriðum á sama matsaðferðarinnar: Post-lagskiptingu. Í öðru lagi, það hafa verið margir þróun í söfnun og greiningu sýna ekki líkur. Þessar aðferðir eru mismunandi nóg af þeim aðferðum sem olli vandamál í fortíðinni sem ég held að það er vit í að hugsa um þá sem "sýnataka ekki líkur 2.0." Við ættum ekki að hafa ofsahræðslu andúð á aðferðum utan líkurnar vegna mistaka sem gerst fyrir löngu síðan.

Næst, í því skyni að gera þetta rifrildi meira steypu, ég skoða staðlaða líkur sýnatöku og vægi (í kafla 3.4.1). Lykillinn Hugmyndin er að hvernig þú safnað gögnum ættir áhrif á hvernig þú gerir áætlanir. Einkum ef allir hefur ekki sömu líkur á vistun, þá allir ættu ekki að hafa sama vægi. Með öðrum orðum, ef sýnataka er ekki lýðræðislegt, þá mat þitt ætti ekki að vera lýðræðislegt. Eftir að hafa farið vægi, ég lýsa tvær aðferðir til sýnatöku ekki líkur: einn sem leggur áherslu á vægi til að takast á við vandamál af viljanakenndum safnað gögnum (kafli 3.4.2), og einn sem reynir að setja meiri stjórn á því hvernig gögnin eru safnað (kafli 3.4.3). Rök í megintexta verður útskýrð hér með orðum og myndum; lesendur sem hafa áhuga á fleiri stærðfræðilega meðferð ætti einnig að sjá tæknilega viðbætinum.