3.4 Wa om freegje

Kâns gebrûk en net-kâns gebrûk binne net dat oars yn 'e praktyk; yn beide gefallen, it is al oer de gewichten.

Sampling is fûnemintele te tafoegje ûndersyk. Ûndersikers hast nea freegje harren fragen oan elkenien yn harren doelgroep befolking. Yn dit ferbân, ûndersiken binne net unyk. De measte ûndersyk, yn ien of oare wize, giet it om sampling. Soms dit sampling wurdt dien eksplisyt troch de ûndersiker; oare kearen dat bart ymplisyt. Bygelyks, in ûndersiker dy't rint in laboratoarium eksperimint op bachelor studinten yn har universiteit hat ek nommen in stekproef. Sa, sampling is in probleem dat komt op troch dit boek. Yndie, ien fan 'e meast foarkommende soargen dy't ik hear oer digitale leeftyd boarnen fan gegevens is "se binne net represintatyf." As wy sille sjen yn dizze paragraaf, dizze soarch is sawol minder earnstich en subtilere as in protte skeptisy realisearje. Yndie, ik sil stelle dat it hiele konsept fan de "representativeness" is net brûkber foar tinken oer kâns en net-kâns gebrûk. Ynstee, de kaai is om te tinken oer hoe't de gegevens waard sammele en hoe't alle biases yn dat gegevens samling kin werom set wurde as it meitsjen fan skattings.

Op it stuit, it dominant teoretyske oanpak fan fertsjintwurdiging is kâns sampling. Doe't gegevens binne sammele mei in kâns sampling metoade dat is perfekt útfierd, ûndersikers by steat binne om gewicht harren gegevens basearre op it paad dat se waarden sammele om Unbiased rûzings oer it doel befolking. Mar, perfekte kâns sampling yn prinsipe noait bart yn de echte wrâld. Der binne typysk twa wichtichste problemen 1) ferskillen tusken de doelgroep befolking en it frame befolking en 2) net-antwurd (dat binne krekt de problemen dy't wrecked it Literêr Digest poll). Sa, ynstee fan it tinken fan kâns sampling as in realistyske model fan wat eins bart yn 'e wrâld, is it better om te tinken fan kâns sampling as helpful, abstrakte model, folle as de wei natuerkundigen tinke oer in frictionless bal rolling del in ûneinich lang désastre.

It alternatyf foar kâns sampling is net-kâns sampling. It wichtichste ferskil tusken kâns en net-kâns sampling is dat mei kâns sampling elkenien yn de befolking hat in bekend kâns fan yntegraasje. Der binne, yn feite, in protte farianten fan net-kâns sampling, en dy metoaden fan datasammeling wurde hieltyd gewoan yn it digitale leeftyd. Mar, net-kâns sampling hat in skriklike reputaasje ûnder sosjale wittenskippers en statisticians. Yndie, net-kâns sampling is ferbûn mei guon fan 'e meast dramatyske falen fan ûndersyk ûndersikers, lykas de Literêre Digest fiasco (besprutsen earder) en de ferkearde foarsizzing oer de Amerikaanske presidintsferkiezings fan 1948 ( "Dewey ferslaat Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .

Lykwols, de tiid is rjocht om heroverwegen net-kâns sampling foar twa redenen. Earst, as kâns gebrûk hawwe wurden hieltyd dreech te dwaan yn 'e praktyk, de line tusken kâns gebrûk en net-kâns gebrûk is blurring. As der binne hege tariven fan net-antwurd (as der in echte ûndersiken no), de feitlike kâns inclusions foar respondinten binne net bekend, en sa, kâns gebrûk en net-kâns gebrûk binne net sa oars as in protte ûndersikers leauwe. Yndie, as wy sille sjoch hjirûnder, beide oanpak yn prinsipe in berop dwaan op it deselde ynskatting metoade: post-stratification. Twadde, hawwe der in soad ûntwikkelings yn de kolleksje en analyze fan net-kâns gebrûk. Dy metoaden binne oars genôch fan 'e metoades dy't feroarsake problemen yn it ferline, dat ik tink dat it sin te tinken fan harren as "net-kâns sampling 2.0." Wy moatte net hawwe in ûnferstannich wearze om net-kâns metoaden fanwege flaters dy't barde in hiel skoft lyn.

Folgjende, om dit argumint mear konkrete, ik review standert kâns sampling en weighting (paragraaf 3.4.1). De toets idee is dat hoe't jo sammele dyn gegevens moatte effekt hoe't jo meitsje skattingen. Yn it bysûnder, as elkenien hat gjin deselde kâns fan yntegraasje, dan elkenien moat net itselde gewicht. Yn oare wurden, as jo sampling is net demokratysk, dan jo estimations moatte net wêze demokratyske. Nei resinsearje weighting, ik beskriuwe twa oanpakken oan net-kâns sampling: ien dy't him rjochtet op weighting foar omgean mei it probleem fan haphazardly sammele gegevens (paragraaf 3.4.2), en ien dy't besiket om mear kontrôle oer hoe't de gegevens is sammele (paragraaf 3.4.3). De arguminten yn it wichtichste tekst sil ferklearre wurde hjirûnder mei wurden en foto; lêzers dy't graach in mear wiskundige behanneling moat ek sjen de technyske taheakke.