3.4.3 Non-kâns gebrûk: sample matching

Dizze oersetting is makke troch in kompjûter. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 Non-kâns gebrûk: sample matching

Net alle net-kâns gebrûk binne itselde. Wy kinne mear kontrôle op it foarste ein.

De oanpak Wang en kollega brûkt om skatte de útkomst fan de 2012 Amerikaanske presidintsferkiezings depended alhiel op ferbetterings yn data analyze. Dat is, se sammele safolle reaksjes as se koe en dêrnei besocht opnij gewicht se. In komplemintêre strategy foar wurkjen mei net-kâns sampling is om mear kontrôle oer de gegevens samling proses.

De ienfâldichste foarbyld fan in part regele net-kâns sampling proses is kwota sampling, in technyk dy't giet werom nei de iere dagen fan ûndersyk ûndersyk. Yn kwota sampling, ûndersikers ferdiele de befolking yn ferskillende groepen (bygelyks, jongfeinten, jonge froulju, etc) en dêrnei dea quota 's foar it tal minsken wurde selektearre yn eltse groep. Respondinten binne selektearre yn in haphazard wize oant de ûndersiker hat mei harren kwota yn eltse groep. Troch de quota 's, de resultaat sample sjocht mear as de doelgroep befolking as soe wier oars, mar omdat de kānsen fan opnimmen binne ûnbekend protte ûndersikers binne skeptysk fan kwota sampling. Yndie, kwota sampling wie in oarsaak fan 'e "Dewey ferslaat Truman" flater yn' e 1948 US Presidential peilings. Want it jout wat kontrôle oer de sampling proses, lykwols, kin men sjen hoe kwota sampling miskien hawwe in pear foardielen boppe in folslein uncontrolled gegevens kolleksje.

Moving boppe kwota sampling, mear moderne oanpakken te besetten fan 'e net-kâns sampling proses binne no mooglik. Ien sa'n oanpak wurdt neamd sample matching, en it wurdt brûkt troch guon kommersjele online paniel oanbieders. Yn syn ienfâldichste foarm, sample matching fereasket twa data boarnen: 1) in folsleine register fan 'e befolking en 2) in grut paniel fan frijwilligers. It is wichtich dat de frijwilligers net nedich te wêzen in kâns sample út alle befolking; te beklamje dat der binne gjin easken foar seleksje yn it paniel, ik neam it in smoarch paniel. Ek, sawol de befolking register en de dirty paniel moat befetsje wat help ynformaasje oer eltse persoan, yn dit foarbyld, ik beskôgje leeftyd en geslacht, mar yn realistyske situaasjes dit helptiidwurd ynformaasje koe wurde folle mear detaillearre. De trúk fan sample matching is te selektearjen gebrûk fan in smoarch paniel yn in wei dy't produsearret gebrûk dat sjen as kâns gebrûk.

Sample matching begjint as in similearre kâns sample is nommen út 'e befolking register; dizze Simulated sample wurdt in doelwyt sample. Dan, basearre op it helptiidwurd ynformaasje, gefallen yn de doelgroep sample wurde matched oan minsken yn de dirty paniel te foarmjen in matched stekproef. Bygelyks, as is der in 25 jier âlde man yn de doelgroep sample, dan de ûndersiker fynt in 25 jier âlde man út de dirty paniel te wêzen yn 'e matched stekproef. Ta beslút, leden fan de matched sample wurde ynterviewd te produsearjen de lêste set fan respondinten.

Ek al de matched sample liket de doelgroep sample, is it fan belang om te ûnthâlden dat de matched sample is net in kâns sample. Matched gebrûk kinne allinne oerien mei de doelgroep sample op de bekende helptiidwurd ynformaasje (bygelyks, leeftyd en geslacht), mar net op unmeasured skaaimerken. Bygelyks, as minsken op 'e dirty paniel tend to wêzen earmer-nei al, ien reden om by in enkête paniel is te fertsjinjen jild-dan ek as de matched sample liket de doelgroep sample kwa leeftyd en geslacht It sil noch hawwe in bias nei earme minsken. De magy fan de wiere kâns sampling is te hearskje út problemen op sawol mjitten en unmeasured skaaimerken (in punt dat ferienichber is mei ús diskusje mei oerienkommende foar kausale konklúzje fan waarnimming stúdzjes yn Haadstik 2).

Yn 'e praktyk, sample matching hinget ôf fan it hawwen fan in grut en ferskaat paniel entûsjast te foltôgjen ûndersiken, en sa is it benammen dien troch bedriuwen dy't kin opbringe te ûntwikkeljen en ûnderhâlden sa'n paniel. Ek, yn de praktyk, der kin wêze problemen mei oerienkommende (soms in goede wedstriid foar immen yn 'e doelgroep sample bestiet net op it paniel) en net-antwurd (soms minsken yn de matched stekproef wegerje om mei te dwaan oan it ûndersyk). Dêrom, yn de praktyk, ûndersikers dogge sample matching ek útfiere wat soarte fan post-stratification oanpassing om skattings.

It is dreech om te bieden brûkbere teoretyske garânsjes oer sample oerienkommende, mar yn 'e praktyk kin útfiere goed. Bygelyks, Stephen Ansolabehere en Brian Schaffner (2014) ferlike trije parallelle ûndersiken fan likernôch 1.000 minsken útfierd yn 2010 mei help fan trije ferskillende sampling en interviewing metoaden: mail, telefoan, en in ynternet paniel mei help sample matching en post-stratification oanpassing. De rûzings fan de trije oanpak wienen hiel ek foar rûzings fan hege-kwaliteit peilmerken lykas de stân fan Ynwenners Survey (CPS) en de Nasjonale Health Interview Survey (NHIS). Mear spesifyk, sawol it ynternet en mail enkêtes wienen ôf troch in trochsneed fan 3 persintaazje punten en de telefoan ûndersyk wie út troch 4 persintaazje punten. Flaters dizze grutte binne ûngefear wat men soe ferwachtsje fan gebrûk fan likernôch 1.000 minsken. Hoewol't, net ien fan dy stringen produsearre substansjeel bettere gegevens, sawol it ynternet en telefoan enkête (dy't naam dagen of wiken) wienen substansjeel flugger oan fjild as de post enkête (dy't naam acht moanne), en it ynternet enkête, dy't brûkt sample matching, wie goedkeaper as de oare twa stannen.

Yn konklúzje, sosjale wittenskippers en statisticians binne ongelooflijk skeptysk fan inferences fan dy net-kâns gebrûk, foar in part om't se wurde yn ferbân brocht mei in tal beskamsume falen fan ûndersyk ûndersyk lykas it Literêr Digest poll. Yn diel, Ik gean akkoard mei dizze skepsis: unadjusted net-kâns gebrûk binne nei alle gedachten te produsearjen minne rûzings. Mar, as ûndersikers kinne oanpasse foar de biases yn de sampling proses (bygelyks, post-stratification) of bestjoeren de sampling proses wat (bygelyks, sample matching), se kinne produsearje bettere rûzings, en sels rûzings fan foldwaande kwaliteit foar de measte doeleinen. Fansels, it soe better te dwaan perfekt útfierd kâns sampling, mar dat net mear liket te wêzen in realistyske opsje.

Sawol net-kâns gebrûk en kâns gebrûk fariearje yn harren kwaliteit, en op it stuit is it nei alle gedachten it gefal dat de measte skattingen út kâns gebrûk binne mear fertrouwe dan rûzings fan net-kâns gebrûk. Mar, sels nou, rûzings fan goed-útfierd net-kâns gebrûk binne nei alle gedachten better as rûzings fan min-útfierd kâns gebrûk. Fierder, net-kâns gebrûk binne substansjeel goedkeaper. Sa, it liket dat kâns vs net-kâns sampling biedt in kosten-kwaliteit trade-off (Figure 3.6). Looking foarút, ik ferwachtsje dat rûzings fan goed dien net-kâns gebrûk sille wurden goedkeaper en better. Fierder, want fan de ôfbraak yn vaste tillefoan ûndersiken en tanimmende tariven fan net-antwurd, ik ferwachtsje dat kâns fan gebrûk sille wurden djoerder en fan legere kwaliteit. Fanwege dy lange-termyn trends, ik tink dat net-kâns sampling sil wurde hieltyd wichtiger yn 'e tredde tiidrek fan ûndersyk ûndersyk.

Figuer 3.6: Kâns sampling yn 'e praktyk en net-kâns sampling binne beide grut, heterogene kategoryen. Yn it algemien, is der in kosten-fout hannel-off mei net-kâns sampling wêzen legere kosten mar hegere flater. Mar, goed dien net-kâns sampling kin produsearje bettere rûzingen as min-dien kâns sampling. Yn 'e takomst, ik ferwachtsje dat net-kâns sampling sil better en goedkeaper wylst kâns sampling sil mar minder en djoerder.