3.4.2 Non-kâns gebrûk: weighting

Mei net-kâns gebrûk, gewichten kinne jo it weromdraaie distortions feroarsake troch de oannommen sampling proses.

Yn 'e selde wize dat ûndersikers Gewicht reaksjes út kâns gebrûk, se kinne ek Weight reaksjes fan net-kâns gebrûk. Bygelyks, as in alternatyf foar it CPS, yntinke dat jo pleatst banner advertinsjes op tûzenen fan websites te winnen dielnimmers foar in ûndersyk nei skatte de wurkleazens. Fansels, jo soenen wêze skeptysk dat de ienfâldige gemiddelde fan jo sample soe in goede skatting fan de wurkleazens. Jo skepsis is nei alle gedachten omdat jo tinke dat guon minsken binne mear kâns te foltôgjen jo ûndersyk as oaren. Bygelyks, minsken dy't net besteegje in soad tiid oan it web binne minder kâns te foltôgjen jo ûndersyk.

Sa't wy seagen yn de lêste paragraaf, lykwols, as wy witte hoe't de stekproef waard selektearre-as wy dogge mei kâns gebrûk-dan kinne wy ​​werom sette distortions feroarsake troch de sampling proses. Spitigernôch, doe't wurkjen mei net-kâns gebrûk, wy net witte hoe't it stekproef waard selektearre. Mar, wy kinne meitsje útgongspunten oer it sampling proses en dêrnei fan tapassing weighting yn deselde wize. As dizze útgongspunten goed binne, dan de weighting sil werom sette de distortions feroarsake troch de sampling proses.

Bygelyks, yntinke dat yn antwurd op jo banner reklame, jo rekrutearre 100.000 respondinten. Mar, jimme net leauwe, dat dizze 100.000 respondinten binne in ienfâldige willekeurige stekproef fan Amerikaanske folwoeksenen. Yndie, as jo ferlykje jo respondinten nei de Amerikaanske befolking, jo fine dat minsken út guon steaten (bygelyks, New York) binne over-fertsjintwurdige en dat minsken út guon steaten (bygelyks, Alaska) binne ûnder-fertsjintwurdige. Sa, de wurkleazens fan jo sample is nei alle gedachten te wêzen in minne rûzing fan de wurkleazens yn de doelgroep befolking.

Ien manier om werom sette de fersteurende ynfloed dy't barde yn de sampling proses is te assign gewichten foar eltse persoan; legere gewichten foar minsken fan steaten dy't oer-fertsjintwurdige yn de stekproef (bygelyks, New York) en hegere gewichten foar minsken fan steaten dy binne ûnder-fertsjintwurdige yn de stekproef (bygelyks, Alaska). Mear spesifyk, it gewicht foar eltse respondint is yn ferbân mei harren foarkommen yn jo sample relatyf oan harren foarkommen yn 'e Amerikaanske befolking. Dizze weighting proseduere wurdt neamd post-stratification, en it idee fan gewicht moatte bringe jo fan it foarbyld yn paragraaf 3.4.1 dêr't respondinten út Rhode Island krigen minder gewicht as respondinten út California. Post-stratification fereasket dat jo witte genôch om jo respondinten yn groepen en te witte it oanpart fan de doelgroep befolking yn eltse groep.

Hoewol't it weighting fan de kâns sample en fan 'e net-kâns sample binne deselde wiskundich (sjoch technyske taheakke), se wurkje goed yn ferskillende situaasjes. As de ûndersiker hat in perfekte kâns sample (dat wol sizze, gjin dekking flater en gjin net-antwurd), dan weighting sil produsearje Unbiased rûzings foar alle trekken yn alle gefallen. Dizze sterke teoretyske garânsje is wêrom't foarfjochters fan kâns gebrûk fine se sa oantreklik. Oan de oare kant, weighting net-kâns gebrûk sille allinne produsearje Unbiased rûzings foar alle trekken as it antwurd oanstriden binne itselde foar elkenien yn elke groep. Yn oare wurden, tinkt werom oan ús foarbyld, mei help fan post-stratification sil produsearje Unbiased rûzings as elkenien yn New York hat deselde kâns fan dielnimmende en elkenien yn Alaska hat deselde kâns fan dielnimmende en sa op. Dizze oanname is neamd de homogeen-antwurd-oanstriden-binnen-groepen ferûnderstelling, en dat spilet in wichtige rol yn it witten as post-stratification sil wurkje goed mei net-kâns gebrûk.

Spitigernôch, yn ús foarbyld, de homogeen-antwurd-oanstriden-binnen-groepen oanname liket ûnwierskynlik te wêzen wier. Dat is, it liket ûnwierskynlik dat elkenien yn Alaska hat deselde kâns dat yn dyn ûndersyk. Mar, der binne trije wichtige punten te hâlden yn gedachten oer post-stratification, al fan dat meitsje it lykje meast talintfolle.

Earste, homogeen-antwurd-oanstriden-binnen-groepen oanname wurdt mear oannimlik as it tal fan groepen grutter. En, ûndersikers wurde net beheind ta groepen krekt basearre op ien geografyske diminsje. Bygelyks, wy koenen meitsje groepen op grûn fan steat, leeftyd, seks, en nivo fan ûnderwiis. It liket mear oannimlik dat der is homogeen antwurd oanstriden binnen de groep fan 18-29, froulike, kolleezje ôfstudearden libje yn Alaska as binnen de groep fan alle minsken wennet yn Alaska. Sa, as it tal fan groepen brûkt foar post-stratification tanimt, de útgongspunten nedich te stypjen it wurden mear ridlik. Mei it each op dit feit, it liket as in ûndersikers soe wol om in grut tal groepen foar post-stratification. Mar, as it tal fan groepen grutter, ûndersikers rinne yn in oar probleem: gegevens sparsity. As der mar in lyts oantal minsken yn eltse groep, dan de rûzingen sil mear ûnwis, en yn it uterste gefal dêr't der in groep dat hat gjin respondinten, dan post-stratification folslein brekt del. Der binne twa wizen út fan dit ynherinte spanning tusken de plausibility fan homogeneous- antwurd-oanstriid-binnen-groepen ferûnderstelling en de fraach nei ridlike sample maten yn eltse groep. Ien oanpak is om te ferhúzjen nei in mear ferfine statistyske model foar berekkenje gewichten en de oare is om te sammeljen in grutter, mear ferskaat sample, dy't helpt soargje reedlike sample maten yn eltse groep. En, soms ûndersikers dogge beide, as ik beskriuwe yn mear detail hjirûnder.

In twadde tsjinprestaasje as wurkjen mei post-stratification út net-kâns gebrûk is dat de homogeen-antwurd-oanstriid-binnen-groepen oanname is al faak makke as it analysearjen kâns gebrûk. De reden dat dizze oanname is nedich foar kâns gebrûk yn 'e praktyk is dat kâns fan gebrûk hawwe net-respons, en de meast foarkommende metoade foar it oanpassen foar net-respons is post-stratification lykas hjirboppe beskreaun. Fansels, krekt omdat in protte ûndersikers meitsje in bepaalde oanname betsjut net dat jo moatte it ek. Mar, it hat betsjutte dat as fergelykjen net-kâns gebrûk om kâns gebrûk yn 'e praktyk, wy moatte hâld foar eagen dat beide ôfhinklik op oannames en helptiidwurd ynformaasje om te produsearjen skattings. Yn de measte realistyske ynstellings, der is gewoan gjin ferûnderstelling-free oanpak te konklúzje.

Ta beslút, as jo soarch oer ien rûzing yn it bysûnder-yn ús foarbyld wurkleazens-dan jo moatte in betingst swakker as homogeen-antwurd-oanstriid-binnen-groepen ferûnderstelling. Spesifyk, jo net moatte oannimme dat elkenien hat deselde antwurd oanstriid, jo allinne moatte der fan út dat der gjin korrelaasje tusken antwurd oanstriid en wurkleazens binnen eltse groep. Fansels, ek dit swakker tastân sil net hâlden yn guon sitewaasjes. Bygelyks, yntinke rûzing it oanpart fan de Amerikanen dat dogge frijwilligerswurk. As minsken dy't dogge frijwilligerswurk binne mear kâns te akkoard te wêzen yn in ûndersyk, dan ûndersikers sille systematysk over-rûze it bedrach fan frijwillige ynset, ek as se dogge post-stratification oanpassings, in gefolch dat is oantoand empirically troch Abraham, Helms, and Presser (2009) .

As ik sei earder, net-kâns gebrûk binne besjoen mei grutte skepsis troch sosjale wittenskippers, yn part fanwege harren rol yn guon fan de meast beskamsume mislearre yn de iere dagen fan it ûndersyk ûndersyk. In dúdlik foarbyld fan hoe fier wy hawwe komme mei net-kâns gebrûk is it ûndersyk fan Wei Wang, David Rothschild, Sharad Goel, en Andrew Gelman dat goed weromfûn de útkomst fan de 2012 Amerikaanske ferkiezing mei help fan in net-kâns sample fan American Xbox brûkers -a beslist net-willekeurige stekproef fan Amerikanen (Wang et al. 2015) . De ûndersikers rekrutearre respondinten út de XBox gaming systeem, en sa as jo al ferwachtsje, de Xbox sample skeane frou en skeane jonge: 18 - 29 jierrigen meitsje 19% fan de Electorate mar 65% fan de Xbox sample en minsken meitsje 47% fan de Electorate en 93% fan de Xbox sample (Figure 3.4). Fanwege dy sterke demografyske biases, de rauwe Xbox gegevens wie in earme yndikator fan ferkiezing werom. It foarsei in sterk oerwinning foar Mitt Romney oer Barack Obama. Wer, dat is in oar foarbyld fan de gefaren fan rauwe, unadjusted net-kâns gebrûk en docht tinken oan de Literêre Digest fiasco.

Figuer 3.4: Demografy fan respondinten yn Wang et al. (2015). Omdat respondinten waarden rekrutearre út XBox, se wienen mear kâns te wêzen jong en mear kâns te wêzen frou, relatyf oan kiezers yn 'e 2012 ferkiezings.

Figuer 3.4: Demografy fan respondinten yn Wang et al. (2015) . Omdat respondinten waarden rekrutearre út XBox, se wienen mear kâns te wêzen jong en mear kâns te wêzen frou, relatyf oan kiezers yn 'e 2012 ferkiezings.

Mar, Wang en kollega wiene de hichte fan dy problemen en besocht te gewicht de respondinten te ferbetterjen foar de sampling proses. Yn it bysûnder, se brûkt in mear ferfine foarm fan it post-stratification ik sein jim oer. It is de muoite wurdich learen in bytsje mear oer harren oanpak omdat it bout yntuysje oer post-stratification, en de bysûndere ferzje Wang en kollega brûkt is ien fan de meast spannende oanpakken nei weighting net-kâns gebrûk.

Yn ús simpel foarbyld oer in rûzing wurkleazens yn paragraaf 3.4.1, wy ûnderferdield de befolking yn groepen op grûn fan steat fan wenplak. Yn tsjinstelling, Wang en kollega ûnderferdield de befolking yn yn 176.256 groepen definiearre troch: geslacht (2 kategoryen), ras (4 kategoryen), leeftyd (4 kategoryen), ûnderwiis (4 kategoryen), steat (51 kategoryen), partij ID (3 kategoryen), ideology (3 kategoryen) en 2008 stimmen (3 kategoryen). Mei mear groepen, de ûndersikers hope dat it soe wêze hieltyd oannimlik dat binnen eltse groep, antwurd oanstriid wie uncorrelated mei stipe foar Obama. Folgjende, ynstee fan it oanlizzen yndividuele-nivo gewichten, as wy dien yn ús foarbyld, Wang en kollega brûkt in kompleks model te skatten it oanpart fan minsken yn elke groep dy't soe stimme foar Obama. Ta beslút, sy kombinearre dizze groep rûzings fan stipe mei de bekende grutte fan eltse groep te produsearje in skatte algehiele nivo fan stipe. Yn oare wurden, se chopped op de befolking yn ferskillende groepen, estimated de stipe foar Obama yn elke groep, en dêrnei naam in woegen trochsneed fan de groep rûzings te produsearje in algehiele skatting.

Sa, de grutte útdaging yn harren oanpak is te skatten de stipe foar Obama yn elk fan dy 176.256 groepen. Hoewol't harren paniel opnaam 345.858 unike dielnimmers, in grutte tal troch de noarmen fan ferkiezings Untdekke, der wiene in soad, in protte groepen dêr't Wang en kollega hiene hast gjin respondinten. Dêrom, om skatte de stipe yn eltse groep se brûkt in technyk neamd multilevel regresje mei post-stratification, dy't ûndersikers affectionately neame de hear P. Yn wêzen, te skatten de stipe foar Obama binnen in bepaalde groep, de hear P. swimbaden ynformaasje fan in soad besibbe groepen. Bygelyks, fine de útdaging fan in rûzing de stipe foar Obama ûnder froulike, Hispanics, tusken 18-29 jier âld, dy't kolleezje ôfstudearden, dy't registrearre demokraten, dy't sels-identifisearjen as moderates, en dy't stimden foar Obama yn 2008. Dizze is in hiel, hiel spesifike groep, en is it mooglik dat der nimmen yn de stekproef mei dizze skaaimerken. Dêrom, om rûzings oer dizze groep, de hear P. swimbaden byinoar skat fan minsken yn hiel lyksoartige groepen.

Mei help fan dizze analyze strategy, Wang en kollega koenen brûke de XBox net-kâns sample om hiel nau skatte de totale stipe dat Obama krige yn de 2012 ferkiezings (Figure 3.5). Yn feite harren rûzings wiene krekter as in aggregaat fan publike miening peilings. Sa, yn dit gefal, weighting-spesifyk de hear P.-liket te dwaan in goede wurk korrizjearjen de biases yn net-kâns data; biases dy't sichtber as jo sjogge nei de rûzings fan de unadjusted Xbox gegevens.

Figuer 3.5: Estimates út Wang et al. (2015). Unadjusted XBox sample produsearre miny-ôfbyldings rûzings. Mar, de woegen XBox sample produsearre rûzingen dy't krekter as in gemiddelde fan kâns-basearre telephone ûndersiken.

Figuer 3.5: Estimates út Wang et al. (2015) . Unadjusted XBox sample produsearre miny-ôfbyldings rûzings. Mar, de woegen XBox sample produsearre rûzingen dy't krekter as in gemiddelde fan kâns-basearre telephone ûndersiken.

Der binne twa wichtige lessen út 'e stúdzje fan Wang en kollega. Earst, unadjusted net-kâns gebrûk kinne liede ta minne rûzingen; dit is in les dat in protte ûndersikers hawwe heard foar. Lykwols, de twadde les is dat net-kâns gebrûk, doe't woegen goed, kinne eins produsearje hiel goed rûzings. Yndie, harren rûzings wiene der krekter as de rûzings fan pollster.com, in aggregation fan mear tradisjonele ferkiezing peilings.

Ta beslút, der binne wichtige beheinings foar wat kinne wy ​​leare út dit iene spesifike stúdzje. Just omdat post-stratification wurke goed yn dit bysûndere gefal, der is gjin garânsje dat it sil wurkje goed yn oare gefallen. Yndie, ferkiezings binne faaks ien fan de maklikste ynstellings omdat pollsters hawwe studearre ferkiezings foar hast 100 jier, is der geregeldwei feedback (kinne wy ​​sjen wa't wint de ferkiezings), en partij identifikaasje en demografyske skaaimerken binne relatyf foarsizzend fan stimming. Op dit punt, wy misse bêst teory en empiryske ûnderfining te witten wannear't weighting oanpassings oan net-kâns gebrûk sil produsearje genôch presys rûzings. Ien ding dat is dúdlik, lykwols, is as jo binne twongen om te wurkjen mei net-kâns gebrûk, dan is der sterke reden om te leauwen dat oanpast rûzingen sil better as net-oanpast skattings.