3.4.2 Non-Probabilitéit Echantillon: Gewiicht

Dës Iwwersetzung ass vun engem Computer hunn. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 Non-Probabilitéit Echantillon: Gewiicht

Mat Net-Probabilitéit Echantillonen, kann Gewiichter distortions vun der Wahrscheinlechkeet probéieren Prozess ëmmer net réckgängeg.

An d'selwecht wéi déi Fuerscher Äntwerte vun Probabilitéit Echantillon Gewiicht, kann se och Äntwerte Gewiicht vun Net-Probabilitéit Echantillon. Zum Beispill, wéi eng Alternativ zu der Nëmmen, virstellen, dass Dir Banner Reklammen op dausende vu Websäite Faarwe Participanten fir eng Emfro ze rekrutéieren de Chômage ze schätzen. Natierlech, wär Dir skeptesch, datt déi einfach mengen vun Äre Prouf eng gutt Estimatioun vun de Chômagetaux wier. Är Skepsis ass wahrscheinlech well Dir mengt, datt e puer Leit sinn méi wahrscheinlech Är Ëmfro wéi anerer ze kompletéieren. Zum Beispill déi Leit do net vill vun der Zäit op de Web verbréngen Bezuch Är Ëmfro bis fäerdeg.

Wéi mir an de leschten Abschnitt gesinn, awer, wa mer wëssen, wéi sech d'Prouf ausgewielt-wéi mir mat Wahrscheinlechkeet do Echantillon-dann kann mir distortions vun de spezielle Prozess ëmmer net réckgängeg. Leider, wou mat Net-Probabilitéit Echantillon schaffen, wësse mer net, wéi d'Prouf ausgewielt gouf. Mee, mir kënnen anzeschätzen iwwer d'probéieren Prozess maachen an dann Gewiicht op déiselwecht Manéier gëllen. Wann dës géieren richteg sinn, da wäert d'Gewiicht der distortions vun de spezielle Prozess ëmmer net réckgängeg.

Zum Beispill, virstellen, dass an Äntwert zu Äre Banner Annoncen, Dir 100.000 Interviewten agestallt. Mä, do gleewen Iech net dass dësen 100.000 Interviewten eng einfach zoufälleg Prouf vun American Erwuessener sinn. An eigentlech, wann Dir Är Interviewten zu der US Bevëlkerung vergläichen, fannt Dir dass Leit aus verschiddene Länner (zB, New York) sinn eriwwer-vertrueden an datt Leit aus verschiddene Länner (zB, Alaska) sinn ënnert-vertrueden. Soumat ass de Chômage Taux vun Ärem Prouf wahrscheinlech eng schlecht Estimatioun vun de Chômagetaux an der Populatioun ze ginn.

Een Wee der cash ze réckgängeg datt am probéieren Prozess geschitt ass Gewiichter fir all Persoun ze entloossen; ënneschten Gewiichter fir Leit aus Länner déi an der Prouf iwwer-vertruede sinn (zB, New York) an héich Gewiichter fir Leit aus Länner déi an der Prouf (zB, Alaska) ënnert-vertruede sinn. Méi genau, ass d'Gewiicht fir all Interviewte fir hir prevalence zu Är Prouf relativ zu hire prevalence vun der US Bevëlkerung ze dinn. Dëst Gewiicht Prozedur ass Post-stratification genannt, an d'Iddi vum Persoun sollt Dir vun der Beispill zu Section 3.4.1 erënneren wou Interviewten vu Rhode Island manner Gewiicht wéi Interviewten aus Kalifornien entscheet huet. Post-stratification verlaangt, dass Dir genuch wëssen Är Interviewten an Gruppen ze no an all Grupp den Undeel vun der Populatioun ze wëssen.

Obwuel d'Gewiicht vun der Wahrscheinlechkeet Prouf a vun der Net-Probabilitéit Prouf der selwechter mathematically (kuckt technesch wëll) sinn, Aarbecht si och a verschiddene Situatiounen. Wann de Fuerscher e perfekt Probabilitéit Prouf ass (dh, keng Deckung Fehler an keen Net-Äntwert), dann Gewiicht unbiased Aschätzunge fir all Spure vun all Fäll produzéieren. Dëst staark theoretesch Garantie ass firwat Affekoten vun Probabilitéit Echantillon hinnen sou attraktiv fannen. Wéinst dem Gewiicht Net-Probabilitéit Echantillon gëtt just produzéiere unbiased Aschätzunge fir all Spure wann d'Äntwert propensities d'selwecht fir jiddereen an all Grupp sinn. An anere Wierder, denken zréck un eisem Beispill, post-stratification benotzt gëtt unbiased Schätzunge produzéiere wann jiddereen zu New York d'selwecht Probabilitéit matmécht an jiddereen vun Alaska huet de selwechten Probabilitéit matmécht an esou op. Dëst Virgab ass de Goss-Äntwert-propensities-bannent-Gruppen Virgab genannt, an et spillt eng wichteg Roll an dovunn wann Post-stratification mat Echantillon Net-Probabilitéit Aarbecht gutt gëtt.

Leider, an eisem Beispill, de Goss-Äntwert-propensities-bannent-Gruppen Virgab schéngt onwahrscheinlech wouer ze sinn. Dat ass, schéngt et onwahrscheinlech, datt jiddereen zu Alaska huet déi selwecht Wahrscheinlechkeet zu Är Ëmfro Wiesen. Mä, sinn do dräi wichteg Punkten am Kapp iwwer post-stratification ze halen, all vun deem et villverspriechend Virworf maachen.

Éischt, eenheetleche-Äntwert-propensities-bannent-Gruppen Virgab gëtt wéi d'Zuel vun de Gruppen Erhéijunge méi plausibel. An, Fuerscher sinn net nëmme baséiert op enger eenzeger geografesch Dimensioun ze Gruppen limitéiert. Zum Beispill, kéint mir Gruppen baséiert op Staat, Alter, Geschlecht, an um Niveau vun der Edukatioun schafen. Et schéngt méi plausibel, dass do ass Goss Äntwert propensities bannent de Grupp vu 18-29, weiblech, Fachhéichschoul Graduéierter an Alaska liewege wéi am Grupp vun all Vollek an Alaska wunnen. Esou, wéi d'Zuel vun de Gruppen fir Post-stratification Erhéijunge benotzt, waren d'anzeschätzen op et méi räsonnabel ginn ënnerstëtzt. An dësem Fait, schéngt et wéi enger Fuerscher enger riseger Zuel vu Gruppe fir Post-stratification ze schafen géif wëllen. Mä, wéi d'Zuel vun de Gruppen Majoratiounen, lafen Fuerscher an engem aneren Problem: Daten sparsity. Wann et nëmmen eng kleng Zuel vu Leit vun all Grupp sinn, da wäert d'Estimatioun méi onsécher ginn, an an den extrem Fall wou et eng Grupp, déi kee Interviewten huet, dann post-stratification Break komplett ofgebrannt. Et ginn zwou Méiglechkeeten, aus dëse Onfruchtbarkeet Spannungen tëscht der Thes vun homogeneous- Äntwert-propensity-bannent-Gruppen Virgab an d'Nofro fir raisonabel Echantillonen an all Grupp. Eng Approche ass zu engem méi mechanesch statistesch Modell ze plënneren fir Gewiichter Paien an den aneren ass e groussen, méi verschiddenste Prouf ze sammelen, déi jéngst vun all Grupp suergen raisonabel Prouf hëlleft. An, heiansdo Fuerscher do zwee, wéi ech méi Detail beschreiwen ech ënnendrënner an.

Eng zweet allem wann mat Post-stratification aus Net-Probabilitéit Echantillon schaffen ass, datt de Goss-Äntwert-propensity-bannent-Gruppen Virgab ass schon dacks gemaach, wann Probabilitéit Echantillonen analyséiert. De Grond, datt dës Virgab fir Probabilitéit Echantillon vun der Praxis waren ass ass dass Probabilitéit Echantillon hunn Net-Äntwert, an déi gemeinsam Method fir fir Net-Äntwert ugepasst ass Post-stratification wéi uewe beschriwwen. Natierlech, just well vill Fuerscher engem bestëmmte Virgab maachen mengen net, datt Dir et ze maachen soll. Mä, heescht dat, datt wann Net-Probabilitéit Echantillon zu Probabilitéit Echantillon vun Praxis vergläichen, musse mir am Kapp behalen, dass souwuel hänkt op anzeschätzen an Weibëschof Informatioune fir Schätzunge ze produzéieren. Am meeschte realistesch Astellungen, et ass einfach keng Virgab-gratis Approche ze Ufank ware.

Endlech, wann Dir iwwer eng Schätzung besonnesch-an eisem Beispill de Chômage ëm Quote-dann muss du eng Konditioun schwaachen wéi eenheetleche-Äntwert-propensity-bannent-Gruppen Virgab. Speziell, do brauch Dir net dovun ausgoen, dass jiddereen déi selwecht Äntwert propensity huet, dir musst nëmmen dovun ausgoen, datt et keng Korrelatioun tëscht Äntwert propensity an Chômagetaux bannent all Grupp. Natierlech, och wäert dëst schwaachen Zoustand net an e puer Situatiounen handelt. Zum Beispill, vir den Undeel vun Amerikaner estimating déi benevol Aarbecht maachen. Wann Leit, déi Aarbecht als Fräiwëllegen do sinn méi wahrscheinlech an enger Ëmfro gin averstanen, dann Fuerscher gëtt systematesch iwwer-Estimatioun d'Quantitéit vun de Benevolat, och wann se Post-stratification Ännerung maachen, e Resultat dat haut zum duerch Gewise gouf Abraham, Helms, and Presser (2009) .

Wéi ech virdru gesot, si Nët-Probabilitéit Echantillon mat grousser Skepsis déi sozial Wëssenschaftler gekuckten, well vun hirer Roll an e puer vun de meeschte ugesinn opginn an der fréi Deeg vum Ëmfro Fuerschung zu Deel. Eng kloer Beispill wéi wäit mer mat Net-Probabilitéit Echantillon kommen hun ass d'Fuerschung vun Wei Wang, David Rothschild, Sharad Goel, an Andrew Gelman dass d'Resultat vun der 2012 US Wahl mat engem Net-Probabilitéit Prouf vun American unzeginn Benotzer richteg erholl lount Iech Con Net-zoufälleg Prouf vun Amerikaner (Wang et al. 2015) . D'Fuerscher rekrutéiert Interviewten aus Xbox Spillerinne System, a wéi Dir kéint erwaarden, zougräife Prouf Attentater männlech a Attentater jonk: 18 - 29 Joer ale 19% vun der Wielerschaft nohuelen mee 65% vun der Xbox Prouf a Männer 47% nohuelen vun der Wielerschaft a 93% vun der Xbox Prouf (Dorënner 3,4). Duerch dësen demographeschen biases, war d'Matière unzeginn Donnéeën aarmséileg Luucht vu Wahlen ze preparéieren. Et virausgesot eng staark Victoire fir Mitt Romney iwwer Barack Obama. Kéier, ass dat anert Beispill vun de Gefore vun der Matière, ofgeblennte Net-Probabilitéit Echantillonen an ass vun der Ëffentlech erbléckt Fiasco erënner.

Figur 3,4: Lëscht vun den Interviewten zu Wang et al. (2015) . Well Interviewten aus unzeginn rekrutéiert goufen, goufen se méi wahrscheinlech jonk a méi Chancen ze ginn männlech, relativ zu de Wieler an d'Joer 2012 gewielt ginn.

Allerdéngs, Wang an Kollegen sech vun dëse Problemer bewosst, a versicht d'Interviewten zu Gewiicht fir de spezielle Prozess zu korrekt. Besonnesch, benotzt si eng méi mechanesch Form vun der Post-stratification ech Iech iwwer gesot. Et ass derwäert e bësse méi iwwer hir Approche léieren well et Usiicht iwwer post-stratification baut, an déi besonnesch Versioun Wang an Kollegen benotzt ass eent vun de meescht spannend Approche zu Gewiicht Net-Probabilitéit Echantillon.

An eiser einfacht Beispill iwwer Chômage am Section estimating 3.4.1, ënnerdeelt mir der Populatioun an Gruppen baséiert op Staatsvisite vun Residenz. Am Géigesaz, Wang an Kollegen ënnerdeelt der Populatioun an an 176.256 Gruppen virugaangen: Geschlecht (2 Kategorien), Rass (4 Kategorien), Alter (4 Kategorien), Educatioun (4 Kategorien), Staat (51 Kategorien), Partei ID (3 Kategorien), Ideologie (3 Kategorien) an 2008 Vote (3 Kategorien). Mat méi Gruppen, gehofft d'Fuerscher dass et méi wahrscheinlech wier datt bannent all Grupp, Äntwert propensity mat Ënnerstëtzung fir Obama uncorrelated war. Next, anstatt Gewiichter eenzelne-Niveau Gebaier, wéi mir an eisem Beispill huet, benotzt Wang an de Kollegen eng komplex Modell den Undeel vu Leit, an all Grupp ze schätzen, datt den Obama wielen, géif. Endlech, kombinéiert se dës Grupp Schätzunge vun Ënnerstëtzung mat de bekannte Gréisst vun all Grupp eng geschate globale Niveau vun Ënnerstëtzung ze produzéieren. An anere Wierder, gerappte se d'Populatioun an déi verschidde Gruppen an, multiplizéiert mat der Ënnerstëtzung vum Obama an all Grupp, an huet duerno an enger déifgräifender Kris Duerchschnëtt vun de Grupp Schätzunge eng allgemeng Devis ze produzéieren.

Soumat ass de groussen Challenge an hir Approche an all eenzel vun dësen 176.256 Gruppen der Ënnerstëtzung fir Obama ze schätzen. Obwuel hire Rot 345.858 eenzegaarteg Participanten abegraff, eng grouss Zuel vun de Standarden vun Walen Wahllokaler, goufen et vill, vill Gruppen fir déi Wang an Kollegen bal keen Befroten. Dofir, d'Ënnerstëtzung vun all Grupp ze schätzen se eng Technik multilevel Réckgang mat Post-stratification genannt ginn, déi Fuerscher ee Weesentlechen Här P. ruffen, d'Ënnerstëtzung fir den Obama an enger bestëmmter Grupp ze schätzen, Informatiounen Här P. déinen aus ville enk Gruppen dinn. Zum Beispill, betruecht d'Erausfuerderung vun der Ënnerstëtzung fir Obama estimating ënnert weiblech, Hispanics, tëscht 18-29 Joer al, deen si Studienzäit Graduéierter, deen Hand ugemellt sinn, deen als moderates-Self identifizéieren, an déi fir Obama an 2008 gestëmmt Dëst ass eng ganz, ganz spezifesch Grupp, an et ass méiglech, dass do keen an d'Prouf mat Charakteristiken ass. Dofir, fir Schätzunge iwwer dëse Grupp maachen, Schätzunge Här P. déinen zesummen aus Leit zu ganz ähnlech Gruppen.

Mat Hëllef vun dëser Analyse Strategie, Wang an Kollegen konnt Xbox Net-Probabilitéit Prouf ze benotzen de globale Ënnerstëtzung fir ganz enk schätzen, dass den Obama an der 2012 Wahlen dobäi (Dorënner 3,5). An tatsächlech huet hir Estimatioun méi genee wéi eng ugesammelt vun ëffentlechen Emfroen. Sou, an dësem Fall, Gewiicht-spezifesch Här P.-schéngt eng gutt Aarbecht vum biases an Net-Probabilitéit Donnéeën ze maachen correcting; biases datt siichtbar sinn, wann Dir op de Schätzunge vun der ofgeblennte unzeginn Daten kucken.

Figur 3,5: Estimatioune vun Wang et al. (2015) . Ofgeblennte unzeginn Prouf exakt Schätzunge produzéiert. Mä, no der déifgräifender Kris unzeginn Prouf geschat datt méi genee waren wéi Moyenne vun Probabilitéit-baséiert Telefon Ëmfroen.

Et sinn zwee Haaptgrënn Lektioune vun der Etude vun Wang a Kollegen. Éischt, ofgeblennte Net-Probabilitéit Echantillon kënnen ze schlecht Schätzunge Féierung; dat ass eng Lektioun, déi vill Fuerscher virun héieren hunn. Mä, ass et déi zweet Kapitel, dass Net-Probabilitéit Echantillonen, wann anstänneg déifgräifender Kris, kann eigentlech relativ gutt Schätzunge produzéieren. An Tatsaach, sech hir Estimatioun méi präzis wéi de Schätzunge vun pollster.com, eng Usammlung vu méi traditionell Wahlen Emfroen.

Endlech, do si wichteg Aschränkungen zu wat mir aus deem eng spezifesch Etude léiere kann. Just well Post-stratification och an dësem bestëmmte Fall geschafft, do ass keng Garantie, datt et an anere Fäll och wäert schaffen. An Tatsaach, si Wahlen vläicht ee vun den einfachste Astellungen well pollsters Wahlen fir bal 100 Joer studéiert hunn, ass et normal Feedback (kënne mir kucken, déi d'Wahlen gewënnt), a Partei Identifikatiouns- an demographescher Charakteristiken sinn relativ predictive vun Wahl. Op dësem Punkt, feelen mir staark Theorie an empiresche Erfahrung ze wëssen wou Gewiicht Ännerung fir Net-Probabilitéit Echantillon gëtt genuch korrekt Estimatioun produzéieren. Eng Saach, datt kloer ass, awer, ass wann Dir forcéiert sinn mat Net-Probabilitéit Echantillon ze schaffen, dann ass et staark Grond ze gleewen, datt seng Schätzung besser ginn, wéi Net-seng Schätzung.