3.4.2 Ne tikimybinės imtys: svoriniai

Tai vertimo buvo sukurtas kompiuterio. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 Ne tikimybinės imtys: svoriniai

Su netikimybinėje pavyzdžių, svoriai gali atšaukti iškraipymams, atsirandantiems dėl prisiimtos mėginių ėmimo procesą.

Tokiu pačiu būdu, kad mokslininkai ir svorio atsakymus iš tikimybių pavyzdžių, jie taip pat gali sverti atsakymus iš netikimybinėje pavyzdžius. Pavyzdžiui, kaip alternatyva CPS, įsivaizduokite, kad įdėjote banerių tūkstančius svetainių įdarbinti dalyvius apklausos galima apskaičiuoti nedarbo lygį. Natūralu, kad jums būtų skeptiškai, kad paprastas vidurkis jūsų mėginio būtų gera įvertis nedarbo lygis. Jūsų skepticizmas yra tikriausiai todėl, kad jūs manote, kad kai kurie žmonės yra labiau linkę užbaigti savo tyrimą, nei kiti. Pavyzdžiui, žmonės, kurie neturi praleisti daug laiko internete yra mažiau linkę užbaigti savo tyrimą.

Kaip matėme paskutiniame skyriuje, tačiau, jei mes žinome, kaip buvo atrinkti-kaip ir mes su tikimybe mėginių-tada mes galime atšaukti iškraipymams, atsirandantiems dėl mėginių ėmimo procesą. Deja, dirbant su netikimybinėje mėginių, mes nežinome, kaip buvo atrinkti. Bet, mes gali daryti prielaidas apie bandinių ėmimo proceso ir tada taikyti koeficientą tuo pačiu būdu. Jei šios prielaidos yra teisingos, tada svoriai bus anuliuoti iškraipymams, atsirandantiems dėl mėginių ėmimo procesą.

Pavyzdžiui, įsivaizduokite, kad reaguodama į Jūsų banerių, jums įdarbino 100.000 respondentų. Tačiau, jūs netikite, kad šie 100.000 respondentai yra paprastoji atsitiktinė imtis suaugusių amerikiečių. Iš tiesų, kai jūs palyginkite savo respondentų JAV gyventojų, pastebėsite, kad žmonės iš kai kurių valstybių (pvz, New York) yra per gausiai atstovaujama ir kad žmonės iš kai kurių valstybių (pvz, Aliaska) yra nepakankamai atstovaujama. Taigi, nedarbo lygis jūsų mėginio gali būti blogas įvertis nedarbo lygis tikslinėje populiacijoje.

Vienas iš būdų panaikinti iškraipymus, kurie įvyko į mėginių ėmimo proceso priskirti svorius kiekvienam asmeniui; mažesnės svoriai su žmonėmis iš valstybių, kurios yra per gausiai atstovaujama mėginyje (pvz Niujorkas) ir didesnio svorio žmonėms iš valstybių, kurios nepakankamai atspindėta imtyje (pvz Alaska). Tiksliau, kiekvienam respondentui svoris yra susijęs su jų paplitimu jūsų mėginio, palyginti su jų paplitimą JAV gyventojų. Svertinis procedūra vadinama post-stratifikacija, o sveria idėja turėtų priminti jums, pavyzdžiui 3.4.1 skirsnį, kur respondentai iš Rhode Island buvo suteikta mažiau svorio, nei respondentai iš Kalifornijos. Post-stratifikacija reikalauja, kad jūs žinote pakankamai įdėti savo respondentus į grupes ir žinoti tikslinės populiacijos dalį kiekvienoje grupėje.

Nors tikimybinės imties ir ne tikimybinės imties koeficientas, yra tas pats matematiškai (žr techninį priedą), jie dirba gerai įvairiose situacijose. Jei tyrėjas turi puikią tikimybinės imties (ty, nėra aprėptis klaidos ir ne neatsakytų), tada svorių gamins nešališkus sąmatas visiems bruožų visais atvejais. Tai stiprus teorinis garantija kodėl advokatai tikimybių mėginių rasti juos toks patrauklus. Kita vertus, svorių ne tikimybinės imtys gamins tik nešališkus sąmatas visiems bruožų jei tas atsakymas polinkis visiems vienoda kiekvienoje grupėje. Kitaip tariant, galvoju grįžti į mūsų Pavyzdžiui, naudojant pašto stratifikacijos gamins nešališkus sąmatas, jei visi Niujorke turi tokią pačią tikimybę dalyvauti ir visi Aliaskoje turi tokią pačią tikimybę dalyvauja ir pan. Ši prielaida yra vadinamas vienalytes reagavimo-polinkių-per grupių prielaida, ir ji vaidina svarbų vaidmenį, žinant, jei po stratifikacijos bus gerai dirba su ne tikimybių pavyzdžius.

Deja, mūsų Pavyzdžiui, homogeniškas-atsako-polinkis-per-grupių prielaida atrodo mažai tikėtina, kad būtų tiesa. Tai yra, atrodo mažai tikėtina, kad kiekvienas Aliaskoje turi tokią pačią tikimybę yra jūsų apklausoje. Tačiau yra trys svarbūs taškai, kuriuos reikia nepamiršti apie post-stratifikacija, kurie visi daro tai, atrodo, labiau perspektyvus.

Pirma, homogeniškas-atsako-polinkis-per-grupių prielaida tampa labiau tikėtina kaip Grupių skaičius didėja. Ir mokslininkai neapsiriboja grupėms tiesiog grindžiamas vienu geografinės aspektą. Pavyzdžiui, mes galime sukurti grupes remiantis valstybės, amžių, lytį ir išsilavinimą. Atrodo labiau tikėtina, kad yra vienarūšiai reagavimo polinkis, kaip apibrėžta 18-29 grupės, Moteris, kolegijų absolventų gyvena Aliaskoje kaip per visų gyvų Aliaskoje žmonių grupei. Taigi, kaip grupes, naudojamų po stratifikacijos skaičius didėja, prielaidos reikia remti ji tampa labiau pagrįsta. Atsižvelgiant į šį faktą, jis atrodo kaip mokslininkai norėtų sukurti didelį skaičių grupių po stratifikacijos. Bet, kaip Grupių skaičius didėja, mokslininkai paleisti į kitą problema: Reti duomenys. Jei yra tik nedidelis skaičius žmonių kiekvienoje grupėje, tada įverčiai bus neaišku, o kraštutiniu atveju, kai yra grupė, kuri neturi respondentai, tada po stratifikacija visiškai sugenda. Yra du būdai, kaip iš šio būdingo įtampa tarp homogeneous- atsakas-polinkis-per-grupių prielaida patikimumo ir už priimtiną mėginių dydžių kiekvienos grupės poreikius. Vienas požiūris yra pereiti prie sudėtingesnių statistinės modelio apskaičiavimo svorius, o kitas yra surinkti didesnį, įvairesnė mėginys, kuris padeda užtikrinti pagrįstas imties dydžius kiekvienoje grupėje. Ir, kartais mokslininkai padaryti tiek, nes aš aprašyti išsamiau.

Antrasis svarstymas dirbant su post-stratifikacijos nuo netikimybinėje pavyzdžių yra tai, kad vienalytis ir atsako-polinkis-per-grupių prielaida jau dažnai sprendžiama analizuojant tikimybinės imtys. Priežasties, kad ši prielaida yra reikalinga tikimybių pavyzdžių praktikoje yra tai, kad tikimybinės imtys turi neatsakymus, ir labiausiai paplitęs būdas tikslinimo už neatsakymo yra po stratifikacija, kaip aprašyta aukščiau. Žinoma, tik todėl, kad daugelis mokslininkų atlikti tam tikrą prielaidą, nereiškia, kad jums reikia padaryti tai per daug. Tačiau, tai nereiškia, kad lyginant netikimybinėje mėginius tikimybių pavyzdžių praktikoje, turime nepamiršti, kad tiek priklauso nuo prielaidų ir papildomą informaciją, siekiant parengti sąmatas. Be realiausių nustatymų, tiesiog nėra prielaida be požiūris į išvada.

Galiausiai, jei jums rūpi vienas sąmatą, visų pirma-mūsų pavyzdys nedarbo lygis-tada jums reikia būklė silpnesnę nei vienalytės reagavimo-polinkis-per-grupes prielaida. Tiksliau, jums nereikia manyti, kad visi turi tą patį atsakymą polinkį, jums reikia tik daryti prielaidą, kad nėra koreliacijos tarp atsako polinkis ir nedarbo lygis kiekvienoje grupėje. Žinoma, net ir tai silpnesnis būklė nelaikys kai kuriose situacijose. Pavyzdžiui, įsivaizduokite, vertinant amerikiečių, kurie savanorišką darbą, dalis. Jei žmonės, kurie daro savanorių darbą yra labiau linkę sutikti, kad būtų apklausoje, tada mokslininkai sistemingai pervertina savanoriškos sumą, net jei jie po išskirstymo lygmenimis koregavimus, rezultatas buvo įrodyta empiriškai iki Abraham, Helms, and Presser (2009) .

Kaip jau minėjau, ne tikimybinės imtys yra žiūrima su dideliu skepticizmu socialinių mokslininkų, iš dalies dėl jų vaidmens kai kurie iš labiausiai gėdingai nesėkmių pirmųjų dienų apklausos tyrimų. Aiškus pavyzdys, kaip toli mes nuėjome su netikimybinėje pavyzdžių yra Wei Wang, David Rothschild, Sharad Goel ir Andrew Gelmano tyrimų, kurie teisingai susigrąžino apie 2012 JAV rinkimų rezultatus naudojant netikimybinėje pavyzdys Amerikos Xbox vartotojų -a neabejotinai ne atsitiktinė imtis amerikiečių (Wang et al. 2015) . Mokslo darbuotojų respondentų iš Xbox žaidimų sistemą, ir kaip galima tikėtis, "Xbox pavyzdys iškreipia vyrų ir iškreiptas jauna: 18 - 29 metų amžiaus sudaro 19% rinkėjų, bet 65% Xbox mėginio ir vyrai sudaro 47% rinkėjų ir 93% Xbox mėginio (3.4 pav). Dėl šių stiprių demografinių subtilybėmis, žalias "Xbox duomenys buvo prastas rodiklis rinkimų grąžą. Jis prognozavo, tvirtą pergalę Mitt Romney per Barackas Obama. Vėlgi, tai yra dar vienas iš žaliavų nekoreguotų netikimybinėje mėginių pavojų pavyzdys ir primena literatūros Digest fiasko.

3,4 pav Demografija respondentų Wang et al. (2015) . Kadangi respondentai buvo įdarbinti iš Xbox, jie buvo labiau linkę būti jauni ir labiau tikėtina, kad Vyras, palyginti su rinkėjais 2012 m rinkimus.

Tačiau Wang ir jo kolegos žinojo apie šias problemas ir bandė svorio respondentų ištaisyti mėginių ėmimo procesą. Visų pirma, jie naudojami sudėtingesnių formą po stratifikacijos Sakiau apie tai. Tai verta mokytis šiek tiek daugiau apie savo požiūrį, nes ji stato intuicija apie post-stratifikacija, o ypač versija Wang ir jo kolegos naudojamas yra vienas iš įdomiausių požiūrių į svorio netikimybinėje pavyzdžius.

Mūsų paprastas pavyzdys apie įvertinant nedarbo 3.4.1 skirsnyje, mes suskirstė gyventojus į grupes remiantis gyvenamosios vietos valstybėje. Priešingai, Wang ir jo kolegos suskirstė gyventojus į į 176,256 grupių, apibrėžtų pagal: lytį (2 kategorijos), rasės (4 kategorijos), amžių (4 kategorijos), švietimo (4 kategorijos), valstybės (51 kategorijos), Party ID (3 kategorijos), ideologija (3 kategorijos) ir 2008 balsavimas (3 kategorijos). Su daugiau grupių, mokslininkai tikėjosi, kad jis būtų labiau tikėtina, kad kiekvienoje grupėje atsakas polinkis buvo uncorrelated su parama Obama. Kitas, o ne statant individualų lygio koeficientus, mes padarėme mūsų pavyzdyje Wang ir jo kolegos naudojo sudėtingą modelį įvertinti žmonių skaičių kiekvienoje grupėje, kuri būtų balsuoti už Obamą. Galiausiai, jie kartu šiuos grupinius vertinimus paramą su žinomu dydžio kiekvienos grupės gaminti numatoma bendra paramos lygį. Kitaip tariant, jie sukapoti gyventojus į skirtingas grupes, įvertintas už Obamai paramą kiekvienoje grupėje, ir tada paėmė svertinį vidurkį Grupė įvertina parengti bendrą sąmatą.

Taigi, didelis iššūkis savo požiūrį yra įvertinti Obama paramą kiekvienoje iš šių 176,256 grupes. Nors jų skydelis įtraukti 345,858 unikalių dalyvių, didelį skaičių iš rinkimų balsavimo standartų, ten buvo daug, daug grupių, dėl kurių Wang ir jo kolegos buvo beveik jokio respondentų. Todėl, norint įvertinti kiekvienos grupės jie naudojami technika vadinama daugiapakopė regresija su po stratifikacijos, kurioje mokslininkai meiliai vadina p P. esmės įvertinti Obama paramą per tam tikrą grupę, p P. baseinai informacija iš daugelio paramą glaudžiai susijusi grupes. Pavyzdžiui, apsvarstyti vertinant Obama paramą tarp moterų, lotynų iššūkį, tarp 18-29 metų, kurie kolegijų absolventų, kurie yra registruoti demokratai, kuris savarankiškai identifikuoti kaip saikingai ir kas balsavo už Obamą 2008 metais šis yra labai, labai specifinė grupė, ir ji yra įmanoma, kad ten yra niekas iš mėginio su šių charakteristikų. Todėl, siekiant padaryti tam tikrus vertinimus Apie šią grupę, p P. baseinai kartu apskaičiavo nuo žmonių labai panašių grupių.

Naudojant šią analizę strategiją Wang ir jo kolegos galėjo naudotis Xbox netikimybinėje mėginį labai atidžiai įvertinti bendrą paramą, kuri B.Obama gavo 2012 m rinkimus (3,5 pav.) Iš tiesų jų įvertinimai buvo tikslesnis nei viešųjų apklausų bendra suma. Taigi, šiuo atveju, svorių-specialiai p p-atrodo padaryti gerą darbą korekcijos į netikimybinėje duomenimis nukrypimų; paklaidų, kurios yra matomos, kai jums pažvelgti įvertinimų iš nekoreguotų Xbox duomenis.

3,5 pav Įvertinimai Wang et al. (2015). Nekoreguoti Xbox pavyzdys gaminami netikslius apskaičiavimus. Bet, svertinis Xbox pavyzdys gaminami įvertinimus, kurie buvo tikslesnis nei iš tikimybių pagrindu telefono tyrimų vidurkį.

3,5 pav įverčiai Wang et al. (2015) . Nekoreguoti Xbox pavyzdys gaminami netikslius apskaičiavimus. Bet, svertinis Xbox pavyzdys gaminami įvertinimus, kurie buvo tikslesnis nei iš tikimybių pagrindu telefono tyrimų vidurkį.

Yra dvi pagrindinės pamokos Wang ir kolegų tyrimas. Pirma, nekoreguotomis ne tikimybinės imtys gali sukelti blogų sąmatas; tai yra pamoka, kad daugelis mokslininkų girdėjote anksčiau. Tačiau antroji pamoka yra ta, kad ne tikimybinės imtys, kai svertinis tinkamai, iš tikrųjų gali sukelti gana gerus įvertinimus. Tiesą sakant, jų įvertinimai buvo tikslesni nei skaičiavimais pollster.com, kurio daugiau tradicinių rinkimų apklausose agregaciją.

Galiausiai, yra svarbūs apribojimai, ką mes galime pasimokyti iš šio vieno konkretaus tyrimo. Tiesiog todėl, kad po stratifikacija gerai dirbo šiuo konkrečiu atveju, nėra jokių garantijų, kad bus gerai ir kitais atvejais. Tiesą sakant, rinkimai yra galbūt vienas iš paprasčiausių nustatymus, nes pollsters studijuoja rinkimus beveik 100 metų, yra įprastas atsiliepimai (mes galime pamatyti, kas laimi rinkimus), o šalies identifikavimas ir demografinės charakteristikos yra gana prognozuoti balsavimo. Šiuo metu mums trūksta tvirtą teorijos ir empirinių patirties žinoti, kada kurių masė stojimo netikimybinėje mėginių gamins pakankamai tikslius apskaičiavimus. Vienas dalykas, kad yra aišku, jei esi priverstas dirbti su netikimybinėje pavyzdžių, tai yra rimto pagrindo manyti, kad pataisyti vertinimai bus geriau nei nekoreguoti sąmatas.