3.4.2 Muut kuin todennäköisyysotantaan: painotus

Tämä käännös on luotu tietokoneella. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 Muut kuin todennäköisyysotantaan: painotus

Ei-todennäköisyysotantaan, painot voivat kumota aiheuttamat vääristymät oletetun näytteenottoprosessi.

Samalla tavoin, että tutkijat paino vastauksia todennäköisyys näytteitä, ne voivat myös paino vastauksia ei-todennäköisyys näytettä. Esimerkiksi vaihtoehtona CPS, kuvitella, että asetit mainospalkit tuhansia sivustoja rekrytoida osallistujien tutkimuksen arvioida työttömyysaste. Luonnollisesti olisi skeptinen, että yksinkertainen keskiarvo näytteen olisi hyvä arvio työttömyysaste. Your skeptisyys on luultavasti koska olet sitä mieltä, että jotkut ihmiset ovat todennäköisemmin valmistuminen kyselyn kuin toiset. Esimerkiksi ihmisille, jotka eivät kuluta paljon aikaa verkossa epätodennäköisemmin valmistuminen kyselyyn.

Kuten näimme viime jaksossa, mutta jos osaamme otos poimittiin-kuten teemme todennäköisyysotantaan-voimme kumota aiheuttamat vääristymät mittauksen,. Valitettavasti työskenneltäessä kuin todennäköisyysotantaan, emme tiedä miten otos poimittiin. Mutta voimme tehdä oletuksia näytteenottoprosessi ja sitten soveltaa painotusta samalla tavalla. Jos nämä oletukset ovat oikein, niin painotus kumoaa aiheuttamia vääristymiä mittauksen,.

Oletetaan esimerkiksi, että vastauksena bannerimainoksia, te palvelukseen 100000 vastaajat. Et kuitenkaan usko, että nämä 100000 vastaajat ovat yksinkertainen satunnaisotos Yhdysvaltain aikuisista. Itse asiassa, kun vertaa oman vastaajat USA: n väestöstä, huomaat, että ihmiset joissakin valtioissa (esim New York) ovat yliedustettuina ja että ihmiset joissakin valtioissa (esim Alaska) ovat aliedustettuina. Niinpä työttömyysaste näytteen on todennäköisesti huono arvio työttömyysaste kohderyhmässä.

Yksi tapa kumota vääristymä, joka tapahtui mittauksen, on määrittää painot kullekin henkilölle; alempi painot ihmisiä todetaan, että ovat yliedustettuina otoksessa (esim New York) ja suuremmat painot ihmisiä todetaan, että ovat aliedustettuina otoksessa (esim Alaska). Tarkemmin sanottuna paino kunkin vastaajan liittyy niiden esiintyvyyttä Kokeilutiliin suhteessa niiden yleisyys Yhdysvaltain väestöstä. Tämä painotus menettelyä kutsutaan jälkiositukseen, ja ajatus punnitus pitäisi muistuttavat esimerkistä Kohta 3.4.1, jossa vastaajia Rhode Island annettiin vähemmän painoa kuin vastaajia Kaliforniasta. Jälkiositukseen edellyttää, että tiedät tarpeeksi laittaa vastaajat ryhmiin ja tietää osuus kohderyhmä kussakin ryhmässä.

Vaikka painotus todennäköisyys näytteen ja ei-todennäköisyys näyte ovat samat matemaattisesti (katso tekninen liite), ne toimivat hyvin erilaisissa tilanteissa. Jos tutkija on täydellinen todennäköisyys näyte (eli ei verkkoa virhettä eikä kato), niin painotus tuottaa puolueeton arvioita kaikkien ominaisuuksien kaikissa tapauksissa. Tämä vahva teoreettinen tae vuoksi puolestapuhujia todennäköisyysotantaan löytää ne niin houkutteleva. Toisaalta, painotus ei-todennäköisyysotantaan tuottaa vain puolueeton arvioita kaikki piirteet jos vastaus taipumukset ovat kaikille samat kussakin ryhmässä. Toisin sanoen, ajattelu takaisin meidän esimerkiksi käyttämällä jälkiositukseen tuottaa puolueeton arvioita jos kaikki New Yorkissa on sama todennäköisyys osallistuvien ja jokaisella Alaskassa on sama todennäköisyys osallistuvien ja niin edelleen. Tämä oletus kutsutaan homogeeninen-vaste-taipumuksia-sisällä-ryhmissä oletukseen, ja se on avainasemassa tietämään jos jälkiositukseen toimii hyvin kuin todennäköisyysotantaan.

Valitettavasti meidän esimerkiksi homogeeninen-vaste-taipumuksia-sisällä-ryhmissä olettamus vaikuttaa epätodennäköiseltä olevan totta. Eli näyttää epätodennäköiseltä, että jokaisella Alaskassa on sama todennäköisyys olla omassa tutkimuksessa. Mutta meillä on kolme tärkeää asiaa pitää mielessä jälkiositukseen, jotka kaikki tekevät näyttää lupaavammalta.

Ensinnäkin, homogeeninen-vaste-taipumuksia-sisällä-ryhmissä oletus muuttuu uskottavalta kuin ryhmien lukumäärä kasvaa. Ja tutkijat eivät rajoitu ryhmiä vain perustuu yhteen ainoaan maantieteellisen ulottuvuuden. Esimerkiksi voisimme luoda ryhmiä valtio, ikä, sukupuoli, ja koulutustaso. Se vaikuttaa uskottavalta, että on homogeeninen vastaus taipumuksia ryhmässä 18-29, naispuolinen, merkonomien elävät Alaskassa kuin ryhmässä kaikki ihmiset elävät Alaskassa. Siten, kun ryhmien lukumäärä käytetään jälkiositukseen kasvaa, oletukset tarvitaan tukemaan sitä tulee järkevämpää. Kun otetaan huomioon tämä tosiasia, se tuntuu tutkijat haluaisi luoda valtava määrä ryhmiä jälkiositukseen. Mutta, koska ryhmien lukumäärä kasvaa, tutkijat törmätä eri ongelma: tieto niukkuus. Jos on vain pieni joukko ihmisiä kussakin ryhmässä, niin arvioiden on enemmän epävarmoja, ja äärimmäisessä tapauksessa, jossa on ryhmä, jolla ei ole vastaajien, sitten jälkiositukseen kokonaan hajoaa. On kaksi tapaa pois tästä luontainen välinen jännite uskottavuutta homogeneous- vasteen-alttius-sisällä-ryhmissä oletus ja kysynnän kohtuullinen otoskoot kussakin ryhmässä. Yksi lähestymistapa on siirtyä entistä kehittyneempiä tilastollisen mallin painonmuodostuksessa ja toinen on kerätä suurempi, monipuolisempi näyte, joka auttaa varmistamaan kohtuullinen otoskoot kussakin ryhmässä. Ja joskus tutkijat tehdä molempia, kuten minä kuvataan tarkemmin alla.

Toinen näkökohta työskenneltäessä jälkiositukseen ulkopuolisista todennäköisyysotantaan on, että homogeeninen-vaste-alttius-sisällä-ryhmissä olettamus on jo usein tehty analysoitaessa todennäköisyysotantaan. Syy siihen, että tämä oletus tarvitaan todennäköisyysotantaan käytännössä sitä, että todennäköisyys näytteillä on kato, ja yleisin tapa säätämiseksi kato on jälkiositukseen edellä kuvatulla tavalla. Tietenkin vain siksi monet tutkijat tekevät tietty olettamus ei tarkoita, että sinun pitäisi tehdä sitä. Mutta se ei tarkoita, että verrattaessa ei-todennäköisyys näytteitä todennäköisyysotantaan käytännössä meidän on pidettävä mielessä, että molemmat ovat riippuvaisia oletuksista ja lisäinformaatio, jotta voidaan tuottaa arvioita. Useimmissa realistinen asetuksia, ei yksinkertaisesti ole oletus-vapaa lähestymistapa päättelyyn.

Lopuksi, jos välität erään arvion erityisesti-esimerkkimme työttömyysaste-sinun täytyy edellytys heikompi kuin homogeeninen-vaste-alttius-sisällä-ryhmissä oletus. Tarkemmin, sinun ei tarvitse olettaa, että kaikilla on sama vaste taipumus, sinun tarvitsee vain olettaa, että ei ole korrelaatiota vastausta alttiutta ja työttömyysaste kussakin ryhmässä. Tietenkin, vaikka tämä heikompi ehto ei pidä joissakin tilanteissa. Oletetaan esimerkiksi, osuuden arvioimisessa amerikkalaisille, että vapaaehtoistyöhön. Jos ihmiset, jotka vapaaehtoistyöhön ovat todennäköisesti suostua olemaan kyselyyn, sitten tutkijat systemaattisesti yliarvioida määrä vapaaehtoistyön, vaikka ne jälkiositukseen säätöjä, että tulos on osoitettu kokeellisesti Abraham, Helms, and Presser (2009) .

Kuten aiemmin sanoin, ei-todennäköisyysotantaan suhtaudutaan hyvin epäilevästi yhteiskuntatieteilijät, osittain siksi, että niiden merkitys joitakin kaikkein kiusallista epäonnistumiset alkuaikoina kyselytutkimuksen. Selvä esimerkki siitä, miten pitkälle olemme päässeet ulkopuolisten todennäköisyys näytteiden tutkimiseen Wei Wang, David Rothschild, Sharad Goel, ja Andrew Gelman että oikein talteen tulos 2012 Yhdysvaltain vaalit käyttämällä ei-todennäköisyys näyte American Xbox käyttäjiä -a ehdottomasti ei-satunnainen otos amerikkalaiset (Wang et al. 2015) . Tutkijat palvelukseen vastaajien Xbox pelaamista järjestelmä, ja kuten arvata saattaa, Xbox näyte vinossa miehen ja vinoutunut nuorten: 18-29 vuotta täyttäneistä muodostavat 19% äänestäjistä, mutta 65%: n Xbox näytteen ja miehet muodostavat 47% äänestäjistä ja 93%: n Xbox näytteen (kuva 3.4). Koska nämä vahvat väestörakenteen harhat, raaka Xbox data oli huono indikaattori vaalien palaa. Se ennusti vahvan voitto Mitt Romney yli Barack Obama. Tämäkin on toinen esimerkki vaaroista raaka, oikaisemattomien kuin todennäköisyysotantaan ja muistuttaa Literary Digest fiasko.

Kuva 3.4: Kohderyhmätiedot vastaajista Wang et al. (2015) . Koska vastaajat rekrytoitiin XBox, he olivat todennäköisemmin nuoria ja todennäköisesti mies, suhteessa äänestäjät 2012 vaaleissa.

Kuitenkin Wang ja työtovereiden olivat tietoisia näistä ongelmista ja yrittänyt paino vastaajien korjaamaan näytteenotossa prosessia. Erityisesti niitä käytetään kehittyneempi muoto jälkiositukseen kerroin. Se on oppimisen arvoinen hieman lisää niiden lähestymistapa, koska se rakentaa intuitio jälkiositukseen, ja erityisesti versio Wang ja kollegoineen on yksi mielenkiintoisimmista lähestymistavat painotusta kuin todennäköisyysotantaan.

Meidän yksinkertainen esimerkki siitä arvioitaessa työttömyyden § 3.4.1, jaoimme väestön ryhmiin perustuen asuinvaltiossa. Sen sijaan Wang ja työtovereiden jaettu väestö otetaan osaksi 176256 määriteltyjen ryhmien: sukupuoli (2 luokat), rotu (4 luokat), ikä (4 luokat), koulutus (4 luokat), tila (51 luokat), osapuoli tunnus (3 luokat), ideologia (3 luokat) ja 2008 äänestys (3 luokat). Yhä ryhmät, tutkijat toivoi, että olisi entistä todennäköisempää, että kussakin ryhmässä, reaktio alttius oli korreloimattomia tukee Obaman. Seuraavaksi sijaan rakentamalla yksilötason painoja, kuten teimme esimerkissä, Wang ja kollegoineen monimutkaisen mallin arvioida ihmisten osuus kussakin ryhmässä, joka äänestää Obamaa. Lopuksi ne yhdistetään nämä ryhmä arvioita tuen tunnettuun koko kunkin ryhmän tuottamaan arviolta yleinen taso tukea. Toisin sanoen, ne silputaan väestön eri ryhmiin, arvioi tuen Obama kussakin ryhmässä, ja sitten otti painotettu keskiarvo ryhmän arvioiden antaa yleinen arvio.

Siten suuri haaste niiden lähestymistapa on arvioida tuen Obama kussakin näistä 176256 ryhmistä. Vaikka niiden paneeli mukana 345858 ainutlaatuinen osallistujia, valtava määrä standardien mukaan äänestyspaikkoihin oli monia, monia ryhmiä, joille Wang ja työtovereiden ollut lähes mitään vastaajien. Siksi arvioida tuen kussakin ryhmässä he käyttivät tekniikkaa kutsutaan monitasoista regressiolla jälkiositukseen, joissa tutkijat hellästi soittaa Mr. P. Pohjimmiltaan arvioida tuen Obama tietyssä ryhmässä, herra P. altaat tietoa monista läheistä sukua ryhmiä. Tarkastellaan esimerkiksi haaste arvioitaessa tuen Obama naisten keskuudessa, latinot, välillä 18-29 vuotta vanhoja, jotka ovat merkonomien, jotka on rekisteröity demokraattien, jotka itse tunnistaa niin maltilliset, ja jotka äänestivät Obama vuonna 2008. Tämä on hyvin, hyvin erityinen ryhmä, ja on mahdollista, ettei kukaan näytteessä kyseisten ominaisuuksien kanssa. Siksi arvioiden tästä ryhmästä, herra P. kokoaa yhteen arvioi ihmisiltä hyvin samankaltaisia ryhmiä.

Käyttämällä tätä analyysia strategiasta, Wang ja työtovereiden pystyivät käyttämään XBox kuin todennäköisyys näyte hyvin tarkasti arvioida kokonaistuen että Obama sai vuoden 2012 vaaleissa (Kuva 3.5). Itse asiassa niiden arviot olivat tarkempia kuin aggregaatti mielipidemittaukset. Näin ollen tässä tapauksessa painotuksen nimenomaan herra P.-tuntuu tekevän hyvää työtä korjaamiseksi harhat kuin todennäköisyys data; harhat, jotka näkyvät, kun tarkastellaan arvioita oikaisematon Xbox tiedot.

Kuva 3.5: Arviot Wang et al. (2015). Mukauttamaton XBox näyte epätarkkoja arvioita. Mutta painotettu XBox näyte tehtiin arvioita, jotka olivat tarkempia kuin keskimäärin todennäköisyyden perustuvien puhelintutkimukset.

Kuva 3.5: Arviot alkaen Wang et al. (2015) . Mukauttamaton XBox näyte epätarkkoja arvioita. Mutta painotettu XBox näyte tehtiin arvioita, jotka olivat tarkempia kuin keskimäärin todennäköisyyden perustuvien puhelintutkimukset.

On olemassa kaksi pääasiallista oppia tutkimuksen Wang ja työtovereiden. Ensinnäkin oikaisematon kuin todennäköisyysotantaan voi johtaa huonoon arvioiden; tämä on opetus, että monet tutkijat ovat kuullut. Kuitenkin toinen opetus on, että ei-todennäköisyysotantaan, kun painotettu oikein, voi itse tuottaa varsin hyvä arvioita. Itse asiassa niiden arviot ovat tarkempia kuin arvioita pollster.com, yhdisteltäessä perinteisempien vaaleissa gallupit.

Lopuksi on merkittäviä rajoituksia sille, mitä voimme oppia tästä yhden tietyn tutkimuksen. Vain koska jälkiositukseen toimi hyvin tässä tapauksessa, ei ole mitään takeita siitä, että se toimii hyvin muissa tapauksissa. Itse vaalit ovat ehkä yksi helpoimmista asetuksista koska pollsters ovat tutkineet vaaleissa lähes 100 vuotta on säännöllinen palaute (voimme nähdä, kuka voittaa vaalit), ja puolueen tunnistaminen ja demografiset ominaisuudet ovat suhteellisen ennustavan äänestyksen. Tässä vaiheessa meillä ei ole kiinteä ja empiirisiin kokemusta tietää, milloin painottamalla säätöjä kuin todennäköisyysotantaan tuottaa riittävän tarkkoja arvioita. Yksi asia on kuitenkin selvä, on jos on pakko työskennellä kuin todennäköisyysotantaan, niin on vahva syy uskoa, että muutetut arviot on parempi kuin ei-Tarkistettujen arvioiden.