3.4.2 Nem valószínűségi mintákon: súlyozás

Ez a fordítás által létrehozott egy számítógép. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 Nem valószínűségi mintákon: súlyozás

A nem valószínűségi minta, súlyok visszavonás által okozott torzulások a feltételezett mintavételi eljárás.

Ugyanígy, hogy a kutatók súlyozza válaszokat valószínűségi mintákon, ők is súlyozza válaszokat nem valószínűségi mintát. Például, mint alternatívát a CPS, képzeljük el, hogy elhelyezett banner hirdetések ezer honlapok toborozni a résztvevők egy felmérés becslése a munkanélküliségi ráta. Természetesen, ha lenne szkeptikus, hogy az egyszerű átlag a minta lenne jó becslést a munkanélküliségi ráta. A szkepticizmus valószínűleg azért, mert úgy gondolja, hogy vannak emberek, akik nagyobb valószínűséggel, hogy a teljes felmérés, mint mások. Például, az emberek, akik nem töltenek sok időt az interneten kevésbé valószínű, hogy a teljes felmérés.

Mint láttuk az utolsó részben, de ha tudjuk, hogy a minta kiválasztása, mint mi a valószínűségi mintákon-, akkor tudjuk visszavonni torzulásokat okozott a mintavételi eljárás. Sajnos, ha dolgozik, nem valószínűségi minta, nem tudom, hogy a minta kiválasztása. De tudjuk, hogy feltételezéseket a mintavételi eljárás, majd alkalmazza súlyozás ugyanúgy. Ha ezek a feltételezések helyesek, akkor a súlyozás visszavonja a torzulások okozta a mintavételi eljárás.

Képzeljük el például, hogy válaszul a banner hirdetéseket, akkor felvett 100.000 válaszadók. Azonban nem hiszem, hogy ezek a 100.000 válaszadók egy egyszerű véletlen minta az amerikai felnőttek. Sőt, ha összehasonlítjuk a válaszadók az amerikai lakosság, úgy találja, hogy az emberek bizonyos állapotok (pl New York) felülreprezentáltak, és hogy az emberek bizonyos állapotok (pl Alaszka) alulreprezentáltak. Így a munkanélküliségi ráta a minta valószínűleg egy rossz becslés a munkanélküliségi ráta a célcsoportot.

Az egyik módja annak, hogy vonja vissza a torzítás történt a mintavétel folyamat rendelni súlyokat minden személy számára; alacsonyabb súlyokat emberek kimondja, hogy felülreprezentáltak a mintában (pl New York) és a magasabb súlyokat emberek kimondja, hogy alulreprezentáltak a mintában (pl Alaszka). Pontosabban, a tömeg minden válaszadó, kapcsolatban van azok előfordulási gyakorisága a mintában viszonyítva a prevalenciája az USA lakosságának. Ez a súlyozás az eljárás az utólagos rétegzés, és azt az elképzelést, mérlegelés kell emlékeztetni a példa 3.4.1, ahol a válaszadók Rhode Island kaptak kisebb súly, mint a válaszadók Kaliforniából. Posta rétegződés megköveteli, hogy tudja, elég, hogy a válaszadók a csoportok és tudni aránya a célcsoport minden csoportban.

Bár a súlyozást a valószínűsége minta és a nem valószínűségi minta azonos matematikailag (lásd a műszaki függelék), jól működik a különböző helyzetekben. Ha a kutató egy tökéletes valószínűségi minta (azaz nincs lefedettségi hiba, és nem a nem-válasz), majd súlyozása fog elfogulatlan becsléseket minden vonások minden esetben. Ez az erős elméleti garanciát ezért hívei valószínűségi mintákon úgy találja őket vonzónak. Másrészt, a súlyozás nem valószínűségi mintát csak akkor válnak elfogulatlan becsléseket minden tulajdonság, ha a válasz hajlamok ugyanaz mindenki számára az egyes csoportokban. Más szóval, gondoltam vissza a használata például utólagos rétegzés fog torzítatlan becslése, ha mindenki a New York-ban azonos valószínűséggel részt és mindenki Alaska ugyanolyan valószínűséggel részt vevő, és így tovább. Ezt a feltételezést az úgynevezett homogén-válasz-hajlamok-belül-csoportok feltételezés, és kulcsfontosságú szerepet játszik abban, hogy megtudjuk utáni rétegződés is jól működik, nem valószínűségi mintákon.

Sajnos, a mi példánkban a homogén-válasz-hajlamok-belül-csoportok feltételezés tűnik valószínűnek, hogy igaz legyen. Azaz, úgy tűnik, nem valószínű, hogy mindenki az alaszkai azonos a valószínűsége, hogy a felmérésben. De van három fontos szempontot kell szem előtt tartani, mintegy utólagos rétegzés, amelyek, hogy úgy tűnik ígéretes.

Először is, homogén-válasz-hajlamok-belül-csoportok feltételezés válik hihető, mint a csoportok száma növekszik. És, a kutatók nem korlátozódnak a csoportok csak alapul egyetlen földrajzi dimenziója. Például, tudtuk létre csoportokat alapján az állami, kortól, nemtől, és az oktatás. Úgy tűnik, egyre valószínű, hogy homogén választ hajlamokat a csoporton belül 18-29, női, diplomás él Alaszkában, mint a csoporton belül minden ember él Alaszkában. Így, mivel a csoportok száma használt utáni rétegződés növekszik, a feltételezések szükségesek, hogy támogassa azt egyre inkább ésszerű. Tekintettel erre a tényre, úgy tűnik, mintha egy kutató szeretne létrehozni egy hatalmas, több csoport utáni rétegződés. De, mint a csoportok száma növekszik, a kutatók befut egy másik probléma: az adatok el hiányos. Ha csak egy kis számú ember minden csoportban, akkor a becslések lesz bizonytalan, és a szélsőséges esetben, ha van egy csoport, amely nem rendelkezik a válaszadók, majd utólagos rétegzés teljesen lebontja. Kétféle módon ki ez a benne rejlő feszültséget a kellő homogeneous- válasz-hajlam-belül-csoportok feltételezés, és a kereslet az ésszerű mintanagyság minden csoportban. Az egyik megközelítés az, hogy mozog a kifinomultabb statisztikai modell számításához súlyokat és a másik az, hogy összegyűjtse a nagyobb, sokszínűbb minta, amely segít biztosítani ésszerű mintanagyság minden csoportban. És néha a kutatók nem is, ahogy fogom leírni az alábbiakban részletesebben.

Egy másik szempont, ha dolgozik, utólagos rétegzés a nem valószínűségi minta, hogy a homogén-válasz-hajlam-belül-csoportok feltételezést már gyakran megfogalmazott elemzésekor valószínűségi mintákon. Ennek az az oka, hogy ez a feltételezés szükséges valószínűségi mintákon a gyakorlatban, hogy a valószínűsége a mintákat nem-válasz, és a leggyakoribb módszer beállítására a nem válasz utáni rétegzés a fent leírtak szerint. Persze, csak azért, mert sok kutató, hogy egy bizonyos feltételezés, nem jelenti, hogy meg kell csinálni is. De ez nem azt jelenti, hogy ha összehasonlítjuk a nem valószínűségi mintát valószínűségi mintákon a gyakorlatban, meg kell szem előtt tartani, hogy a két függ feltevések és kiegészítő információkat annak érdekében, hogy becsléseket. A legtöbb reális beállítások egyszerűen nincs feltételezés-mentes megközelítés következtetést.

Végül, ha érdekel egy becslés különösen-példánkban munkanélküliség-, akkor szükség van egy feltétel gyengébb, mint a homogén-válasz-hajlam-belül-csoportok feltételezés. Különösen akkor nem kell feltételezni, hogy mindenki ugyanazt a választ hajlam, csak akkor kell feltételezni, hogy nincs összefüggés a válasz hajlam és a munkanélküliségi ráta az egyes csoportokon belül. Persze, még ez a gyengébb feltétel nem fogja bizonyos helyzetekben. Képzeljük el például, arányának becsült értékét az amerikaiak, hogy önkéntes munkát. Ha az emberek, akik önkéntes munkát, nagyobb valószínűséggel kell fogadniuk, hogy egy felmérés, akkor a kutatók szisztematikusan túlzott mennyiségének becslésére önkéntes, akkor is, ha ezt követő rétegződés kiigazítások következtében, amelyről már bebizonyosodott empirikusan Abraham, Helms, and Presser (2009) .

Mint már mondtam, nem valószínűségi mintát szemlélik nagy szkepticizmus társadalomtudósok, részben azért, mert ezek szerepe néhány igen kínos kudarc az első napokban a kérdőíves kutatás. A példa arra, hogy messzire jutottunk a nem valószínűségi minták kutatása Wei Wang, David Rothschild, Sharad Goel és Andrew Gelman hogy helyesen vissza az eredmény a 2012-es amerikai választások egy nem valószínűségi minta az amerikai Xbox felhasználók -a határozottan nem véletlen minta amerikaiak (Wang et al. 2015) . A felvett kutatók válaszadók a XBox játékrendszert, és ahogy az várható, az Xbox minta ferde hím és ferde fiatal: 18-29 évesek alkotják a 19% -a választók, de a 65% -a az Xbox mintát és férfiak teszik ki 47% a választók 93% -a az Xbox minta (3.4 ábra). Ezek miatt a demográfiai erős torzítást, a nyers adatok Xbox volt rossz mutatója választási eredmények. Jósolt erős győzelem Mitt Romney felett Barack Obama. Ez megint egy másik példa a veszélyekkel nyers, korrigálatlan nem valószínűségi minták és emlékeztet az Irodalmi Digest fiaskó.

3.4 ábra: Demográfiai válaszadók Wang et al. (2015) . Mivel a válaszadók verbuválódtak XBox, akkor nagyobb valószínűséggel lesz a fiatal és nagyobb valószínűséggel hím képest szavazók a 2012-es választásokon.

Ugyanakkor Wang és munkatársai voltak ismeri ezeket a problémákat, és megpróbálta, hogy súlyozza a válaszadók, hogy korrigáljuk a mintavételi eljárás. Különösen, hogy használják egy kifinomultabb formája a post-rétegződés meséltem. Érdemes megtanulni egy kicsit többet a megközelítés, mert épít intuíciót utáni rétegződés, és az adott változata Wang és munkatársai használt egyik legizgalmasabb megközelítések súlyozás nem valószínűségi mintát.

A mi egyszerű példa kb becslésére munkanélküliség 3.4.1 osztottuk a népesség alapján csoportokba a lakóhely szerinti állam. Ezzel ellentétben, Wang és kollégái osztva a népesség a 176.256 csoportok határozzák meg: nem (2 kategória), verseny (4 kategória), kor (4 kategória), az oktatás (4 kategória), állam (51 kategória), fél azonosítója (3 kategória), ideológia (3 kategória) és 2008 szavazás (3 kategória). Több csoport, a kutatók remélik, hogy nem lenne egyre valószínűbb, hogy az egyes csoportokon belül, válasz hajlandóság volt korrelálnak támogatást Obama. Ezután ahelyett, építése egyéni szintű súlyok, mint mi példánkban Wang és kollégái egy komplex modell becslésére emberek aránya az egyes csoportokban, hogy szavazna Obama. Végül, kombinált ezek csoportja becsült támogatás az ismert mérete minden csoportot, hogy készítsen egy becsült teljes támogatási szintet. Más szóval, az apróra vágott ki a lakosság különböző csoportok, becslések szerint a támogatást Obama az egyes csoportokban, majd vett egy súlyozott átlaga a csoport becslései, hogy készítsen átfogó becslést.

Így a nagy kihívás a megközelítés, hogy mekkora a támogatás Obama minden ilyen 176.256 csoportok. Bár panel benne 345.858 egyedi résztvevők rengeteg a szabványok választási szavazóhelyiségek, sok-sok közé tartoznak, amelyekre Wang és munkatársai nem igazán volt a válaszadók. Ezért megbecsülni a támogatás az egyes csoportokban szoktak a technika az úgynevezett többszintű regressziós utáni rétegződés, amely a kutatók szeretettel hívja Mr. P. Lényegében megbecsülni a támogatását Obama egy meghatározott csoport, Mr. P. medencék információ sok szorosan kapcsolódó csoportok. Vegyük például az a kihívás becslésére támogatása Obama nők körében, spanyolok, 18-29 éves, akik főiskolát végzettek, akik regisztrált demokraták, akik saját meghatározása szerint mérsékeltek, és aki szavazott Obama a 2008-ban egy nagyon, nagyon specifikus csoport, és lehetséges, hogy senki sem a mintában ilyen jellemzőkkel. Ezért, hogy a becslések ebben a csoportban, Mr. P. medencék együtt becslése az emberek nagyon hasonló csoportok.

Ezzel a stratégiával elemzés, Wang és munkatársai voltak képesek használni az XBox nem valószínűségi mintát szorosan becsülni a teljes támogatást, hogy Obama kapta a 2012-es választások (3.5 ábra). Valójában ezek a becslések voltak pontosabbak, mint egy összesített közvélemény-kutatás. Így, ebben az esetben, a súlyozás specifikusan Mr. P.-úgy tűnik, hogy jó munkát korrigálására torzításokkal nem valószínűségi adatok; torzításokat, amelyek láthatóak, ha megnézi az becslések kiigazítatlan Xbox adatokat.

3.5 ábra: származó becslések Wang et al. (2015) . A kiigazítatlan XBox minta elő pontatlan becslések. De a súlyozott XBox mintát készített becsléseket, amelyek pontosabb, mint egy átlagos valószínűségi alapú telefonos felmérések.

Két fő tanulsága a tanulmány a Wang és munkatársai. Először is, nem korrigált nem valószínűségi mintát vezethet rossz becslések; ez egy lecke, hogy sok kutató hallott. Ugyanakkor a második tanulság az, hogy nem valószínűségi minta, ha súlyozott megfelelően, ténylegesen termel elég jó becslést. Tény, hogy becslései pontosabb, mint a becslések pollster.com egy összesítése több hagyományos választási közvélemény-kutatások.

Végül, vannak fontos korlátai, mit tanulhatunk ebből egy külön tanulmányt. Csak azért, mert utólagos rétegzés jól működött ebben a konkrét esetben nincs garancia, hogy jól működik, más esetekben. Tény, hogy a választások talán az egyik legegyszerűbb beállításokat, mert pollsters óta tanulmányozzák választások majdnem 100 évig, rendszeres visszajelzést (tudjuk, hogy ki nyeri a választásokat), és fél azonosítása és demográfiai jellemzők viszonylag prediktív szavazás. Ezen a ponton, hiányzik a szilárd elméleti és gyakorlati tapasztalatok, hogy mikor súlyozás kiigazításáról nem valószínűségi mintát fog kellően pontos becslést. Egy dolog, hogy egyértelmű azonban, ha arra kényszerülnek, hogy dolgozni nem valószínűségi minta, akkor van megalapozott az a vélekedés, hogy a korrigált becslések jobb lesz, mint a nem korrigált becslések.