3.4.2 Vzorky Non-pravdepodobnostné váhové:

So vzorkami non-pravdepodobnosti, môžu váhy vrátiť späť narušenie spôsobených predpokladaným procesu vzorkovania.

Rovnakým spôsobom, že výskumníci hmotnosť odpovede od pravdepodobnostných výberov, môžu tiež vážiť odpovie vzoriek non-pravdepodobnosti. Napríklad, ako alternatíva k CPS, predstavte si, že ste umiestnili bannerovej reklamy na tisíce internetových stránok pre nábor účastníkov prieskumu, ktorý odhad miery nezamestnanosti. Samozrejme, mali by ste byť skeptický, že jednoduchý priemer Vašej vzorky by bol dobrý odhad miery nezamestnanosti. Vaša skepsa je pravdepodobne preto, že si myslíte, že niektorí ľudia majú väčšiu šancu dokončiť svoj prieskum ako ostatní. Napríklad ľudia, ktorí nemajú trávia veľa času na internete, sú menej pravdepodobné, že na dokončenie prieskumu.

Ako sme videli v poslednej časti, ale ak vieme, ako vzorka bol vybraný, ako to robíme s pravdepodobnosťou vzorkami, potom sa môžeme vrátiť narušenie spôsobených procesu vzorkovania. Bohužiaľ, pri práci so vzorkami non-pravdepodobnosti, nevieme, ako sa vybrala vzorka. Ale môžeme urobiť predpoklady o procese vzorkovanie a potom aplikovať váhu rovnakým spôsobom. Ak sa tieto predpoklady sú správne, potom sa váha vráti späť deformácie spôsobené procesu vzorkovania.

Napríklad si predstavte, že v reakcii na vaše bannerovej reklamy, budete prijatí 100.000 respondentov. Avšak, vy neveríte, že tieto 100,000 respondenti sú jednoduchým náhodný vzorka dospelých Američanov. V skutočnosti, keď si porovnať svoje respondentov, aby populácie USA, zistíte, že ľudia z niektorých štátoch (napr New York) sú vo veľkej miere zastúpení a že ľudia z niektorých štátoch (napr Alaska) sú nedostatočne zastúpené. To znamená, že miera nezamestnanosti Vášho vzorky je pravdepodobné, že bude zlý odhad miery nezamestnanosti v cieľovej populácii.

Jeden spôsob, ako vrátiť späť skreslenie, ktoré sa stalo v procese vzorkovanie je priradiť váhy pre každú osobu; Nižšia hmotnosť pre ľudí zo štátov, ktoré sú nadmerne zastúpené vo vzorke (napríklad New York) a vyšších hmotností ľuďom zo štátov, ktoré sú nedostatočne zastúpené vo vzorke (napr Aljaška). Presnejšie povedané, je hmotnosť pre každú respondenta súvisí s ich výskytu v vzorku v porovnaní s ich výskyt v populácii USA. Toto váženie postup sa nazýva post-stratifikácie, a myšlienka na váženie by vám mala pripomenúť napríklad v kapitole 3.4.1, kde respondenti z Rhode Island dostali menšiu váhu než respondenti z Kalifornie. Post-stratifikácia vyžaduje, že viete dosť, aby vaše respondentmi do skupín a poznať podiel cieľovej populácie v každej skupine.

Aj keď sa váha vzorky pravdepodobnosti a vzorky non-pravdepodobnosti sú rovnaké matematicky (pozri technickú prílohu), ktoré dobre fungujú v rôznych situáciách. V prípade, že výskumný pracovník má dokonalý vzorka pravdepodobnosť (tj žiadna chyba pokrytie a nie non-odozva), potom váženie bude vyrábať nestranné odhady pre všetky znaky vo všetkých prípadoch. Tento silný teoretický záruka je dôvod, prečo zástancovia pravdepodobnostných výberov nájsť je tak atraktívny. Na druhú stranu, bude váženie vzorky non-pravdepodobnostné vyrábať iba nestranné odhady pre všetky znaky v prípade, že sklony reakcie sú rovnaké pre každého v každej skupine. Inými slovami, na mysli späť k nášmu príkladu, za použitia post-vrstvenie vytvorí neskreslené odhady, keď každý v New Yorku, má rovnakú pravdepodobnosť účasti a každý na Aljaške má rovnakú pravdepodobnosť sa zúčastňuje, a tak ďalej. Tento predpoklad sa nazýva predpoklad homogénnych-reakcia-sklonov-rámci skupín, a to hrá kľúčovú úlohu v vedieť, či post-stratifikácie bude dobre pracovať so vzorkami non-pravdepodobnosti.

Bohužiaľ, v našom prípade sa zdá nepravdepodobné, že by to bola pravda predpoklad homogénneho-odozva-sklony-v-skupín. To znamená, že sa zdá nepravdepodobné, že by každý na Aljaške má rovnakú pravdepodobnosť, že vo svojom prieskume. Ale existujú tri dôležité body mať na pamäti, o post-stratifikácie, z ktorých všetky zdať nadějnější.

Po prvé, homogénna-reakcia-sklony-v-skupín predpoklad sa stáva pravdepodobnejšie ako počet zvyšuje skupiny. A, výskumníci nie sú obmedzené na skupiny len na základe jednej konkrétnej geografickej rozmer. Napríklad by sme mohli vytvoriť skupiny založené na stave, veku, pohlavia a úrovne vzdelania. Zdá sa pravdepodobnejšie, že je homogénna sklony odpoveď v skupine 18-29, absolventi ženského, koľaj žijúci na Aljaške, než v skupine všetkých ľudí žijúcich na Aljaške. Tak, ako je počet skupín, použitých pre zvýšenie post-stratifikácie predpoklady potrebné pre podporu sa stane rozumnejšie. Vzhľadom k tejto skutočnosti, vyzerá to, že vedci chceli vytvoriť obrovský počet skupín pre post-stratifikácie. Ale, ako s rastúcim počtom skupín, vedci narazí na iný problém: dátové riedkosť. Ak existuje iba malý počet osôb v každej skupine, potom odhady budú neistá, a v krajnom prípade, keď je skupina, ktorá nemá žiadne respondentmi, potom post-stratifikácie úplne zrúti. Existujú dva spôsoby, ako z tejto prirodzenej napätie medzi vierohodnosti homogeneous- odozva-sklon-v-skupiny za predpokladu a dopytom po rozumnú veľkostí vzorky v každej skupine. Jednou z možností je prejsť na sofistikovanejšie štatistického modelu na výpočet váh a druhý je zhromaždiť väčšie a rozmanitejšie vzorku, ktorý pomáha zaistiť primeranej veľkosti vzorky v každej skupine. A niekedy výskumníci robiť oboje, ako budem popisovať nižšie viac podrobností.

Druhým hľadiskom pri práci s následnou stratifikácii zo vzoriek non-pravdepodobnosť, že predpoklad homogénneho-response-sklon-v-skupín je už často vykonáva pri analýze vzoriek pravdepodobnosti. Dôvod, že tento predpoklad je potreba pre vzorky pravdepodobnosti v praxi je to, že vzorky majú pravdepodobnosť non-odpoveď, a najbežnejšie metódou pre úpravu non-response je post-stratifikácie, ako bolo popísané vyššie. Samozrejme, len preto, že mnoho výskumníkov urobiť určitý predpoklad, neznamená, že by ste to mali robiť taky. Ale to znamená, že pri porovnávaní vzoriek non-pravdepodobnosť náhodných výberových v praxi, musíme mať na pamäti, že obaja sú závislé na predpokladoch a pomocných informácií pri prognózach. Vo väčšine realistických nastaveniach, tam je proste žiadny predpoklad, bez prístupu k záveru.

A napokon, ak vám záleží na jedno odhad predovšetkým-V našom príklade miera nezamestnanosti, potom je treba podmienku slabší ako predpokladu homogénna odozvy-sklon-max-skupiny. Konkrétne, nemusíte predpokladať, že každý má rovnaký sklon odpovedí, stačí predpokladať, že neexistuje žiadna korelácia medzi sklonom odozvy a miery nezamestnanosti v rámci každej skupiny. Samozrejme, že aj tento slabší podmienka neplatí v niektorých situáciách. Predstavte si napríklad, odhade podielu Američanov, ktorá sa stala dobrovoľníčkou. Ak sa ľudia, ktorí sa stala dobrovoľníčkou je pravdepodobnejšie, že súhlasí s tým, že v prieskume, potom výskumníci budú systematicky over-odhadnúť množstvo dobrovoľníctva, aj keď robia úpravy post-stratifikácie, čo je výsledok, ktorý je preukázané empiricky Abraham, Helms, and Presser (2009) .

Ako som už povedal skôr, vzorky non-pravdepodobnostné sú vnímané s veľkým skepticizmom sociológmi, čiastočne kvôli svojej úlohe v niektorej z najviac trápne zlyhania v prvých dňoch výskumného šetrenia. Jasným príkladom toho, ako ďaleko sme došli so vzorkami non-pravdepodobnostných je výskum Wei Wang, David Rothschild, Sharad Goel, a Andrew Gelman, ktoré správne späť výsledok v roku 2012 amerických voľbách použitie vzorky non-pravdepodobnostné užívateľov American Xbox -a rozhodne non-náhodný vzorka Američanov (Wang et al. 2015) . Výskumných pracovníkov prijatých respondentov z herného systému Xbox, a ako sa dalo očakávať, vzorka Xbox skreslený samca a vychýlená mladých: 18-29 ročných tvoria 19% voličov, ale 65% vzorky Xbox a muži tvoria 47% voličov a 93% vzorky Xbox (obrázok 3.4). Kvôli týmto silným demografickým predsudkov, nespracované údaje Xbox bol chudobný indikátor volebných výnosov. To predpovedal silné víťazstvo nad Mitt Romney Barack Obama. Opäť platí, že toto je ďalší príklad nebezpečenstvo surovín neupravených vzoriek non-pravdepodobnostných a pripomína Literary Digest fiasko.

Obrázok 3.4: Demografia respondentov v Wang et al. (2015). Vzhľadom k tomu, respondenti boli naverbovaný od XBox, oni boli viac pravdepodobné, že bude mladý a častejšie muži, vzhľadom k voliči vo voľbách 2012.

Obrázok 3.4: Demografia respondentov v Wang et al. (2015) . Vzhľadom k tomu, respondenti boli naverbovaný od XBox, oni boli viac pravdepodobné, že bude mladý a častejšie muži, vzhľadom k voliči vo voľbách 2012.

Avšak, Wang a jeho kolegovia boli vedomí týchto problémov a pokúšal sa váženie respondentov ku korekcii procesu vzorkovania. Najmä sa používajú sofistikovanejšie formu post-stratifikácii som ti o. Stojí za to učiť niečo viac o ich prístupe, pretože to vytvára intuície o post-rozvrstvenie, a to najmä verzia Wang a kolegovia použili je jedným z najviac vzrušujúcich prístupov k váženie vzoriek non-pravdepodobnosti.

V našom jednoduchom príklade týkajúce sa odhadu nezamestnanosti v kapitole 3.4.1, sme rozdelili obyvateľstvo do skupín na základe stavu bydliska. V kontraste, Wang a jeho kolegovia rozdelil obyvateľstvo do do 176,256 skupín definovaných: pohlavie (2 kategória), rasa (4 kategórie), vek (4 kategórie), vzdelanie (4 kategórie), stáť (51 kategórií), ID strany (3 kategória), ideológia (3 kategórie) a 2008 hlasovania (3 kategórie). S viac skupinami, vedci dúfali, že by bolo stále viac pravdepodobné, že v každej skupine, sklon reakcia bola nekorelované s podporou Obama. Ďalej skôr než konštrukcii váh individuálnej úrovni, ako sme to urobili v našom príklade, Wang a jeho kolegovia použili komplexného modelu pre odhad podielu ľudí v každej skupine, ktorá by hlasovať pre Obamu. Nakoniec sa kombinovať tieto odhady skupinovej podpory so známou veľkosťou každej skupiny k produkcii odhadovanú celkovú úroveň podpory. Inými slovami, oni porezaná obyvateľstvo do rôznych skupín, odhaduje podporu pre Obamu v každej skupine, a potom sa vážený priemer odhadov skupiny produkovať celkový odhad.

To znamená, že veľkou výzvou v ich prístupu je odhad podporu pre Obamu v každej z týchto skupín 176,256. Hoci ich panel zahrnuté 345,858 unikátnych účastníkov, obrovské množstvo podľa merítok volebného dopytovania, tam bolo veľa, veľa skupín, pre ktoré Wang a jeho kolegovia mali takmer žiadne respondentov. Preto odhadnúť podporu v každej skupine, ktorú použili techniku ​​zvanú viacúrovňová regresnej s post-stratifikácie, ktorý vedci nazývajú láskou P. V zásade odhadnúť podporu pre Obamu v rámci určitej skupiny, pán P. bazény informácie z mnohých úzko súvisí skupiny. Napríklad, zvažovať výzvu odhadu podporu pre Obamu medzi ženskými, Hispáncov, medzi 18-29 rokov, ktorí sú vysokoškolskí absolventi, ktorí sú registrovaní demokrati, kto self-identifikovať ako umiernené, a kto hlasovali pre Obamu v roku 2008. Tento je to veľmi, veľmi špecifická skupina, a je možné, že sa nikto vo vzorke s týmito charakteristikami. Preto, aby sa odhady o tejto skupine, pán P. bazény spolu odhaduje od ľudí vo veľmi podobnými skupinami.

Pri použití tejto stratégie analýzy, Wang a jeho kolegovia boli schopní používať Xbox vzorky non-pravdepodobnostné veľmi starostlivo odhadnúť celkovú podporu, ktorú Obama dostal vo voľbách 2012 (Obrázok 3.5). V skutočnosti sa ich odhady boli presnejšie ako súhrn výskumov verejnej mienky. Tak, v tomto prípade váhovej konkrétne pán P., zdá sa, robiť dobrú prácu oprava zaujatosti v dátach non-pravdepodobnosti; predsudky, ktoré sú viditeľné, keď sa pozriete na odhadov z neupravených údajov Xbox.

Obrázok 3.5: Odhady z Wang et al. (2015). Neupravené XBox získaná vzorka nepresné odhady. Ale vážený XBox získaná vzorka odhady, ktoré boli presnejšie ako v priemere telefónnych prieskumov pravdepodobnosti báze.

Obrázok 3.5: Odhady z Wang et al. (2015) . Neupravené XBox získaná vzorka nepresné odhady. Ale vážený XBox získaná vzorka odhady, ktoré boli presnejšie ako v priemere telefónnych prieskumov pravdepodobnosti báze.

Existujú dva hlavné poznatky zo štúdia Wang a kolegami. Po prvé, neupravené vzorky non-pravdepodobnostné môže viesť k zlým odhadom; To je poučenie, že mnohí vedci počul. Avšak Druhým poučením je, že vzorky non-pravdepodobnostné, ak je správne vyvážené, môže skutočne produkovať celkom dobré odhady. V skutočnosti, ich odhady boli presnejšie ako odhady z pollster.com, agregácie viac tradičných volebných prieskumov.

A konečne, existujú významné obmedzenia toho, čo sa môžeme naučiť z tejto jednej konkrétnej štúdie. Len preto, že post-stratifikácie fungovali dobre v tomto konkrétnom prípade, neexistuje žiadna záruka, že to bude dobre fungovať v iných prípadoch. V skutočnosti, voľby sú možno jedným z najjednoduchších nastavenie, pretože pollsters študovali volieb takmer 100 rokov, tam je pravidelná spätná väzba (môžeme vidieť, kto vyhrá voľby), a stranícka identifikácia a demografické charakteristiky sú relatívne prediktívne hlasovania. V tomto okamihu nám chýba solídne teóriu a empirických skúseností vedieť, kedy s hmotnosťou úpravy vzoriek non-pravdepodobnosťou budú produkovať dostatočne presné odhady. Jedna vec, ktorá je však jasné, je, ak sú nútené pracovať so vzorkami non-pravdepodobnosti, potom je tu silný dôvod sa domnievať, že upravené odhady bude lepší ako neočistených odhadov.