3.4.1 valószínűségi mintavétel: adatgyűjtés és adatelemzés

Súlyok visszavonás torzulásokat szándékosan okozta a mintavételi eljárás.

Valószínűségi mintákon azok, ahol minden embernek ismert, nullától valószínűsége befogadás, és a legegyszerűbb valószínűségi mintavétel design egyszerű véletlenszerű mintavétel, ahol minden ember egyenlő valószínűséggel felvételét. Ha a válaszadók lehet kiválasztani egyszerű véletlenszerű mintavétel tökéletes kivitelezés (például nincs lefedettségi hiba, és nem a nem-válasz), akkor a becslés egyértelmű, mivel a minta-átlag-egy miniatűr változata a lakosság.

Egyszerű véletlen mintavétel ritkán használják a gyakorlatban azonban. Inkább a kutatók szándékosan válassza emberek egyenlőtlen valószínűségek felvétel érdekében a költségek csökkentése és a pontosság növelése. Amikor a kutatók szándékosan válasszon emberek különböző valószínűséggel a befogadás, majd át, hogy vonja vissza a torzulások okozta a mintavételi eljárás. Más szóval, hogyan általánosítjuk egy mintából attól függ, hogy a minta lett kiválasztva.

Például az aktuális népesség Survey (CPS) által használt az amerikai kormány becslése a munkanélküliségi ráta. Minden hónapban mintegy 100.000 ember interjút, akár szemtől-szembe, vagy telefonon keresztül, és az eredmények alapján készülnek a becsült munkanélküliségi ráta. Mivel a kormány fel kívánja becsülni a munkanélküliségi ráta az egyes államokban, akkor nem tud egy egyszerű véletlen minta a felnőttek, mert az járna túl kevés válaszadó államokban a kis populációk (pl Rhode Island), és túl sok olyan államok nagy populációk (pl , Kalifornia). Ehelyett a CPS mintákat emberek különböző államokban eltérő mértékben, a folyamatot nevezik rétegzett mintavétellel egyenlőtlen kiválasztási valószínűséget. Például, ha a CPS akart 2000 válaszadó állapotban, akkor a felnőttek Rhode Island volna körülbelül 30-szor nagyobb a valószínűsége a felvétel, mint a felnőttek Kaliforniában (Rhode Island: 2000 válaszadó 800.000 felnőtt vs California: 2000 válaszadó 30000000 felnőtt). Mint később látni fogjuk, ez a fajta mintavétel egyenlőtlen valószínűséggel történik online adatforrásokat is, de ellentétben a CPS, a mintavétel mechanizmus általában nem ismert, illetve ellenőrzi a kutató.

Tekintettel arra, hogy a mintavételi design, a CPS közvetlenül nem reprezentatív az Egyesült Államokban; ez magában foglalja a túl sok ember Rhode Island, és túl kevés Kaliforniából. Ezért nem lenne bölcs dolog megbecsülni a munkanélküliségi ráta az országban a munkanélküliségi ráta a mintában. Ahelyett, hogy a minta átlaga, akkor jobb, hogy egy súlyozott átlag, ahol a súlyok figyelembe azt a tényt, hogy az emberek Rhode Island nagyobb valószínűséggel lehetnek benne, mint az emberek Kaliforniában. Például, minden ember a kaliforniai lenne upweighted- ők számítanak inkább a becslés és mindegyik személy Rhode Island lenne downweighted-lennének száma kisebb a becslést. Lényegében, ha az előírtnál több hangot az emberekkel, hogy akkor kevésbé valószínű, hogy megtudjuk.

Ez a játék példa egy fontos, de gyakran félreértett pont: a minta nem kell egy miniatűr változata a lakosság érdekében, hogy jó becsléseket. Ha tudunk eleget az adatokat hogyan gyűjtötték, akkor ezt az információt fel lehet használni, ha így becslések a mintából. A megközelítés, amit az imént ismertetett-, és hogy én matematikai leírása a műszaki függelék-esik egyenesen a klasszikus valószínűségi mintavételi keretet. Most megmutatom, hogyan ugyanezen ötlet lehet alkalmazni a nem valószínűségi mintákon.