3.4.1 Analiza de colectare a datelor și a datelor: Probabilitatea de eșantionare

Greutățile pot anula distorsiunile cauzate în mod intenționat de procesul de eșantionare.

Mostre de probabilitate sunt acelea în care toți oamenii au un cunoscut, non-zero , probabilitatea de includere, și cel mai simplu de eșantionare este probabilitatea simplă eșantionare aleatorie în cazul în care fiecare persoană are probabilitate egală de includere. Atunci când respondenții sunt selectați prin eșantionare aleatorie simplă cu execuție perfectă (de exemplu, nici o eroare de acoperire și nici o bază non-răspuns), atunci estimarea este simplă, deoarece eșantionul va-în medie, să fie o versiune in miniatura a populației.

eșantionarea aleatorie simplă este rar utilizat în practică, cu toate acestea. Mai degrabă, cercetătorii în mod intenționat selectați persoanele cu probabilități inegale de includere, în scopul de a reduce costurile și de a crește precizia. Atunci când cercetătorii intenționat selectați persoane cu diferite probabilități de includere, atunci sunt necesare ajustări pentru a anula distorsiunile cauzate de procesul de eșantionare. Cu alte cuvinte, cum putem generaliza dintr-un eșantion depinde de modul în care a fost selectat eșantionul.

De exemplu, Current Population Survey (CPS) este utilizat de guvernul SUA pentru a estima rata șomajului. În fiecare lună, aproximativ 100.000 de oameni sunt intervievați, fie față-în-față sau prin telefon, iar rezultatele sunt folosite pentru a produce rata șomajului estimată. Deoarece guvernul dorește să estimeze rata șomajului în fiecare stat, nu se poate face un eșantion aleatoriu simplu de adulți, deoarece, care ar genera prea puțini respondenți în statele cu populații mici (de exemplu, Rhode Island) și prea multe din statele cu populații mari (de exemplu, , California). În schimb, CPS mostre de oameni din diferite state la rate diferite, un proces numit de eșantionare stratificat cu probabilitate inegală de selecție. De exemplu, în cazul în care CPS a vrut 2.000 de respondenți per stat, atunci adulții din Rhode Island ar avea aproximativ 30 de ori mai mare probabilitate de includere decat adultii din California (Rhode Island: 2.000 respondenti pe 800.000 de adulti vs California: 2.000 respondenți per 30.000.000 adulți). După cum vom vedea mai târziu, acest tip de eșantionare cu probabilitate inegală se întâmplă cu surse on-line de date prea, dar spre deosebire de CPS, mecanismul de prelevare a probelor este, de obicei, nu este cunoscut sau controlat de către cercetător.

Având în vedere designul său de eșantionare, CPS nu este direct reprezentativ al SUA; aceasta include prea mulți oameni din Rhode Island și prea puțini din California. Prin urmare, nu ar fi înțelept să se estimeze rata șomajului în țară cu rata șomajului în eșantion. În loc de media eșantionului, este mai bine să ia o medie ponderată, în cazul în care contul ponderile pentru faptul că oamenii din Rhode Island, au fost mai susceptibile de a fi incluse decât oamenii din California. De exemplu, fiecare persoană din California ar fi upweighted- ei vor conta mai mult în estimarea și fiecare persoană din Rhode Island, s-ar fi-le-ar depășită la conta mai puțin în estimare. În esență, vi se administrează mai mult de voce pentru persoanele care sunt mai puțin susceptibile de a afla mai multe despre.

Acest exemplu de jucărie ilustrează un punct important, dar în mod obișnuit înțeles greșit: un eșantion nu trebuie să fie o versiune in miniatura a populației, în vederea elaborării unor estimări bune. În cazul în care este suficient de cunoscut despre modul în care datele au fost colectate, atunci aceste informații pot fi folosite atunci când se face estimări din eșantion. Abordarea l-am descris mai sus și că am descris matematic în tehnică anexă, aparține exclusiv în cadrul de eșantionare de probabilitate clasică. Acum, voi arăta cum că aceeași idee poate fi aplicată pe eșantioane non-probabilitate.