3.4.1 Probabilità di campionamento: la raccolta e l'analisi dei dati

I pesi possono annullare le distorsioni intenzionalmente provocate dal processo di campionamento.

Campioni probabilistici sono quelli in cui tutte le persone hanno una nota, diversa da zero probabilità di inclusione, e il più semplice disegno di campionamento probabilità è un campionamento casuale semplice, dove ogni persona ha la stessa probabilità di inclusione. Quando gli intervistati vengono selezionati mediante campionamento casuale semplice con perfetta esecuzione (ad esempio, nessun errore di copertura e non mancate risposte), poi la stima è semplice perché il campione-media-essere una versione in miniatura della popolazione.

campionamento casuale semplice è raramente utilizzato nella pratica, però. Piuttosto, i ricercatori intenzionalmente selezionare le persone con le probabilità disuguali di inclusione al fine di ridurre i costi e aumentare la precisione. Quando i ricercatori hanno intenzionalmente selezionare le persone con diverse probabilità di inclusione, quindi aggiustamenti sono necessari per annullare le distorsioni causate dal processo di campionamento. In altre parole, come generalizziamo da un campione dipende da come è stato selezionato il campione.

Ad esempio, la Current Population Survey (CPS) è usato dal governo degli Stati Uniti per stimare il tasso di disoccupazione. Ogni mese circa 100.000 persone vengono intervistati, sia faccia a faccia o per telefono, ed i risultati sono utilizzati per produrre il tasso di disoccupazione stimato. Perché il governo vuole stimare il tasso di disoccupazione in ogni stato, non si può fare un campione casuale semplice di adulti perché sarebbe dare troppo pochi intervistati negli Stati con piccole popolazioni (ad esempio, Rhode Island) e troppi da Stati con grandi popolazioni (ad esempio, , California). Invece, i campioni di CPS persone in diversi stati a tassi diversi, un processo chiamato campionamento stratificato con diseguale probabilità di selezione. Ad esempio, se il CPS voluto 2.000 intervistati per ogni stato, poi adulti in Rhode Island avrebbero circa 30 volte più alta probabilità di inclusione rispetto agli adulti in California (Rhode Island: 2.000 intervistati per 800.000 adulti vs California: 2.000 intervistati per 30.000.000 di adulti). Come vedremo in seguito, questo tipo di campionamento con probabilità non uguale accade con le fonti on-line di dati troppo, ma a differenza dei CPS, il meccanismo di campionamento di solito non è noto o controllata dal ricercatore.

Data la sua disegno di campionamento, la CPS non è direttamente rappresentativa degli Stati Uniti; esso include troppe persone da Rhode Island e troppo pochi dalla California. Pertanto, non sarebbe saggio per stimare il tasso di disoccupazione nel paese con il tasso di disoccupazione nel campione. Invece della media campionaria, è meglio prendere una media ponderata, dove rappresentano i pesi per il fatto che le persone da Rhode Island avevano più probabilità di essere inclusi rispetto alle persone dalla California. Per esempio, ogni persona dalla California sarebbe upweighted- avrebbero contare di più nella stima-e ogni persona da Rhode Island sarebbe downweighted-avrebbero contano meno nel preventivo. In sostanza, si è data più voce alle persone che vi sono meno probabilità di conoscere.

Questo esempio illustra giocattolo un importante, ma comunemente frainteso punto: un campione non ha bisogno di essere una versione in miniatura della popolazione al fine di produrre buone stime. Se un numero sufficiente si sa su come i dati sono stati raccolti, poi che l'informazione può essere utilizzata quando si effettua stime del campione. L'approccio che ho appena descritto, e che descrivo matematicamente nella tecnica Appendice-ricade nell'ambito di campionamento probabilità classica. Ora, ti faccio vedere come la stessa idea può essere applicata a campioni non probabilistici.