3.4.2 campioni non probabilistici: ponderazione

Questa traduzione è stato creato da un computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 campioni non probabilistici: ponderazione

Con campioni non probabilistici, pesi possono annullare le distorsioni causate dal processo di campionamento assunto.

Nello stesso modo in cui i ricercatori appesantiscono risposte da campioni probabilistici, possono anche pesare le risposte da campioni non probabilistici. Ad esempio, in alternativa ai CPS, immaginate che è stato inserito banner su migliaia di siti web per reclutare i partecipanti per un sondaggio per stimare il tasso di disoccupazione. Naturalmente, si dovrebbe essere scettici che la semplice media del campione sarebbe una buona stima del tasso di disoccupazione. Il tuo scetticismo è probabilmente perché si pensa che alcune persone hanno maggiori probabilità di completare il sondaggio di altri. Ad esempio, le persone che non spendono un sacco di tempo sul web sono meno probabilità di completare il sondaggio.

Come abbiamo visto nel paragrafo precedente, tuttavia, se sappiamo come il campione è stato selezionato, come facciamo con probabilità di campioni, allora siamo in grado di annullare le distorsioni causate dal processo di campionamento. Purtroppo, quando si lavora con campioni non probabilistici, non sappiamo come è stato selezionato il campione. Ma, possiamo fare ipotesi circa il processo di campionamento e quindi applicare la ponderazione nello stesso modo. Se queste ipotesi sono corrette, allora la ponderazione sarà annullare le distorsioni causate dal processo di campionamento.

Per esempio, immaginate che, in risposta ai vostri banner, è reclutato 100.000 intervistati. Tuttavia, non credo che queste 100.000 intervistati sono un campione casuale semplice di americani adulti. In realtà, quando si confrontano i tuoi rispondenti alla popolazione degli Stati Uniti, si scopre che le persone provenienti da alcuni stati (ad esempio, New York) sono sovrarappresentate e che le persone provenienti da alcuni stati (ad esempio, Alaska) sono sottorappresentate. Così, il tasso di disoccupazione del campione è probabile che sia una cattiva stima del tasso di disoccupazione nella popolazione bersaglio.

Un modo per annullare la distorsione che è accaduto nel processo di campionamento è quello di assegnare un peso ad ogni persona; pesi inferiori a persone provenienti da stati che sono sovrarappresentati nel campione (ad esempio, New York) e un peso maggiore di persone provenienti da Stati che sono sotto-rappresentati nel campione (ad esempio, l'Alaska). Più specificamente, il peso per ogni rispondente è legato alla loro diffusione nel campione rispetto alla loro prevalenza nella popolazione degli Stati Uniti. Questa procedura di ponderazione è chiamata post-stratificazione, e l'idea di pesata deve ricordare l'esempio nella sezione 3.4.1 in cui gli intervistati da Rhode Island sono stati dati meno peso rispetto intervistati dalla California. Post-stratificazione richiede che si sa abbastanza per mettere i partecipanti in gruppi e di conoscere la proporzione della popolazione bersaglio in ogni gruppo.

Sebbene la ponderazione del campione probabilità e del campione non probabilistico sono uguali matematicamente (vedi appendice tecnica), funzionano bene in situazioni diverse. Se il ricercatore ha un campione probabilistico perfetto (cioè, nessun errore di copertura e non mancate risposte), poi ponderazione produrrà stime imparziali per tutti i tratti in tutti i casi. Questo forte garanzia teorica è il motivo per cui i sostenitori di campioni probabilistici li trovano così attraente. D'altra parte, i campioni non probabilistici ponderazione saranno solo produrre stime imparziali per tutti i tratti, se le tendenze di risposta sono uguali per tutti in ogni gruppo. In altre parole, ripensando al nostro esempio, utilizzando post-stratificazione produrrà stime imparziali se tutti a New York ha la stessa probabilità di partecipanti e tutti in Alaska ha la stessa probabilità di partecipare e così via. Questa ipotesi è chiamato il omogenee-Response-propensioni-entro-gruppi ipotesi, e svolge un ruolo chiave nel sapere se post-stratificazione funziona bene con campioni non probabilistici.

Purtroppo, nel nostro esempio, l'ipotesi omogeneo-risposta-propensioni-entro-gruppi sembra improbabile che sia vero. Cioè, sembra improbabile che tutti in Alaska ha la stessa probabilità di essere nel vostro sondaggio. Ma, ci sono tre punti importanti da tenere a mente su post-stratificazione, i quali fanno sembrare più promettente.

In primo luogo, omogeneo-risposta-propensioni-entro-gruppi ipotesi diventa più plausibile, come il numero di gruppi aumenta. E, i ricercatori non sono limitati a gruppi solo sulla base di una singola dimensione geografica. Ad esempio, si potrebbe creare gruppi in base allo stato, l'età, il sesso e livello di istruzione. Sembra più plausibile che ci sia propensioni risposta omogenea all'interno del gruppo di 18-29, i laureati di sesso femminile, universitari che vivono in Alaska che all'interno del gruppo di tutte le persone che vivono in Alaska. Così, il numero di gruppi utilizzati per aumenti post-stratificazione, le ipotesi necessarie per sostenere diventa più ragionevole. Dato questo fatto, sembra una ricercatori vorrebbero creare un gran numero di gruppi per la post-stratificazione. Ma, come il numero di gruppi aumenta, i ricercatori entrano in un diverso problema: sparsity dati. Se ci sono solo un piccolo numero di persone in ogni gruppo, quindi le stime saranno più incerto, e nel caso estremo in cui vi è un gruppo che non ha risposto, poi post-stratificazione completamente rompe. Ci sono due modi per uscire da questa tensione intrinseca tra la plausibilità di homogeneous- ipotesi di risposta propensione-entro-gruppi e la domanda di dimensioni dei campioni ragionevoli in ogni gruppo. Un approccio è quello di passare a un modello statistico più sofisticata per calcolare i pesi e l'altro è quello di raccogliere un campione di più diversificata più grande, che aiuta a garantire le dimensioni del campione ragionevoli in ogni gruppo. E, a volte i ricercatori fanno entrambe le cose, come descriverò più dettagliatamente in seguito.

Una seconda considerazione quando si lavora con il post-stratificazione da campioni non probabilistici è che il presupposto omogeneo-risposta-propensione-entro-gruppi è già spesso fatta quando si analizzano campioni probabilistici. La ragione per cui questa ipotesi è necessario per campioni di probabilità in pratica è che i campioni di probabilità sono non-risposta e il metodo più comune per regolare la mancata risposta è post-stratificazione come descritto sopra. Naturalmente, solo perché molti ricercatori fanno una certa supposizione non significa che si dovrebbe fare troppo. Ma, vuol dire che quando si confrontano campioni non probabilità di campioni probabilistici, in pratica, dobbiamo tenere a mente che entrambi dipendono da ipotesi e informazioni ausiliarie al fine di produrre stime. In scenari più realistici, semplicemente non c'è approccio senza assunzione di inferenza.

Infine, se vi preoccupate per una stima, in particolare, nel nostro esempio, il tasso di disoccupazione, allora avete bisogno di una condizione più debole rispetto omogenee-risposta-propensity all'interno di gruppi di ipotesi. In particolare, non è necessario supporre che tutti hanno la stessa propensione risposta, è necessario solo supporre che non vi è alcuna correlazione tra la propensione di risposta e il tasso di disoccupazione all'interno di ciascun gruppo. Naturalmente, anche questa condizione più debole non terrà in alcune situazioni. Per esempio, immaginate stimare la percentuale di americani che fare volontariato. Se le persone che fanno volontariato sono più propensi ad accettare di essere in un sondaggio, quindi i ricercatori sistematicamente sovra-stimare la quantità di volontariato, anche se lo fanno aggiustamenti post-stratificazione, un risultato che è stato dimostrato empiricamente da Abraham, Helms, and Presser (2009) .

Come ho detto prima, i campioni non probabilistici sono visti con grande scetticismo dagli scienziati sociali, in parte a causa del loro ruolo in alcuni dei fallimenti più imbarazzanti nei primi giorni di ricerca di indagine. Un chiaro esempio di quanto lontano siamo venuti con campioni non probabilistici è la ricerca di Wei Wang, David Rothschild, Sharad Goel, e Andrew Gelman che correttamente recuperato l'esito delle elezioni 2012 US utilizzando un campione non probabilistico di utenti americani di Xbox -a campione decisamente non casuale degli americani (Wang et al. 2015) . I ricercatori hanno reclutato intervistati dal sistema di gioco Xbox, e come ci si potrebbe aspettare, il campione di Xbox falsati maschile e falsati giovani: 18 - 29 anni di età rappresentano il 19% degli elettori, ma il 65% del campione Xbox e gli uomini costituiscono il 47% dell'elettorato e il 93% del campione di Xbox (Figura 3.4). A causa di queste forti pregiudizi demografici, i dati grezzi Xbox è stato un indicatore povero di risultati elettorali. E 'previsto un forte vittoria di Mitt Romney su Barack Obama. Ancora una volta, questo è un altro esempio dei pericoli di, campioni non probabilistici non rettificati prime e ricorda il fiasco Literary Digest.

Figura 3.4: Dati demografici degli intervistati a Wang et al. (2015) . Perché gli intervistati sono stati reclutati da XBox, erano più probabilità di essere giovane e più probabilità di essere di sesso maschile, relativa agli elettori nelle elezioni del 2012.

Tuttavia, Wang ei suoi colleghi erano a conoscenza di questi problemi e hanno tentato di peso intervistati per correggere il processo di campionamento. In particolare, hanno usato una forma più sofisticata del post-stratificazione cui ti ho parlato. Vale la pena di imparare un po 'di più sulla loro approccio, dato che costruisce intuizione post-stratificazione, e la particolare versione di Wang e colleghi hanno utilizzato è uno degli approcci più interessanti per i campioni non probabilistici ponderazione.

Nel nostro semplice esempio circa la stima della disoccupazione nel paragrafo 3.4.1, abbiamo diviso la popolazione in gruppi in base allo stato di residenza. Al contrario, Wang e colleghi hanno diviso la popolazione in in 176,256 gruppi definiti da: genere (2 categorie), corsa (4 categorie), età (4 categorie), l'istruzione (4 categorie), Stato (51 categorie), ID parte (3 categorie), l'ideologia (3 categorie) e il 2008 votazione (3 categorie). Con più gruppi, i ricercatori speravano che sarebbe sempre più probabile che all'interno di ciascun gruppo, la risposta propensione non era correlata con il supporto per Obama. Quindi, piuttosto che la costruzione di pesi a livello individuale, come abbiamo fatto nel nostro esempio, Wang e colleghi hanno utilizzato un modello complesso per stimare la percentuale di persone in ogni gruppo che voterebbe per Obama. Infine, hanno combinato queste stime del gruppo di sostegno con la dimensione nota di ogni gruppo per produrre un livello complessivo previsto per il sostegno. In altre parole, hanno tagliato la popolazione in diversi gruppi, hanno stimato il sostegno per Obama in ogni gruppo, e poi ha preso una media ponderata delle stime di gruppo per produrre una stima complessiva.

Così, la grande sfida nel loro approccio è stimare il supporto per Obama in ciascuno di questi gruppi 176,256. Anche se il loro pannello incluso 345,858 partecipanti unici, un numero enorme per gli standard del polling elezione, ci sono stati molti, molti gruppi per i quali Wang e colleghi avevano quasi nessun intervistati. Pertanto, per stimare il supporto in ogni gruppo hanno usato una tecnica chiamata di regressione multilivello con il post-stratificazione, che i ricercatori chiamano affettuosamente il signor P. In sostanza, per stimare il sostegno per Obama all'interno di un gruppo specifico, il signor P. piscine informazioni da molte da vicino i gruppi correlati. Ad esempio, si consideri la sfida di stimare il sostegno per Obama tra gli ispanici femminili, tra 18-29 anni, che sono laureati, che sono registrati i democratici, che si auto-identificano come moderati, e che hanno votato per Obama nel 2008 è un gruppo molto, molto specifico, ed è possibile che vi sia nessuno nel campione con queste caratteristiche. Pertanto, per fare stime su questo gruppo, il signor P. piscine insieme stime da parte di persone in gruppi molto simili.

Usando questa strategia di analisi, Wang e colleghi sono stati in grado di utilizzare il campione non probabilistico XBox per stimare molto da vicino il sostegno globale che Obama ha ricevuto nelle elezioni del 2012 (Figura 3.5). Infatti le loro stime erano più preciso di un aggregato di sondaggi d'opinione. Così, in questo caso, per pesare in particolare il signor P.-sembra di fare un buon lavoro correggendo le distorsioni nei dati non probabilistico; pregiudizi che sono visibili quando si guardano le stime dei dati di Xbox non rettificati.

Figura 3.5: Stime da Wang et al. (2015) . campione XBox non aggiustato ha prodotto stime imprecise. Ma, il campione di Xbox ponderata prodotto stime che erano più preciso di una media di sondaggi telefonici probabilità-based.

Ci sono due lezioni principali dello studio di Wang e colleghi. In primo luogo, i campioni non probabilistici non rettificati può portare a stime cattive; questa è una lezione che molti ricercatori hanno sentito prima. Tuttavia, la seconda lezione è che i campioni non probabilistici, quando ponderata correttamente, può effettivamente produrre abbastanza buone stime. In realtà, le loro stime erano più accurata rispetto alle stime da pollster.com, un'aggregazione di più tradizionali sondaggi elettorali.

Infine, vi sono importanti limitazioni a ciò che possiamo imparare da questo studio specifico. Solo perché post-stratificazione ha funzionato bene in questo caso particolare, non vi è alcuna garanzia che funzionerà bene in altri casi. In realtà, le elezioni sono forse uno degli scenari più semplici perché sondaggisti hanno studiato le elezioni per quasi 100 anni, c'è un feedback regolare (siamo in grado di vedere chi vince le elezioni), e l'identificazione di partito e le caratteristiche demografiche sono relativamente predittiva del voto. A questo punto, ci manca la teoria solida e l'esperienza empirica di sapere quando ponderazione rettifiche di campioni non probabilistici produrranno stime sufficientemente precise. Una cosa che è chiaro, tuttavia, è che se si è costretti a lavorare con i campioni non probabilistici, allora vi è una forte ragione di credere che gli adeguamenti delle stime sarà migliore di stime non regolata.