3.4 A chi chiedere

L'era digitale sta rendendo più difficile il campionamento probabilistico in pratica e sta creando nuove opportunità per il campionamento non probabilistico.

Nella storia del campionamento, ci sono stati due approcci in competizione: metodi di campionamento probabilistico e metodi di campionamento non probabilistico. Sebbene entrambi gli approcci siano stati utilizzati nei primi giorni del campionamento, il campionamento probabilistico è arrivato a dominare e molti ricercatori sociali hanno insegnato a vedere il campionamento non probabilistico con grande scetticismo. Tuttavia, come descriverò in seguito, i cambiamenti creati dall'era digitale significano che è tempo per i ricercatori di riconsiderare il campionamento non probabilistico. In particolare, il campionamento probabilistico è diventato difficile da fare nella pratica e il campionamento non probabilistico è diventato più veloce, più economico e migliore. Sondaggi più rapidi e meno costosi non sono solo fini a se stessi: offrono nuove opportunità come sondaggi più frequenti e campioni di dimensioni maggiori. Ad esempio, utilizzando i metodi non probabilistici, il Cooperative Congressional Election Study (CCES) è in grado di avere circa 10 volte più partecipanti rispetto agli studi precedenti utilizzando il campionamento probabilistico. Questo campione molto più ampio consente ai ricercatori politici di studiare la variazione degli atteggiamenti e dei comportamenti nei sottogruppi e nei contesti sociali. Inoltre, tutta questa scala aggiunta è venuta senza diminuire la qualità delle stime (Ansolabehere and Rivers 2013) .

Attualmente, l'approccio dominante al campionamento per la ricerca sociale è il campionamento probabilistico . Nel campionamento probabilistico, tutti i membri della popolazione target hanno una probabilità nota, diversa da zero, di essere campionata e tutte le persone campionate rispondono al sondaggio. Quando queste condizioni sono soddisfatte, eleganti risultati matematici offrono garanzie dimostrabili sulla capacità di un ricercatore di utilizzare il campione per fare inferenze sulla popolazione target.

Nel mondo reale, tuttavia, le condizioni alla base di questi risultati matematici sono raramente soddisfatte. Ad esempio, ci sono spesso errori di copertura e mancata risposta. A causa di questi problemi, i ricercatori spesso devono impiegare una varietà di aggiustamenti statistici per fare inferenze dal loro campione alla popolazione target. Pertanto, è importante distinguere tra il campionamento probabilistico in teoria , che ha forti garanzie teoriche e il campionamento probabilistico nella pratica , che non offre tali garanzie e dipende da una varietà di aggiustamenti statistici.

Nel tempo, le differenze tra il campionamento probabilistico in teoria e il campionamento probabilistico in pratica sono aumentate. Ad esempio, i tassi di mancata risposta sono aumentati costantemente, anche in indagini costose di alta qualità (figura 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . I tassi di mancata risposta sono molto più alti nelle indagini telefoniche commerciali, a volte addirittura fino al 90% (Kohut et al. 2012) . Questi aumenti nella mancata risposta minacciano la qualità delle stime perché le stime dipendono sempre più dai modelli statistici che i ricercatori utilizzano per adeguarsi alla mancata risposta. Inoltre, tali diminuzioni di qualità sono avvenute nonostante gli sforzi sempre più costosi da parte dei ricercatori del sondaggio per mantenere alti tassi di risposta. Alcuni temono che queste tendenze gemelle di qualità decrescente e costi crescenti minaccino le basi della ricerca sulle indagini (National Research Council 2013) .

Figura 3.5: la mancata risposta è stata sempre più costante, anche in costosi sondaggi di alta qualità (National Research Council 2013, B. D. Meyer, Mok e Sullivan 2015). I tassi di mancata risposta sono molto più alti per i sondaggi sui telefoni commerciali, a volte addirittura fino al 90% (Kohut et al., 2012). Queste tendenze a lungo termine in mancata risposta indicano che la raccolta dei dati è più costosa e le stime meno affidabili. Adattato da B. D. Meyer, Mok e Sullivan (2015), figura 1.

Figura 3.5: La mancata risposta è stata sempre più costante, anche in costosi sondaggi di alta qualità (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . I tassi di mancata risposta sono molto più alti per i sondaggi sui telefoni commerciali, a volte addirittura fino al 90% (Kohut et al. 2012) . Queste tendenze a lungo termine in mancata risposta indicano che la raccolta dei dati è più costosa e le stime meno affidabili. Adattato da BD Meyer, Mok, and Sullivan (2015) , figura 1.

Allo stesso tempo, ci sono state crescenti difficoltà per i metodi di campionamento probabilistico, vi sono stati anche sviluppi interessanti nei metodi di campionamento non probabilistico . Esistono vari stili di metodi di campionamento non probabilistico, ma l'unica cosa che hanno in comune è che non possono facilmente inserirsi nel quadro matematico del campionamento probabilistico (Baker et al. 2013) . In altre parole, nei metodi di campionamento non probabilistico non tutti hanno una probabilità di inclusione conosciuta e diversa da zero. I metodi di campionamento non probabilistico hanno una reputazione terribile tra i ricercatori sociali e sono associati con alcuni dei più drammatici fallimenti dei ricercatori del sondaggio, come il fiasco del Literary Digest (discusso in precedenza) e "Dewey Defeats Truman", la previsione errata sugli Stati Uniti elezioni presidenziali del 1948 (figura 3.6).

Figura 3.6: il presidente Harry Truman tiene il titolo di un giornale che ha erroneamente annunciato la sua sconfitta. Questo titolo era basato in parte su stime di campioni non probabilistici (Mosteller 1949, Bean 1950, Freedman, Pisani e Purves 2007). Sebbene Dewey sconfigga Truman sia accaduto nel 1948, è ancora una delle ragioni per cui alcuni ricercatori sono scettici sulle stime da campioni non probabilistici. Fonte: Harry S. Truman Library & Museum.

Figura 3.6: il presidente Harry Truman tiene il titolo di un giornale che ha erroneamente annunciato la sua sconfitta. Questo titolo era basato in parte su stime di campioni non probabilistici (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Anche se "Dewey sconfigge Truman" è accaduto nel 1948, è ancora una delle ragioni per cui alcuni ricercatori sono scettici sulle stime da campioni non probabilistici. Fonte: Harry S. Truman Library & Museum .

Una forma di campionamento non probabilistico particolarmente adatta all'era digitale è l'uso di pannelli online . I ricercatori che utilizzano i panel online dipendono da alcuni provider di panel, in genere un'azienda, un governo o un'università, per creare un gruppo ampio e diversificato di persone che accettano di rispondere alle indagini. Questi partecipanti ai panel vengono spesso reclutati utilizzando una varietà di metodi ad hoc come banner pubblicitari online. Quindi, un ricercatore può pagare al fornitore di panel l'accesso a un campione di rispondenti con le caratteristiche desiderate (ad esempio, rappresentativo nazionale degli adulti). Questi pannelli online sono metodi non probabilistici perché non tutti hanno una probabilità di inclusione nota, diversa da zero. Sebbene i panel sociali non probabilistici siano già utilizzati dai ricercatori sociali (ad esempio il CCES), c'è ancora un dibattito sulla qualità delle stime che provengono da loro (Callegaro et al. 2014) .

Nonostante questi dibattiti, penso che ci siano due ragioni per cui è il momento giusto per i ricercatori sociali di riconsiderare il campionamento non probabilistico. Innanzitutto, nell'era digitale, ci sono stati molti sviluppi nella raccolta e nell'analisi di campioni non probabilistici. Questi nuovi metodi sono abbastanza diversi dai metodi che hanno causato problemi in passato, penso che abbia senso considerarli come "campionamento non probabilistico 2.0". Il secondo motivo per cui i ricercatori dovrebbero riconsiderare il campionamento non probabilistico è perché il campionamento probabilistico la pratica è diventata sempre più difficile. Quando ci sono alti tassi di non-risposta - come ci sono ora in veri e propri sondaggi - le probabilità reali di inclusione per i rispondenti non sono note, e quindi campioni di probabilità e campioni non probabilistici non sono così diversi come molti ricercatori credono.

Come ho detto prima, molti ricercatori sociali considerano i campioni non probabilistici con grande scetticismo, in parte a causa del loro ruolo in alcuni dei più imbarazzanti fallimenti nei primi giorni della ricerca sui sondaggi. Un chiaro esempio di quanto siamo arrivati ​​con campioni non probabilistici è la ricerca di Wei Wang, David Rothschild, Sharad Goel e Andrew Gelman (2015) che ha correttamente recuperato l'esito delle elezioni americane del 2012 utilizzando un campione non probabilistico di Utenti americani di Xbox: un campione decisamente non casuale di americani. I ricercatori hanno reclutato gli intervistati dal sistema di gioco XBox e, come ci si potrebbe aspettare, il campione di Xbox ha distorto i giovani maschi e obliqui: tra i 18 ei 29 anni costituiscono il 19% dell'elettorato, ma il 65% del campione Xbox e gli uomini costituiscono il 47% dell'elettorato ma il 93% del campione Xbox (figura 3.7). A causa di questi forti pregiudizi demografici, i dati grezzi di Xbox erano un indicatore scadente dei rendimenti elettorali. Ha previsto una forte vittoria per Mitt Romney su Barack Obama. Ancora una volta, questo è un altro esempio dei pericoli di campioni non probabilistici grezzi e non corretti e ricorda il fiasco del Digestivo Letterario .

Figura 3.7: Dati demografici degli intervistati in W. Wang et al. (2015). Poiché gli intervistati sono stati reclutati da XBox, avevano più probabilità di essere giovani e più probabilità di essere maschi, rispetto agli elettori nelle elezioni del 2012. Adattato da W. Wang et al. (2015), figura 1.

Figura 3.7: Dati demografici degli intervistati in W. Wang et al. (2015) . Poiché gli intervistati sono stati reclutati da XBox, avevano più probabilità di essere giovani e più probabilità di essere maschi, rispetto agli elettori nelle elezioni del 2012. Adattato da W. Wang et al. (2015) , figura 1.

Tuttavia, Wang e i colleghi erano consapevoli di questi problemi e hanno tentato di adattarsi al loro processo di campionamento non casuale quando effettuavano stime. In particolare, hanno usato la post-stratificazione , una tecnica che è anche ampiamente utilizzata per regolare i campioni di probabilità che hanno errori di copertura e non risposta.

L'idea principale della post-stratificazione consiste nell'utilizzare informazioni ausiliarie sulla popolazione target per contribuire a migliorare la stima che proviene da un campione. Quando si utilizza la post-stratificazione per fare stime dal loro campione non probabilistico, Wang e il collega hanno tagliato la popolazione in gruppi diversi, stimato il supporto per Obama in ciascun gruppo, e poi hanno preso una media ponderata delle stime di gruppo per produrre una stima complessiva. Per esempio, avrebbero potuto dividere la popolazione in due gruppi (uomini e donne), stimare il sostegno di Obama tra uomini e donne, e poi stimare il sostegno generale a Obama prendendo una media ponderata per tenere conto del fatto che le donne fanno il 53% degli elettori e il 47% degli uomini. Approssimativamente, la post-stratificazione aiuta a correggere un campione squilibrato introducendo informazioni ausiliari sulle dimensioni dei gruppi.

La chiave per la post-stratificazione è formare i gruppi giusti. Se riesci a ridurre la popolazione in gruppi omogenei in modo tale che le propensioni di risposta siano le stesse per tutti in ciascun gruppo, la post-stratificazione produrrà stime imparziali. In altre parole, la post-stratificazione per genere produrrà stime imparziali se tutti gli uomini hanno la propensione alla risposta e tutte le donne hanno la stessa propensione alla risposta. Questa assunzione è chiamata assunzione di propensioni omogenee-all'interno dei gruppi , e la descrivo un po 'di più nelle note matematiche alla fine di questo capitolo.

Certo, sembra improbabile che le propensioni di risposta siano le stesse per tutti gli uomini e tutte le donne. Tuttavia, l'ipotesi di risposta omogenea alle propensioni all'interno dei gruppi diventa più plausibile con l'aumento del numero di gruppi. Approssimativamente, diventa più facile tagliare la popolazione in gruppi omogenei se si creano più gruppi. Ad esempio, potrebbe sembrare poco plausibile che tutte le donne abbiano la stessa propensione alla risposta, ma potrebbe sembrare più plausibile che ci sia la stessa propensione alla risposta per tutte le donne di età compresa tra 18 e 29 anni, laureate al college e che vivono in California . Pertanto, man mano che il numero di gruppi utilizzati nella post-stratificazione aumenta, le ipotesi necessarie per supportare il metodo diventano più ragionevoli. Alla luce di ciò, i ricercatori spesso desiderano creare un numero enorme di gruppi per la post-stratificazione. Tuttavia, con l'aumentare del numero di gruppi, i ricercatori incontrano un problema diverso: la scarsità di dati. Se ci sono solo un piccolo numero di persone in ciascun gruppo, allora le stime saranno più incerte e, nel caso estremo in cui c'è un gruppo che non ha rispondenti, la stratificazione successiva sarà completamente interrotta.

Esistono due modi per uscire da questa tensione intrinseca tra la plausibilità dell'ipotesi omogenea di risposta-propensione-all'interno dei gruppi e la richiesta di dimensioni campionarie ragionevoli in ciascun gruppo. Innanzitutto, i ricercatori possono raccogliere un campione più ampio e diversificato, che aiuta a garantire campioni di dimensioni ragionevoli in ciascun gruppo. In secondo luogo, possono utilizzare un modello statistico più sofisticato per effettuare stime all'interno di gruppi. E, in effetti, a volte i ricercatori fanno entrambi, come Wang e colleghi hanno fatto con il loro studio delle elezioni usando gli intervistati di Xbox.

Poiché stavano usando un metodo di campionamento non probabilistico con interviste gestite dal computer (parlerò più delle interviste gestite dal computer nella sezione 3.5), Wang e colleghi hanno avuto una raccolta di dati molto economica, che ha permesso loro di raccogliere informazioni da 345.858 partecipanti unici , un numero enorme per gli standard dei sondaggi elettorali. Questa enorme dimensione del campione ha permesso loro di formare un numero enorme di gruppi di post-stratificazione. Mentre la post-stratificazione implica tipicamente il taglio della popolazione in centinaia di gruppi, Wang e colleghi dividono la popolazione in 176.256 gruppi definiti per sesso (2 categorie), razza (4 categorie), età (4 categorie), istruzione (4 categorie), stato (51 categorie), ID di partito (3 categorie), ideologia (3 categorie) e voto 2008 (3 categorie). In altre parole, l'enorme dimensione del campione, abilitata dalla raccolta di dati a basso costo, ha consentito loro di assumere un'ipotesi più plausibile nel loro processo di stima.

Anche con 345.858 partecipanti unici, tuttavia, c'erano ancora molti, molti gruppi per i quali Wang e i suoi colleghi avevano quasi nessun intervistato. Pertanto, hanno usato una tecnica chiamata regressione multilivello per stimare il supporto in ciascun gruppo. In sostanza, per stimare il supporto di Obama all'interno di un gruppo specifico, la regressione a più livelli ha raggruppato le informazioni di molti gruppi strettamente correlati. Ad esempio, immagina di provare a stimare il sostegno di Obama tra gli ispanici di sesso femminile tra i 18 ei 29 anni, che sono laureati, che sono registrati democratici, che si autoidentificano come moderati e che hanno votato per Obama nel 2008. Questo è molto , gruppo molto specifico, ed è possibile che non ci sia nessuno nel campione con queste caratteristiche. Pertanto, per fare stime su questo gruppo, la regressione multilivello utilizza un modello statistico per raggruppare le stime di persone in gruppi molto simili.

Così, Wang e colleghi hanno usato un approccio che combinava la regressione multilivello e la post-stratificazione, così hanno definito la loro strategia una regressione multilivello con post-stratificazione o, più affettuosamente, "Mr. P. "Quando Wang e colleghi hanno usato il signor P. per fare stime dal campione non probabilistico di XBox, hanno prodotto stime molto vicine al supporto complessivo che Obama ha ricevuto nelle elezioni del 2012 (figura 3.8). In realtà le loro stime erano più accurate di un insieme di sondaggi di opinione pubblica tradizionali. Quindi, in questo caso, gli aggiustamenti statistici, in particolare il signor P., sembrano fare un buon lavoro correggendo i pregiudizi nei dati non probabilistici; pregiudizi che erano chiaramente visibili quando si osservano le stime dai dati di Xbox non aggiustati.

Figura 3.8: stime da W. Wang et al. (2015). Il campione XBox non aggiustato ha prodotto stime inesatte. Ma il campione ponderato XBox ha prodotto stime più accurate di una media di sondaggi telefonici basati sulla probabilità. Adattato da W. Wang et al. (2015), figure 2 e 3.

Figura 3.8: stime da W. Wang et al. (2015) . Il campione XBox non aggiustato ha prodotto stime inesatte. Ma il campione ponderato XBox ha prodotto stime più accurate di una media di sondaggi telefonici basati sulla probabilità. Adattato da W. Wang et al. (2015) , figure 2 e 3.

Ci sono due lezioni principali dallo studio di Wang e colleghi. In primo luogo, i campioni non probabili non rettificati possono portare a stime errate; questa è una lezione che molti ricercatori hanno già sentito. La seconda lezione, tuttavia, è che i campioni non probabilistici, se analizzati correttamente, possono effettivamente produrre buone stime; i campioni non probabilistici non devono portare automaticamente a qualcosa di simile al fiasco del Literary Digest .

Andando avanti, se si sta tentando di decidere tra l'utilizzo di un approccio di campionamento probabilistico e un approccio di campionamento non probabilistico, si affronta una scelta difficile. A volte i ricercatori vogliono una regola rapida e rigida (ad esempio, usano sempre metodi di campionamento probabilistico), ma è sempre più difficile offrire una tale regola. I ricercatori devono affrontare una scelta difficile tra i metodi di campionamento probabilistico nella pratica - che sono sempre più costosi e lontani dai risultati teorici che giustificano il loro uso - e metodi di campionamento non probabilistici - che sono meno costosi e più veloci, ma meno familiari e più vari. Una cosa che è chiara, tuttavia, è che se sei costretto a lavorare con campioni non probabilistici o fonti di dati non rappresentative (ripensa al Capitolo 2), allora c'è una forte ragione per credere che le stime fatte usando la stratificazione e le tecniche correlate saranno migliori di quelle non corrette e non elaborate.