3.3.1 Rappresentazione

La rappresentazione è di fare inferenze dai tuoi rispondenti alla popolazione target.

Per comprendere il tipo di errori che possono verificarsi quando si deduce dagli intervistati alla popolazione più ampia, consideriamo il sondaggio sul " Literary Digest" che tentava di prevedere l'esito delle elezioni presidenziali degli Stati Uniti del 1936. Sebbene sia accaduto più di 75 anni fa, questa debacle ha ancora una lezione importante da insegnare ai ricercatori oggi.

Il Literary Digest era una popolare rivista di interesse generale e, a partire dal 1920, iniziarono a lanciare sondaggi di paglia per prevedere i risultati delle elezioni presidenziali. Per fare queste previsioni, manderebbero schede a molte persone e poi semplicemente sistemare le schede che sono state restituite; Il saggio letterario riportava con orgoglio che le schede ricevute non erano né "ponderate, adattate né interpretate". Questa procedura prevedeva correttamente i vincitori delle elezioni del 1920, 1924, 1928 e 1932. Nel 1936, nel mezzo della Grande Depressione, la letteratura Digest ha inviato i voti a 10 milioni di persone, i cui nomi provenivano prevalentemente da elenchi telefonici e registrazioni automobilistiche. Ecco come hanno descritto la loro metodologia:

"La macchina scorrevole di THE DIGEST si muove con la rapida precisione di trent'anni di esperienza per ridurre le congetture su fatti concreti ... Questa settimana 500 penne hanno cancellato più di un quarto di milione di indirizzi al giorno. Ogni giorno, in una grande sala sopra la cosiddetta Fourth Avenue, a New York, 400 operai sfilano abilmente un milione di pezzi di materiale stampato - sufficiente a spianare quaranta isolati - nelle buste indirizzate [sic]. Ogni ora, nella sottostazione degli uffici postali di THE DIGEST, tre macchine per il conteggio delle poste in conversazione battevano e timbravano i oblongs bianchi; impiegati qualificati postali li trasformarono in grossi sacchi postali; i camion della DIGEST della flotta li hanno accelerati per esprimere i treni della posta. . . La prossima settimana, le prime risposte da questi dieci milioni cominceranno la marea in arrivo delle schede segnate, da verificare triplicando, verificate, cinque volte classificate e totalizzate. Quando l'ultima cifra è stata analizzata e verificata, se l'esperienza passata è un criterio, il paese saprà entro una frazione dell'1 per cento l'effettivo voto popolare di quaranta milioni [elettori]. "(22 agosto 1936)

La feticizzazione delle dimensioni di Literary Digest è immediatamente riconoscibile da qualsiasi ricercatore di "big data" oggi. Dei 10 milioni di schede distribuite, sono stati restituiti ben 2,4 milioni, ovvero circa 1.000 volte più dei sondaggi politici moderni. Da questi 2,4 milioni di intervistati, il verdetto era chiaro: Alf Landon avrebbe sconfitto l'incumbent Franklin Roosevelt. Ma, in realtà, Roosevelt sconfisse Landon in una frana. Come potrebbe il Literary Digest fallire con così tanti dati? La nostra moderna comprensione del campionamento rende chiari gli errori del Literary Digest e ci aiuta a evitare di commettere errori simili in futuro.

Pensare chiaramente al campionamento ci impone di considerare quattro diversi gruppi di persone (figura 3.2). Il primo gruppo è la popolazione target ; questo è il gruppo che il ricercatore definisce come la popolazione di interesse. Nel caso del Literary Digest , la popolazione target era elettori nelle elezioni presidenziali del 1936.

Dopo aver deciso una popolazione target, un ricercatore deve sviluppare un elenco di persone che possono essere utilizzate per il campionamento. Questo elenco è chiamato frame di campionamento e le persone su di esso sono chiamate frame population . Idealmente, la popolazione target e la popolazione inquadrata sarebbero esattamente le stesse, ma in pratica spesso non è così. Ad esempio, nel caso di Literary Digest , la popolazione inquadrata era di 10 milioni di persone i cui nomi provenivano prevalentemente da elenchi telefonici e registrazioni automobilistiche. Le differenze tra la popolazione target e la popolazione di frame sono chiamate errore di copertura . L'errore di copertura non garantisce, di per sé, problemi. Tuttavia, può portare a pregiudizi di copertura se le persone nella popolazione inquadrata sono sistematicamente diverse dalle persone della popolazione target che non sono nella popolazione di frame. Questo è, in effetti, esattamente ciò che è accaduto nel sondaggio del Literary Digest . Le persone nella loro popolazione tendono ad essere più inclini a sostenere Alf Landon, in parte perché erano più ricchi (ricorda che sia i telefoni che le automobili erano relativamente nuovi e costosi nel 1936). Quindi, nel sondaggio del Literary Digest , l'errore di copertura ha portato a una distorsione della copertura.

Figura 3.2: errori di rappresentazione.

Figura 3.2: errori di rappresentazione.

Dopo aver definito la popolazione di frame , il passo successivo è per un ricercatore selezionare la popolazione campione ; queste sono le persone che il ricercatore tenterà di intervistare. Se il campione ha caratteristiche diverse dalla popolazione di frame, il campionamento può introdurre un errore di campionamento . Nel caso del fiasco del Literary Digest , tuttavia, non c'era in realtà alcun campionamento, la rivista per contattare tutti nella popolazione del frame, e quindi non c'era nessun errore di campionamento. Molti ricercatori tendono a concentrarsi sull'errore di campionamento - questo è tipicamente l'unico tipo di errore catturato dal margine di errore riportato nei sondaggi - ma il fiasco del Literary Digest ci ricorda che dobbiamo considerare tutte le fonti di errore, sia casuali che sistematiche.

Infine, dopo aver selezionato una popolazione campione, un ricercatore tenta di intervistare tutti i suoi membri. Quelle persone che sono intervistate con successo sono chiamate intervistate . Idealmente, la popolazione campione e gli intervistati sarebbero esattamente gli stessi, ma in pratica non c'è risposta. Cioè, le persone che sono selezionate nel campione a volte non partecipano. Se le persone che rispondono sono diverse da quelle che non rispondono, allora può esserci un pregiudizio di mancata risposta. Il bias di mancata risposta era il secondo problema principale con il sondaggio del Literary Digest . Solo il 24% delle persone che hanno ricevuto una votazione ha risposto, e si è scoperto che le persone che hanno sostenuto Landon avevano più probabilità di rispondere.

Oltre ad essere un esempio per introdurre le idee della rappresentazione, il sondaggio del Literary Digest è una parabola spesso ripetuta, che ammonisce i ricercatori sui pericoli del campionamento casuale. Sfortunatamente, penso che la lezione che molte persone traggono da questa storia sia quella sbagliata. La morale più comune della storia è che i ricercatori non possono imparare nulla dai campioni non probabilistici (cioè campioni senza regole rigorose basate sulla probabilità per selezionare i partecipanti). Ma, come mostrerò più avanti in questo capitolo, non è giusto. Invece, penso che ci siano davvero due morali in questa storia; la morale è vera oggi come lo erano nel 1936. In primo luogo, una grande quantità di dati raccolti casualmente non garantisce una buona stima. In generale, avere un gran numero di rispondenti diminuisce la varianza delle stime, ma non diminuisce necessariamente il bias. Con molti dati, i ricercatori possono talvolta ottenere una stima precisa della cosa sbagliata; possono essere precisamente imprecisi (McFarland and McFarland 2015) . La seconda lezione principale del fiasco del Literary Digest è che i ricercatori devono tenere conto di come il loro campione è stato raccolto al momento di fare stime. In altre parole, poiché il processo di campionamento nel sondaggio del Literary Digest era sistematicamente distorto verso alcuni rispondenti, i ricercatori avevano bisogno di utilizzare un processo di stima più complesso che ponderava alcuni rispondenti più di altri. Più avanti in questo capitolo, ti mostrerò una di queste procedure di ponderazione - post-stratificazione - che ti permetterà di fare stime migliori con campioni casuali.