3.6.1 arricchita

Nella richiesta arricchita, i dati del sondaggio creano il contesto attorno a una grande fonte di dati che contiene alcune misure importanti ma ne mancano altre.

Un modo per combinare i dati dei sondaggi e le grandi fonti di dati è un processo che chiamerò domanda arricchita . Nella richiesta arricchita, una grande fonte di dati contiene alcune misurazioni importanti ma manca di altre misurazioni in modo che il ricercatore raccolga queste misurazioni mancanti in un'indagine e collega quindi le due fonti di dati insieme. Un esempio di richiesta arricchita è lo studio di Burke and Kraut (2014) sul fatto che l'interazione su Facebook aumenti la forza dell'amicizia, che ho descritto nella sezione 3.2). In quel caso, Burke e Kraut combinarono i dati dell'indagine con i dati del registro di Facebook.

Il contesto in cui lavoravano Burke e Kraut, tuttavia, significava che non avevano a che fare con due grossi problemi che i ricercatori facevano di solito arricchiti chiedendo di affrontare. Innanzitutto, collegare effettivamente i set di dati a livello individuale, un processo chiamato link linkage , può essere difficile se non esiste un identificativo univoco in entrambe le origini dati che può essere utilizzato per garantire che il record corretto in un set di dati sia abbinato al record corretto nell'altro set di dati. Il secondo problema principale con la richiesta avanzata è che la qualità della grande fonte di dati sarà spesso difficile da valutare per i ricercatori perché il processo attraverso il quale i dati vengono creati può essere proprietario e potrebbe essere suscettibile a molti dei problemi descritti nel capitolo 2. In altre parole, la richiesta arricchita implicherà frequentemente collegamenti di sondaggi inclini agli errori a fonti di dati black-box di qualità sconosciuta. Nonostante questi problemi, tuttavia, la richiesta arricchita può essere utilizzata per condurre ricerche importanti, come dimostrato da Stephen Ansolabehere e Eitan Hersh (2012) nella loro ricerca sui modelli di voto negli Stati Uniti.

L'affluenza alle urne è stata oggetto di approfondite ricerche in scienze politiche e, in passato, la comprensione da parte dei ricercatori di chi vota e perché è stata generalmente basata sull'analisi dei dati dell'indagine. Votare negli Stati Uniti, tuttavia, è un comportamento insolito in quanto il governo registra se ogni cittadino ha votato (ovviamente, il governo non registra chi vota per ogni cittadino). Per molti anni, questi registri elettorali governativi erano disponibili su moduli cartacei, sparsi in vari uffici governativi locali in tutto il paese. Ciò ha reso molto difficile, ma non impossibile, per gli scienziati politici avere un quadro completo dell'elettorato e confrontare ciò che la gente dice nei sondaggi sul voto con il loro comportamento di voto effettivo (Ansolabehere and Hersh 2012) .

Ma questi registri elettorali sono stati digitalizzati e un certo numero di società private li ha sistematicamente raccolti e uniti per produrre file di voto principale completi che contengono il comportamento di voto di tutti gli americani. Ansolabehere e Hersh hanno collaborato con una di queste aziende, la Catalogue LCC, per utilizzare il proprio file di voto principale per contribuire a sviluppare un quadro migliore dell'elettorato. Inoltre, poiché il loro studio si basava su documenti digitali raccolti e curati da una società che aveva investito notevoli risorse nella raccolta e nell'armonizzazione dei dati, offriva una serie di vantaggi rispetto agli sforzi precedenti che erano stati fatti senza l'aiuto di società e utilizzando record analogici.

Come molte delle grandi fonti di dati nel capitolo 2, il master file Catalist non includeva gran parte delle informazioni demografiche, attitudinali e comportamentali di cui Ansolabehere e Hersh avevano bisogno. In effetti, erano particolarmente interessati a confrontare il comportamento di voto riportato nei sondaggi con comportamento di voto convalidato (cioè le informazioni nel database Catalista). Così Ansolabehere e Hersh hanno raccolto i dati che volevano come un ampio sondaggio sociale, il CCES, menzionato in precedenza in questo capitolo. Poi hanno dato i loro dati al catalista, e il catalista ha restituito un file di dati unito che includeva il comportamento di voto convalidato (dal catalizzatore), il comportamento votante auto-segnalato (da CCES) e i dati demografici e le attitudini dei rispondenti (da CCES) (figura 3.13). In altre parole, Ansolabehere e Hersh combinavano i dati delle registrazioni elettorali con i dati dell'indagine per fare ricerche che non erano possibili individualmente con entrambe le fonti di dati.

Figura 3.13: Schema dello studio di Ansolabehere e Hersh (2012). Per creare il file di dati master, Catalist combina e armonizza le informazioni provenienti da molte fonti diverse. Questo processo di fusione, indipendentemente da quanto attento, genererà errori nelle origini dati originali e introdurrà nuovi errori. Una seconda fonte di errori è il collegamento tra i dati del sondaggio e il file di dati master. Se ogni persona avesse un identificatore unico e stabile in entrambe le fonti di dati, il collegamento sarebbe banale. Ma Catalist doveva fare il collegamento usando identificatori imperfetti, in questo caso nome, genere, anno di nascita e indirizzo di casa. Sfortunatamente, per molti casi potrebbero esserci informazioni incomplete o inaccurate; un elettore di nome Homer Simpson potrebbe apparire come Homer Jay Simpson, Homie J Simpson, o persino Homer Sampsin. Nonostante il potenziale di errori nel file di dati master Catalist e gli errori nel collegamento del record, Ansolabehere e Hersh sono stati in grado di aumentare la fiducia nelle loro stime attraverso diversi tipi di controlli.

Figura 3.13: Schema dello studio di Ansolabehere and Hersh (2012) . Per creare il file di dati master, Catalist combina e armonizza le informazioni provenienti da molte fonti diverse. Questo processo di fusione, indipendentemente da quanto attento, genererà errori nelle origini dati originali e introdurrà nuovi errori. Una seconda fonte di errori è il collegamento tra i dati del sondaggio e il file di dati master. Se ogni persona avesse un identificatore unico e stabile in entrambe le fonti di dati, il collegamento sarebbe banale. Ma Catalist doveva fare il collegamento usando identificatori imperfetti, in questo caso nome, genere, anno di nascita e indirizzo di casa. Sfortunatamente, per molti casi potrebbero esserci informazioni incomplete o inaccurate; un elettore di nome Homer Simpson potrebbe apparire come Homer Jay Simpson, Homie J Simpson, o persino Homer Sampsin. Nonostante il potenziale di errori nel file di dati master Catalist e gli errori nel collegamento del record, Ansolabehere e Hersh sono stati in grado di aumentare la fiducia nelle loro stime attraverso diversi tipi di controlli.

Con il loro file di dati combinati, Ansolabehere e Hersh hanno raggiunto tre conclusioni importanti. Innanzitutto, la sovra-segnalazione del voto è dilagante: quasi la metà dei non votanti ha riferito di aver votato, e se qualcuno ha segnalato il voto, c'è solo l'80% di possibilità che essi abbiano effettivamente votato. In secondo luogo, l'over-reporting non è casuale: l'over-reporting è più comune tra i partiti ad alto reddito, ben istruiti, che sono impegnati negli affari pubblici. In altre parole, le persone che hanno maggiori probabilità di votare hanno anche maggiori probabilità di mentire sul voto. In terzo luogo, e in modo più critico, a causa della natura sistematica della sovra-segnalazione, le effettive differenze tra elettori e non-votanti sono inferiori a quelle che appaiono solo dai sondaggi. Ad esempio, quelli con un diploma di laurea sono circa 22 punti percentuali più probabilità di segnalare il voto, ma sono solo 10 punti percentuali più probabilità di votare effettivamente. Risulta, forse non sorprendentemente, che le teorie sul voto esistenti basate sulle risorse sono molto più utili a prevedere chi dichiarerà il voto (che è il dato che i ricercatori hanno usato in passato) piuttosto che a predire chi effettivamente vota. Pertanto, il risultato empirico di Ansolabehere and Hersh (2012) richiede nuove teorie per comprendere e prevedere il voto.

Ma quanto dovremmo fidarci di questi risultati? Ricorda, questi risultati dipendono dal collegamento soggetto a errori ai dati della black-box con quantità sconosciute di errore. Più in particolare, i risultati dipendono da due passaggi chiave: (1) la capacità del catalista di combinare molte fonti di dati disparate per produrre un file di dati master accurato e (2) la capacità del catalizzatore di collegare i dati del sondaggio al suo file di dati master. Ognuno di questi passaggi è difficile e gli errori in entrambi i passaggi potrebbero portare i ricercatori a conclusioni sbagliate. Tuttavia, sia l'elaborazione dei dati che il collegamento sono fondamentali per la continua esistenza di Catalist come azienda, quindi può investire risorse per risolvere questi problemi, spesso su una scala che nessun ricercatore accademico può eguagliare. Nel loro lavoro, Ansolabehere e Hersh passano attraverso una serie di passaggi per verificare i risultati di questi due passaggi, anche se alcuni di essi sono proprietari, e questi controlli potrebbero essere utili per altri ricercatori che desiderano collegare i dati del sondaggio ai big data della black-box fonti.

Quali sono le lezioni generali che i ricercatori possono trarre da questo studio? In primo luogo, vi è un enorme valore sia dall'arricchimento di grandi fonti di dati con i dati dei sondaggi, sia dall'arricchimento dei dati del sondaggio con fonti di dati di grandi dimensioni (si può vedere questo studio in entrambi i casi). Combinando queste due fonti di dati, i ricercatori sono stati in grado di fare qualcosa che era impossibile con entrambi individualmente. La seconda lezione generale è che, sebbene le fonti di dati commerciali aggregate, come i dati del catalista, non debbano essere considerate "verità fondamentale", in alcuni casi possono essere utili. Gli scettici a volte confrontano queste fonti di dati commerciali aggregate con la Verità assoluta e sottolineano che queste fonti di dati non sono sufficienti. Tuttavia, in questo caso, gli scettici stanno facendo il confronto sbagliato: tutti i dati che i ricercatori usano non rispettano la verità assoluta. Al contrario, è preferibile confrontare le fonti di dati commerciali aggregate con altre fonti di dati disponibili (ad esempio, il comportamento di voto segnalato dall'utente), che invariabilmente presentano anche errori. Infine, la terza lezione generale dello studio di Ansolabehere e Hersh è che in alcune situazioni, i ricercatori possono beneficiare degli enormi investimenti che molte aziende private stanno facendo per raccogliere e armonizzare complessi set di dati sociali.