2.4.1 cose conteggio

Conteggio semplice può essere interessante se si combinano una buona domanda con buoni dati.

Sebbene sia espresso in un linguaggio sofisticato, molte ricerche sociali si limitano a contare le cose. Nell'era dei big data, i ricercatori possono contare più che mai, ma ciò non significa che dovrebbero semplicemente iniziare a contare a casaccio. Invece, i ricercatori dovrebbero chiedere: quali cose vale la pena contare? Questo può sembrare una questione interamente soggettiva, ma ci sono alcuni schemi generali.

Spesso gli studenti motivano le loro ricerche di conteggio dicendo: ho intenzione di contare qualcosa che nessuno ha mai visto prima. Ad esempio, uno studente potrebbe dire che molte persone hanno studiato migranti e molte persone hanno studiato gemelli, ma nessuno ha studiato gemelli migranti. Nella mia esperienza, questa strategia, che io chiamo motivazione per assenza , di solito non conduce a una buona ricerca. La motivazione per assenza è come dire che c'è un buco laggiù, e ho intenzione di lavorare molto duramente per riempirlo. Ma non tutti i buchi devono essere riempiti.

Invece di motivare per assenza, penso che una strategia migliore sia cercare domande di ricerca che siano importanti o interessanti (o idealmente entrambe). Entrambi questi termini sono un po 'difficili da definire, ma un modo per pensare a una ricerca importante è che ha un impatto misurabile o si nutre di una decisione importante da parte dei responsabili politici. Ad esempio, misurare il tasso di disoccupazione è importante perché è un indicatore dell'economia che guida le decisioni politiche. In generale, penso che i ricercatori abbiano un buon senso di ciò che è importante. Quindi, nel resto di questa sezione, fornirò due esempi in cui ritengo che il conteggio sia interessante. In ogni caso, i ricercatori non stavano contando a caso; piuttosto, stavano contando in impostazioni molto particolari che rivelavano importanti intuizioni su idee più generali su come funzionano i sistemi sociali. In altre parole, molto di ciò che rende interessanti questi particolari esercizi di conteggio non sono i dati stessi, ma provengono da queste idee più generali.

Un esempio del semplice potere del conteggio viene dallo studio di Henry Farber (2015) sul comportamento dei tassisti di New York. Anche se questo gruppo potrebbe non sembrare intrinsecamente interessante, è un sito di ricerca strategico per testare due teorie in competizione nell'economia del lavoro. Ai fini della ricerca di Farber, ci sono due importanti caratteristiche dell'ambiente di lavoro dei tassisti: (1) il loro salario orario oscilla di giorno in giorno, basato in parte su fattori come il tempo, e (2) il numero di ore il lavoro può fluttuare ogni giorno in base alle proprie decisioni. Queste caratteristiche portano a un'interessante domanda sulla relazione tra i salari orari e le ore lavorate. I modelli neoclassici in economia prevedono che i tassisti lavoreranno di più nei giorni in cui hanno retribuzioni orarie più alte. In alternativa, i modelli di economia comportamentale prevedono esattamente il contrario. Se i conducenti fissano un particolare obiettivo di reddito, ad esempio $ 100 al giorno, e lavorano fino a quando l'obiettivo non viene raggiunto, i conducenti finiranno per lavorare meno ore nei giorni in cui guadagnano di più. Ad esempio, se tu fossi un percettore di guadagno, potresti finire per lavorare quattro ore in una buona giornata ($ 25 all'ora) e cinque ore in una brutta giornata ($ 20 all'ora). Quindi, i conducenti lavorano più ore nei giorni con salari orari più alti (come previsto dai modelli neoclassici) o più ore in giorni con salari orari inferiori (come previsto dai modelli economici comportamentali)?

Per rispondere a questa domanda, Farber ha ottenuto dati su ogni viaggio in taxi effettuato dai taxi di New York dal 2009 al 2013, dati che sono ora disponibili al pubblico. Questi dati, che sono stati raccolti dai contatori elettronici che la città richiede ai taxi di utilizzare, includono informazioni su ogni viaggio: ora di inizio, posizione di partenza, ora di fine, posizione finale, tariffa e mancia (se la mancia è stata pagata con una carta di credito) . Usando questi dati del tassametro, Farber ha scoperto che la maggior parte dei conducenti lavora di più nei giorni in cui i salari sono più alti, coerenti con la teoria neoclassica.

Oltre a questo risultato principale, Farber è stato in grado di utilizzare la dimensione dei dati per una migliore comprensione dell'eterogeneità e della dinamica. Ha scoperto che, col passare del tempo, i guidatori più recenti imparano gradualmente a lavorare più ore in giorni con salari alti (ad esempio, imparano a comportarsi come predice il modello neoclassico). E i nuovi conducenti che si comportano più come destinatari sono più propensi a smettere di essere tassisti. Entrambi questi risultati più sottili, che aiutano a spiegare il comportamento osservato dei driver correnti, erano possibili solo a causa della dimensione del set di dati. Erano impossibili da rilevare in precedenti studi che utilizzavano fogli di viaggio di carta da un piccolo numero di tassisti in un breve periodo di tempo (Camerer et al. 1997) .

Lo studio di Farber era vicino a uno scenario migliore per una ricerca che utilizzava una grande fonte di dati perché i dati raccolti dalla città erano abbastanza vicini ai dati raccolti da Farber (una differenza è che Farber avrebbe voluto dati sul totale tariffe salariali più suggerimenti, ma i dati della città includevano solo i suggerimenti pagati con carta di credito). Tuttavia, i dati da soli non erano sufficienti. La chiave della ricerca di Farber stava portando un'interessante domanda ai dati, una domanda che ha implicazioni maggiori oltre a questa specifica impostazione.

Un secondo esempio di conteggio delle cose deriva dalla ricerca di Gary King, Jennifer Pan e Molly Roberts (2013) sulla censura online da parte del governo cinese. In questo caso, tuttavia, i ricercatori hanno dovuto raccogliere i propri big data e hanno dovuto affrontare il fatto che i loro dati erano incompleti.

King e colleghi erano motivati ​​dal fatto che i post sui social media in Cina sono censurati da un enorme apparato statale che si pensa includa decine di migliaia di persone. I ricercatori e i cittadini, tuttavia, hanno poco senso di come questi censori decidano quali contenuti dovrebbero essere cancellati. Gli studiosi della Cina hanno in realtà aspettative contrastanti su quali tipi di messaggi hanno più probabilità di essere cancellati. Alcuni pensano che i censori si concentrino su post che sono critici nei confronti dello stato, mentre altri pensano che si concentrino su post che incoraggiano comportamenti collettivi, come le proteste. Capire quale di queste aspettative sia corretta ha implicazioni sul modo in cui i ricercatori comprendono la Cina e altri governi autoritari che si impegnano nella censura. Pertanto, King e colleghi volevano confrontare i post pubblicati e successivamente eliminati con i post pubblicati e mai cancellati.

Raccolta questi posti ha comportato la straordinaria impresa di ingegneria di strisciare oltre 1.000 cinesi di social media web-ognuno con diversi layout di pagina di accertamento dei relativi posti, e poi rivisitare questi posti per vedere che sono stati successivamente eliminati. In aggiunta ai normali problemi di ingegneria connessi con larga scala web-crawling, questo progetto ha avuto la sfida aggiunto che aveva bisogno di essere estremamente veloce perché molti messaggi censurati sono prese in meno di 24 ore. In altre parole, un cingolato lento avrebbe perso un sacco di messaggi che sono stati censurati. Inoltre, i crawler hanno dovuto fare tutto questo la raccolta di dati mentre eludere il rilevamento per timore che i siti di social media bloccano l'accesso o in altro modo cambiare le loro politiche in risposta allo studio.

Nel momento in cui questo imponente compito ingegneristico era stato completato, King e colleghi avevano ottenuto circa 11 milioni di post su 85 diversi argomenti prespecificati, ciascuno con un presunto livello di sensibilità. Ad esempio, un argomento di alta sensibilità è Ai Weiwei, l'artista dissidente; un argomento di media sensibilità è l'apprezzamento e la svalutazione della moneta cinese, e un argomento di bassa sensibilità è la Coppa del mondo. Di questi 11 milioni di post, circa 2 milioni erano stati censurati. Sorprendentemente, King e colleghi hanno scoperto che i post su argomenti molto sensibili venivano censurati solo leggermente più spesso dei post su argomenti di media e bassa sensibilità. In altre parole, i censori cinesi hanno la stessa probabilità di censurare un post che menziona Ai Weiwei come un post che menziona la Coppa del Mondo. Questi risultati non supportano l'idea che il governo censuri tutti i messaggi su argomenti sensibili.

Tuttavia, questo semplice calcolo del tasso di censura per argomento potrebbe essere fuorviante. Ad esempio, il governo potrebbe censurare i post che supportano Ai Weiwei, ma lasciare post che sono critici nei suoi confronti. Per distinguere tra posti più attentamente, i ricercatori dovevano misurare il sentimento di ogni post. Sfortunatamente, nonostante molto lavoro, i metodi completamente automatizzati di rilevamento dei sentimenti utilizzando dizionari preesistenti non sono ancora molto buoni in molte situazioni (ripensate ai problemi che creano una timeline emotiva dell'11 settembre 2001 descritta nella sezione 2.3.9). Pertanto, King e colleghi avevano bisogno di un modo per etichettare i loro 11 milioni di post sui social media sul fatto che fossero (1) critici nei confronti dello stato, (2) favorevoli allo stato o (3) relazioni irrilevanti o fattuali sugli eventi. Sembra un lavoro enorme, ma lo hanno risolto usando un trucco potente che è comune nella scienza dei dati ma relativamente raro nelle scienze sociali: apprendimento supervisionato ; vedere la figura 2.5.

Innanzitutto, in un passaggio tipicamente chiamato pre-elaborazione , i ricercatori hanno convertito i post dei social media in una matrice di termini del documento , dove c'era una riga per ogni documento e una colonna che registrava se il post conteneva una parola specifica (ad esempio, protesta o traffico) . Successivamente, un gruppo di assistenti di ricerca ha etichettato a mano il sentimento di un campione di post. Quindi, hanno usato questi dati etichettati a mano per creare un modello di apprendimento automatico che potesse dedurre il sentimento di un post in base alle sue caratteristiche. Infine, hanno usato questo modello per stimare il sentimento di tutti gli 11 milioni di post.

Quindi, piuttosto che leggere e etichettare manualmente 11 milioni di post, il che sarebbe logisticamente impossibile, King e colleghi hanno etichettato manualmente un numero limitato di post e poi hanno utilizzato l'apprendimento supervisionato per stimare il sentimento di tutti i post. Dopo aver completato questa analisi, sono stati in grado di concludere che, in qualche modo sorprendentemente, la probabilità che un post fosse cancellato non era correlata al fatto che fosse critico nei confronti dello stato o del supporto dello stato.

Figura 2.5: Schema semplificato della procedura utilizzata da King, Pan e Roberts (2013) per stimare il sentimento di 11 milioni di post sui social media cinesi. Innanzitutto, in una fase di pre-elaborazione, i ricercatori hanno convertito i post sui social media in una matrice di termini del documento (per ulteriori informazioni, consultare Grimmer e Stewart (2013)). Secondo, hanno codificato a mano i sentimenti di un piccolo campione di post. In terzo luogo, hanno addestrato un modello di apprendimento supervisionato per classificare il sentimento dei post. In quarto luogo, hanno utilizzato il modello di apprendimento supervisionato per stimare il sentimento di tutti i post. Vedi King, Pan e Roberts (2013), appendice B per una descrizione più dettagliata.

Figura 2.5: Schema semplificato della procedura utilizzata da King, Pan, and Roberts (2013) per stimare il sentimento di 11 milioni di post sui social media cinesi. Innanzitutto, in una fase di pre-elaborazione , i ricercatori hanno convertito i post sui social media in una matrice di termini del documento Grimmer and Stewart (2013) per ulteriori informazioni, consultare Grimmer and Stewart (2013) ). Secondo, hanno codificato a mano i sentimenti di un piccolo campione di post. In terzo luogo, hanno addestrato un modello di apprendimento supervisionato per classificare il sentimento dei post. In quarto luogo, hanno utilizzato il modello di apprendimento supervisionato per stimare il sentimento di tutti i post. Vedi King, Pan, and Roberts (2013) , appendice B per una descrizione più dettagliata.

Alla fine, King e colleghi hanno scoperto che solo tre tipi di post erano regolarmente censurati: la pornografia, la critica dei censori e quelli che avevano un potenziale di azione collettiva (cioè la possibilità di condurre a proteste su larga scala). Osservando un numero enorme di post che sono stati cancellati e post che non sono stati cancellati, King e colleghi sono stati in grado di apprendere come funzionano i censori semplicemente osservando e contando. Inoltre, prefigurando un tema che avverrà in questo libro, l'approccio di apprendimento supervisionato che hanno usato - etichettare a mano alcuni risultati e quindi costruire un modello di apprendimento automatico per etichettare il resto - risulta essere molto comune nella ricerca sociale nell'era digitale . Vedrete immagini molto simili alla figura 2.5 nei capitoli 3 (porre domande) e 5 (creazione di collaborazione di massa); questa è una delle poche idee che appaiono in più capitoli.

Questi esempi - il comportamento lavorativo dei tassisti a New York e il comportamento di censura dei social media del governo cinese - mostrano che il conteggio relativamente semplice di grandi fonti di dati può, in alcune situazioni, condurre a ricerche interessanti e importanti. In entrambi i casi, tuttavia, i ricercatori hanno dovuto porre domande interessanti alla grande fonte di dati; i dati da soli non erano sufficienti.