attività

  • grado di difficoltà: facile facile , medio medio , difficile difficile , molto difficile molto difficile
  • richiede matematica ( richiede la matematica )
  • richiede la codifica ( richiede la codifica )
  • raccolta dati ( raccolta dati )
  • i miei preferiti ( il mio preferito )
  1. [ medio , il mio preferito ] Il confondimento algoritmico era un problema con Google Trend influenzali. Leggi l'articolo di Lazer et al. (2014) e scrivi una breve e chiara email a un ingegnere di Google spiegando il problema e offrendo un'idea di come risolverlo.

  2. [ medio ] Bollen, Mao, and Zeng (2011) sostengono che i dati di Twitter possono essere utilizzati per prevedere il mercato azionario. Questa scoperta ha portato alla creazione di un hedge fund, Derwent Capital Markets, per investire nel mercato azionario sulla base dei dati raccolti da Twitter (Jordan 2010) . Che prove vorresti vedere prima di mettere i tuoi soldi in quel fondo?

  3. [ facile ] Mentre alcuni sostenitori della salute pubblica considerano le e-sigarette un aiuto efficace per smettere di fumare, altri mettono in guardia sui rischi potenziali, come gli alti livelli di nicotina. Immagina che un ricercatore decida di studiare l'opinione pubblica nei confronti delle sigarette elettroniche raccogliendo messaggi di Twitter relativi alle sigarette elettroniche e conducendo analisi del sentimento.

    1. Quali sono i tre pregiudizi possibili di cui sei più preoccupato in questo studio?
    2. Clark et al. (2016) eseguito proprio questo studio. Innanzitutto, hanno raccolto 850.000 tweet che utilizzavano parole chiave correlate alla sigaretta elettronica da gennaio 2012 a dicembre 2014. A un'attenta ispezione, si sono resi conto che molti di questi tweet erano automatizzati (cioè non prodotti dagli umani) e molti di questi tweet automatici erano essenzialmente spot pubblicitari. Hanno sviluppato un algoritmo di rilevazione umana per separare i tweet automatici dai tweet organici. Utilizzando questo algoritmo di rilevazione umana hanno scoperto che l'80% dei tweet era automatizzato. Questo risultato modifica la tua risposta alla parte (a)?
    3. Quando hanno confrontato il sentimento in tweet organici e automatici, hanno scoperto che i tweet automatizzati erano più positivi dei tweet organici (6,17 rispetto a 5,84). Questo risultato modifica la risposta a (b)?
  4. [ facile ] Nel novembre 2009, Twitter ha cambiato la domanda nella casella tweet da "Che cosa stai facendo?" A "Cosa sta succedendo?" (Https://blog.twitter.com/2009/whats-happening).

    1. Come pensi che il cambio di prompt influenzerà chi tweets e / o cosa twittano?
    2. Assegna un nome a un progetto di ricerca per il quale preferiresti il ​​prompt "Che cosa stai facendo?" Spiega perché.
    3. Assegna un nome a un progetto di ricerca per il quale preferiresti il ​​prompt "Cosa sta succedendo?" Spiega perché.
  5. [ facile ] I "Retweet" sono spesso usati per misurare l'influenza e la diffusione dell'influenza su Twitter. Inizialmente, gli utenti dovevano copiare e incollare i tweet che gli piacevano, etichettare l'autore originale con il suo manico e digitare manualmente "RT" prima del tweet per indicare che si trattava di un retweet. Poi, nel 2009, Twitter ha aggiunto un pulsante "retweet". A giugno 2016, Twitter ha reso possibile agli utenti di retwittare i propri tweet (https://twitter.com/twitter/status/742749353689780224). Pensi che questi cambiamenti influenzino il modo in cui usi i "retweet" nella tua ricerca? Perché o perché no?

  6. [ molto difficile , raccolta dati , richiede la codifica , il mio preferito ] In un documento ampiamente discusso, Michel e colleghi (2011) analizzato il contenuto di oltre cinque milioni di libri digitalizzati nel tentativo di identificare le tendenze culturali a lungo termine. I dati che hanno utilizzato sono stati ora rilasciati come set di dati di Google NGrams e quindi possiamo utilizzare i dati per replicare ed estendere parte del loro lavoro.

    In uno dei tanti risultati del documento, Michel e colleghi hanno affermato che ci stiamo dimenticando sempre più velocemente. Per un anno particolare, diciamo "1883", hanno calcolato la proporzione di 1 grammo pubblicato in ogni anno tra il 1875 e il 1975 che erano "1883". Hanno ragionato che questa proporzione è una misura dell'interesse per gli eventi accaduti in quell'anno. Nella loro figura 3a, hanno tracciato le traiettorie di utilizzo per tre anni: il 1883, il 1910 e il 1950. Questi tre anni condividono un modello comune: poco uso prima di quell'anno, poi un picco, poi decadimento. Successivamente, per quantificare il tasso di decadimento per ogni anno, Michel e colleghi hanno calcolato la "semivita" di ogni anno per tutti gli anni tra il 1875 e il 1975. Nella loro figura 3a (riquadro), hanno mostrato che l'emivita di ciascun l'anno sta diminuendo e hanno sostenuto che questo significa che stiamo dimenticando il passato sempre più velocemente. Hanno usato la versione 1 del corpus della lingua inglese, ma successivamente Google ha rilasciato una seconda versione del corpus. Si prega di leggere tutte le parti della domanda prima di iniziare la codifica.

    Questa attività ti consentirà di scrivere codice riutilizzabile, interpretare i risultati e contrastare i dati (come ad esempio lavorare con file awkward e gestire i dati mancanti). Questa attività ti aiuterà anche a diventare operativo con un set di dati ricco e interessante.

    1. Ottieni i dati grezzi dal sito Web NGram Viewer di Google Libri. In particolare, dovresti utilizzare la versione 2 del corpus in lingua inglese, che è stata rilasciata l'1 luglio 2012. Non compresso, questo file è di 1,4 GB.

    2. Ricrea la parte principale della figura 3a di Michel et al. (2011) . Per ricreare questa figura, sono necessari due file: quello scaricato nella parte (a) e il file "conteggi totali", che è possibile utilizzare per convertire i conteggi grezzi in proporzioni. Si noti che il file conteggi totali ha una struttura che potrebbe renderlo un po 'difficile da leggere. La versione 2 dei dati NGram produce risultati simili a quelli presentati in Michel et al. (2011) , che sono basati sui dati della versione 1?

    3. Ora controlla il tuo grafico sul grafico creato da NGram Viewer.

    4. Ricrea la figura 3a (figura principale), ma cambia l'asse di \(y\) come il conteggio delle menzioni crude (non il tasso delle menzioni).

    5. La differenza tra (b) e (d) ti porta a rivalutare qualsiasi risultato di Michel et al. (2011). Perché o perché no?

    6. Ora, usando la proporzione di menzioni, replicare l'inserto di figura 3a. Cioè, per ogni anno tra il 1875 e il 1975, calcolare l'emivita di quell'anno. L'emivita è definita come il numero di anni che passano prima che la percentuale di menzioni raggiunga la metà del suo valore di picco. Si noti che Michel et al. (2011) fanno qualcosa di più complicato per stimare l'emivita - vedi sezione III.6 delle informazioni di supporto online - ma sostengono che entrambi gli approcci producono risultati simili. La versione 2 dei dati NGram produce risultati simili a quelli presentati in Michel et al. (2011) , che sono basati sui dati della versione 1? (Suggerimento: non essere sorpreso se non lo fa).

    7. Ci sono stati anni di anomalie come anni che sono stati dimenticati in modo particolarmente rapido o particolarmente lento? Fai una breve speculazione sulle possibili ragioni per tale modello e spiega come hai identificato i valori anomali.

    8. Ora replicare questo risultato per la versione 2 dei dati NGrams in cinese, francese, tedesco, ebraico, italiano, russo e spagnolo.

    9. Confrontando in tutte le lingue, ci sono stati anni che erano valori anomali, come anni che sono stati dimenticati in modo particolarmente rapido o particolarmente lento? Brevemente speculare su possibili ragioni per tale modello.

  7. [ molto difficile , raccolta dati , richiede la codifica , il mio preferito ] Penney (2016) esaminato se la diffusa pubblicità sulla sorveglianza delle NSA / PRISM (vale a dire le rivelazioni di Snowden) nel giugno 2013 fosse associata a una brusca e improvvisa diminuzione del traffico agli articoli di Wikipedia su argomenti che sollevano preoccupazioni sulla privacy. In tal caso, questo cambiamento di comportamento sarebbe coerente con un effetto agghiacciante derivante dalla sorveglianza di massa. L'approccio di Penney (2016) è talvolta definito un disegno di serie temporali interrotto ed è correlato agli approcci descritti nella sezione 2.4.3.

    Per scegliere le parole chiave dell'argomento, Penney fa riferimento all'elenco utilizzato dal Dipartimento della sicurezza nazionale degli Stati Uniti per il monitoraggio e il monitoraggio dei social media. L'elenco DHS classifica determinati termini di ricerca in una serie di problemi, ad esempio "Preoccupazione per la salute", "Sicurezza dell'infrastruttura" e "Terrorismo". Per il gruppo di studio, Penney ha utilizzato le 48 parole chiave correlate al "Terrorismo" (cfr. Tabella 8 dell'appendice ). Ha poi aggregato i conteggi degli articoli di Wikipedia su base mensile per i 48 articoli di Wikipedia corrispondenti per un periodo di 32 mesi, dall'inizio di gennaio 2012 alla fine di agosto 2014. Per rafforzare la sua argomentazione, ha anche creato diversi gruppi di confronto monitorando viste di articoli su altri argomenti.

    Ora, dovrai replicare ed estendere Penney (2016) . Tutti i dati grezzi necessari per questa attività sono disponibili da Wikipedia. Oppure puoi ottenerlo dal pacchetto R wikipediatrend (Meissner and R Core Team 2016) . Quando scrivi le tue risposte, ti preghiamo di notare quale fonte di dati hai usato. (Nota che questa stessa attività appare anche nel capitolo 6.) Questa attività ti darà la possibilità di sperimentare i dati e di pensare a esperimenti naturali in fonti di big data. Ti consentirà inoltre di utilizzare una fonte di dati potenzialmente interessante per i progetti futuri.

    1. Leggi Penney (2016) e replica la sua figura 2 che mostra le visualizzazioni di pagina per le pagine relative al "Terrorismo" prima e dopo le rivelazioni di Snowden. Interpretare i risultati.
    2. Successivamente, replicare la figura 4A, che confronta il gruppo di studio (articoli correlati al terrorismo) con un gruppo di confronto usando parole chiave categorizzate sotto "DHS e altre agenzie" dall'elenco DHS (vedi appendice tabella 10 e nota 139). Interpretare i risultati.
    3. Nella parte (b) hai confrontato il gruppo di studio con un gruppo di confronto. Penney ha anche messo a confronto altri due gruppi di comparatori: articoli relativi alla "sicurezza dell'infrastruttura" (appendice tabella 11) e pagine popolari di Wikipedia (appendice tabella 12). Trova un gruppo di confronto alternativo e verifica se i risultati della parte (b) sono sensibili alla tua scelta del gruppo di confronto. Quale scelta ha più senso? Perché?
    4. Penney ha dichiarato che le parole chiave relative al "Terrorismo" sono state usate per selezionare gli articoli di Wikipedia perché il governo degli Stati Uniti ha citato il terrorismo come giustificazione chiave per le sue pratiche di sorveglianza online. Come verifica di queste 48 parole chiave correlate al terrorismo, Penney (2016) anche condotto un sondaggio su MTurk, chiedendo ai rispondenti di valutare ciascuna delle parole chiave ht in termini di problemi di governo, sensibili alla privacy ed evitare (appendice tabelle 7 e 8). ). Replica il sondaggio su MTurk e confronta i tuoi risultati.
    5. Sulla base dei risultati nella parte (d) e della tua lettura dell'articolo, sei d'accordo con la scelta delle parole chiave tematiche di Penney nel gruppo di studio? Perché o perché no? In caso contrario, cosa suggeriresti invece?
  8. [ facile ] Efrati (2016) riferito, sulla base di informazioni riservate, che la "condivisione totale" su Facebook era diminuita di circa il 5,5% anno su anno mentre "condivisione di trasmissione originale" era in calo del 21% su base annua. Questo declino è stato particolarmente acuto con gli utenti di Facebook sotto i 30 anni. Il rapporto attribuiva il declino a due fattori. Uno è la crescita del numero di "amici" che le persone hanno su Facebook. L'altro è che alcune attività di condivisione sono passate alla messaggistica e ai concorrenti come Snapchat. Il rapporto ha anche rivelato le diverse tattiche che Facebook aveva cercato di incrementare la condivisione, comprese le modifiche dell'algoritmo del feed di notizie che rendono più importanti i post originali, oltre a promemoria periodici dei post originali con la funzione "In questo giorno". Quali implicazioni, se ce ne sono, queste scoperte hanno per i ricercatori che vogliono usare Facebook come fonte di dati?

  9. [ medio ] Qual è la differenza tra un sociologo e uno storico? Secondo Goldthorpe (1991) , la principale differenza è il controllo sulla raccolta dei dati. Gli storici sono costretti a usare le reliquie, mentre i sociologi possono adattare la loro raccolta di dati a scopi specifici. Leggi Goldthorpe (1991) . In che modo la differenza tra sociologia e storia è legata all'idea di custommades e readymade?

  10. [ difficile ] Questo si basa sul quesiton precedente. Goldthorpe (1991) ha attirato una serie di risposte critiche, tra cui quella di Nicky Hart (1994) che sfidava la devozione di Goldthorpe ai dati personalizzati. Per chiarire i potenziali limiti dei dati su misura, Hart ha descritto l'Affluent Worker Project, una vasta indagine per misurare la relazione tra classe sociale e voto condotta da Goldthorpe e colleghi a metà degli anni '60. Come ci si potrebbe aspettare da uno studioso che prediligeva i dati progettati sui dati trovati, il progetto Affluent Worker ha raccolto dati che sono stati adattati per affrontare una teoria recentemente proposta sul futuro della classe sociale in un'era di standard di vita in crescita. Ma, Goldthorpe e colleghi in qualche modo "dimenticarono" di raccogliere informazioni sul comportamento di voto delle donne. Ecco come Nicky Hart (1994) riassunto l'intero episodio:

    "... è [...] difficile evitare la conclusione che le donne sono state omesse perché questo set di dati" su misura "era limitato da una logica paradigmatica che escludeva l'esperienza femminile. Spinto da una visione teorica della coscienza di classe e dell'azione come preoccupazioni maschili ..., Goldthorpe ei suoi colleghi hanno costruito una serie di prove empiriche che alimentavano e alimentavano le loro ipotesi teoriche invece di esporle a un valido test di adeguatezza ".

    Hart ha continuato:

    "I risultati empirici del progetto Affluent Worker ci dicono di più sui valori maschili della sociologia della metà del secolo che su quelli che informano i processi di stratificazione, politica e vita materiale".

    Riesci a pensare ad altri esempi in cui la raccolta dati su misura ha i pregiudizi del raccoglitore di dati incorporato in esso? In che modo questo si confronta con il confondimento algoritmico? Quali implicazioni potrebbero avere questo quando i ricercatori dovrebbero usare i readymade e quando dovrebbero usare i custommades?

  11. [ medio ] In questo capitolo, ho confrontato i dati raccolti dai ricercatori per i ricercatori con documenti amministrativi creati da aziende e governi. Alcuni chiamano questi documenti amministrativi "dati trovati", che sono in contrasto con i "dati progettati". È vero che i ricercatori registrano documenti amministrativi, ma sono anche altamente progettati. Ad esempio, le moderne aziende tecnologiche lavorano molto duramente per raccogliere e curare i propri dati. Pertanto, questi documenti amministrativi sono entrambi trovati e progettati, dipende solo dalla tua prospettiva (figura 2.12).

    Figura 2.12: l'immagine è sia un'anatra che un coniglio; ciò che vedi dipende dalla tua prospettiva. Sono state trovate e progettate grandi fonti di dati; di nuovo, ciò che vedi dipende dalla tua prospettiva. Ad esempio, i record di dati delle chiamate raccolti da una società di telefonia mobile vengono rilevati dal punto di vista di un ricercatore. Ma, questi stessi record sono progettati dati dal punto di vista di qualcuno che lavora nel dipartimento di fatturazione della compagnia telefonica. Fonte: Popular Science Monthly (1899) / Wikimedia Commons.

    Figura 2.12: l'immagine è sia un'anatra che un coniglio; ciò che vedi dipende dalla tua prospettiva. Sono state trovate e progettate grandi fonti di dati; di nuovo, ciò che vedi dipende dalla tua prospettiva. Ad esempio, i record di dati delle chiamate raccolti da una società di telefonia mobile vengono rilevati dal punto di vista di un ricercatore. Ma, questi stessi record sono progettati dati dal punto di vista di qualcuno che lavora nel dipartimento di fatturazione della compagnia telefonica. Fonte: Popular Science Monthly (1899) / Wikimedia Commons .

    Fornire un esempio di origine dati dove vederlo sia come trovato sia come progettato è utile quando si utilizza quell'origine dati per la ricerca.

  12. [ facile ] In un saggio ponderato, Christian Sandvig ed Eszter Hargittai (2015) diviso la ricerca digitale in due ampie categorie a seconda che il sistema digitale sia uno "strumento" o un "oggetto di studio". Un esempio del primo tipo: dove il sistema è uno strumento - è la ricerca di Bengtsson e colleghi (2011) sull'uso dei dati dei telefoni cellulari per rintracciare la migrazione dopo il terremoto di Haiti nel 2010. Un esempio del secondo tipo - dove il sistema è oggetto di studio - è la ricerca di Jensen (2007) su come l'introduzione dei telefoni cellulari in tutto il Kerala, in India, abbia avuto un impatto sul funzionamento del mercato del pesce. Trovo questa distinzione utile perché chiarisce che gli studi che utilizzano fonti di dati digitali possono avere obiettivi molto diversi anche se utilizzano lo stesso tipo di fonte di dati. Per chiarire ulteriormente questa distinzione, descrivi quattro studi che hai visto: due che usano un sistema digitale come uno strumento e due che usano un sistema digitale come oggetto di studio. Puoi usare gli esempi di questo capitolo se vuoi.