ulteriore commento

Questa sezione è progettato per essere utilizzato come riferimento, piuttosto che essere letta come una narrazione.

  • Introduzione (sezione 2.1)

Un tipo di osservare che non è incluso in questo capitolo è l'etnografia. Per ulteriori informazioni su etnografia in spazi digitali vedere Boellstorff et al. (2012) , e per maggiori informazioni su l'etnografia in spazi digitali e fisici misti vedono Lane (2016) .

  • Big dati (Sezione 2.2)

Quando si riutilizzo dei dati, ci sono due trucchi mentali che possono aiutare a capire i possibili problemi che potrebbero verificarsi. In primo luogo, si può provare a immaginare il set di dati ideale per il vostro problema e la si confronti con il set di dati che si sta utilizzando. Come sono simili e in che modo sono diversi? Se non è stata la raccolta dei dati da soli, ci sono probabilità di essere differenza tra ciò che si vuole e quello che hai. Ma, si deve decidere se tali differenze sono minori o maggiori.

In secondo luogo, ricordo che qualcuno ha creato e raccolto i dati per qualche motivo. Si dovrebbe cercare di comprendere il loro ragionamento. Questo tipo di reverse-engineering può aiutare a identificare eventuali problemi e pregiudizi nei dati riutilizzati.

Non esiste una definizione unica consenso dei "big data", ma molte definizioni sembrano concentrarsi sul 3 Vs: (per esempio, il volume, varietà e velocità Japec et al. (2015) ). Piuttosto che concentrarsi sulle caratteristiche dei dati, la mia definizione si concentra più sul motivo per cui è stato creato il dati.

Il mio inserimento di dati amministrativi di governo all'interno della categoria dei Big Data è un po 'insolita. Altri che hanno reso questo caso, includono Legewie (2015) , Connelly et al. (2016) , e Einav and Levin (2014) . Per di più il valore dei dati amministrativi del governo per la ricerca, vedi Card et al. (2010) , Taskforce (2012) , e Grusky, Smeeding, and Snipp (2015) .

Per una visione di ricerca amministrativo dall'interno del sistema statistico del governo, in particolare l'US Census Bureau, vedere Jarmin and O'Hara (2016) . Per un trattamento di lunghezza libro della ricerca atti amministrativi a Statistics Sweden, vedere Wallgren and Wallgren (2007) .

Nel capitolo, ho brevemente confrontato un sondaggio tradizionale come l'indagine generale sociale (GSS) ad una fonte dati di social media come Twitter. Per un confronto approfondito e attento tra i sondaggi tradizionali ei dati di social media, vedi Schober et al. (2016) .

  • Caratteristiche comuni di dati di grandi dimensioni (Sezione 2.3)

Questi 10 caratteristiche dei dati grandi sono stati descritti in una varietà di modi diversi da una varietà di diversi autori. La scrittura che ha influenzato il mio pensiero su questi temi includono: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , e Goldstone and Lupyan (2016) .

In questo capitolo, ho usato le tracce digitali termine, che credo sia relativamente neutrale. Un altro termine popolare per le tracce digitali è impronte digitali (Golder and Macy 2014) , ma, come Hal Abelson, Ken Ledeen, e Harry Lewis (2008) sottolineare, un termine più appropriato è probabilmente impronte digitali. Quando si creano le impronte, si è consapevoli di ciò che sta accadendo e le tue orme non possono generalmente essere ricondotte a voi personalmente. Lo stesso non vale per le tracce digitali. In realtà, si sta lasciando tracce per tutto il tempo di cui si ha poca conoscenza. E, anche se queste tracce non hanno il tuo nome su di loro, spesso possono essere collegati a te. In altre parole, sono più come le impronte digitali: invisibile e di identificazione personale.

Grande

Per maggiori informazioni sul motivo per cui grandi insiemi di dati, rendono problematico test statistici, vedere Lin, Lucas, and Shmueli (2013) e McFarland and McFarland (2015) . Questi problemi dovrebbero portare i ricercatori a concentrarsi sul significato pratico, piuttosto che la significatività statistica.

Sempre acceso

Quando si considera always-on dei dati, è importante considerare se si confrontano le stesse persone esatto nel tempo o se si confrontano qualche gruppo che cambia di persone; si veda ad esempio, Diaz et al. (2016) .

Non reattivo

Un libro classico su misure non reattivi è Webb et al. (1966) . Gli esempi nel libro pre-data l'età digitale, ma sono ancora illuminanti. Per esempi di persone che hanno cambiato il loro comportamento a causa della presenza di sorveglianza di massa, vedi Penney (2016) e Brayne (2014) .

incompleto

Per ulteriori informazioni su record linkage, vedere Dunn (1946) e Fellegi and Sunter (1969) (storica) e Larsen and Winkler (2014) (moderna). Simile avvicinato sono stati sviluppati in informatica con le denominazioni quali la deduplicazione dei dati, l'identificazione esempio, nome corrispondente, duplicare il rilevamento e duplicare il rilevamento di registrazione (Elmagarmid, Ipeirotis, and Verykios 2007) . Ci sono anche privacy preservare approcci per registrare linkage che non richiedono la trasmissione delle informazioni di identificazione personale (Schnell 2013) . Facebook ha inoltre sviluppato un procedere di collegare i loro record di comportamento di voto; questo è stato fatto per valutare un esperimento che io ti racconto nel capitolo 4 (Bond et al. 2012; Jones et al. 2013) .

Per maggiori informazioni sulla validità di costrutto, vedere Shadish, Cook, and Campbell (2001) , capitolo 3.

Inaccessibile

Per maggiori informazioni sul registro di AOL di ricerca debacle, vedere Ohm (2010) . Offro consigli di collaborare con aziende e governi in capitolo 4 quando descrivo esperimenti. Un certo numero di autori hanno espresso preoccupazioni per la ricerca che si basa su dati inaccessibili, vedere Huberman (2012) e boyd and Crawford (2012) .

Un buon modo per i ricercatori universitari di acquisire l'accesso ai dati è quello di lavorare in una società come stagista o un ricercatore in visita. Oltre a consentire l'accesso ai dati, questo processo aiuterà anche il ricercatore ulteriori informazioni su come è stato creato il dato, che è importante per l'analisi.

Non rappresentativo

Non rappresentatività è un grave problema per i ricercatori e governi che desiderano fare dichiarazioni su un'intera popolazione. Si tratta di meno di preoccupazione per le aziende che sono in genere concentrati sui loro utenti. Per ulteriori informazioni su come statistiche olandese ritiene la questione della non-rappresentatività dei grandi dati aziendali, vedi Buelens et al. (2014) .

Nel capitolo 3, descriverò il campionamento e la stima molto più dettagliatamente. Anche se i dati non sono rappresentativi, a determinate condizioni, possono essere ponderati per produrre buone stime.

Andando alla deriva

la deriva del sistema è molto difficile da vedere dall'esterno. Tuttavia, il progetto MovieLens (discusso più nel capitolo 4) è stato eseguito per più di 15 anni da parte di un gruppo di ricerca accademica. Pertanto, essi hanno documentato e le informazioni sul modo in cui il sistema si è evoluto nel corso del tempo e in che modo condiviso questa analisi potrebbero avere un impatto (Harper and Konstan 2015) .

Un certo numero di studiosi si sono concentrati sulla deriva twitter: Liu, Kliman-Silver, and Mislove (2014) e Tufekci (2014) .

algoritmicamente confusi

Ho sentito il termine "algoritmicamente confuso" usato da Jon Kleinberg in un discorso. L'idea principale dietro la performatività è che alcune teorie delle scienze sociali "non sono i motori di telecamere" (Mackenzie 2008) . Cioè, in realtà plasmare il mondo e non solo catturarlo.

Sporco

Agenzie statistiche governative chiamano pulizia dei dati, la modifica dei dati statistici. De Waal, Puts, and Daas (2014) descrive le tecniche di editing dati statistici sviluppati per i dati delle indagini ed esaminare in che misura essi sono applicabili a grandi fonti di dati, e Puts, Daas, and Waal (2015) presenta alcune delle stesse idee per un pubblico più generale.

Per alcuni esempi di studi si sono concentrati su di spam twitter, Clark et al. (2016) e Chu et al. (2012) . Infine, Subrahmanian et al. (2016) descrive i risultati del DARPA Twitter Bot Challenge.

Sensibile

Ohm (2015) del cliente precedenti ricerche sul concetto di informazioni sensibili e offre un test a più fattori. I quattro fattori da lui proposte sono: la probabilità di danno; probabilità di danno; presenza di un rapporto di fiducia; e se il rischio riflettere preoccupazioni maggioritarie.

  • Contando le cose (sezione 2.4.1)

Lo studio di Farber di taxi a New York si è basata su uno studio precedente da Camerer et al. (1997) che ha usato tre diversi campioni della convenienza dei viaggio carta forme fogli di carta-utilizzate dai piloti per registrare viaggio ora di inizio, ora di fine, e piatti. Questo primo studio ha trovato che i conducenti sembravano essere percettori di destinazione: hanno lavorato meno nei giorni in cui i loro salari erano superiori.

Kossinets and Watts (2009) si è concentrata sulle origini di omofilia nei social network. Vedere Wimmer and Lewis (2010) per un approccio diverso per lo stesso problema, che utilizza i dati da Facebook.

Nel lavoro successivo, il re ei suoi colleghi hanno ulteriormente esplorato la censura on-line in Cina (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Per un approccio relativo alla misurazione censura on-line in Cina, vedere Bamman, O'Connor, and Smith (2012) . Per ulteriori informazioni su metodi statistici, come quello usato in King, Pan, and Roberts (2013) per stimare il sentimento dei 11 milioni di messaggi, vedere Hopkins and King (2010) . Per ulteriori informazioni su apprendimento supervisionato, vedi James et al. (2013) (meno tecnico) e Hastie, Tibshirani, and Friedman (2009) (più tecnico).

  • Previsione (Sezione 2.4.2)

Previsione è una grande parte dei dati industriale della scienza (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un tipo di previsione che sono comunemente fatto dai ricercatori sociali sono le previsioni demografiche, per esempio Raftery et al. (2012) .

Google Trend influenzali non è stato il primo progetto di utilizzare i dati di ricerca per nowcast influenza la prevalenza. Infatti, i ricercatori negli Stati Uniti (Polgreen et al. 2008; Ginsberg et al. 2009) e in Svezia (Hulth, Rydevik, and Linde 2009) hanno scoperto che determinati termini di ricerca (ad esempio, "influenza") prevede sorveglianza sanitaria pubblica nazionale i dati prima della sua uscita. Successivamente molti, molti altri progetti hanno cercato di utilizzare i dati di traccia digitali per il rilevamento di sorveglianza delle malattie, vedi Althouse et al. (2015) per una rassegna.

Oltre a utilizzare i dati di traccia digitali per prevedere i risultati di salute, vi è stata anche una grande quantità di lavoro utilizzando i dati di Twitter per prevedere i risultati elettorali; per le recensioni vedi Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (cap. 7), e Huberty (2015) .

Utilizzando i dati di ricerca per la previsione influenza la prevalenza e l'utilizzo di dati di Twitter per prevedere le elezioni sono entrambi esempi di utilizzo di un qualche tipo di traccia digitale di prevedere un qualche tipo di evento nel mondo. C'è un numero enorme di studi che hanno questa struttura generale. Tabella 2.5 include alcuni altri esempi.

Tabella 2.5: Lista parziale degli studi utilizzare qualche traccia digitale di prevedere qualche evento.
traccia digitale Risultato Citazione
Twitter Box entrate ufficio del film negli Stati Uniti Asur and Huberman (2010)
ricerca tronchi Le vendite di film, musica, libri e videogiochi negli Stati Uniti Goel et al. (2010)
Twitter Dow Jones Industrial Average (mercato azionario degli Stati Uniti) Bollen, Mao, and Zeng (2011)
  • Esperimenti approssimare (sezione 2.4.3)

La rivista PS Scienze politiche ha avuto un simposio sui dati grande, inferenza causale, e teoria formale, e Clark and Golder (2015) riassume ogni contributo. Gli Atti rivista della National Academy of Sciences degli Stati Uniti d'America hanno avuto un simposio sulla inferenza causale e grandi di dati, e Shiffrin (2016) riassume ogni contributo.

In termini di esperimenti naturali, Dunning (2012) fornisce un ottimo trattamento di lunghezza del libro. Per maggiori informazioni sull'uso del draft lottery Vietnam come un esperimento naturale, vedere Berinsky and Chatfield (2015) . Per approcci di apprendimento automatico che tentano di rilevare automaticamente esperimenti naturali all'interno delle grandi fonti di dati, vedere Jensen et al. (2008) e Sharma, Hofman, and Watts (2015) .

In termini di corrispondenza, di riesame ottimista, vedere Stuart (2010) , e per una revisione pessimistica vedere Sekhon (2009) . Per maggiori informazioni sulla corrispondenza come una sorta di potatura, vedi Ho et al. (2007) . Per i libri che forniscono eccellenti trattamenti di corrispondenza, vedere Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , e Imbens and Rubin (2015) .