2.2 Stora uppgifter

Big data skapas och samlas in av regeringar för annat än forskning. Med hjälp av dessa data för forskning, kräver därför återanvända.

En idealiserad bild av social forskning föreställer en vetenskapsman som har en idé och sedan samla in data för att testa den tanken. Denna typ av forskning leder till en tät passning mellan fråga forskning och data, men det är begränsat på grund en enskild forskare ofta inte har de resurser som krävs för att samla in data de behöver, såsom stora, rika och nationellt representativa uppgifter. Därför har en hel del social forskning i det förflutna används storskaliga sociala undersökningar, såsom General Social Survey (GSS), American National valundersökning (ANES), och Panel Studera av Inkomst Dynamisk (PSID). Dessa storskaliga undersökningen i allmänhet drivs av ett team av forskare och de är utformade för att skapa data som kan användas av många forskare. På grund av målen för dessa storskaliga undersökningar är stor omsorg tas i utformningen datainsamling och förbereder den resulterande data för användning av forskare. Dessa uppgifter är av forskare och för forskare.

Mest sociala forskning med hjälp av digitala ålder källor är dock fundamentalt annorlunda. Istället för att använda uppgifter som samlats in av forskare och för forskare, använder den datakällor som har skapats och som samlats in av företag och regeringar för sina egna syften, såsom att göra en vinst, tillhandahålla en tjänst, eller att administrera ett lag. Dessa företag och offentliga datakällor har kommit att kallas big data. Gör forskning med stora datamängder är annorlunda än att göra forskning med data som ursprungligen skapades för forskning. Jämför till exempel en social media webbplats, såsom Twitter, med en traditionell opinionsundersökning som general Social Survey (GSS). Twitter främsta mål är att tillhandahålla en service till sina användare och för att göra en vinst. I processen för att uppnå dessa mål, Twitter skapar uppgifter som kan vara användbara för att studera vissa aspekter av den allmänna opinionen. Men till skillnad från den allmänna Social Survey (GSS), är Twitter inte i första hand inriktad på samhällsvetenskaplig forskning.

Den stora uppgifter term är frustrerande vag, och det grupperar många olika saker. När det gäller social forskning, jag tror att det är bra att skilja mellan två typer av stora datakällor. Statliga administrativa register och affärs administrativa register Statliga administrativa register är data som skapas av regeringar som en del av sin löpande verksamhet. Dessa typer av register har använts av forskare i det förflutna-såsom demografer studerar födelse, är äktenskap, och död register-men regeringar alltmer samla in och släppa detaljerade register i analyserbara former. Till exempel installerat New York regering digitala mätare inne i varje taxi i staden. Dessa mätare registrera alla typer av data om varje taxiresa inklusive föraren, starttid och plats, stopp tid och plats, och priset. I en studie som jag ska berätta senare i detta kapitel, Henry Farber (2015) repurposed dessa uppgifter att ta itu med en grundläggande debatt i arbetsmarknadsekonomi om förhållandet mellan timlöner och antalet arbetade timmar.

Den andra huvudtypen av stora datamängder för social forskning är affärs administrativa register. Det är uppgifter som företag skapar och samlar som en del av sin löpande verksamhet. Dessa affärs administrativa register kallas ofta digitala spår, och innehålla saker som sökmotorfrågeloggar, sociala medier inlägg och samtalslistor från mobiltelefoner. Kritiskt, dessa affärs administrativa register är inte bara om online-beteende. Till exempel är butiker som använder utcheckning skannrar skapar realtidsåtgärder arbetstagarnas produktivitet. I en studie som jag ska berätta om senare i detta kapitel, Alexandre Mas och Enrico Moretti (2009) repurposed denna stormarknad utcheckning data för att studera hur en arbetar produktivitet påverkas av produktiviteten i sina kamrater.

Eftersom båda dessa exempel visar, är grundläggande för att lära från stora uppgifter idén om återanvända. Enligt min erfarenhet, samhällsvetare och data forskare närma sig detta återanvända mycket annorlunda. Samhällsvetare, som är vana vid att arbeta med data avsedda för forskning, är snabba att påpeka problemen med repurposed uppgifter och bortser från sina styrkor. Å andra sidan data forskarna är snabba att påpeka fördelarna med repurposed uppgifter och bortser från dess svagheter. Naturligtvis skulle det bästa sättet vara en hybrid. Det är forskare måste förstå egenskaperna hos dessa nya datakällor, både bra och dåliga-och sedan räkna ut hur man lär sig av dem. Och, är att planen för resten av detta kapitel. Därefter kommer jag att beskriva tio vanliga egenskaper hos företag och offentliga administrativa uppgifter. Efter det kommer jag att beskriva tre forskningsmetoder som kan användas med dessa uppgifter, metoder som är väl anpassade till egenskaperna hos dessa data.