2.5 Konklusjon

Big data er overalt, men bruker det og andre former for observasjonsdata for samfunnsforskning er vanskelig. I min erfaring er det noe som en ingen gratis lunsj eiendom for forskning: hvis du ikke sette i en mye arbeid å samle inn data, så er du sannsynligvis nødt til å sette i en mye arbeid å analysere dataene eller i å tenke på hva som er i et interessant spørsmål å stille av dataene. Basert på ideene i dette kapittelet, tror jeg at det er tre hovedmåter at store datakilder vil være mest verdifull for samfunnsforskning:

empirisk dømmende mellom konkurrerende teoretiske forutsigelser. Eksempler på denne type arbeid omfatter Farber (2015) (New York Taxi sjåfører) og King, Pan, and Roberts (2013) (sensur i Kina)
forbedret sosial måling for politikken gjennom nowcasting. Et eksempel på denne type arbeid er Ginsberg et al. (2009) (Google Flu Trends).
estimere kausale effekter med naturlige eksperimenter og matching. Eksempler på denne type arbeid. Mas and Moretti (2009) (peer effekter på produktivitet) og Einav et al. (2015) (effekt av startpris på auksjon på eBay).

Mange viktige spørsmål i samfunnsforskningen kan uttrykkes som en av disse tre. Men disse fremgangsmåter krever generelt forskere å bringe en masse til dataene. Hva gjør Farber (2015) interessant er den teoretiske motivasjonen for målingen. Denne teoretiske motivasjon kommer fra utsiden av dataene. Derfor, for de som er flinke til å stille visse typer problemstillinger, kan store datakilder være svært fruktbart.

Til slutt, i stedet for teori-drevet empirisk forskning (som har vært fokus på dette kapitlet), kan vi vende skriptet og skape empirisk drevet teoretisering. Det er, gjennom forsiktig akkumulering av empiriske fakta, mønstre og oppgaver, kan vi bygge nye teorier.

Dette alternativet, data-første tilnærming til teorien er ikke ny, og det var mest kraftig artikulert av Glaser and Strauss (1967) med sin oppfordring til grounded theory. Dette data første tilnærming, derimot, innebærer ikke "på slutten av teori", som har blitt hevdet av mye av journalistikken rundt forskning i den digitale tidsalder (Anderson 2008) . Snarere som data miljøet endres, må vi forvente en re-balansering i forholdet mellom teori og data. I en verden hvor datainnsamlingen var dyrt, er det fornuftig å bare samle inn data som teorier antyder vil være mest nyttig. Men i en verden der enorme mengder data er allerede tilgjengelig for gratis, er det fornuftig å også prøve en data-første tilnærming (Goldberg 2015) .

Som jeg har vist i dette kapitlet, kan forskerne lære mye av å se på folk. I de neste tre kapitlene, vil jeg beskrive hvordan vi kan lære mer og forskjellige ting hvis vi skreddersy vår datainnsamling og samhandle med mennesker mer direkte ved å stille dem spørsmål (kapittel 3), kjører eksperimenter (kapittel 4), og selv involvere dem i forskningsprosessen direkte (kapittel 5).