2.2 Big data

Big data worden gemaakt en verzameld door bedrijven en overheden voor andere doeleinden dan onderzoek. Het gebruik van deze gegevens voor onderzoek vereist daarom herbestemming.

De eerste manier waarop veel mensen sociaal onderzoek tegenkomen in het digitale tijdperk is door wat vaak big data wordt genoemd . Ondanks het wijdverspreide gebruik van deze term, is er geen consensus over wat big data is. Een van de meest voorkomende definities van big data is echter gericht op de "3 V's": volume, variëteit en snelheid. Ruwweg zijn er veel gegevens, in verschillende formaten, en deze worden constant gemaakt. Sommige fans van big data voegen ook andere 'Vs' toe, zoals Veracity en Value, terwijl sommige critici Vs toevoegen, zoals Vague en Vacuous. In plaats van de 3 "Vs" (of de 5 "Vs" of de 7 "Vs"), denk ik dat een betere plek om te beginnen de 5 "Ws" is: sociaal, sociaal, wetenschappelijk , en waarom. Sterker nog, ik denk dat veel van de uitdagingen en kansen die door big data-bronnen worden gecreëerd, volgen uit slechts één "W": Waarom.

In het analoge tijdperk werden de meeste gegevens die werden gebruikt voor sociaal onderzoek gemaakt met het doel onderzoek te doen. In het digitale tijdperk wordt echter door bedrijven en overheden een enorme hoeveelheid gegevens gecreëerd voor andere doeleinden dan onderzoek, zoals het leveren van diensten, het genereren van winst en het beheren van wetten. Creatieve mensen hebben echter gerealiseerd dat kun je opnieuw gebruiken, deze bedrijven en overheden gegevens voor onderzoek. Terugdenkend aan de kunstanalogie in hoofdstuk 1, net zoals Duchamp een gevonden voorwerp voor het maken van kunst hergebruikde, kunnen wetenschappers nu gevonden gegevens hergebruiken om onderzoek te creëren.

Hoewel er ongetwijfeld enorme mogelijkheden zijn voor herbestemming, biedt het gebruik van gegevens die niet zijn gemaakt met het oog op onderzoek, ook nieuwe uitdagingen. Vergelijk bijvoorbeeld een sociale-mediaservice, zoals Twitter, met een traditionele publieke opiniepeiling, zoals de General Social Survey. De belangrijkste doelen van Twitter zijn om gebruikers een service te bieden en winst te maken. De Algemene Sociale Enquête daarentegen is gericht op het creëren van algemene gegevens voor sociaal onderzoek, met name voor onderzoek van de publieke opinie. Dit verschil in doelen betekent dat de gegevens die door Twitter zijn gemaakt en die zijn gemaakt door de Algemene Sociale Enquête, verschillende eigenschappen hebben, hoewel beide kunnen worden gebruikt voor het bestuderen van de publieke opinie. Twitter werkt op een schaal en snelheid die de Algemene Sociale Enquête niet kan evenaren, maar Twitter, in tegenstelling tot de Algemene Sociale Enquête, test niet zorgvuldig gebruikers en werkt niet hard om de vergelijkbaarheid in de tijd te behouden. Omdat deze twee gegevensbronnen zo verschillend zijn, is het niet logisch om te zeggen dat de Algemene Sociale Enquête beter is dan Twitter of omgekeerd. Als u elk uur wereldwijde gemoedstoestanden wilt meten (bijvoorbeeld Golder and Macy (2011) ), is Twitter het beste. Aan de andere kant, als je langetermijnveranderingen in de polarisatie van attitudes in de Verenigde Staten wilt begrijpen (bijv. DiMaggio, Evans, and Bryson (1996) ), dan is de Algemene Sociale Enquête de beste keuze. Meer in het algemeen probeert dit hoofdstuk in plaats van te betogen dat big data-bronnen beter of slechter zijn dan andere soorten gegevens, te verhelderen voor welke soorten onderzoeksvragen big data-bronnen aantrekkelijke eigenschappen hebben en voor welke soorten vragen ze misschien niet zijn ideaal.

Bij het denken over big data-bronnen richten veel onderzoekers zich onmiddellijk op online gegevens die door bedrijven zijn gemaakt en verzameld, zoals logbestanden van zoekmachines en posts op sociale media. Deze beperkte focus laat echter twee andere belangrijke bronnen van big data achterwege. Ten eerste komen steeds meer grote bedrijfsdatabronnen van digitale apparaten in de fysieke wereld. In dit hoofdstuk, bijvoorbeeld, zal ik u vertellen over een onderzoek waarin supermarktuitgavegegevens werden gebruikt om te onderzoeken hoe de productiviteit van een werknemer wordt beïnvloed door de productiviteit van haar leeftijdsgenoten (Mas and Moretti 2009) . Vervolgens zal ik u in latere hoofdstukken vertellen over onderzoekers die oproeprecords hebben gebruikt van mobiele telefoons (Blumenstock, Cadamuro, and On 2015) en factuurgegevens die zijn gemaakt door elektriciteitsbedrijven (Allcott 2015) . Zoals deze voorbeelden illustreren, gaat het bij big data voor bedrijven om meer dan alleen online gedrag.

De tweede belangrijke bron van big data die gemist wordt door een beperkte focus op online gedrag, is data die door overheden is gemaakt. Deze overheidsgegevens, die door onderzoekers overheidsadministraties worden genoemd , omvatten zaken als belastingaangiften, schoolgegevens en essentiële statistische gegevens (bijvoorbeeld registers van geboorten en sterfgevallen). Overheden hebben dit soort gegevens al honderden jaren lang gemaakt en sociale wetenschappers gebruiken ze al bijna zolang als er sociale wetenschappers zijn. Wat echter is veranderd, is digitalisering, wat het voor overheden aanzienlijk eenvoudiger heeft gemaakt om gegevens te verzamelen, verzenden, opslaan en analyseren. In dit hoofdstuk zal ik u bijvoorbeeld vertellen over een onderzoek waarbij gegevens werden gebruikt van de digitale taximeters van de New York City-regering om een ​​fundamenteel debat in de arbeidseconomie aan te gaan (Farber 2015) . Vervolgens zal ik u in latere hoofdstukken vertellen hoe door de overheid verzameld stemgedrag werd gebruikt in een enquête (Ansolabehere and Hersh 2012) en een experiment (Bond et al. 2012) .

Ik denk dat het idee van herbestemming fundamenteel is om te leren van big data-bronnen, en dus, voordat ik specifieker ga praten over de eigenschappen van big data-bronnen (paragraaf 2.3) en hoe deze kunnen worden gebruikt in onderzoek (paragraaf 2.4), wil ik graag om twee algemene adviezen te geven over herbestemming. Ten eerste kan het verleidelijk zijn om na te denken over het contrast dat ik heb ingesteld als zijnde tussen "gevonden" gegevens en "ontworpen" gegevens. Dat is dichtbij, maar het klopt niet helemaal. Hoewel vanuit het perspectief van onderzoekers big data-bronnen worden 'gevonden', vallen ze niet zomaar uit de lucht. In plaats daarvan worden gegevensbronnen die door onderzoekers zijn 'gevonden' door iemand voor een bepaald doel ontworpen. Omdat 'gevonden' gegevens door iemand zijn ontworpen, raad ik u altijd aan zoveel mogelijk te proberen te begrijpen over de mensen en processen die uw gegevens hebben gemaakt. Ten tweede, wanneer u gegevens hergebruikt, is het vaak erg handig om de ideale gegevensset voor uw probleem voor te stellen en vervolgens die ideale gegevensset te vergelijken met de gegevensset die u gebruikt. Als u uw gegevens niet zelf hebt verzameld, zijn er waarschijnlijk belangrijke verschillen tussen wat u wilt en wat u hebt. Als u deze verschillen opmerkt, krijgt u meer duidelijkheid over wat u wel en niet kunt leren van de gegevens die u hebt en kunt u nieuwe gegevens voorstellen die u moet verzamelen.

In mijn ervaring hebben sociale wetenschappers en datawetenschappers de neiging om het hergebruik heel anders te benaderen. Sociale wetenschappers, die gewend zijn om te werken met gegevens die zijn ontworpen voor onderzoek, zijn doorgaans snel om de problemen aan te wijzen met gegevens die opnieuw zijn gebruikt en daarbij de sterke punten te negeren. Aan de andere kant zijn gegevenswetenschappers doorgaans snel om de voordelen van hergebruikte gegevens aan te wijzen en tegelijkertijd de zwakke punten te negeren. Natuurlijk is de beste aanpak een hybride. Dat wil zeggen, onderzoekers moeten de kenmerken van big data-bronnen, zowel goed als slecht, begrijpen en vervolgens uitzoeken hoe ze hiervan kunnen leren. En dat is het plan voor de rest van dit hoofdstuk. In de volgende sectie zal ik tien gemeenschappelijke kenmerken van big data-bronnen beschrijven. Vervolgens zal ik in het volgende deel drie onderzoeksbenaderingen beschrijven die goed met dergelijke gegevens kunnen werken.