inleiding

Dit boek begon in 2005 in een kelder bij Columbia University. In die tijd was ik een student en liep ik een online-experiment dat uiteindelijk mijn proefschrift zou worden. Ik zal je alles vertellen over de wetenschappelijke delen van dat experiment in hoofdstuk 4, maar nu ga ik je iets vertellen dat niet in mijn proefschrift of in een van mijn papers staat. En het is iets dat fundamenteel veranderde hoe ik denk aan onderzoek. Op een ochtend toen ik mijn kelderkantoor binnenkwam, ontdekte ik dat er 's nachts ongeveer 100 mensen uit Brazilië aan mijn experiment hadden deelgenomen. Deze eenvoudige ervaring had een diepgaand effect op mij. In die tijd had ik vrienden die traditionele laboratoriumexperimenten uitvoerden, en ik wist hoe hard ze moesten werken om mensen te rekruteren, begeleiden en betalen om aan deze experimenten deel te nemen; als ze op één dag 10 mensen zouden kunnen runnen, was dat een goede vooruitgang. Met mijn online experiment hebben 100 mensen meegedaan terwijl ik sliep . Je onderzoek doen terwijl je slaapt klinkt misschien te goed om waar te zijn, maar dat is het niet. Veranderingen in technologie, met name de overgang van het analoge tijdperk naar het digitale tijdperk, betekenen dat we nu sociale gegevens op nieuwe manieren kunnen verzamelen en analyseren. Dit boek gaat over het doen van sociaal onderzoek op deze nieuwe manieren.

Dit boek is voor sociale wetenschappers die meer data science willen doen, data scientists die meer sociale wetenschappen willen doen en iedereen die geïnteresseerd is in de hybride van deze twee velden. Gezien voor wie dit boek is bedoeld, moet het vanzelfsprekend zijn dat het niet alleen voor studenten en professoren is. Hoewel ik momenteel werk aan een universiteit (Princeton), heb ik ook gewerkt in de overheid (bij het US Census Bureau) en in de technologie-industrie (bij Microsoft Research) dus ik weet dat er veel opwindend onderzoek gebeurt buiten de universiteiten. Als u denkt aan wat u doet als sociaal onderzoek, dan is dit boek voor u, ongeacht waar u werkt of wat voor soort technieken u momenteel gebruikt.

Zoals je misschien al hebt gemerkt, is de toon van dit boek een beetje anders dan dat van veel andere academische boeken. Dat is opzettelijk. Dit boek is voortgekomen uit een graduaatseminar over computationele sociale wetenschappen dat ik sinds 2007 bij Princeton in de afdeling Sociologie heb onderwezen, en ik zou het leuk vinden om een ​​deel van de energie en opwinding van dat seminarie vast te leggen. Ik wil met name dat dit boek drie kenmerken heeft: ik wil dat het nuttig, toekomstgericht en optimistisch is.

Nuttig : Mijn doel is om een ​​boek te schrijven dat nuttig voor u is. Daarom ga ik schrijven in een open, informele en voorbeeldgerichte stijl. Dat komt omdat het belangrijkste dat ik wil overbrengen, een bepaalde manier van denken over sociaal onderzoek is. En mijn ervaring suggereert dat de beste manier om deze manier van denken over te brengen, informeel en met veel voorbeelden is. Aan het einde van elk hoofdstuk beschik ik ook over een gedeelte met de titel 'Wat moet ik hierna lezen', zodat u kunt overgaan op meer gedetailleerde en technische informatie over veel van de onderwerpen die ik introduceer. Op het einde hoop ik dat dit boek je zal helpen om onderzoek te doen en het onderzoek van anderen te evalueren.

Toekomstgericht : dit boek zal u helpen om sociaal onderzoek te doen met behulp van de digitale systemen die vandaag bestaan en die in de toekomst zullen worden gemaakt. Ik begon dit soort onderzoek in 2004 en sindsdien heb ik veel veranderingen gezien, en ik ben er zeker van dat je in de loop van je carrière ook veel veranderingen zult zien. De truc om relevant te blijven in het gezicht van verandering is abstractie . Dit wordt bijvoorbeeld geen boek dat je precies leert hoe je de Twitter API moet gebruiken zoals die vandaag bestaat; in plaats daarvan leert het je hoe je van big data-bronnen leert (hoofdstuk 2). Dit gaat geen boek zijn dat je stap-voor-stap instructies geeft voor het uitvoeren van experimenten op Amazon Mechanical Turk; in plaats daarvan leer je hoe je experimenten kunt ontwerpen en interpreteren die afhankelijk zijn van digitale leeftijdinfrastructuur (hoofdstuk 4). Door het gebruik van abstractie hoop ik dat dit een tijdloos boek zal zijn over een actueel onderwerp.

Optimistisch : de twee gemeenschappen waar dit boek zich mee bezig houdt - sociale wetenschappers en datawetenschappers - hebben een heel andere achtergrond en interesses. Naast deze wetenschappelijke verschillen, waar ik het in het boek over heb, merk ik ook dat deze twee gemeenschappen verschillende stijlen hebben. Gegevenswetenschappers zijn over het algemeen enthousiast; ze hebben de neiging om het glas als halfvol te zien. Sociale wetenschappers zijn daarentegen over het algemeen kritischer; ze hebben de neiging om het glas als half leeg te zien. In dit boek ga ik de optimistische toon van een data scientist aannemen. Dus als ik voorbeelden presenteer, ga ik je vertellen wat ik leuk vind aan deze voorbeelden. En als ik problemen met de voorbeelden vertel, en ik zal dat doen omdat geen enkel onderzoek perfect is, zal ik proberen deze problemen op een positieve en optimistische manier aan te wijzen. Ik zal niet kritisch zijn om kritisch te zijn - ik zal kritisch zijn zodat ik je kan helpen bij het maken van beter onderzoek.

We bevinden ons nog in de begindagen van sociaal onderzoek in het digitale tijdperk, maar ik heb een aantal misverstanden gezien die zo gewoon zijn dat het logisch is dat ik ze hier in het voorwoord behandel. Van data scientists, ik heb twee veel voorkomende misverstanden gezien. De eerste is te denken dat meer gegevens automatisch problemen oplossen. Voor sociaal onderzoek is dat echter niet mijn ervaring geweest. Voor sociaal onderzoek lijken betere gegevens - in tegenstelling tot meer gegevens - nuttiger te zijn. Het tweede misverstand dat ik heb gezien van datawetenschappers, is dat sociale wetenschappen slechts een stel mooie praatjes zijn, gewikkeld om gezond verstand. Natuurlijk, als sociaal wetenschapper, meer specifiek als socioloog, ben ik het daar niet mee eens. Slimme mensen hebben heel lang hard gewerkt om menselijk gedrag te begrijpen, en het lijkt onverstandig om de wijsheid te negeren die deze inspanning heeft opgeleverd. Ik hoop dat dit boek je een deel van die wijsheid zal bieden op een manier die gemakkelijk te begrijpen is.

Van sociale wetenschappers heb ik ook twee veel voorkomende misverstanden gezien. Ten eerste heb ik gezien dat sommige mensen het hele idee van sociaal onderzoek met behulp van de hulpmiddelen van het digitale tijdperk wegschrijven vanwege een paar slechte papieren. Als je dit boek aan het lezen bent, heb je waarschijnlijk al een heleboel artikelen gelezen die sociale-mediagegevens gebruiken op een manier die banaal of fout is (of beide). Heb ik ook. Het zou echter een ernstige vergissing zijn om uit deze voorbeelden te concluderen dat alle sociaal-wetenschappelijk onderzoek op digitaal gebied slecht is. U hebt waarschijnlijk ook een aantal artikelen gelezen die enquêtegegevens gebruiken op manieren die banaal of fout zijn, maar u schrijft niet alle onderzoeken af ​​met behulp van enquêtes. Dat komt omdat je weet dat er geweldig onderzoek is gedaan met onderzoeksgegevens, en in dit boek laat ik je zien dat er ook geweldig onderzoek is gedaan met de hulpmiddelen van het digitale tijdperk.

Het tweede veel voorkomende misverstand dat ik van sociale wetenschappers heb gezien, is om het heden met de toekomst te verwarren. Wanneer we sociaal onderzoek beoordelen in het digitale tijdperk - het onderzoek dat ik ga beschrijven - is het belangrijk dat we twee verschillende vragen stellen: "Hoe goed werkt deze stijl van onderzoek nu?" En "Hoe goed zal deze stijl van onderzoek werken?" onderzoekswerk in de toekomst? "Onderzoekers zijn getraind om de eerste vraag te beantwoorden, maar voor dit boek denk ik dat de tweede vraag belangrijker is. Dat wil zeggen dat, hoewel sociaal onderzoek in het digitale tijdperk nog geen massale, paradigma veranderende intellectuele bijdragen heeft opgeleverd, de snelheid waarmee het digitale-leeftijdonderzoek wordt verbeterd ongelooflijk snel is. Het is deze mate van verandering - meer dan het huidige niveau - dat onderzoek naar digitale leeftijden zo opwindend maakt voor mij.

Hoewel die laatste alinea je op een onbepaalde tijd in de toekomst potentiële rijkdommen lijkt te bieden, is het mijn doel je niet te verkopen aan een bepaald type onderzoek. Ik bezit persoonlijk geen aandelen in Twitter, Facebook, Google, Microsoft, Apple of een ander technologiebedrijf (hoewel ik, omwille van de volledige openbaarmaking, moet vermelden dat ik heb gewerkt aan, of onderzoekfinanciering van Microsoft heeft ontvangen, Google en Facebook). Door het hele boek heen, is het mijn doel om een ​​geloofwaardige verteller te blijven, die je vertelt over alle opwindende nieuwe dingen die mogelijk zijn, terwijl je wordt weggevoerd van enkele valstrikken waarvan ik heb gezien dat anderen erin vallen (en af ​​en toe in mezelf zijn gevallen) .

De kruising van sociale wetenschappen en data science wordt soms computationele sociale wetenschappen genoemd. Sommigen beschouwen dit als een technisch veld, maar dit zal geen technisch boek in de traditionele betekenis zijn. Er zijn bijvoorbeeld geen vergelijkingen in de hoofdtekst. Ik heb ervoor gekozen om het boek op deze manier te schrijven omdat ik een uitgebreid beeld wilde geven van sociaal onderzoek in het digitale tijdperk, waaronder big data-bronnen, enquêtes, experimenten, massale samenwerking en ethiek. Het bleek onmogelijk om al deze onderwerpen te behandelen en technische details over elk onderwerp te geven. In plaats daarvan worden verwijzingen naar meer technisch materiaal gegeven in het gedeelte 'Wat moet ik lezen' aan het einde van elk hoofdstuk. Met andere woorden, dit boek is niet bedoeld om u te leren hoe u een specifieke berekening moet uitvoeren; het is veeleer bedoeld om de manier waarop u denkt over sociaal onderzoek te veranderen.

Hoe dit boek in een cursus te gebruiken

Zoals ik al eerder zei, kwam dit boek gedeeltelijk voort uit een graduaatseminar over computationele sociale wetenschappen dat ik sinds 2007 les geef in Princeton. Omdat je misschien denkt dit boek te gebruiken om een ​​cursus te geven, dacht ik dat het misschien nuttig zou zijn om uit te leggen hoe het uit mijn cursus is gegroeid en hoe ik me voorstel dat het in andere cursussen wordt gebruikt.

Gedurende verschillende jaren heb ik mijn cursus zonder boek geleerd; Ik zou gewoon een verzameling artikelen toewijzen. Terwijl studenten van deze artikelen konden leren, leidden de artikelen alleen niet tot de conceptuele veranderingen die ik hoopte te creëren. Dus ik zou het grootste deel van de tijd in de klas doorbrengen met perspectief, context en advies om de studenten te helpen het grote geheel te zien. Dit boek is mijn poging al dat perspectief, context en advies op te schrijven op een manier die geen vereisten kent - in termen van sociale wetenschappen of gegevenswetenschap.

In een semester-lange cursus, zou ik aanraden dit boek te combineren met een verscheidenheid aan extra metingen. Een dergelijke cursus kan bijvoorbeeld twee weken aan experimenten besteden, en u kunt hoofdstuk 4 koppelen aan lezingen over onderwerpen als de rol van voorbehandelingsinformatie bij het ontwerpen en analyseren van experimenten; statistische en computationele problemen opgeworpen door grootschalige A / B-tests bij bedrijven; ontwerp van experimenten die specifiek gericht zijn op mechanismen; en praktische, wetenschappelijke en ethische kwesties met betrekking tot het gebruik van deelnemers van online arbeidsmarkten, zoals Amazon Mechanical Turk. Het kan ook gepaard gaan met metingen en activiteiten met betrekking tot programmeren. De juiste keuze tussen deze vele mogelijke combinaties hangt af van de studenten in uw cursus (bijv. Niet-gegradueerden, master's of PhD's), hun achtergronden en hun doelen.

Een semester-lengte cursus kan ook wekelijkse probleem sets bevatten. Elk hoofdstuk heeft een verscheidenheid aan activiteiten die zijn gelabeld naar moeilijkheidsgraad: eenvoudig ( gemakkelijk ), medium ( medium ), hard ( hard ), en heel moeilijk ( heel moeilijk ). Ook heb ik elk probleem gelabeld met de vaardigheden die het vereist: wiskunde ( vereist wiskunde ), codering ( vereist codering ) en gegevensverzameling ( gegevensverzameling ). Ten slotte heb ik een aantal activiteiten genoemd die mijn persoonlijke favorieten zijn ( mijn favoriet ). Ik hoop dat je binnen deze gevarieerde verzameling van activiteiten een aantal vindt die geschikt zijn voor je studenten.

Om mensen die dit boek in cursussen gebruiken te helpen, heb ik een verzameling lesmaterialen gestart, zoals syllabi, dia's, aanbevolen combinaties voor elk hoofdstuk en oplossingen voor sommige activiteiten. Je kunt deze materialen vinden en hieraan bijdragen - op http://www.bitbybitbook.com.