2.4.1 Tellen dingen

Eenvoudig tellen kan interessant zijn als je combineren een goede vraag met goede gegevens.

Hoewel het is opgesteld in een geavanceerd klinkende taal, telt veel sociaal onderzoek eigenlijk alleen maar dingen. In het tijdperk van big data kunnen onderzoekers meer dan ooit tellen, maar dat betekent niet dat ze gewoon lukraak zouden moeten beginnen tellen. In plaats daarvan zouden onderzoekers moeten vragen: welke dingen zijn het waard om te tellen? Dit lijkt misschien een geheel subjectieve kwestie, maar er zijn enkele algemene patronen.

Vaak motiveren studenten hun telonderzoek door te zeggen: ik ga iets tellen dat nog nooit iemand eerder heeft geteld. Een student kan bijvoorbeeld zeggen dat veel mensen migranten hebben bestudeerd en veel mensen hebben een tweeling gestudeerd, maar niemand heeft een migrantentweeling bestudeerd. In mijn ervaring leidt deze strategie, die ik motivatie bij afwezigheid noem, meestal niet tot goed onderzoek. Motivatie door afwezigheid is zoiets als zeggen dat er een gat is daar, en ik ga heel hard werken om het op te vullen. Maar niet elk gat moet worden gevuld.

In plaats van te motiveren door afwezigheid, denk ik dat een betere strategie is om onderzoeksvragen te zoeken die belangrijk of interessant zijn (of idealiter beide). Beide termen zijn een beetje moeilijk te definiëren, maar een manier om na te denken over belangrijk onderzoek is dat het een meetbare impact heeft op een belangrijke beslissing van beleidsmakers. Het meten van de werkloosheidscijfers is bijvoorbeeld belangrijk omdat het een indicator van de economie is die beleidsbeslissingen stimuleert. Over het algemeen denk ik dat onderzoekers redelijk goed weten wat belangrijk is. In de rest van dit gedeelte ga ik twee voorbeelden geven waarvan ik denk dat het tellen interessant is. In elk geval waren de onderzoekers niet willekeurig aan het tellen; integendeel, ze telden in zeer specifieke settings die belangrijke inzichten onthulden in meer algemene ideeën over hoe sociale systemen werken. Met andere woorden, veel van wat deze specifieke teloefeningen interessant maakt, zijn niet de gegevens zelf, maar komt van deze meer algemene ideeën.

Een voorbeeld van de eenvoudige rekenkracht komt uit de studie van Henry Farber (2015) over het gedrag van taxichauffeurs in New York City. Hoewel deze groep misschien niet intrinsiek interessant klinkt, is het een strategische onderzoekssite voor het testen van twee concurrerende theorieën in arbeidseconomie. Voor het doel van het onderzoek van Farber zijn er twee belangrijke kenmerken van de werkomgeving van taxichauffeurs: (1) hun uurloon schommelt van dag tot dag, mede op basis van factoren zoals het weer, en (2) het aantal uren dat ze werken werk kan elke dag fluctueren op basis van hun beslissingen. Deze kenmerken leiden tot een interessante vraag over de relatie tussen uurloon en gewerkte uren. Neoklassieke modellen in de economie voorspellen dat taxichauffeurs meer zullen werken op dagen dat ze hogere uurlonen hebben. Als alternatief voorspellen modellen uit de gedragseconomie precies het tegenovergestelde. Als chauffeurs een bepaald inkomend doel instellen, bijvoorbeeld $ 100 per dag, en werken totdat dat doel is behaald, zullen bestuurders uiteindelijk minder uren werken op dagen dat ze meer verdienen. Als u bijvoorbeeld een doelwit bent, werkt u mogelijk vier uur op een goede dag ($ 25 per uur) en vijf uur op een slechte dag ($ 20 per uur). Werken chauffeurs dus meer uren op dagen met hogere uurlonen (zoals voorspeld door de neoklassieke modellen) of meer uren op dagen met lagere uurlonen (voorspeld door gedragseconomische modellen)?

Om deze vraag te beantwoorden, heeft Farber gegevens verkregen over elke taxirit die door New York City-cabines tussen 2009 en 2013 is gemaakt, en die nu openbaar beschikbaar zijn. Deze gegevens - die werden verzameld door elektronische meters die de stad nodig heeft om te gebruiken - bevatten informatie over elke reis: starttijd, startlocatie, eindtijd, eindlocatie, rit en fooi (als de fooi met een creditcard werd betaald) . Met behulp van deze taxametergegevens ontdekte Farber dat de meeste bestuurders meer werken op dagen dat de lonen hoger zijn, in overeenstemming met de neoklassieke theorie.

Naast deze belangrijkste bevinding was Farber in staat de omvang van de gegevens te gebruiken voor een beter begrip van heterogeniteit en dynamiek. Hij ontdekte dat nieuwe stuurprogramma's geleidelijk aan meer tijd leren werken op dagen met een hoog loon (ze leren zich bijvoorbeeld te gedragen zoals het neoklassieke model voorspelt). En nieuwe bestuurders die zich meer als doelverdieners gedragen, zijn eerder geneigd te stoppen met taxichauffeurs te zijn. Beide subtielere bevindingen, die het waargenomen gedrag van huidige bestuurders helpen verklaren, waren alleen mogelijk vanwege de grootte van de dataset. Ze waren in eerdere onderzoeken onmogelijk waar te nemen, die in korte tijd (Camerer et al. 1997) van een klein aantal taxichauffeurs gebruikten (Camerer et al. 1997) .

Farber's onderzoek kwam dicht in de buurt van een best-case scenario voor een onderzoek met behulp van een grote gegevensbron omdat de gegevens die door de stad werden verzameld, vrij dicht in de buurt kwamen van de gegevens die Farber zou hebben verzameld (een verschil is dat Farber gegevens wilde hebben over het totaal lonen-tarieven plus tips-maar de stadsgegevens bevatten alleen tips betaald met een creditcard). De gegevens alleen waren echter niet voldoende. De sleutel tot het onderzoek van Farber was het brengen van een interessante vraag naar de data, een vraag die grotere implicaties heeft dan alleen deze specifieke setting.

Een tweede voorbeeld van het tellen van dingen komt uit onderzoek door Gary King, Jennifer Pan en Molly Roberts (2013) over online censuur door de Chinese overheid. In dit geval moesten de onderzoekers echter hun eigen big data verzamelen en moesten ze omgaan met het feit dat hun gegevens onvolledig waren.

Koning en collega's werden gemotiveerd door het feit dat berichten op sociale media in China worden gecensureerd door een enorm staatsapparaat waarvan wordt gedacht dat het tienduizenden mensen omvat. Onderzoekers en burgers hebben echter weinig idee van hoe deze censoren beslissen welke inhoud moet worden verwijderd. Geleerden van China hebben zelfs tegenstrijdige verwachtingen over welke soorten berichten het meest waarschijnlijk worden verwijderd. Sommigen denken dat censors zich concentreren op berichten die kritiek hebben op de staat, terwijl anderen denken dat ze zich richten op berichten die collectief gedrag aanmoedigen, zoals protesten. Uitzoeken welke van deze verwachtingen correct is, heeft implicaties voor de manier waarop onderzoekers China en andere autoritaire regeringen die zich bezighouden met censuur, begrijpen. Daarom wilden King en collega's berichten vergelijken die zijn gepubliceerd en vervolgens zijn verwijderd met berichten die zijn gepubliceerd en nooit zijn verwijderd.

Het verzamelen van deze posten die betrokken zijn de geweldige technische prestatie van de kruipende meer dan 1.000 Chinese social media websites-elk met verschillende pagina-indelingen-het vinden van relevante berichten, en vervolgens weer langskomen deze posten om te zien, die vervolgens werden verwijderd. Naast de gebruikelijke technische problemen bij grootschalige web-crawling, dit project had de toegevoegde uitdaging die het moest zeer snel omdat veel gecensureerd uitsplitsing in minder dan 24 uur genomen. Met andere woorden, zou een trage crawler veel berichten die werden gecensureerd missen. Verder is de crawlers moest al deze gegevensverzameling doen terwijl ontwijken detectie opdat de sociale media websites toegang te blokkeren of anderszins hun beleid veranderen als reactie op de studie.

Tegen de tijd dat deze enorme technische taak was voltooid, hadden King en collega's ongeveer 11 miljoen berichten verzameld over 85 verschillende vooraf gespecificeerde onderwerpen, elk met een verondersteld niveau van gevoeligheid. Een onderwerp van hoge gevoeligheid is bijvoorbeeld Ai Weiwei, de dissidente kunstenaar; een onderwerp van middengevoeligheid is waardering en devaluatie van de Chinese valuta, en een onderwerp van lage gevoeligheid is het WK. Van deze 11 miljoen posten was ongeveer 2 miljoen gecensureerd. Enigszins verrassend vonden King en collega's dat berichten over zeer gevoelige onderwerpen slechts iets vaker gecensureerd werden dan berichten over onderwerpen met een gemiddelde tot lage sensitiviteit. Met andere woorden, Chinese censors zijn ongeveer net zo geneigd om een ​​post te censureren die Ai Weiwei noemt als een post die het Wereldkampioenschap vermeldt. Deze bevindingen ondersteunen niet het idee dat de overheid alle berichten over gevoelige onderwerpen afkeurt.

Deze eenvoudige berekening van het censuurpercentage per onderwerp kan echter misleidend zijn. De overheid kan bijvoorbeeld posts censureren die Ai Weiwei ondersteunen, maar berichten achterlaten die kritiek op hem hebben. Om een ​​zorgvuldiger onderscheid te kunnen maken tussen de posten, moesten de onderzoekers het sentiment van elke post meten. Helaas, ondanks veel werk, zijn volledig geautomatiseerde methoden van sentimentdetectie met behulp van reeds bestaande woordenboeken nog steeds niet erg goed in veel situaties (denk eens terug aan de problemen die een emotionele tijdlijn creëren van 11 september 2001 zoals beschreven in paragraaf 2.3.9). Daarom hadden King en collega's een manier nodig om hun 11 miljoen posts op sociale media te labelen over of ze (1) kritisch waren ten opzichte van de staat, (2) ondersteunend aan de staat, of (3) irrelevante of feitelijke rapporten over de gebeurtenissen. Dit klinkt als een enorme klus, maar ze hebben het opgelost met behulp van een krachtige truc die veel voorkomt in de gegevenswetenschap, maar relatief zeldzaam is in de sociale wetenschappen: gesuperviseerd leren ; zie figuur 2.5.

Ten eerste converteerden de onderzoekers in een stap die meestal preprocessing wordt genoemd , de posts op sociale media naar een document-term matrix , waarbij er één rij was voor elk document en één kolom die registreerde of de post een specifiek woord bevatte (bijvoorbeeld protest of verkeer) . Vervolgens heeft een groep onderzoeksassistenten het sentiment van een steekproef van berichten met de hand gelabeld. Vervolgens gebruikten ze deze met de hand gelabelde gegevens om een ​​machine-leermodel te maken dat op basis van de kenmerken het sentiment van een bericht kon afleiden. Ten slotte hebben ze dit model gebruikt om het sentiment van alle 11 miljoen berichten te schatten.

Dus in plaats van handmatig 11 miljoen berichten te lezen en labelen - wat logistiek niet mogelijk zou zijn - bestempelden King en collega's handmatig een klein aantal berichten en gebruikten vervolgens onder supervisie leren om het sentiment van alle berichten te schatten. Na het voltooien van deze analyse konden ze concluderen dat, enigszins verrassend, de kans dat een bericht zou worden verwijderd geen verband hield met de vraag of het kritiek had op de staat of de steun van de staat.

Figuur 2.5: Vereenvoudigd schema van de procedure die King, Pan en Roberts (2013) gebruiken om het sentiment van 11 miljoen Chinese social-mediaberichten te schatten. Ten eerste hebben de onderzoekers in een voorbewerkingsstap de posts op sociale media omgezet in een document-term matrix (zie Grimmer en Stewart (2013) voor meer informatie). Ten tweede hebben ze de gevoelens van een kleine steekproef van berichten met de hand gecodeerd. Ten derde hebben ze een begeleid leermodel getraind om het sentiment van berichten te classificeren. Ten vierde gebruikten ze het gesuperviseerde leermodel om het sentiment van alle berichten in te schatten. Zie King, Pan, en Roberts (2013), bijlage B voor een meer gedetailleerde beschrijving.

Figuur 2.5: Vereenvoudigd schema van de procedure die King, Pan, and Roberts (2013) om het sentiment van 11 miljoen Chinese social-mediaberichten te schatten. Ten eerste hebben de onderzoekers in een voorbewerkingsstap de posts op sociale media omgezet in een document-term matrix (zie Grimmer and Stewart (2013) voor meer informatie). Ten tweede hebben ze de gevoelens van een kleine steekproef van berichten met de hand gecodeerd. Ten derde hebben ze een begeleid leermodel getraind om het sentiment van berichten te classificeren. Ten vierde gebruikten ze het gesuperviseerde leermodel om het sentiment van alle berichten in te schatten. Zie King, Pan, and Roberts (2013) , bijlage B voor een meer gedetailleerde beschrijving.

Uiteindelijk ontdekten King en collega's dat slechts drie typen berichten regelmatig werden gecensureerd: pornografie, kritiek op censors en degenen die collectief actiepotentieel hadden (dwz de mogelijkheid om tot grootschalige protesten te leiden). Door het observeren van een groot aantal berichten die werden verwijderd en berichten die niet werden verwijderd, konden King en zijn collega's leren hoe de censors werken door te kijken en te tellen. Verder, voorafschaduwing van een thema dat in dit boek zal voorkomen, blijkt de begeleidende leerbenadering die zij gebruikten - met de hand een aantal uitkomsten labelen en vervolgens een machine-leermodel te maken om de rest te labelen - zeer gebruikelijk in sociaal onderzoek in het digitale tijdperk. . Je zult afbeeldingen zien die erg lijken op figuur 2.5 in hoofdstuk 3 (Vragen stellen) en 5 (Massale samenwerking creëren); dit is een van de weinige ideeën die in meerdere hoofdstukken voorkomt.

Deze voorbeelden - het werkgedrag van taxichauffeurs in New York en het censuurgedrag van sociale media door de Chinese overheid - tonen aan dat het relatief eenvoudig tellen van big data-bronnen in sommige situaties kan leiden tot interessant en belangrijk onderzoek. In beide gevallen moesten de onderzoekers echter interessante vragen stellen aan de grote gegevensbron; de gegevens alleen waren niet voldoende.