2.4.1 Räkna saker

Enkel räkning kan vara intressant om du kombinerar en bra fråga med bra data.

Trots att det ligger på sofistikerat språk, räknar massor av social forskning verkligen bara saker. I en tid av stora data kan forskare räkna mer än någonsin, men det betyder inte att de bara bör börja räkna med slumpmässigt. Istället bör forskare fråga: Vilka saker är värda att räkna? Det kan tyckas som en helt subjektiv sak, men det finns några allmänna mönster.

Ofta motiverar studenterna sin räkna forskning genom att säga: Jag ska räkna något som ingen någonsin har räknat förut. Exempelvis kan en elev säga att många har studerat migranter och många har studerat tvillingar, men ingen har studerat migrant tvillingar. Enligt min uppfattning leder inte denna strategi, som jag kallar motivation för frånvaro , till god forskning. Motivation genom frånvaro är som att säga att det finns ett hål där borta, och jag ska jobba väldigt svårt att fylla på det. Men inte varje hål behöver fyllas.

Istället för att motivera genom frånvaro tror jag att en bättre strategi är att leta efter forskningsfrågor som är viktiga eller intressanta (eller ideellt båda). Båda dessa villkor är lite svåra att definiera, men ett sätt att tänka på viktig forskning är att den har viss mätbar inverkan eller matar in i ett viktigt beslut av beslutsfattare. Att mäta arbetslösheten är exempelvis viktigt eftersom det är en indikator på ekonomin som driver beslutsfattande. Generellt tycker jag att forskare har en ganska bra känsla för vad som är viktigt. Så i resten av det här avsnittet kommer jag att ge två exempel där jag tycker att räkning är intressant. I varje fall räknade inte forskarna slumpmässigt; De räknade snarare i mycket speciella inställningar som avslöjade viktiga insikter i mer allmänna idéer om hur sociala system fungerar. Med andra ord, mycket av det som gör dessa specifika räkneövningar intressant är inte själva data, det kommer från dessa mer allmänna idéer.

Ett exempel på den enkla kraften att räkna kommer från Henry Farbers (2015) studie av beteendet hos taxichaufförerna i New York City. Även om denna grupp kanske inte låter inneboende intressant, är det en strategisk forskningsplats för att testa två konkurrerande teorier i arbetsekonomi. För Farbers forskning är det två viktiga drag i taxichaufförernas arbetsmiljö: 1) timlön varierar dagligen, delvis beroende på väderfaktorer, och (2) hur många timmar de har Arbetet kan fluktuera varje dag baserat på deras beslut. Dessa funktioner leder till en intressant fråga om förhållandet mellan timlön och arbetade timmar. Neoklassiska modeller i ekonomin förutsäger att taxichaufförer kommer att arbeta mer på dagar där de har högre timlön. Alternativt förutsäger modeller från beteendeekonomi exakt motsatsen. Om förare ställer in ett visst inkomstmål - säg $ 100 per dag - och arbeta tills det målet är uppfyllt, kommer drivrutinerna att sluta fungera färre timmar på dagar som de tjänar mer. Om du till exempel var målmottagare kan du kanske sluta arbeta fyra timmar på en bra dag ($ 25 per timme) och fem timmar på en dålig dag ($ 20 per timme). Så, jobbar bilisterna mer timmar på dagar med högre timlön (som förutspås av neoklassiska modeller) eller fler timmar på dagar med lägre timlön (som förutsagt av beteendemässiga ekonomiska modeller)?

För att svara på denna fråga, erhåller Farber data på varje taxitur som hyrs av New York City-cabiner från 2009 till 2013, data som nu är offentligt tillgängliga. Dessa data - som samlades in med elektroniska mätare som staden kräver att taxibilar använder - inkluderar information om varje resa: starttid, startplats, sluttid, slutplats, biljettpris och tips (om tipset betalades med ett kreditkort) . Med hjälp av denna taxamätardata fann Farber att de flesta förare arbetar mer på dagar då lönerna är högre, i överensstämmelse med den neoklassiska teorin.

Utöver detta huvudsakliga resultat kunde Farber använda dataens storlek för en bättre förståelse av heterogenitet och dynamik. Han upptäckte att med tiden leder nya drivrutiner gradvis att arbeta flera timmar på höglönade dagar (de lär sig t.ex. att uppföra sig som den neoklassiska modellen förutsäger). Och nya förare som beter sig som målägare är mer benägna att sluta vara taxichaufförer. Båda dessa mer subtila resultat, som bidrar till att förklara det observerade beteendet hos nuvarande drivrutiner, var endast möjliga på grund av datasetets storlek. De var omöjliga att upptäcka i tidigare studier som använde pappersresan från ett litet antal taxichaufförer under en kort tidsperiod (Camerer et al. 1997) .

Farbers studie var nära ett bästa scenario för en forskning med en stor datakälla, eftersom data som samlades in av staden var ganska nära de uppgifter som Farber skulle ha samlat in (en skillnad är att Farber skulle ha önskat data om totalt lönepriser plus tips-men stadens data innehåller endast tips betalda med kreditkort). Däremot var uppgifterna inte tillräckligt. Nyckeln till Farbers forskning var att föra en intressant fråga till data, en fråga som har större konsekvenser bortom just denna specifika inställning.

Ett annat exempel på att räkna saker kommer från forskning av Gary King, Jennifer Pan och Molly Roberts (2013) på online censur av den kinesiska regeringen. I det här fallet måste forskarna samla in sina egna stora data och de måste ta itu med det faktum att deras data var ofullständiga.

Kung och kollegor motiverades av det faktum att sociala medier inlägg i Kina censureras av en enorm statsapparat som antas innehålla tiotusentals människor. Forskare och medborgare har dock liten känsla för hur dessa censorer bestämmer vilket innehåll som ska raderas. Kinesiska lärare har faktiskt motstridiga förväntningar om vilka typer av inlägg som sannolikt kommer att bli raderade. Vissa tror att censorer fokuserar på inlägg som är kritiska för staten, medan andra tror att de fokuserar på inlägg som uppmuntrar kollektivt beteende, som protester. Att avgöra vilka av dessa förväntningar som är korrekta har konsekvenser för hur forskare förstår Kina och andra auktoritära regeringar som bedriver censur. Därför ville kung och kollegor jämföra inlägg som publicerades och senare raderas med inlägg som publicerades och aldrig raderades.

Samla dessa tjänster innefattade fantastiska engineering bedrift krypa mer än 1.000 kinesiska sociala medier webbplatser-var och en med olika sidlayouter undersöknings relevanta inlägg, och sedan gå tillbaka dessa tjänster för att se vilka senare togs bort. Förutom de vanliga tekniska problem i samband med storskalig web-krypande, hade detta projekt extra utmaning som det behövs för att vara extremt snabbt, eftersom många censurerade inlägg tas i mindre än 24 timmar. Med andra ord skulle en långsam sökrobot missar massor av inlägg som censurerades. Vidare, sökrobotar var tvungen att göra allt detta datainsamling samtidigt undgå upptäckt så att de sociala medier webbplatser blockera åtkomst eller på annat sätt ändra sin politik som svar på studien.

När den här omfattande tekniska uppgiften hade slutförts hade kungen och kollegorna fått cirka 11 miljoner inlägg på 85 olika förutbestämda ämnen, var och en med en antagen känslighetsnivå. Ett ämne med hög känslighet är till exempel Ai Weiwei, dissidentartisten; Ett ämne av medelkänslighet är uppskattning och devalvering av den kinesiska valutan, och ett ämne med låg känslighet är VM. Av dessa 11 miljoner inlägg hade cirka 2 miljoner censurerats. Något överraskande visade kung och kollegor att inlägg på mycket känsliga ämnen endast censurerades något oftare än inlägg på medel- och lågkänsliga ämnen. Med andra ord, kinesiska censorer är så sannolikt att censurera ett inlägg som nämner Ai Weiwei som ett inlägg som nämner VM. Dessa resultat stöder inte tanken att regeringen censurerar alla inlägg på känsliga ämnen.

Denna enkla beräkning av censurhastigheten per ämne kan emellertid vara vilseledande. Till exempel kan regeringen censurera inlägg som stöder Ai Weiwei, men lämnar inlägg som är kritiska för honom. För att skilja mellan inlägg mer noggrant, behövde forskarna att mäta känslan av varje inlägg. Tyvärr, trots mycket arbete, är helt automatiserade metoder för sentimentsdetektering med hjälp av befintliga ordböcker fortfarande inte så bra i många situationer (tänk tillbaka till problemen med att skapa en känslomässig tidslinje den 11 september 2001, som beskrivs i avsnitt 2.3.9). Därför behövde kung och kollegor ett sätt att märka sina 11 miljoner sociala medier inlägg om huruvida de var (1) kritiska till staten, (2) statens stöd, eller (3) irrelevanta eller faktiska rapporter om händelserna. Det här låter som ett massivt jobb, men de löst det med hjälp av ett kraftfullt trick som är vanligt inom datavetenskap men relativt sällsynt inom samhällsvetenskap: övervakat lärande ; se figur 2.5.

Först i ett steg som kallas förbehandling , omvandlade forskarna sociala medier till en dokumentmatrismatris där det fanns en rad för varje dokument och en kolumn som spelade in om posten innehöll ett visst ord (t.ex. protest eller trafik) . Därefter märkte en grupp forskningsassistenter känslan av ett urval av inlägg. Sedan använde de denna handmärkta data för att skapa en maskininlärningsmodell som kunde leda till känslan av ett inlägg baserat på dess egenskaper. Slutligen använde de denna modell för att uppskatta känslan av alla 11 miljoner inlägg.

I stället för att manuellt läsa och märka 11 miljoner tjänster - vilket skulle vara logistiskt omöjligt - kung och kollegor märkte manuellt ett litet antal inlägg och använde sedan övervakat lärande för att uppskatta känslan av alla inlägg. Efter att ha slutfört denna analys kunde de dra slutsatsen att sannolikt att en post som raderades var något överraskande inte relaterad till huruvida det var kritiskt för staten eller stödja staten.

Figur 2.5: Förenklat schema över förfarandet som används av King, Pan och Roberts (2013) för att uppskatta känslan av 11 miljoner kinesiska sociala medier. Först, i ett förbehandlingssteg, omvandlade forskarna sociala medier till en dokumentmatrismatris (se Grimmer och Stewart (2013) för mer information). För det andra handkodade de känslorna av ett litet urval av inlägg. För det tredje utbildade de en övervakad inlärningsmodell för att klassificera känslan av inlägg. Fjärde, de använde den övervakade inlärningsmodellen för att uppskatta känslan av alla inlägg. Se King, Pan och Roberts (2013), bilaga B för en mer detaljerad beskrivning.

Figur 2.5: Förenklat schema över förfarandet som används av King, Pan, and Roberts (2013) att uppskatta känslan av 11 miljoner kinesiska sociala medier. Först, i ett förbehandlingssteg , omvandlade forskarna sociala medier till en dokumentmatrismatris (se Grimmer and Stewart (2013) för mer information). För det andra handkodade de känslorna av ett litet urval av inlägg. För det tredje utbildade de en övervakad inlärningsmodell för att klassificera känslan av inlägg. Fjärde, de använde den övervakade inlärningsmodellen för att uppskatta känslan av alla inlägg. Se King, Pan, and Roberts (2013) , bilaga B för en mer detaljerad beskrivning.

Till slut upptäckte kung och kollegor att endast tre typer av inlägg regelbundet censurerades: pornografi, kritik mot censorer och de som hade kollektiva handlingspotentialer (det vill säga möjligheten att leda till storskaliga protester). Genom att observera ett stort antal inlägg som raderades och inlägg som inte raderades kunde kungen och kollegorna lära sig hur censorerna fungerar bara genom att titta och räkna. Vidare förskuggning av ett tema som kommer att äga rum i hela denna bok, det övervakade lärande tillvägagångssättet som de använde - mäta några resultat och sedan bygga en maskininlärningsmodell för att märka resten - visar sig vara mycket vanligt i social forskning i digital ålder . Du kommer att se bilder som mycket liknar figur 2.5 i kapitel 3 (Fråga frågor) och 5 (Skapa masssamarbete); Detta är en av de få idéerna som finns i flera kapitel.

Dessa exempel - taxistyrningarnas arbetsbeteende i New York och den kinesiska regeringens sociala medier censur beteende - visar att relativt enkelt räkning av stora datakällor kan leda till intressant och viktig forskning i vissa situationer. I båda fallen måste forskarna dock föra intressanta frågor till den stora datakällan. uppgifterna i sig var inte tillräckligt.