2.4.1 Telle ting

Enkel telling kan være interessant hvis du kombinerer et godt spørsmål med gode data.

Selv om det er plassert i sofistikerte-lydende språk, er mye sosial forskning egentlig bare å telle ting. I en alder av store data kan forskere telle mer enn noensinne, men det betyr ikke at de bare skal begynne å telle tilfeldig. I stedet bør forskerne spørre: Hvilke ting er verdt å telle? Dette kan virke som en helt subjektiv sak, men det er noen generelle mønstre.

Ofte motiverer elevene sine tellerforskning ved å si: Jeg skal telle noe som ingen har talt før. For eksempel kan en elev si at mange har studert innvandrere, og mange har studert tvillinger, men ingen har studert migrant tvillinger. Etter min erfaring fører denne strategien, som jeg kaller motivasjon ved fravær , vanligvis ikke til god forskning. Motivasjon ved fravær er som å si at det er et hull der borte, og jeg skal jobbe veldig hardt for å fylle det opp. Men ikke hvert hull må fylles.

I stedet for å motivere ved fravær tror jeg at en bedre strategi er å lete etter forskningsspørsmål som er viktige eller interessante (eller ideelt begge). Begge disse begrepene er litt vanskelig å definere, men en måte å tenke på viktig forskning er at den har noen målbar innvirkning eller strømmer inn i en viktig beslutning fra beslutningstakere. For eksempel er måling av arbeidsledigheten viktig fordi det er en indikator på økonomien som driver beslutninger. Generelt tror jeg at forskere har en ganske god følelse av det som er viktig. Så i resten av denne delen skal jeg gi to eksempler hvor jeg tror å telle er interessant. I hvert tilfelle teller forskerne ikke tilfeldig; heller, de teller i svært bestemte innstillinger som viste viktig innsikt i mer generelle ideer om hvordan sosiale systemer fungerer. Med andre ord, mye av det som gjør disse telleøvelsene interessant, er ikke selve dataene, det kommer fra disse mer generelle ideene.

Et eksempel på den enkle kraften til å telle kommer fra Henry Farbers (2015) studie av oppførselen til New York City-drosjesjåfører. Selv om denne gruppen kanskje ikke høres naturlig interessant, er det et strategisk forskningsområde for å teste to konkurrerende teorier i arbeidsøkonomi. For Farbers forskning er det to viktige trekk ved arbeidstakernes arbeidsmiljø: 1) timelønnen varierer fra dag til dag, delvis basert på faktorer som været og (2) antall timer de har Arbeidet kan svinge hver dag ut fra deres beslutninger. Disse funksjonene fører til et interessant spørsmål om forholdet mellom timelønn og arbeidstid. Neoklassiske modeller i økonomien forutser at drosjesjåfører vil jobbe mer på dager der de har høyere timelønn. Alternativt spår modeller fra atferdsøkonomi nøyaktig det motsatte. Hvis drivere angir et bestemt inntektsmål - si $ 100 per dag - og arbeid til det målet er oppfylt, vil sjåførene ende opp med å jobbe færre timer på dager som de tjener mer. Hvis du for eksempel var målmottaker, kan du ende opp med å jobbe fire timer på en god dag ($ 25 per time) og fem timer på en dårlig dag ($ 20 per time). Så jobber bilister flere timer på dager med høyere timelønn (som forutsatt av de neoklassiske modellene) eller flere timer på dager med lavere timelønn (som spådd av atferdsmessige økonomiske modeller)?

For å svare på dette spørsmålet har Farber hentet data på hver taxitur tatt av New York City-førerhusene fra 2009 til 2013, data som nå er tilgjengelig for offentlig bruk. Disse dataene, som ble samlet inn av elektroniske målere som byen krever drosjer å bruke, inkluderer informasjon om hver tur: starttidspunkt, startsted, sluttidspunkt, sluttsted, pris og tips (hvis tipset ble betalt med kredittkort) . Ved å bruke denne taxameterdataen fant Farber at de fleste sjåfører jobber mer på dager når lønnene er høyere, i samsvar med den neoklassiske teorien.

I tillegg til dette hovedfunnet var Farber i stand til å bruke størrelsen på dataene for bedre forståelse av heterogenitet og dynamikk. Han oppdaget at nyere drivere etter hvert lærer å jobbe flere timer på høylønnsdager (for eksempel lærer de å oppføre seg som den neoklassiske modellen spår). Og nye drivere som oppfører seg mer som målvinnere er mer sannsynlig å slutte å være taxi sjåfører. Begge disse mer subtile funnene, som bidrar til å forklare den observerte oppførelsen av nåværende drivere, var bare mulige på grunn av størrelsen på datasettet. De var umulige å oppdage i tidligere studier som brukte (Camerer et al. 1997) fra et lite antall taxi sjåfører over en kort periode (Camerer et al. 1997) .

Farbers studie var nær et best scenario for en undersøkelse ved hjelp av en stor datakilde fordi dataene som ble samlet inn av byen, var ganske nær de dataene Farber ville ha samlet inn (en forskjell er at Farber ville ha ønsket data på totalt lønnsavgift pluss tips - men byens data inneholder kun tips betalt med kredittkort). Dataene alene var imidlertid ikke nok. Nøkkelen til Farbers forskning var å bringe et interessant spørsmål til dataene, et spørsmål som har større implikasjoner utover bare denne spesifikke innstillingen.

Et annet eksempel på å telle ting kommer fra forskning av Gary King, Jennifer Pan, og Molly Roberts (2013) på online-sensur av den kinesiske regjeringen. I dette tilfellet måtte forskerne imidlertid samle sine egne store data, og de måtte håndtere det faktum at dataene deres var ufullstendige.

Kong og kolleger ble motivert av det faktum at sosiale medier innlegg i Kina er sensurert av et enormt statsapparat som antas å inkludere titusenvis av mennesker. Forskere og borgere har imidlertid liten følelse av hvordan disse sensurene bestemmer hvilket innhold som skal slettes. Forskere fra Kina har faktisk motstridende forventninger om hvilke typer innlegg som mest sannsynlig vil bli slettet. Noen mener at sensorer fokuserer på innlegg som er kritiske for staten, mens andre tror at de fokuserer på innlegg som oppfordrer kollektive atferd, som for eksempel protester. Å finne ut hvilke av disse forventningene som er korrekte, har implikasjoner for hvordan forskere forstår Kina og andre autoritære regjeringer som deltar i sensur. Derfor ønsket kong og kollegaer å sammenligne innlegg som ble publisert og deretter slettet med innlegg som ble publisert og aldri slettet.

Samle disse innleggene involvert fantastisk ingeniørbragd av krypende mer enn 1000 kinesiske sosiale medier nettsteder-hver med forskjellige sideoppsett-finne relevante innlegg, og deretter borti disse innleggene å se som senere ble slettet. I tillegg til de vanlige tekniske problemer forbundet med stor skala web-gjennomgang, dette prosjektet hadde den ekstra utfordringen at det måtte være ekstremt fort fordi mange sensurerte innlegg blir tatt ned på mindre enn 24 timer. Med andre ord vil en langsom crawler savner mange innlegg som ble sensurert. Videre robotene måtte gjøre alt dette datainnsamling mens unndra deteksjon lest sosiale medier nettsteder blokkere tilgang eller på annen måte endre sin politikk som svar på undersøkelsen.

Da denne massive ingeniøroppgaven var fullført, hadde kong og kollegaer oppnådd omtrent 11 millioner innlegg på 85 forskjellige forutbestemte emner, hver med antatt nivå av følsomhet. For eksempel er et emne med høy følsomhet Ai Weiwei, dissidentartisten; Et emne med midtfølsomhet er verdsettelse og devaluering av den kinesiske valutaen, og et tema med lav følsomhet er VM. Av disse 11 millioner innleggene hadde ca 2 millioner blitt sensurert. Litt overraskende fant kong og kollegaer at innlegg på svært sensitive emner bare ble censurert litt oftere enn innlegg på mellom- og lavfølsom emner. Med andre ord, er kinesiske sensorer omtrent like sannsynlig å censurere et innlegg som nevner Ai Weiwei som et innlegg som nevner VM. Disse funnene støtter ikke ideen om at regjeringen censorerer alle innlegg på sensitive emner.

Denne enkle beregningen av censurhastigheten etter emne kan imidlertid være misvisende. For eksempel kan regjeringen censurere innlegg som støtter Ai Weiwei, men la innlegg som er kritiske overfor ham. For å skille mellom innleggene mer nøye, trengte forskerne å måle følelsen av hvert innlegg. Dessverre, til tross for mye arbeid, er helt automatiserte metoder for følelsesdeteksjon ved hjelp av eksisterende ordbøker fortsatt ikke veldig gode i mange situasjoner (tenk tilbake til problemene med å opprette en emosjonell tidslinje 11. september 2001 beskrevet i avsnitt 2.3.9). Derfor trengte konge og kolleger en måte å merke sine 11 millioner sosiale medier innlegg om hvorvidt de var (1) kritiske for staten, (2) statsstøttende, eller (3) irrelevante eller faktuelle rapporter om hendelsene. Dette høres ut som en massiv jobb, men de løste det ved hjelp av et kraftig triks som er vanlig i datavitenskap, men relativt sjelden i samfunnsvitenskap: opplært læring ; se figur 2.5.

For det første, i et trinn som vanligvis kalles forbehandling , konverterte forskerne sosialmediepostene til en dokumentmatriksmatrise , hvor det var en rad for hvert dokument og en kolonne som registrerte om innlegget inneholdt et bestemt ord (f.eks. Protest eller trafikk) . Deretter merket en gruppe forskningsassistenter stemningen til et utvalg av innlegg. Deretter brukte de denne håndmerket data for å lage en maskinlæringsmodell som kunne utlede følelsen av et innlegg basert på dens egenskaper. Til slutt brukte de denne modellen til å estimere følelsen av alle 11 millioner innlegg.

I stedet for å manuelt lese og merke 11 millioner innlegg - noe som ville være logistisk umulig - Kong og kolleger merket manuelt et lite antall innlegg og brukte deretter veiledet læring til å estimere følelsen av alle innleggene. Etter å ha fullført denne analysen, kunne de konkludere med at det var noe overraskende at sannsynligheten for at et innlegg ble slettet, ikke var relatert til om det var kritisk for staten eller støttende til staten.

Figur 2.5: Forenklet skjematisk av prosedyren brukt av King, Pan og Roberts (2013) for å estimere følelsen av 11 millioner kinesiske sosiale medier. For det første, i et preprocessing-trinn, konverterte forskerne de sosiale mediainnleggene til en dokumentmatrisematrise (se Grimmer og Stewart (2013) for mer informasjon). For det andre hand-kodet følelsene til en liten utvalg av innlegg. For det tredje trente de en veiledet læringsmodell for å klassifisere følelsen av innlegg. For det fjerde brukte de den veilede læringsmodellen til å estimere følelsen av alle innleggene. Se King, Pan og Roberts (2013), vedlegg B for en mer detaljert beskrivelse.

Figur 2.5: Forenklet skjematisk av prosedyren brukt av King, Pan, and Roberts (2013) å estimere følelsen av 11 millioner kinesiske sosiale medier. For det første, i et preprocessing- trinn, konverterte forskerne de sosiale mediainnleggene til en dokumentmatrisematrise (se Grimmer and Stewart (2013) for mer informasjon). For det andre hand-kodet følelsene til en liten utvalg av innlegg. For det tredje trente de en veiledet læringsmodell for å klassifisere følelsen av innlegg. For det fjerde brukte de den veilede læringsmodellen til å estimere følelsen av alle innleggene. Se King, Pan, and Roberts (2013) , vedlegg B for en mer detaljert beskrivelse.

Til slutt oppdaget kong og kollegaer at kun tre typer innlegg ble jevnlig sensurert: pornografi, kritikk av sensorer, og de som hadde kollektive handlingspotensialer (dvs. muligheten for å føre til store protester). Ved å observere et stort antall innlegg som ble slettet og innlegg som ikke ble slettet, kunne kong og kollegaer lære hvordan censorene jobber bare ved å se og telle. Videre foreskygger et tema som vil skje gjennom hele denne boken, den veiledte læringsmetoden som de brukte - håndmåler noen utfall og deretter bygger en maskininnlæringsmodell for å melde resten - viser seg å være svært vanlig i sosial forskning i den digitale tidsalderen . Du vil se bilder som ligner på figur 2.5 i kapittel 3 (Still spørsmål) og 5 (Opprette massesamarbeid); Dette er en av de få ideene som vises i flere kapitler.

Disse eksemplene - arbeidsadfærden til drosjesjåførene i New York og den kinesiske regjeringens sosiale medieresensoradferd - viser at relativt enkel telling av store datakilder kan føre til interessant og viktig forskning i noen situasjoner. I begge tilfeller måtte forskerne imidlertid bringe interessante spørsmål til den store datakilden; dataene i seg selv var ikke nok.