2.4.1 Tel dinge

Eenvoudige tel kan interessant wees as jy dit kombineer 'n goeie vraag met 'n goeie data.

Alhoewel dit in gesofistikeerde klanktaal geplaas word, is baie sosiale navorsing regtig net dinge aan die orde. In die era van groot data kan navorsers meer as ooit tel, maar dit beteken nie dat hulle net lukraak moet begin tel nie. In plaas daarvan moet navorsers vra: Watter dinge is die moeite werd om te tel? Dit lyk dalk as 'n heeltemal subjektiewe saak, maar daar is algemene patrone.

Dikwels motiveer studente hul tellike navorsing deur te sê: Ek gaan iets tel wat niemand ooit tevore getel het nie. Byvoorbeeld, 'n student mag sê dat baie mense migrante bestudeer het en dat baie mense tweeling bestudeer het, maar niemand het tweelingstudente bestudeer nie. In my ervaring lei hierdie strategie, wat ek deur middel van afwesigheid motivering noem, gewoonlik nie tot goeie navorsing nie. Motivering deur afwesigheid is soos om te sê dat daar 'n gat daar is, en ek gaan baie hard werk om dit op te vul. Maar nie elke gat moet gevul word nie.

In plaas van om afwesig te motiveer, dink ek 'n beter strategie is om te soek na navorsingsvrae wat belangrik of interessant is (of ideaal albei). Albei hierdie terme is 'n bietjie moeilik om te definieer, maar een manier om te dink aan belangrike navorsing is dat dit 'n mate van meetbare impak het of voer in 'n belangrike besluit van beleidmakers. Byvoorbeeld, om die werkloosheidskoers te meet is belangrik omdat dit 'n aanduiding is van die ekonomie wat beleidsbesluite neem. Oor die algemeen dink ek dat navorsers 'n redelike goeie sin het van wat belangrik is. Dus, in die res van hierdie afdeling, gaan ek twee voorbeelde verskaf waarin ek dink tel is interessant. In elk geval tel die navorsers nie lukraak nie; Inteendeel, hulle tel in baie besondere instellings wat belangrike insigte in meer algemene idees oor hoe sosiale stelsels werk, geopenbaar het. Met ander woorde, baie van wat hierdie interessante oefeninge interessant maak, is nie die data self nie, dit kom uit hierdie meer algemene idees.

Een voorbeeld van die eenvoudige krag van die telling kom van Henry Farber (2015) studie van die gedrag van die New York City-taxibestuurders. Alhoewel hierdie groep nie inherent interessant kan wees nie, is dit 'n strategiese navorsingswerf vir die toets van twee mededingende teorieë in arbeidsekonomie. Vir die doel van Farber se navorsing is daar twee belangrike kenmerke oor die werkomgewing van taxibestuurders: (1) hulle uurlikse loon wissel van dag tot dag, wat gedeeltelik gebaseer is op faktore soos die weer, en (2) die aantal ure wat hulle Werk kan elke dag wissel op grond van hul besluite. Hierdie kenmerke lei tot 'n interessante vraag oor die verhouding tussen uurlikse lone en ure gewerk. Neoklassieke modelle in die ekonomie voorspel dat taxibestuurders meer sal werk op dae waar hulle hoër uurlikse lone het. Alternatiewelik, modelle van gedragsekonomie voorspel presies die teenoorgestelde. As bestuurders 'n bepaalde inkomste doelwit stel - sê $ 100 per dag - en werk totdat die teiken bereik is, dan sal bestuurders minder ure werk op dae wat hulle meer verdien. As jy byvoorbeeld 'n teikenverdiener was, kan jy vier uur op 'n goeie dag ($ 25 per uur) en vyf uur op 'n slegte dag ($ 20 per uur) werk. Dus, bestuurders werk meer ure op dae met hoër uurlikse lone (soos voorspel deur die neoklassieke modelle) of meer ure op dae met laer uurloon (soos voorspel deur ekonomiese ekonomiese modelle)?

Om hierdie vraag te beantwoord, ontvang Farber data op elke taxirit wat deur die New York City-taxi vanaf 2009 tot 2013 geneem word, data wat nou publiek beskikbaar is. Hierdie data - wat deur elektroniese meters versamel is wat die stad vereis dat taxi's gebruik word - bevat inligting oor elke reis: begin tyd, begin plek, eindtyd, eindpunt, tarief, en wenk (as die punt betaal is met 'n kredietkaart) . Met behulp van hierdie taximeterdata het Farber bevind dat die meeste bestuurders meer werk op dae wanneer lone hoër is, in ooreenstemming met die neoklassieke teorie.

Benewens hierdie hoofbevinding, was Farber in staat om die grootte van die data te gebruik vir 'n beter begrip van heterogeniteit en dinamika. Hy het gevind dat mettertyd nuwe bestuurders geleer leer om meer ure op hoë loondae te werk (soos hulle leer om te gedra soos die neoklassieke model voorspel). En nuwe bestuurders wat meer soos teikenverdieners optree, sal meer geneig wees om taxi-bestuurders te wees. Albei hierdie meer subtiele bevindings, wat die waargenome gedrag van huidige drywers help verduidelik, was slegs moontlik as gevolg van die grootte van die datastel. Dit was onmoontlik om te sien in vroeëre studies wat oor 'n kort tydperk papierstrokies van 'n klein aantal taxibestuurders gebruik het (Camerer et al. 1997) .

Farber se studie was naby aan 'n beste geval vir 'n navorsing wat 'n groot databron gebruik, omdat die data wat deur die stad versamel is, redelik naby aan die data was wat Farber sou versamel het. (Een verskil is dat Farber data op totale sou wou hê lone-tariewe plus wenke-maar die stad se data bevat slegs wenke betaal met kredietkaart). Die data alleen was egter nie genoeg nie. Die sleutel tot Farber se navorsing was om 'n interessante vraag na die data te bring, 'n vraag wat groter gevolge het as net hierdie spesifieke omgewing.

'N tweede voorbeeld van dinge te tel, kom uit navorsing deur Gary King, Jennifer Pan, en Molly Roberts (2013) op aanlyn sensuur deur die Chinese regering. In hierdie geval moes die navorsers egter hul eie groot data insamel en hulle moes die feit hanteer dat hul data onvolledig was.

Koning en kollegas is gemotiveer deur die feit dat sosiale mediaposte in China gesensor word deur 'n enorme staatsapparaat wat vermoedelik tien duisende mense insluit. Navorsers en burgers het egter min sin van hoe hierdie sensors besluit watter inhoud moet uitgevee word. Skoliere van China het eintlik teenstrydige verwagtinge oor watter soort poste die meeste waarskynlik verwyder sal word. Sommige meen dat sensors fokus op poste wat krities teenoor die staat is, terwyl ander dink dat hulle fokus op poste wat kollektiewe gedrag aanmoedig, soos protes. Om uit te vind watter van hierdie verwagtinge korrek is, het implikasies vir hoe navorsers China en ander outoritêre regerings verstaan ​​wat sensuur aangaan. Dus, King en kollegas wou poste wat gepubliseer is, vergelyk en daarna verwyder word met poste wat gepubliseer en nooit uitgevee is nie.

Invordering van hierdie poste betrokke die ongelooflike ingenieursprestasie van kruip meer as 1000 Chinese sosiale media webwerwe-elk met verskillende bladuitleg-vind relevante poste, en dan weer na hierdie poste te sien wat daarna geskrap. Benewens die normale ingenieursprobleme wat verband hou met 'n groot skaal web-kruip, hierdie projek het die bykomende uitdaging wat dit nodig is om baie vinnig te wees, want baie gesensor poste in minder as 24 uur geneem. Met ander woorde, sou 'n stadige kruiper baie poste wat gesensor mis. Verdere, die crawlers moes al hierdie data-insameling te doen terwyl ontduik opsporing sodat die media webwerwe sosiale toegang blok of andersins hul beleid te verander in reaksie op die studie.

Teen die tyd dat hierdie massiewe ingenieurswese voltooi is, het King en kollegas ongeveer 11 miljoen poste op 85 verskillende voorafbepaalde onderwerpe verkry, elk met 'n vermeende sensitiwiteitsvlak. Byvoorbeeld, 'n onderwerp van hoë sensitiwiteit is Ai Weiwei, die dissidentkunstenaar; 'n onderwerp van middelgevoeligheid is waardering en devaluasie van die Chinese geldeenheid, en 'n onderwerp van lae sensitiwiteit is die Wêreldbeker. Van hierdie 11 miljoen poste is ongeveer 2 miljoen gesensor. Iets verrassend, het King en kollegas bevind dat poste op hoogs sensitiewe onderwerpe slegs effens vaker gesensor is as poste oor middel- en lae sensitiwiteit onderwerpe. Met ander woorde, Chinese sensuur is omtrent so geneig om 'n pos te censureer wat Ai Weiwei noem as 'n pos wat die Wêreldbeker-toernooi noem. Hierdie bevindings ondersteun nie die idee dat die regering alle poste op sensitiewe onderwerpe censoreer nie.

Hierdie eenvoudige berekening van sensuurkoers per onderwerp kan egter misleidend wees. Byvoorbeeld, die regering kan poste wat ondersteunend is van Ai Weiwei censor, maar verlaat poste wat kritiek op hom is. Ten einde die poste versigtig te onderskei, het die navorsers nodig om die sentiment van elke pos te meet. Ongelukkig, ten spyte van baie werk, is daar in baie situasies nog nie baie goed geoutomatiseerde metodes van sentimentopsporing deur gebruik te maak van vooraf bestaande woordeboeke nie. (Dink terug na die probleme wat 'n emosionele tydlyn van 11 September 2001 bevat wat in afdeling 2.3.9 beskryf word). Daarom het Koning en kollegas 'n manier gehad om hul 11 ​​miljoen sosiale media poste te etiket oor die vraag of hulle (1) krities was van die staat, (2) ondersteunend van die staat, of (3) irrelevante of feitelike verslae oor die gebeure. Dit klink soos 'n massiewe werk, maar hulle het dit opgelos met behulp van 'n kragtige truuk wat algemeen in datavetenskap voorkom, maar relatief skaars in die sosiale wetenskap: onderrig onder toesig ; sien figuur 2.5.

Eerstens, in 'n stap wat tipies preprocessering genoem word, het die navorsers die sosiale media poste omskep in 'n dokumentmatriksmatriks , waar daar een ry vir elke dokument en een kolom was wat aangeteken het of die pos 'n spesifieke woord bevat (bv. Protes of verkeer) . Daarna het 'n groep navorsingsassistente die sentiment van 'n steekproef van poste gemerk. Daarna het hulle hierdie handgemerkte data gebruik om 'n masjienleermodel te skep wat die sentiment van 'n pos kon gebaseer op sy eienskappe. Ten slotte het hulle hierdie model gebruik om die sentiment van al 11 miljoen poste te skat.

Dus, eerder as om 11 miljoen poste te lees en te etiketteer - wat logisties onmoontlik sou wees - Koning en kollegas het 'n klein aantal poste handmatig gemerk en toe gebruik om onder toesig te leer om die sentiment van al die poste te skat. Na afloop van hierdie analise kon hulle tot die gevolgtrekking kom dat die waarskynlikheid dat 'n pos verwyder word, effens verbasend nie verband hou met of dit kritiek op die staat of ondersteunend van die staat was nie.

Figuur 2.5: Vereenvoudigde skematiese van die prosedure wat King, Pan en Roberts (2013) gebruik om die sentiment van 11 miljoen Chinese sosiale media-poste te skat. Eerstens het die navorsers in 'n voorverwerkingsstap die sosiale media-poste omskep in 'n dokumentmatriksmatriks (sien Grimmer en Stewart (2013) vir meer inligting). Tweedens het hulle die sentimente van 'n klein steekproef van poste gekodeer. Derdens het hulle 'n onderrigmodel onder toesig opgelei om die sentiment van poste te klassifiseer. Vierde, hulle het die onderrigleermodel gebruik om die sentiment van al die poste te skat. Sien King, Pan, and Roberts (2013), Bylaag B vir 'n meer gedetailleerde beskrywing.

Figuur 2.5: Vereenvoudigde skematiese van die prosedure wat King, Pan, and Roberts (2013) om die sentiment van 11 miljoen Chinese sosiale media-poste te skat. Eerstens het die navorsers in 'n voorverwerkingsstap die sosiale media-poste omskep in 'n dokumentmatriksmatriks (sien Grimmer and Stewart (2013) vir meer inligting). Tweedens het hulle die sentimente van 'n klein steekproef van poste gekodeer. Derdens het hulle 'n onderrigmodel onder toesig opgelei om die sentiment van poste te klassifiseer. Vierde, hulle het die onderrigleermodel gebruik om die sentiment van al die poste te skat. Sien King, Pan, and Roberts (2013) , Bylaag B vir 'n meer gedetailleerde beskrywing.

Op die ou end het koning en kollegas ontdek dat slegs drie soorte poste gereeld gesensor is: pornografie, kritiek op sensors, en diegene wat kollektiewe aksiepotensiaal gehad het (dit wil sê die moontlikheid om grootskaalse protes te lei). Deur 'n groot aantal poste te sien wat verwyder is en poste wat nie verwyder is nie, kon King en kollegas leer hoe die sensors werk net deur te kyk en te tel. Verder, 'n tema wat deur hierdie boek sal plaasvind, word die toesig oor die leerbenadering wat hulle gebruik het, sommige uitkomste gehandhaaf en 'n masjienleermodel gebou om die res van die etiket te teken. Dit blyk baie algemeen in sosiale navorsing in die digitale era te wees . U sal foto's sien wat baie ooreenstem met figuur 2.5 in hoofstukke 3 (vrae stel) en 5 (skep massamewerking); Dit is een van die min idees wat in verskeie hoofstukke voorkom.

Hierdie voorbeelde - die werksgedrag van taxibestuurders in New York en die sosiale media-sensuurgedrag van die Chinese regering - toon dat relatief eenvoudige tel van groot databronne in sommige gevalle tot interessante en belangrike navorsing kan lei. In beide gevalle moes die navorsers egter interessante vrae na die groot databron bring. die data op sigself was nie genoeg nie.