2.4.1 Štetje stvari

Enostavno štetje lahko zanimiva, če združite dobro vprašanje z dobrimi podatki.

Čeprav je napisan v prefinjenem zvoku, veliko družbenih raziskav resnično šteje stvari. V dobi velikih podatkov lahko raziskovalci štejejo več kot kdaj koli prej, vendar to ne pomeni, da bi morali začeti štetje štetje. Namesto tega bi morali raziskovalci vprašati: Katere stvari vredno šteti? To se lahko zdi popolnoma subjektivna stvar, vendar obstaja nekaj splošnih vzorcev.

Pogosto študentje motivirajo svoje štetje raziskave z besedami: bom štel nekaj, kar nihče ni nikoli preštel. Študent bi lahko na primer rekel, da je veliko ljudi študiralo migrante in veliko ljudi je študiralo dvojčke, vendar nihče ni študiral dvojčkov migrantov. Po mojem mnenju ta strategija, ki jo imenujem motivacija z odsotnostjo , običajno ne vodi do dobrih raziskav. Motivacija z odsotnostjo je nekako rekla, da tam obstaja luknja, in zelo težko se bom trudil, da bi ga napolnil. Ampak vsa luknja ni treba napolniti.

Namesto da bi motivirali odsotnost, mislim, da je boljša strategija iskati raziskovalna vprašanja, ki so pomembna ali zanimiva (ali idealno oboje). Oba izraza je težko določiti, vendar je eden od načinov razmišljanja o pomembnih raziskavah ta, da imajo določeni merljivi učinki ali krme v pomembno odločitev oblikovalcev politike. Na primer, merjenje stopnje brezposelnosti je pomembno, ker je kazalnik gospodarstva, ki vodi politične odločitve. Na splošno menim, da imajo raziskovalci precej dober občutek, kaj je pomembno. Torej, v preostanku tega razdelka bom predstavil dva primera, kjer mislim, da je štetje zanimivo. V vsakem primeru se raziskovalci ne štejejo naključno; Raje so šteli v zelo posebnih okoliščinah, ki so pokazale pomembne vpoglede v bolj splošne zamisli o delovanju socialnih sistemov. Z drugimi besedami, veliko teh, kar naredi te posebne štetje vaje zanimivo, niso sami podatki, ampak iz teh splošnejših idej.

Eden od primerov preproste moči štetja izhaja iz študije Henryja Farberja (2015) o obnašanju taksistov v New Yorku. Čeprav se ta skupina morda ne zdi zanimivo po sebi, je strateško raziskovalno mesto za testiranje dveh konkurenčnih teorij v ekonomiji dela. Za namene raziskav Farberja obstajajo dve pomembni značilnosti delovnega okolja voznikov taksijev: (1) njihova urna postavka dnevno niha, deloma odvisna od dejavnikov, kot so vreme, in (2) koliko ur jih delo lahko na podlagi svojih odločitev dnevno niha. Te značilnosti vodijo do zanimivega vprašanja o razmerju med urnimi plačami in opravljenimi urami. Neoklasični modeli v ekonomiji napovedujejo, da bodo taksi vozniki delali več dni, ko bodo imeli višje urne plače. Druga možnost je, da modeli ekonomije vedenja napovedujejo ravno obratno. Če vozniki določijo določen dohodkovni cilj, denimo 100 evrov na dan in delajo, dokler ta cilj ne bo dosežen, bodo vozniki na dneve, ko bodo zaslužili več, delovali manj ur. Na primer, če ste bili ciljni zaslužek, boste morda na koncu delali štiri ure na dober dan (25 $ na uro) in pet ur na slab dan (20 $ na uro). Torej, ali vozniki delajo več ur dnevno z višjimi urnimi plačami (kot predvidevajo neoklasični modeli) ali več ur v dnevih z nižjimi urnimi plačami (kot jih predvidevajo vedenjski gospodarski modeli)?

Za odgovor na to vprašanje je Farber pridobil podatke o vsakem taksistu, ki so ga leta 2009 do leta 2013 zasedale kabine New York City, podatki, ki so zdaj javno dostopni. Ti podatki, ki so jih zbrali elektronski števci, ki jih mesta potrebujejo za uporabo taksijev, vključujejo informacije o vsakem potovanju: čas začetka, začetna lokacija, končni čas, končna lokacija, voznina in konica (če je bil nasvet plačan s kreditno kartico) . Z uporabo teh podatkov merilnika taksijev je Farber ugotovil, da večina voznikov deluje več dni, ko so plače višje, v skladu z neoklasično teorijo.

Poleg te glavne ugotovitve je Farber lahko uporabil tudi velikost podatkov za boljše razumevanje heterogenosti in dinamike. Ugotovil je, da se sčasoma novejši vozniki postopoma naučijo, da delajo več ur na dnevih visoke plače (npr. Se naučijo obnašati, kot pravi neoklasični model). In novi vozniki, ki se obnašajo bolj kot ciljni zaposleni, so bolj verjetno, da bodo zapustili taksiste. Obe od bolj subtilnih ugotovitev, ki pomagata razložiti opazovano vedenje trenutnih voznikov, sta bila mogoča samo zaradi velikosti nabora podatkov. V prejšnjih študijah, ki so v kratkem časovnem obdobju uporabili papirnate potovalne liste iz majhnega števila taksistov, je bilo nemogoče odkriti (Camerer et al. 1997) .

Farberjeva študija je bila blizu najboljšega možnega scenarija za raziskavo z uporabo velikega vira podatkov, saj so bili podatki, zbrani v mestu, precej blizu podatkom, ki jih je Farber pobiral (ena razlika je, da bi Farber želel podatke o skupnem plače in dodatki - vendar so podatki o mestih vključevali samo nasvete, ki jih plača kreditna kartica). Vendar samo podatki niso bili dovolj. Ključ do raziskav Farberja je bil zanimivo vprašanje za podatke, vprašanje, ki ima večje posledice, ki presegajo samo to specifično okolje.

Drugi primer štetja stvari izhaja iz raziskav Gary King, Jennifer Pan in Molly Roberts (2013) o spletni cenzuri s strani kitajske vlade. V tem primeru pa so raziskovalci morali zbrati svoje velike podatke in morali so se ukvarjati z dejstvom, da so bili njihovi podatki nepopolni.

King in kolegi so bili motivirani z dejstvom, da so objave na socialnih medijih na Kitajskem cenzurirane z ogromnim državnim aparatom, ki naj bi vključeval več deset tisoč ljudi. Vendar pa raziskovalci in državljani nimajo smisla, kako se ti cenzorji odločijo, katere vsebine bi bilo treba izbrisati. Kitajski znanstveniki dejansko nasprotujejo pričakovanjem, katere vrste delovnih mest se najverjetneje zbrišejo. Nekateri menijo, da se cenzorji osredotočajo na delovna mesta, ki so kritična do države, drugi pa menijo, da se osredotočajo na delovna mesta, ki spodbujajo kolektivno vedenje, kot so protesti. Ugotoviti, katera od teh pričakovanj je pravilna, vpliva na to, kako raziskovalci razumejo Kitajsko in druge avtoritarne vlade, ki se vključujejo v cenzuro. Zato sta King in sodelavci želeli primerjati objave, ki so bile objavljene in nato izbrisane z objave, ki so bile objavljene in niso nikoli izbrisane.

Zbiranje teh objav je izbral neverjetno inženiring feat plazil več kot 1000 kitajskih socialnih medijev spletne strani-vsak z različnimi stran postavitve, iskanje ustreznih delovnih mest, nato pa ponovno pregledati te prispevke za prikaz, ki so bili pozneje izbrisani. Poleg običajnih inženirskih problemov, povezanih z obsežno spletno lezenjem, je imel ta projekt dodano izziv, ki bi ga bilo treba zelo hitro, ker je veliko cenzurirani objav zapisati v manj kot 24 urah. Z drugimi besedami, bi počasi pajek zamudili veliko delovnih mest, ki so bile okrnjene. Poleg tega so imeli pajki, da stori vse to zbirko podatkov, medtem ko izogibanje odkrivanje da ne spletne strani, social media blokira dostop ali kako drugače spreminjati svoje politike v odziv na študijo.

Do konca tega ogromnega inženirskega dela je King in sodelavci dobil približno 11 milijonov delovnih mest na 85 različnih tematskih področjih, od katerih je vsaka z domnevno stopnjo občutljivosti. Tema visoke občutljivosti je na primer Ai Weiwei, disidentski umetnik; tema srednje občutljivosti je apreciacija in devalvacija kitajske valute, tema slabe občutljivosti pa je svetovni pokal. Od teh 11 milijonov delovnih mest je bilo cenzuriranih okoli 2 milijona delovnih mest. Nekoliko presenetljivo je, da sta kralj in kolegi ugotovili, da so delovna mesta o zelo občutljivih temah cenzurirana le nekoliko bolj pogosto kot delovna mesta v srednjih in nizko občutljivih temah. Z drugimi besedami, kitajski cenzorji bodo verjetno cenzurirali delovno mesto, ki Ai Weiwei omenja kot post, ki omenja svetovni pokal. Te ugotovitve ne podpirajo ideje, da vlada cenzurira vsa delovna mesta o občutljivih temah.

Ta preprost izračun cenzorske stopnje po temi bi bil lahko zavajajoč. Na primer, vlada lahko cenzurira delovna mesta, ki podpirajo Ai Weiweija, vendar pustijo objavo, ki je kritična zanj. Za natančnejše razlikovanje med objavami so morali raziskovalci izmeriti občutke za vsako delovno mesto. Na žalost, kljub veliko dela, popolnoma avtomatizirane metode zaznavanja razpoloženja z že obstoječimi slovarji v mnogih primerih še vedno niso zelo dobre (razmislite o težavah, ki ustvarjajo čustveno časovno obdobje 11. septembra 2001, opisano v poglavju 2.3.9). Zato sta Kralju in sodelavcem potrebovala način, kako označiti svoje 11 milijonov delovnih mest v socialnih medijih, ali so (1) kritični do države, (2) podpirajo državo ali (3) nepomembna ali dejanska poročila o dogodkih. To je resnično ogromno delo, vendar ga je rešilo z uporabo močnega trika, ki je v znanosti o podatkih pogost, vendar v družboslovju sorazmerno redko: nadzorovano učenje ; glej sliko 2.5.

Prvič, v koraku, ki se običajno imenuje preprocessing , so raziskovalci pretvorili postove socialnih medijev v dokumentno matriko , kjer je bila za vsak dokument ena vrstica in en stolpec, ki je zapisal, ali je objava vsebovala določeno besedo (npr. Protest ali promet) . Nato je skupina raziskovalnih pomočnikov z roko označila občutke vzorec delovnih mest. Potem so uporabili te ročno označene podatke, da bi ustvarili strojni učni model, ki bi lahko sklepal o delovanju posta, ki temelji na njegovih značilnostih. Nazadnje so uporabili ta model za oceno občutka vseh 11 milijonov delovnih mest.

Tako je namesto ročnega branja in označevanja 11 milijonov delovnih mest, kar bi bilo logistično nemogoče, King in sodelavci ročno označili majhno število delovnih mest in nato uporabili nadzorovano učenje, da bi ocenili razpoloženje vseh delovnih mest. Po zaključku te analize so lahko zaključili, da je nekoliko presenetljivo, da je verjetnost, da se objava izbriše, povezana s tem, ali je bila kritična za državo ali za državo.

Slika 2.5: Poenostavljena shema postopka, ki so ga uporabili King, Pan in Roberts (2013) za oceno občutka 11 milijonov kitajskih delovnih mest v socialnih medijih. Prvič, v koraku predprocesiranja so raziskovalci pretvorili postavke socialnih medijev v dokumentno matriko (za več informacij glej Grimmer in Stewart (2013)). Drugič, ročno kodirali so občutke majhnega vzorca delovnih mest. Tretjič, usposabljali so nadzorovani učni model za razvrstitev razpoloženja delovnih mest. Četrtič, uporabili so nadzorovani učni model za oceno občutka vseh delovnih mest. Glej King, Pan in Roberts (2013), dodatek B za podrobnejši opis.

Slika 2.5: Poenostavljena shema postopka, ki so ga uporabili King, Pan, and Roberts (2013) za oceno občutka 11 milijonov kitajskih delovnih mest v socialnih medijih. Prvič, v koraku predprocesiranja so raziskovalci pretvorili postavke socialnih medijev v dokumentno matriko (za več informacij glej Grimmer and Stewart (2013) ). Drugič, ročno kodirali so občutke majhnega vzorca delovnih mest. Tretjič, usposabljali so nadzorovani učni model za razvrstitev razpoloženja delovnih mest. Četrtič, uporabili so nadzorovani učni model za oceno občutka vseh delovnih mest. Glej King, Pan, and Roberts (2013) , dodatek B za podrobnejši opis.

Na koncu so King in sodelavci ugotovili, da so bile redno cenzurirane le tri vrste delovnih mest: pornografija, kritike cenzorjev in tiste, ki so imeli skupni akcijski potencial (tj. Možnost vodenja obsežnih protesta). S spremljanjem velikega števila delovnih mest, ki so bile izbrisane, in objav, ki niso bile izbrisane, sta King in sodelavci izvedeli, kako cenzorji delujejo samo tako, da gledajo in štejejo. Poleg tega, ki predvideva temo, ki se bo zgodila v tej knjigi, se nadzorovani učni pristop, ki ga uporabljajo - označuje nekaj rezultatov in nato oblikuje strojni učni model za označevanje preostalih - se izkaže za zelo razširjen pri družbenih raziskavah v digitalni dobi . Boste videli slike, ki so zelo podobne sliki 2.5 v poglavjih 3 (Vprašanja za vprašanja) in 5 (Ustvarjanje množičnega sodelovanja); to je ena redkih idej, ki se pojavljajo v več poglavjih.

Ti primeri - delovno obnašanje taksistov v New Yorku in vedenje kitajske vlade o družabnih medijih - kažejo, da lahko sorazmerno preprosto štetje velikih virov podatkov v nekaterih situacijah vodi do zanimivih in pomembnih raziskav. V obeh primerih pa so raziskovalci morali postaviti zanimiva vprašanja velikemu viru podatkov; podatki sama po sebi niso bili dovolj.