2.4.1 prebrojavanje stvari

Jednostavno brojanje može biti zanimljivo ako se kombiniraju dobro pitanje s dobrim podacima.

Premda je spojen na sofisticirani zvuk, puno društvenih istraživanja zapravo samo broji stvari. U doba velikih podataka, istraživači mogu računati više nego ikad, ali to ne znači da bi trebali tek početi brojati slučajno. Umjesto toga, istraživači bi trebali pitati: Koje stvari vrijedi računati? Ovo se može činiti kao posve subjektivna stvar, ali postoje neki opći obrasci.

Često učenici motiviraju svoje istraživanje u broju govoreći: "Ja ću računati nešto što nitko nikada nije računao prije. Na primjer, student bi mogao reći da su mnogi ljudi proučavali migrante, a mnogi su proučavali blizance, ali nitko nije proučavao blizance. Po mom iskustvu, ova strategija, koju nazivam motiviranjem odsutnosti , obično ne dovodi do dobrog istraživanja. Motivacija zbog odsutnosti je vrsta kao da kažem da postoji rupa tamo, a ja ću raditi vrlo teško popuniti. Ali ne treba svaku rupu napuniti.

Umjesto motiviranja odsutnosti, mislim da je bolja strategija tražiti istraživačka pitanja važna ili zanimljiva (ili idealno oboje). Obje su ove pojmove malo teže definirati, ali jedan od načina za razmišljanje o važnim istraživanjima je da ima neki mjerljivi utjecaj ili se hrani važnom odlukom kreatora politike. Na primjer, mjerenje stope nezaposlenosti je važno jer je pokazatelj gospodarstva koji pokreće odluke o politikama. Općenito, mislim da istraživači imaju prilično dobar osjećaj za ono što je važno. Dakle, u ostatku ovog odjeljka dat ću dva primjera gdje mislim da je brojanje zanimljivo. U svakom slučaju, istraživači nisu slučajno računali; Umjesto toga, prebrojavali su se u vrlo posebnim okruženjima koja su otkrila važne uvide u općenitije ideje o tome kako socijalni sustavi rade. Drugim riječima, puno onoga što čini te posebne vježbe brojenja zanimljivo nije samo podaci, već dolazi iz ovih općenitih ideja.

Jedan primjer jednostavne snage brojanja dolazi iz istraživanja Henry Farber (2015) o ponašanju taksista u New Yorku. Iako se ova grupa možda ne zvuče kao inherentno zanimljiva, to je strateško istraživačko mjesto za testiranje dvije konkurentske teorije u ekonomiji rada. U svrhu istraživanja Farbera, postoje dvije važne značajke o radnom okruženju taksista: (1) njihova satna plaća varira od dana u dan, djelomično utemeljena na čimbenicima kao što su vrijeme i (2) broj sati rad se može mijenjati svaki dan na temelju njihovih odluka. Ove značajke dovode do zanimljivog pitanja o odnosima između satnih plaća i radnih sati. Neoklasični modeli u ekonomiji predviđaju da će taksi vozači raditi više u danima gdje imaju veće plaće po satu. Alternativno, modeli iz ekonomije ponašanja predviđaju upravo suprotno. Ako vozači postavljaju određeni cilj zarade - recimo $ 100 po danu - i rade sve dok se ne postigne taj cilj, vozači će završiti raditi manje sati na danima koji zarađuju više. Na primjer, ako ste bili ciljani zaraditelj, možda ćete završiti s radom četiri sata na dobrom danu (25 dolara po satu) i pet sati u lošem danu (20 dolara po satu). Dakle, da li vozači rade više sati dnevno s višim satnim plaćenjem (prema predviđanjima neoklasičnih modela) ili više sati dnevno s nižim satnim plaćenjem (što je predviđeno ponašanim ekonomskim modelima)?

Da bi odgovorili na to pitanje, Farber je dobio podatke o svakom taksiju koji su uzeo taksije iz New Yorka od 2009. do 2013., podaci koji su sada javno dostupni. Ti podaci - prikupljeni elektroničkim mjeračima koje grad zahtijeva korištenje taksija - uključuju informacije o svakom izletu: vrijeme početka, početak lokacije, vrijeme završetka, krajnje mjesto, cijena i savjet (ako je savjet isplaćen kreditnom karticom) , Koristeći podatke taksijera, Farber je otkrio da većina vozača radi više u danima kada su plaće veće, u skladu s neoklasičnom teorijom.

Osim ovog glavnog nalaza, Farber je mogao koristiti veličinu podataka radi boljeg razumijevanja heterogenosti i dinamike. Otkrio je da s vremenom noviji vozači postupno uče raditi više sati na danima s visokim plaćama (npr. Nauče se ponašati kako predviđa neoklasični model). I novi vozači koji se ponašaju više kao ciljani zaraditelji imaju veću vjerojatnost da prestanu biti taksi vozači. Oba ova suptilnija otkrića, koja pomažu u objašnjavanju promatranog ponašanja trenutačnih upravljačkih programa, bila su moguća samo zbog veličine skupa podataka. Oni su bili nemoguće otkriti u ranijim studijama koje su koristile papirnate (Camerer et al. 1997) iz malog broja taksista u kratkom vremenskom razdoblju (Camerer et al. 1997) .

Farberova studija bila je blizu scenarij najboljih slučajeva za istraživanje pomoću velikog izvora podataka jer su podaci prikupljeni od strane grada bili prilično blizu podataka koje je Farber prikupio (jedna od razlika je da Farber želi podatke o ukupnom broju podataka plaće - cijene i savjeti - ali podaci o gradu sadržavali su samo savjete plaćene kreditnom karticom). Međutim, samo podaci nisu bili dovoljni. Ključ Farberova istraživanja bio je donijeti zanimljivo pitanje na podatke, pitanje koje ima veće implikacije izvan ove specifične postavke.

Drugi primjer brojanja stvari dolazi iz istraživanja Gary King, Jennifer Pan i Molly Roberts (2013) o online cenzuri od strane kineske vlade. U ovom slučaju, međutim, istraživači su morali prikupljati svoje velike podatke i morali su se suočiti s činjenicom da su njihovi podaci nepotpuni.

Kralj i kolege bili su motivirani činjenicom da su socijalni mediji u Kini cenzurirani ogromnim državnim aparatom za koju se smatra da uključuje desetke tisuća ljudi. Istraživači i građani, međutim, nemaju dovoljno smisla o tome kako ti cenzori odlučuju koji bi sadržaj trebao biti izbrisan. Znanstvenici u Kini zapravo imaju proturječna očekivanja o tome koje vrste postova najvjerojatnije neće biti izbrisane. Neki smatraju da se cenzuri usredotočuju na postove koji kritički promiču državu, dok drugi misle da se usredotočuju na postove koji potiču kolektivno ponašanje, kao što su prosvjedi. Utvrditi koja je od ovih očekivanja točna ima utjecaja na to kako istraživači razumiju Kinu i druge autoritarne vlade koje se bave cenzurom. Stoga su kralj i kolege htjeli usporediti postove koji su objavljeni i kasnije izbrisani s postovima koji su objavljeni i nikada nisu izbrisani.

Prikupljanje ove postove koji su uključeni u nevjerojatnom inženjering podvig puzeći više od 1.000 kineskih društvenih medija web stranice-svaka s različitim izgleda stranica za pronalaženje relevantne postove, a zatim ponovo posjetiti ove postove kako bi vidjeli koji su naknadno izbrisani. Osim uobičajenih tehničkih problema povezanih s velikih razmjera i indeksiranja weba, ovaj projekt je imao dodatnu izazov koji je potreban da bi se vrlo brzo, jer su mnogi cenzurirane postova skinuta u manje od 24 sata. Drugim riječima, spor pauk propustiti puno postova koji su bili cenzurirani. Nadalje, pretraživači morao učiniti sve ovo prikupljanje podataka dok izbjegavate otkrivanje da su društveni mediji web stranice blokiraju pristup ili na drugi način promijeniti svoju politiku kao odgovor na studij.

Kad je ovaj veliki inženjerski zadatak bio dovršen, kralj i kolege su dobili oko 11 milijuna postova na 85 različitih unaprijed određenih tema, svaki s pretpostavljenom razinom osjetljivosti. Na primjer, tema visoke osjetljivosti je Ai Weiwei, disident umjetnik; Tema srednje osjetljivosti je uvažavanje i devalvacija kineske valute, a tema slabe osjetljivosti je Svjetsko prvenstvo. Od tih 11 milijuna radnih mjesta, oko 2 milijuna je cenzurirano. Nešto iznenađujuće, King i kolege su otkrili da su postovi na vrlo osjetljivim temama cenzurirani samo malo češće od postova na srednjoj i niskoj razini osjetljivosti. Drugim riječima, kineskim cenzorima vjerojatno će cenzurirati post koji spominje Ai Weiwei kao post koji spominje Svjetski kup. Ovi nalazi ne podupiru ideju da vlada cenzurira sve postove na osjetljivim temama.

Ovaj jednostavan izračun stope cenzure po temi može, međutim, biti pogrešan. Na primjer, vlada bi mogla cenzurirati postove koji podržavaju Ai Weiwei, ali ostavljaju postove koji su kritični za njega. Da bismo pažljivije razlikovali postove, istraživači su morali mjeriti sentimentalnost svakog posta. Nažalost, unatoč puno posla, potpuno automatizirane metode otkrivanja osjećaja pomoću već postojećih rječnika još uvijek nisu baš dobre u mnogim situacijama (razmislite o problemima koji stvaraju emocionalni datum 11. rujna 2001. opisan u odjeljku 2.3.9). Stoga su kralj i kolege trebali način označavanja 11 milijuna svojih društvenih medija o tome jesu li (1) kritični za državu, (2) podršku države, ili (3) irelevantna ili činjenična izvješća o događajima. To zvuči poput masivnog posla, ali to je riješilo snažnim trikom koji je uobičajen u znanosti o podacima, ali relativno rijetko u društvenoj znanosti: nadzirano učenje ; vidi sliku 2.5.

Prvo, u koraku koji se obično naziva preprocesiranje , istraživači su pretvorili postove društvenih medija u matricu za dokumente , gdje je bio jedan red za svaki dokument i jedan stupac koji je zabilježio je li post sadržavao određenu riječ (npr. Prosvjed ili promet) , Zatim, skupina znanstvenih suradnika rukom je označila osjećaj uzorka postova. Zatim su upotrebljavali ove podatke s oznakom ruke kako bi stvorili model učenja stroja koji bi mogao utvrditi osjećaj posta na temelju njegovih karakteristika. Konačno, koristili su ovaj model za procjenu osjećaja svih 11 milijuna postova.

Stoga, umjesto da ručno čitaju i obilježavaju 11 milijuna postova - što bi bilo logički nemoguće - kralj i kolege ručno označili mali broj postova, a zatim su koristili nadzirano učenje kako bi procijenili osjećaj svih postova. Nakon što su dovršili ovu analizu, mogli su zaključiti da je, pomalo iznenađujuće, vjerojatnost brisanja postova bila neovisna o tome je li kritična za državu ili potporu države.

Slika 2.5: Pojednostavljeni shematski postupak koji koriste kralj, Pan i Roberts (2013) kako bi procijenili osjećaj 11 milijuna kineskih društvenih medija. Prvo, u koraku predprocesiranja, istraživači su pretvorili postove društvenih medija u matricu dokumenata (vidi Grimmer i Stewart (2013.) za više informacija). Drugo, ručno su označili osjećaje malog uzorka postova. Treće, oni su obučavali nadgledani model učenja za klasificiranje osjećaja položaja. Četvrto, oni su koristili nadgledani model učenja za procjenu osjećaja svih postova. Vidi King, Pan i Roberts (2013), dodatak B za detaljniji opis.

Slika 2.5: Pojednostavljeni shematski postupak koji koriste King, Pan, and Roberts (2013) kako bi procijenili osjećaj 11 milijuna kineskih društvenih medija. Prvo, u koraku predprocesiranja , istraživači su pretvorili postove društvenih medija u matricu dokumenata (vidi Grimmer and Stewart (2013) za više informacija). Drugo, ručno su označili osjećaje malog uzorka postova. Treće, oni su obučavali nadgledani model učenja za klasificiranje osjećaja položaja. Četvrto, oni su koristili nadgledani model učenja za procjenu osjećaja svih postova. Vidi King, Pan, and Roberts (2013) , dodatak B za detaljniji opis.

Na kraju, King i njegovi kolege otkrili su da su samo tri vrste radnji redovito cenzurirane: pornografija, kritika cenzora i onih koji su imali kolektivni akcijski potencijal (tj. Mogućnost da vode na velike prosvjede). Promatrajući veliki broj postova koji su izbrisani i postove koji nisu bili izbrisani, kralj i kolege su mogli naučiti kako cenzori rade upravo gledanjem i brojanjem. Nadalje, promišljanje teme koja će se pojaviti u ovoj knjizi, nadzirani pristup učenju koji su koristili - označavanje nekih ishoda i zatim izgradnju modela strojnog učenja kako bi označili ostatak - pokazalo se vrlo čestim u društvenim istraživanjima u digitalnom dobu , Vidjet ćete slike vrlo slične slici 2.5 u poglavljima 3 (Postavljanje pitanja) i 5 (Izrada masovne suradnje); ovo je jedna od rijetkih ideja koja se pojavljuje u više poglavlja.

Ovi primjeri - radno ponašanje taksista u New Yorku i ponašanje kineske vlade cenzuriranja društvenih medija - pokazuju da relativno jednostavna brojanja velikih izvora podataka mogu u nekim situacijama dovesti do zanimljivih i važnih istraživanja. Međutim, u oba slučaja istraživači su morali donijeti zanimljiva pitanja velikim izvorima podataka; podaci sami nisu bili dovoljni.