2.4.1 Counting stvari

Jednostavno brojanja može biti zanimljivo ako kombinujete dobro pitanje sa dobrim podacima.

Iako je prikazan na sofisticiranom jeziku, mnogo društvenih istraživanja stvarno samo računaju stvari. U doba velikih podataka, istraživači mogu računati više nego ikada, ali to ne znači da bi trebali započeti prebrojavanje slučajno. Umjesto toga, istraživači bi trebalo da pitaju: Šta vredi računati? Ovo može izgledati kao sasvim subjektivna stvar, ali postoje neki opšti obrasci.

Često učenici motivišu svoje istraživanje brojačem govoreći: Ja ću računati nešto što niko ranije nije računao. Na primer, jedan student može reći da su mnogi ljudi proučavali migrante, a mnogi ljudi su proučavali blizance, ali niko nije proučavao bliske migrante. Po mom iskustvu, ova strategija, koju nazivam motivacijom zbog odsustva , obično ne dovodi do dobrog istraživanja. Motivacija po odsustvu je kao da kažem da je tu rupa i ja ću jako raditi da ga popunem. Ali ne mora se svaka rupa popuniti.

Umjesto da motivišem odsustvo, mislim da je bolja strategija tražiti istraživačka pitanja koja su važna ili zanimljiva (ili idealno oboje). Oba ova izraza teško je definisati, ali jedan način razmišljanja o važnim istraživanjima je da ima određeni mjerljivi utjecaj ili se hrani u važnu odluku od strane kreatora politike. Na primer, merenje stope nezaposlenosti je važno jer je indikator privrede koja vodi političke odluke. Generalno, mislim da istraživači imaju prilično dobar smisao za ono što je važno. Dakle, u ostatku ovog odeljka ću vam dati dva primjera gdje mislim da je brojanje zanimljivo. U svakom slučaju, istraživači nisu računali bez slučaja; već su računali u vrlo specifičnim postavkama koje su otkrile važne uvide u više opštih ideja o tome kako funkcioniraju socijalni sistemi. Drugim riječima, puno toga što čini ove posebne brojne vježbe interesantnim, nisu sami podaci, već potiče od ovih općih ideja.

Jedan primer jednostavne moći prebrojavanja dolazi od studije Henrija Farbera (2015) o ponašanju taksistara iz Njujorka. Iako ova grupa možda ne zvuči interesantno, to je strateško istraživačko mesto za testiranje dve konkurentske teorije u ekonomiji rada. U svrhu Farberovog istraživanja postoje dve važne karakteristike o radnom okruženju taksista: (1) njihova dnevna zarada se dnevno fluktuira, djelimično zasnovana na faktorima kao što su vremenske prilike, i (2) koliko sati rad može da dnevno fluktuira na osnovu svojih odluka. Ove karakteristike dovode do zanimljivog pitanja o odnosu između dnevnih zarada i radnog vremena. Neoklasični modeli u ekonomiji predviđaju da će taksi vozači raditi više dana u kojima imaju veće satne plate. Alternativno, modeli ekonomije ponašanja predviđaju upravo suprotno. Ako vozači postavljaju određenu ciljnu stopu prihoda - recimo 100 dolara dnevno - i rade dok se ta meta ne ispuni, onda će vozači raditi manje sati u danima da zarađuju više. Na primjer, ukoliko ste bili ciljni radnik, možda ćete raditi četiri sata na dobar dan (25 dolara po satu) i pet sati na loš dan (20 dolara po satu). Dakle, da li vozači rade više sati dnevno sa višim satnim plažama (kao što predviđaju neoklasični modeli) ili više sati dnevno sa nižim satnim plažama (kako to predviđaju ekonomski modeli u ponašanju)?

Da bi odgovorio na ovo pitanje, Farber je dobio podatke o svakom taksističkom putovanju koje su koristile kabine iz Njujorka od 2009. do 2013. godine, podaci koji su sada dostupni javnosti. Ovi podaci - koje su sakupljali elektronski brojilci kojima grad zahtijeva taksije za korištenje - uključuju informacije o svakom putovanju: vrijeme početka, početak lokacije, vrijeme završetka, krajnja lokacija, cijena i vrh (ako je savjet plaćen kreditnom karticom) . Koristeći ove podatke o taksometru, Farber je našao da većina vozača radi više u danima kada su plate veće, u skladu sa neoklasičkom teorijom.

Pored ovog glavnog nalaza, Farber je mogao da koristi veličinu podataka radi boljeg razumevanja heterogenosti i dinamike. Otkrio je da s vremena na vreme noviji vozači postepeno uče da rade više sati na danima sa visokim platama (na primjer, oni uče da se ponašaju kako predviđa neoklasični model). A novi vozači koji se više ponašaju kao ciljani radnici, češće napuštaju taksiste. Oba ova suptilnija otkrića, koja pomažu u objašnjenju posmatranog ponašanja trenutnih vozača, moguća su samo zbog veličine skupa podataka. Bilo ih je nemoguće otkriti u ranijim studijama koje su u kratkom vremenskom periodu koristile papirne listove iz malenog broja taksista (Camerer et al. 1997) .

Farberova studija bila je blizu najboljeg scenarija za istraživanje korišćenjem velikog izvora podataka jer su podaci prikupljeni od grada prilično blizu podataka koje je Farber sakupio (jedna razlika je u tome što Farber bi želio podatke o ukupnom plate-cijene i saveti - ali gradski podaci su uključivali samo savjete plaćene kreditnom karticom). Međutim, samo podaci nisu bili dovoljni. Ključ Farberovog istraživanja donosio je interesantno pitanje za podatke, pitanje koje ima veće implikacije iznad samo ovog specifičnog okruženja.

Drugi primer prebrojavanja stvari dolazi od istraživanja Gary Kinga, Jennifer Pan i Molly Roberts (2013) o cenzuri na mreži od strane kineske vlade. Međutim, u ovom slučaju istraživači su morali prikupiti svoje velike podatke i morali su se baviti činjenicom da su njihovi podaci nepotpuni.

King i kolege motivisani su činjenicom da su postovi društvenih medija u Kini cenzurisani ogromnim državnim aparatom za koji se misli da uključuje desetine hiljada ljudi. Međutim, istraživači i građani nemaju smisla kako ovi cenzori odlučuju koji sadržaj treba izbrisati. Kineski naučnici zapravo imaju konfliktna očekivanja o tome koja vrsta postova će se najverovatnije izbrisati. Neki misle da se cenzori fokusiraju na posts koji su kritični prema državi, dok drugi misle da se fokusiraju na posts koji podstiču kolektivno ponašanje, kao što su protesti. Saznanje koje od ovih očekivanja je tačno ima implikacije kako istraživači razumeju Kinu i druge autoritarne vlade koje se bave cenzuriranjem. Zbog toga su King i kolege želeli da uporede objavljene i kasnije obrisane postove koje su objavljene i nikada ne brišu.

Prikupljanje ovih poruka uključena je izvanredan inženjering podvig puzi više od 1.000 kineskih društvenih medija web stranica-svaka sa različitim stranice rasporeda za pronalaženje relevantnih poruke, a zatim vraćajući ove poruke da vidimo koji su naknadno izbrisani. Pored normalnog inženjerskih problema u vezi sa velikih razmjera web-Crawling, ovaj projekt je imao dodao izazov koji je trebalo da bude vrlo brzo, jer su mnogi cenzurirani poruke su srušeni u manje od 24 sata. Drugim riječima, spor Bageri bi propustio puno mjesta koja su cenzurirani. Nadalje, crawlers morao učiniti sve ovo za prikupljanje podataka, dok je izbjegao detekciju da ne web stranicama društvenih medija blokiraju pristup ili na drugi način promijeniti svoju politiku kao odgovor na studiju.

Do trenutka kada je ovaj masivni inženjerski zadatak završen, King i kolege dobili su oko 11 miliona postova na 85 različitih tema, svaka sa pretpostavljenim nivoom osjetljivosti. Na primjer, tema visoke osjetljivosti je Ai Weiwei, disidentski umetnik; tema srednje osetljivosti je aprecijacija i devalvacija kineske valute, a tema slabe osetljivosti je Svetsko prvenstvo. Od ovih 11 miliona radnih mjesta, oko 2 miliona je bilo cenzurisano. Donekle iznenađujuće, King i kolege su otkrili da su postovi o veoma osjetljivim temama bili cenzurisani samo malo češće od mjesta na srednjim i niskosenzitivnim temama. Drugim rečima, kineski cenzori su u najmanju ruku cenzurirali post koji pominje Ai Weiwei kao post koji spominje Svetski kup. Ovi nalazi ne podržavaju ideju da vlada cenzurira sve postove o osjetljivim temama.

Međutim, ovo jednostavno izračunavanje stope cenzure po temi može biti pogrešno. Na primjer, vlada može cenzurisati postove koji podržavaju Ai Weiwei, ali ostavljaju postove koji su kritični prema njemu. Kako bi se pažljivo razlikovali postovi, istraživači su morali da izmeru osećaj svakog posta. Nažalost, uprkos velikom broju slučajeva, potpuno automatizovane metode detekcije raspoloženja koristeći već postojeće rječnike u mnogim situacijama još uvijek nisu vrlo dobre (razmislite o problemima koji stvaraju emocionalni vremenski rok od 11. septembra 2001. opisan u odjeljku 2.3.9). Zbog toga je Kingu i kolegama bio potreban način da svoje 11 miliona postova za društvene medije obeleži da li su one (1) kritične prema državi, (2) podržavaju državu, ili (3) nebitne ili činjenične izveštaje o događajima. Ovo zvuči kao masivan posao, ali su ga rešili koristeći moćni trik koji je uobičajen u nauci podataka, ali relativno retko u društvenim naukama: nadgledano učenje ; vidi sliku 2.5.

Prvo, u koraku koji se obično zove preprocessing , istraživači su pretvorili postavke društvenih medija u matricu za dokumente , gde je bio jedan red za svaki dokument i jedan kolumni koji je zabeležio da li post sadrži određenu riječ (npr. Protest ili promet) . Zatim, grupa istraživača pomerila je znakove uzorka poruka. Potom su koristili ove podatke označene rukom da bi kreirali model za učenje mašina koji bi mogao da zaključi postovanje posta na osnovu njegovih karakteristika. Najzad, oni su koristili ovaj model da procene osećaj svih 11 miliona postova.

Stoga, umesto ručnog čitanja i označavanja 11 miliona postova - što bi bilo logično nemoguće - Kralj i kolege ručno su označili mali broj postova, a zatim su koristili nadgledano učenje kako bi procijenili raspoloženje svih postova. Po završetku ove analize, oni su mogli zaključiti da je, donekle iznenađujuće, verovatnoća da se objava briše nije vezana za to da li je kritična za državu ili podržava državu.

Slika 2.5: Pojednostavljena shema postupka koji su koristili King, Pan i Roberts (2013) da procene osećaj od 11 miliona kineskih društvenih medija. Prvo, u koraku prečeavanja, istraživači su pretvorili postavke društvenih medija u matricu za dokumente (pogledajte Grimmer i Stewart (2013) za više informacija). Drugo, ručno su kodirali osećanja malih uzoraka postova. Treće, oni su obučavali nadgledani model učenja da klasifikuju raspoloženje postova. Četvrto, oni su koristili nadgledani model učenja kako bi procijenili raspoloženje svih postova. Vidite King, Pan i Roberts (2013), dodatak B za detaljniji opis.

Slika 2.5: Pojednostavljena shema postupka koji su koristili King, Pan, and Roberts (2013) da procene osećaj od 11 miliona kineskih društvenih medija. Prvo, u koraku prečeavanja , istraživači su pretvorili postavke društvenih medija u matricu za dokumente (pogledajte Grimmer and Stewart (2013) za više informacija). Drugo, ručno su kodirali osećanja malih uzoraka postova. Treće, oni su obučavali nadgledani model učenja da klasifikuju raspoloženje postova. Četvrto, oni su koristili nadgledani model učenja kako bi procijenili raspoloženje svih postova. Vidite King, Pan, and Roberts (2013) , dodatak B za detaljniji opis.

Na kraju, King i kolege su otkrili da su samo tri vrste postova redovno cenzurisane: pornografija, kritike cenzora i one koje su imale kolektivni akcioni potencijal (tj. Mogućnost vođenja velikih protesta). Posmatrajući veliki broj poruka koje su obrisane i postove koje nisu obrisane, King i kolege su mogli naučiti kako cenzori rade samo gledajući i računajući. Nadalje, pred očima teme koja će se pojaviti tokom ove knjige, pristup pod nadzorom učenja koji su koristili - ručno označavanje nekih ishoda, a zatim izgradnja modela za učenje mašina za označavanje ostataka - ispostavlja se vrlo često u društvenim istraživanjima u digitalnom dobu . Videćete slike vrlo slične kao na slici 2.5 u poglavljima 3 (Postavljanje pitanja) i 5 (stvaranje masovne saradnje); ovo je jedna od retkih ideja koje se pojavljuju u više poglavlja.

Ovi primeri - radno ponašanje taksista u Njujorku i ponašanje kineske vlade o socijalnim medijima - pokazuju da relativno jednostavno prebrojavanje velikih izvora podataka može u nekim situacijama dovesti do zanimljivih i važnih istraživanja. Međutim, u oba slučaja, istraživači su morali da daju zanimljiva pitanja velikom izvoru podataka; podaci sami po sebi nisu bili dovoljni.