2.4.1 Skaitīšanas lietas

Simple skaitīšanas var būt interesanti, ja jūs apvienot labu jautājumu ar labiem datiem.

Lai gan tas ir veidots ar izsmalcinātu skanējumu, daudzi sociālie pētījumi patiešām ir tikai lietu skaitīšana. Lielu datu vecumā pētnieki var saskaitīt vairāk nekā jebkad agrāk, bet tas nenozīmē, ka viņiem vajadzētu tikai sākt skaitīt nejauši. Tā vietā pētniekiem vajadzētu jautāt: Kādas lietas ir vērts skaitīt? Tas var šķist pilnīgi subjektīvs jautājums, taču ir daži vispārīgi modeļi.

Bieži vien skolēni motivē savu skaitīšanas pētījumu, sakot: es eju skaitīt kaut ko, ko neviens iepriekš nekad nav skaitījis. Piemēram, students var apgalvot, ka daudzi cilvēki ir mācījušies migranti, un daudzi cilvēki ir mācījušies par dvīņiem, bet neviens nav pētījis migrantu dvīņus. Pēc manas pieredzes, šī stratēģija, kuru es saucu par motivāciju ar prombūtni , parasti neveic labus pētījumus. Nepilnības motivācija ir tāda pati kā sakot, ka tur ir caurums, un es ļoti intensīvi strādāju, lai to aizpildītu. Bet ne katrs caurums ir jāaizpilda.

Tā vietā, lai motivētu pēc prombūtnes, es uzskatu, ka labāka stratēģija ir meklēt svarīgus vai interesantus pētniecības jautājumus (vai ideālā gadījumā gan). Abi šie termini ir nedaudz grūti definēti, taču viens no veidiem, kā domāt par svarīgu pētījumu, ir tas, ka tam ir kāda izmērāma ietekme vai ir svarīgs politikas veidotāju nozīmīgs lēmums. Piemēram, svarīgs ir bezdarba līmeņa mērījums, jo tas ir ekonomikas rādītājs, kas vada politiskos lēmumus. Parasti es uzskatu, ka pētniekiem ir diezgan laba izpratne par to, kas ir svarīgi. Tātad, pārējās šīs sadaļas ietvaros es sniegšu divus piemērus, par kuriem es domāju, ka skaitīšana ir interesanta. Katrā gadījumā pētnieki nejauši neuzskatīja; Drīzāk viņi skaitās ļoti īpašos apstākļos, kas parādīja svarīgu ieskatu vispārīgākajās idejās par to, kā darbojas sociālās sistēmas. Citiem vārdiem sakot, daudzi, kas liek interesēties par šiem konkrētajiem skaitīšanas vingrinājumiem, nav paši dati, tie nāk no šīm vispārīgākām idejām.

Viens vienkāršās skaitīšanas spēka piemērs izriet no Ņujorkas taksometru vadītāju uzvedības Henry Farbera pētījuma (2015) . Lai gan šī grupa, iespējams, neatstāj pamatotu interesi, tā ir stratēģiska izpētes vieta, lai pārbaudītu divas konkurējošas teorijas darba ekonomikā. Farbera pētījumos ir divas svarīgas iezīmes taksometru vadītāju darba vidē: (1) viņu stundas alga svārstās no dienas uz dienu, daļēji balstoties uz tādiem faktoriem kā laika apstākļi un (2) stundu skaits, ko viņi darbs var svārstīties katru dienu, pamatojoties uz viņu lēmumiem. Šīs iezīmes rada interesantu jautājumu par saikni starp stundas algu un nostrādāto stundu skaitu. Neoklasicisma modeļi ekonomikā paredz, ka taksometru vadītāji vairāk strādās dienās, kurās viņiem ir lielāka stundas alga. Alternatīvi, uzvedības ekonomikas modeļi paredz tieši pretējo. Ja autovadītāji nosaka konkrētu ienākumu mērķi - teiksim 100 dolāru dienā - un darbs, kamēr tiks sasniegts šis mērķis, tad autovadītāji darbosies mazāk stundu dienās, kad viņi nopelnīs vairāk. Piemēram, ja jūs būtu mērķa pelnītājs, laba darba diena var būt četras stundas (25 $ stundā) un piecas stundas sliktajā dienā (20 USD stundā). Tātad, vai autovadītāji strādā vairāk stundu dienās ar augstāku stundas algu (kā to paredz neoklasicisma modeļi) vai vairāk stundu dienās ar zemāku stundas algu (kā prognozēts ar uzvedības ekonomiskajiem modeļiem)?

Lai atbildētu uz šo jautājumu, Farber ieguva datus par katru taksometra braucienu, ko Ņujorkas pilsētas kabīnes veica no 2009. līdz 2013. gadam, dati, kas tagad ir publiski pieejami. Šie dati, kurus elektroniskie skaitītāji savāca, lai pilsēta pieprasītu taksometrus, ietver informāciju par katru reisu: sākuma laiks, sākuma atrašanās vieta, beigu laiks, gala atrašanās vieta, maksa un galamērķis (ja galamērķis tiek apmaksāts ar kredītkarti) . Izmantojot šos taksometra datus, Fārbere konstatēja, ka lielākā daļa autovadītāju strādā vairāk dienā, kad algas ir augstākas, kas atbilst neoklasicisma teorijai.

Papildus šim galvenajam secinājumam Farber varēja izmantot datu lielumu, lai labāk izprastu neviendabīgumu un dinamiku. Viņš konstatēja, ka laika gaitā jaunāki autovadītāji pakāpeniski iemācas strādāt vairāk stundu laikā ar lielu darba laiku (piemēram, viņi mācās rīkoties, kā prognozē neoklasicisma modelis). Jaunie autovadītāji, kas uzvedas vairāk kā mērķa peļņa, visticamāk pamet taksometru vadītājus. Abi šie smalkāki atklājumi, kas palīdz izskaidrot pašreizējo draiveru novēroto darbību, bija iespējami tikai datu kopas lieluma dēļ. Iepriekšējos pētījumos nebija iespējams konstatēt, ka īsā laika posmā no neliela skaita taksometru vadītājiem tika izmantotas papīra ceļojuma plēves (Camerer et al. 1997) .

Farbera pētījums bija tuvu vispiemērotākajam pētījumam, izmantojot lielu datu avotu, jo dati, kurus iegūst pilsēta, bija diezgan tuvu datiem, kurus Farber būtu savācis (viena atšķirība ir tā, ka Farber būtu vēlējies datus par kopējo algas-cenas un padomi, bet pilsētas dati ietver tikai padomus, ko maksā ar kredītkarti). Tomēr tikai ar datiem nebija pietiekami. Fārbera pētījuma atslēga bija interesants jautājums par datiem, un jautājums, kuram ir lielākas sekas, pārsniedz tikai šo specifisko iestatījumu.

Otrs piemēru skaitīšanas lieta nāk no Gary King, Jennifer Pan un Molly Roberts (2013) pētījuma par Ķīnas valdības tiešsaistes cenzūru. Tomēr šajā gadījumā pētniekiem bija jāsaņem savi lielie dati, un viņiem bija jārisina fakts, ka viņu dati bija nepilnīgi.

Kings un kolēģi bija motivēti ar faktu, ka Ķīnas sociālo mediju ziņojumus cenzē milzīgs valsts aparāts, kas, domājams, ietver desmitiem tūkstošu cilvēku. Tomēr pētniekiem un pilsoņiem nav jēgas par to, kā šie cenzori izlemj, kāds saturs būtu jāsvītro. Ķīnas zinātniekiem patiešām ir pretrunīgas cerības par to, kāda veida ziņas, visticamāk, tiks dzēstas. Daži domā, ka cenzori koncentrējas uz amata vietām, kas kritiski skar valsti, savukārt citi domā, ka tie koncentrējas uz amata vietām, kas veicina kolektīvo uzvedību, piemēram, protestus. Noskaidrojot, kura no šīm cerībām ir pareiza, ir sekas tam, kā pētnieki izprot Ķīnu un citas autoritāras valdības, kas cenzūru veic. Tādēļ Kings un kolēģi vēlējās salīdzināt publicētos un pēc tam izdzēstos ziņojumus ar ziņām, kas tika publicētas un nekad netika dzēstas.

Collecting šiem amatiem iesaistīti apbrīnojamo inženieru feat indeksēšanu vairāk nekā 1000 ķīniešu sociālo mediju mājas lapām-katrs ar dažādu lapu izkārtojumi noskaidrošanas atbilstošus amatus, un pēc tam pārskatīt šos amatus, lai redzētu, kas vēlāk tika dzēsti. Papildus parastajām inženierijas problēmām, kas saistītas ar liela mēroga tīmekļa indeksēšanu, šis projekts bija papildu izaicinājumu, ka tas nepieciešams, lai būt ļoti ātri, jo daudzi cenzētas amati tiek veikti noteikti mazāk nekā 24 stundas. Citiem vārdiem sakot, lēns kāpurķēžu garām daudz amatu, kas tika izslēgti. Tālāk, roboti bija darīt visu šo datu vākšanu, bet izvairīties atklāšanu lai sociālie mediju mājas lapām bloķēt piekļuvi vai kā citādi mainīt savu politiku, reaģējot uz pētījumā.

Līdz tam laikam, kad šis milzīgais inženierijas uzdevums bija pabeigts, Kings un kolēģi bija ieguvuši aptuveni 11 miljonus amata vietu 85 dažādās iepriekš noteiktas tēmās, katra no tām bija paredzētā jutīguma pakāpe. Piemēram, ļoti jutīgas tēmas ir disidentu mākslinieks Ai Weiwei; Vidēja jutīguma tēma ir Ķīnas valūtas vērtības pieaugums un devalvācija, un zemas jutības tēma ir Pasaules kauss. No šiem 11 miljoniem amatu aptuveni 2 miljoni tika cenzēti. Diezgan pārsteidzoši, Kings un kolēģi atrada, ka amata vietas ļoti jutīgās tēmās tika cenzētas tikai nedaudz biežāk nekā amatu vidū un zemas jutības tēmās. Citiem vārdiem sakot, ķīniešu cenzeri ir tikpat iespējams, ka cenzē postu, kas piemin Ai Weiwei kā amatu, kurā minēts Pasaules kauss. Šie secinājumi neatbalsta domu, ka valdība cenzē visus amatus jutīgās tēmās.

Tomēr vienkāršs cenzūras likmju aprēķins pēc tēmas varētu būt maldinošs. Piemēram, valdība varētu cenzēt ziņas, kas atbalsta Ai Weiwei, bet atstāj ziņas, kas viņam ir kritiski. Lai rūpīgāk nošķirtu amatus, pētniekiem bija nepieciešams novērtēt katra amata noskaņojumu . Diemžēl, neskatoties uz lielu darbu, daudzās situācijās joprojām nav ļoti labas pilnīgi automatizētas attieksmju atklāšanas metodes, izmantojot jau esošās vārdnīcas (domājiet par problēmām, kas radīja emocionālo laika grafiku 2001. gada 11. septembrī, kas aprakstīts 2.3.9. Sadaļā). Tāpēc Karalim un kolēģiem bija vajadzīgs veids, kā apzīmēt savus 11 miljonus sociālo mediju ziņu, vai viņi (1) kritiski vērtē valsti, (2) atbalsta valsti vai (3) neatbilstošus vai faktiskus ziņojumus par notikumiem. Tas izklausās kā milzīgs darbs, taču viņi atrisināja to, izmantojot spēcīgu triku, kas ir izplatīts datu zinātnē, bet sociālajās zinātnēs tas ir salīdzinoši reti: uzraudzīta mācīšanās ; skatīt attēlu 2.5.

Pirmkārt, solī, ko parasti sauc par pirmapstrādi , pētnieki pārveidoja sociālās mediju ziņas par dokumentu termiņa matricu , kur katram dokumentam bija viena rinda un viena sleja, kurā tika reģistrēts, vai amatā ir noteikts konkrēts vārds (piemēram, protests vai datplūsma) . Tālāk, pētnieku asistentu grupa ar roku atzīmēja ziņojumu parauga izjūtu. Tad viņi izmantoja šos ar roku marķētos datus, lai izveidotu mašīnu mācību modeli, kas varētu novest pie ziņas noskaņojuma, pamatojoties uz tā pazīmēm. Visbeidzot, viņi izmantoja šo modeli, lai novērtētu visu 11 miljonu amata vietu noskaņojumu.

Tādējādi, nevis manuāli lasot un marķējot 11 miljonus amata vietu, kas būtu loģiski neiespējami, King un kolēģi manuāli apzīmēja nelielu skaitu amatu un pēc tam izmantoja uzraudzītu mācīšanos, lai novērtētu visu amatu noskaņojumu. Pabeidzot šo analīzi, viņi varēja secināt, ka nedaudz pārsteidzoši ir tas, ka dzēstās amata varbūtība nav saistīta ar to, vai tā kritiski skāra valsti vai atbalstīja valsti.

2.5. Attēls: King, Pan un Roberts (2013) izmantotās procedūras vienkāršota shēma, lai novērtētu 11 miljonu Ķīnas sociālo mediju ziņu noskaņojumu. Pirmkārt, pirmsapstrādes posmā pētnieki pārveidoja sociālās mediju ziņas par dokumenta termiņa matricu (skat. Grimmer un Stewart (2013), lai iegūtu vairāk informācijas). Otrkārt, viņi ar roku kodē mazā amata parauga noskaņojumu. Treškārt, viņi apmācīja uzraudzītu mācību modeli, lai klasificētu amata noskaņojumu. Ceturtkārt, viņi izmantoja uzraudzīto mācību modeli, lai novērtētu visu amatu noskaņojumu. Detalizētāku aprakstu skatīt pielikumā B par King, Pan un Roberts (2013).

2.5. Attēls: King, Pan, and Roberts (2013) izmantotās procedūras vienkāršota shēma, lai novērtētu 11 miljonu Ķīnas sociālo mediju ziņu noskaņojumu. Pirmkārt, pirmsapstrādes posmā pētnieki pārveidoja sociālās mediju ziņas par dokumenta termiņa matricu (skat. Grimmer and Stewart (2013) lai iegūtu vairāk informācijas). Otrkārt, viņi ar roku kodē mazā amata parauga noskaņojumu. Treškārt, viņi apmācīja uzraudzītu mācību modeli, lai klasificētu amata noskaņojumu. Ceturtkārt, viņi izmantoja uzraudzīto mācību modeli, lai novērtētu visu amatu noskaņojumu. Detalizētāku aprakstu skatīt pielikumā B par King, Pan, and Roberts (2013) .

Galu galā Kings un kolēģi atklāja, ka regulāri tika cenzētas tikai trīs amata vietas: pornogrāfija, cenzūru kritika un tie, kuriem bija kolektīvās rīcības potenciāls (ti, iespēja izraisīt plaša mēroga protestus). Novērojot lielu skaitu svītroto amatiņu un ziņas, kuras netika izdzēstas, Kings un kolēģi varēja uzzināt, kā cenzori strādā, skatoties un skaitot. Bez tam, priekšskatot tēmu, kas parādīsies šajā grāmatā, uzraudzīto mācību pieeju, ko viņi izmantoja, ar roku marķējot dažus rezultātus un pēc tam izveidojot mašīnu mācību modeli, lai apzīmētu pārējos, izrādās, ka digitālajā laikmetā ir ļoti izplatīta sociālā pētniecība . Jūs redzēsiet attēlus, kas ir ļoti līdzīgi 2. nodaļas 3. nodaļai (Jautājumi un 5) (masveida sadarbības veidošana); šī ir viena no nedaudzajām idejām, kas parādās vairākās nodaļās.

Šie piemēri - Ņujorkas taksometru vadītāju darba izturēšanās un ķīniešu valdības sociālo mediju cenzēšanas izturēšanās - liecina, ka relatīvi vienkāršs lielo datu avotu uzskaite dažos gadījumos var radīt interesantu un nozīmīgu pētījumu. Tomēr abos gadījumos pētniekiem bija jārada interesanti jautājumi lielajam datu avotam; paši dati nebija pietiekami.