2.4.1 skaičiavimo dalykai

Paprasta skaičiavimas gali būti įdomu, jei jūs derinti geras klausimas su gerais duomenimis.

Nors tai yra sudėtinga skambanti kalba, daugybė socialinių tyrimų tikrai tik skaičiuoja dalykus. Didelių duomenų amžiuje mokslininkai gali skaičiuoti daugiau nei bet kada, tačiau tai nereiškia, kad jie turėtų pradėti skaičiuoti atsitiktinai. Vietoj to mokslininkai turėtų paklausti: ką verta skaičiuoti? Tai gali atrodyti visiškai subjektyvus dalykas, tačiau yra keletas bendrų modelių.

Dažnai moksleiviai motyvuoja skaičiavimo tyrimą sakydami: aš ketinu suskaičiuoti kažką, apie ką niekas anksčiau niekada neskaitė. Pavyzdžiui, studentas gali sakyti, kad daugelis žmonių mokėsi migrantų, o daugelis žmonių studijavo dvynių, tačiau niekas neištirta migrantų dvynių. Mano patirtis rodo, kad ši strategija, kurią vadinu motyvacija nesant , paprastai nėra gerų tyrimų. Neteisinga motyvacija yra tokia pati kaip sakyti, kad ten yra skylė, ir aš labai sunkiai dirbsiu ją užpildyti. Bet ne kiekvieną skylę reikia užpildyti.

Manau, kad vietoj to, kad būtų motyvuojamas nebuvimas, geresnė strategija yra ieškoti svarbių ar įdomių mokslinių tyrimų klausimų (arba, jei idealu, abiejų). Abi šias sąvokas sunku apibrėžti, tačiau vienas iš būdų pamąstyti apie svarbius tyrimus yra tai, kad jis turi tam tikrą išmatuojamą poveikį arba yra svarbus politikos formuotojų sprendimas. Pavyzdžiui, svarbu įvertinti nedarbo lygį, nes tai yra ekonomikos, kuri skatina priimti politinius sprendimus, rodiklis. Apskritai, manau, kad mokslininkai labai gerai supranta, kas yra svarbu. Taigi, likusioje šio skyriaus dalyje aš duosiu du pavyzdžius, kuriuose, mano nuomone, skaičiavimas yra įdomus. Kiekvienu atveju mokslininkai sąmoningai nesvarstė; greičiau jie tikėjosi labai konkrečiose situacijose, o tai parodė svarbią įžvalgą į bendresnes idėjas apie tai, kaip veikia socialinės sistemos. Kitaip tariant, tai, kas verčia įdomiai vertinti šiuos konkrečius skaičiavimus, yra ne pats duomenų šaltinis, o iš šių bendrų idėjų.

Vienas iš paprastų skaičiavimo galių pavyzdžių yra "Niujorko taksi vairuotojai" elgesio Henry Farberio (2015) Tyrimas. Nors ši grupė gali atrodyti neįprastai įdomi, ji yra strateginė tyrimų svetainė, skirta dviejų konkurencingų darbo ekonomikos teorijų išbandymui. Farberio tyrimų tikslais yra dvi svarbios taksi vairuotojų darbo aplinkos savybės: 1) jų valandinis darbo užmokestis kinta kiekvieną dieną, iš dalies atsižvelgiant į tokius veiksnius kaip oras ir (2) valandų skaičius, kurį jie darbas gali svyruoti kiekvieną dieną pagal jų sprendimus. Šios savybės sukelia įdomų klausimą apie valandinio darbo užmokesčio ir dirbtų valandų santykį. Ekonomikos neoklasikiniai modeliai numato, kad taksi vairuotojai dirbs daugiau dienų, kai jie turi didesnį valandinį atlyginimą. Be to, elgesio ekonomikos modeliai tiksliai prognozuoja priešingą. Jei vairuotojai nustato tam tikrą pajamų tikslą - tarkim, 100 dolerių per dieną - ir dirbti, kol bus pasiektas šis tikslas, vairuotojai dirbs mažiau valandų tose dienose, kai jie uždirba daugiau. Pvz., Jei esate tikslinė uždirbantieji, galite baigti dirbti keturias valandas per gerą dieną (25 USD per valandą) ir penkias valandas už blogą dieną (20 USD per valandą). Taigi vairuotojai dirba daugiau valandų dienomis, kai valandinis atlyginimas yra aukštesnis (kaip numato neoklasikiniai modeliai) ar daugiau valandų dienomis, kuriose yra mažesnis valandinis atlyginimas (kaip prognozuojama elgesio ekonominiais modeliais)?

Norėdami atsakyti į šį klausimą, Farberas gavo duomenis apie kiekvieną taksi kelionę, kurią "Niujorko" kabinos gavo nuo 2009 iki 2013 m., Dabar viešai prieinamų duomenų. Šie duomenys, kuriuos surinko elektroniniai skaitikliai, kuriuos miestui reikia naudoti taksi, apima informaciją apie kiekvieną kelionę: pradžios laikas, pradžios vieta, pabaigos laikas, galinė buvimo vieta, bilieto kaina ir patarimas (jei patarimas buvo sumokėtas kreditine kortele) . Naudodamasis taksi skaitiklio duomenimis Farberis nustatė, kad dauguma vairuotojų dirba daugiau dienų, kai darbo užmokestis yra didesnis, atitinkantis neoklasikinę teoriją.

Be pagrindinės išvados, Farber sugebėjo naudoti duomenų dydį, kad geriau suprastų heterogeniškumą ir dinamiką. Jis nustatė, kad laikui bėgant naujesni vairuotojai laipsniškai mokosi dirbti daugiau valandų už dideles darbo dienas (pvz., Jie mokosi elgtis, kaip prognozuoja neoklasikinis modelis). Ir nauji vairuotojai, kurie elgiasi labiau kaip tiksliniai darbuotojai, labiau linkę sulaukti taksi vairuotojų. Abi šios labiau subtilios išvados, padedančios paaiškinti esamų vairuotojų elgesį, buvo įmanomos tik dėl duomenų rinkinio dydžio. Ankstesniuose tyrimuose buvo neįmanoma nustatyti, kad keletas taksi vairuotojai per trumpą laiką naudojosi popieriaus lakštais (Camerer et al. 1997) .

Farberio tyrimas buvo artimas geriausio atvejo scenarijui atlikti tyrimą naudojant didžiulį duomenų šaltinį, nes miesto surinkti duomenys buvo gana arti duomenų, kuriuos Farberas surinko (vienas skirtumas yra tai, kad Farber būtų norėjęs gauti duomenis iš viso darbo užmokesčio kainos ir patarimai, bet miesto duomenys apima tik tuos patarimus, kuriuos moka kredito kortele). Tačiau vien duomenų nepakanka. Farberio tyrimo raktas buvo įdomus klausimas į duomenis, klausimas, turintis didesnę reikšmę nei šis konkretus nustatymas.

Antrasis dalykų skaičiavimo pavyzdys yra Gary King, Jennifer Pan ir Molly Roberts (2013) Tyrimas dėl Kinijos vyriausybės vykdomos cenzūros internete. Tačiau šiuo atveju mokslininkai turėjo rinkti savo didžiulius duomenis, todėl turėjo spręsti, kad jų duomenys buvo neišsamūs.

Karalius ir jo kolegos buvo motyvuoti dėl to, kad Kinijos socialinės žiniasklaidos postus cenzūruojamas didžiulis valstybės aparatas, kuris, kaip manoma, apima dešimtys tūkstančių žmonių. Tačiau tyrėjai ir piliečiai turi mažai jausmo apie tai, kaip šie cenzorai nusprendžia, koks turinys turėtų būti ištrintas. Kinijos mokslininkai iš tiesų prieštarauja lūkesčiams dėl to, kokie įrašai greičiausiai bus ištrinti. Kai kurie mano, kad cenzorai skirti valstybei kritiškai kritikuojamoms pareigybėms, o kiti mano, kad jie orientuojasi į pareigas, skatinančias kolektyvinį elgesį, pavyzdžiui, protestus. Išvada, kuris iš šių lūkesčių yra teisingas, turi įtakos tai, kaip mokslininkai supranta Kiniją ir kitas cenzūruojančias autoritarines vyriausybes. Todėl karalius ir kolegos norėjo palyginti skelbimus, kurie buvo paskelbti ir vėliau ištrinti su skelbimais, kurie buvo paskelbti ir niekada neištrinti.

Renkant šiuos pranešimus dalyvauja nuostabų inžinerinį feat nuskaitymo daugiau nei 1000 Kinijos socialinės žiniasklaidos svetaines-su skirtingais puslapis maketai nustatymo atitinkamus pranešimus ir po to peržiūrint šiuos pranešimus ir pamatysite, kurie vėliau buvo ištrinta. Be įprastų inžinerinių problemų, susijusių su didelio masto interneto indeksavimo, šis projektas turėjo pridėtinę iššūkį, kad jis turėjo būti labai greitai, nes daug cenzūra pranešimų imtasi žemyn per mažiau nei 24 valandas. Kitaip tariant, lėtas skaitytuvas būtų praleisti daug pranešimų, kurie buvo cenzūruojamos. Be to, kad robotai turėjo atlikti visus šiuos duomenis kolekciją išvengti aptikimo Kad socialinės žiniasklaidos svetainių, blokuoti prieigą ar kitaip keisti savo politiką, reaguojant į studiją.

Iki to laiko, kai įvyko šis didžiulis inžinerijos užduotis, karalius ir jo kolegos gavo apie 11 milijonų įrašų 85 skirtingose ​​teminėse temomis, kurių kiekvienas buvo priimtinas. Pavyzdžiui, aukšto jautrumo tema yra disidento menininkas Ai Weiwei; vidutinio jautrumo tema yra kinų valiutos vertės padidėjimas ir devalvacija, o nedidelio jautrumo tema yra Pasaulio čempionatas. Iš šių 11 milijonų postuose buvo užregistruota maždaug 2 milijonai. Nemažai įdomu, karalius ir jo kolegos nustatė, kad labai jautrios temos buvo sunerimdytos tik šiek tiek dažniau nei vidutinės ir mažai jautrios temos. Kitaip tariant, Kinijos cenzorai yra tokie, kad gali cenzuoti postą, kuriame Ai Weiwei minimas kaip postas, kuriame minimas Pasaulio čempionatas. Šios išvados nepagrindžia idėjos, kad vyriausybė cenzūruos visus pranešimus jautriose temose.

Tačiau paprastas cenzūros rodiklio apskaičiavimas pagal temas gali būti klaidinantis. Pavyzdžiui, vyriausybė gali cenzūruoti pranešimus, kurie palaiko Ai Weiwei, tačiau palikti postus, kurie jam kritiškai kritikuoja. Siekiant atidžiau atskirti pareigybes, tyrėjai turėjo įvertinti kiekvieno posto jausmus . Deja, nepaisant daugybės darbų, visose automatinėse sentimentų nustatymo metodikose, naudojant anksčiau egzistuojančius žodynus, vis dar nėra labai geros daugybės situacijų (atkreipkite dėmesį į problemas, sukuriančias 2001 rugsėjo 11 d. Emocinį laiko juostą, aprašytą 2.3.9 skyriuje). Todėl Karaliui ir kolegoms reikėjo būdų, kaip 11 milijonų socialinės žiniasklaidos pranešimų pažymėti, ar jie (1) kritikavo valstybę, (2) palaikė valstybę, ar (3) nereikšmingi ar faktiniai pranešimai apie įvykius. Tai skamba kaip didžiulis darbas, tačiau jie išsprendė jį naudojant galingą triuką, kuris yra dažnas duomenų moksle, bet palyginti retas socialinių mokslų srityje: prižiūrimas mokymasis ; žr. 2.5 pav.

Pirma, žingsnyje, kuris paprastai vadinamas išankstiniu apdorojimu , mokslininkai socialinės žiniasklaidos įrašus pavertė dokumento termino matrica , kurioje kiekvienam dokumentui buvo priskirta viena eilutė ir vienas stulpelis, kuriame buvo užfiksuota, ar įraše yra konkretus žodis (pvz., Protestas ar eismas) . Be to, grupė tyrėjų asistentų rankomis pažymėjo mėginių atrankos nuostatas. Tada jie naudojo šias rankomis paženklintus duomenis, kad sukurtumėte mašininio mokymosi modelį, kuris galėtų lemti jo požymių požiūrį. Galiausiai jie naudojo šį modelį, kad įvertintų visų 11 milijonų įrašų jausmą.

Taigi, nei rankiniu būdu skaityti ir ženklinti 11 milijonų įrašų, kurie būtų logistiškai neįmanomi, karalius ir kolegos rankiniu būdu paženklino nedidelį skaičių žinučių, o paskui panaudojo prižiūrimą mokymąsi, kad įvertintų visų pranešimų jausmą. Atlikę šią analizę, jie galėjo padaryti išvadą, kad šiek tiek nenuostabu, kad išbraukto posto tikimybė nesusijusi su tuo, ar jis kritikavo valstybės ar palaikė valstybę.

2.5 pav. Supaprastinta King, Pan ir Roberts (2013 m.) Naudojamos procedūros schema, skirta 11 mln. Kinijos socialinės žiniasklaidos pranešimų vertinimui įvertinti. Pirma, atliekant išankstinio apdorojimo etapą tyrėjai socialinės žiniasklaidos postus paversdavo dokumento termino matrica (žr. Grimmer ir Stewart (2013), norėdami gauti daugiau informacijos). Antra, jie rankomis užrašė mažų pranešimų pavyzdžius. Trečia, jie parengė prižiūrimą mokymosi modelį, kad būtų galima klasifikuoti pareigybių nuotaikas. Ketvirta, jie naudojo prižiūrimą mokymosi modelį, kad įvertintų visų pranešimų jausmą. Išsamesnį aprašymą žr. King, Pan ir Roberts (2013), priedėlis B.

2.5 pav. Supaprastinta King, Pan, and Roberts (2013) Naudojamos procedūros schema, skirta 11 mln. Kinijos socialinės žiniasklaidos pranešimų vertinimui įvertinti. Pirma, atliekant išankstinio apdorojimo etapą tyrėjai socialinės žiniasklaidos postus paversdavo dokumento termino matrica (žr. Grimmer and Stewart (2013) norėdami gauti daugiau informacijos). Antra, jie rankomis užrašė mažų pranešimų pavyzdžius. Trečia, jie parengė prižiūrimą mokymosi modelį, kad būtų galima klasifikuoti pareigybių nuotaikas. Ketvirta, jie naudojo prižiūrimą mokymosi modelį, kad įvertintų visų pranešimų jausmą. Išsamesnį aprašymą žr. King, Pan, and Roberts (2013) , priedėlis B.

Galų gale Karalius ir jo kolegos atrado, kad reguliariai buvo cenzūruojami tik trys postai: pornografija, cenzorų kritika ir potencialių kolektyvinių veiksmų galimybės (ty galimybė sukelti plataus masto protestus). Stebėdami didžiulį įrašų, kurie buvo ištrinti, ir įrašų, kurie nebuvo išbraukti, skaičius karalius ir jo kolegos galėjo sužinoti, kaip cenzoriai dirba tik žiūrėdami ir skaičiuodami. Be to, per šią knygą aptariama tema, prižiūrimas mokymosi metodas, kurį jie naudojo, nurodydama kai kuriuos rezultatus, o vėliau sukūrę mašininio mokymosi modelį, kad būtų pažymėti likusieji, pasirodo esą labai įprastas socialiniuose tyrimuose skaitmeniniame amžiuje . Jūs pamatysite nuotraukas, labai panašius į 3 skyriuje (Klausiate klausimų) ir 5 (Masinio bendradarbiavimo sukūrimas) 2.5 paveiksle; tai yra viena iš nedaugelio idėjų, pateiktų keliuose skyriuose.

Šie pavyzdžiai - Niujorke veikiančių taksi vairuotojų elgesys ir Kinijos vyriausybės socialinės žiniasklaidos cenzūros elgesys rodo, kad santykinai paprastas didelių duomenų šaltinių skaičiavimas kai kuriais atvejais gali būti įdomus ir svarbus tyrimas. Tačiau abiem atvejais tyrėjai turėjo pateikti įdomių klausimų didelį duomenų šaltinį; pačių duomenų nepakako.