2.4.1 Counting aferoj

Simpla nombrado povas esti interesa se ​​vi kombinas bona demando kun bona datumoj.

Kvankam ĝi estas kuraĝita en altnivela voĉa lingvo, multaj sociaj esploroj vere nur rakontas aferojn. En la aĝo de grandaj datumoj, esploristoj povas kalkuli pli ol iam ajn, sed tio ne signifas, ke ili simple komencu kalkuli senkompetente. Anstataŭe, esploristoj devus demandi: Kio aferoj valoras kalkuli? Ĉi tio eble ŝajnas tute subjektiva afero, sed ekzistas iuj ĝeneralaj ŝablonoj.

Ofte lernantoj instigas ilian kalkan esploradon dirante: Mi rakontos ion, kiun neniu iam antaŭe kalkulis. Ekzemple, studento povus diri, ke multaj homoj studis migrantojn kaj multaj homoj studis ĝemelojn, sed neniu studis migrajn ĝemelojn. En mia sperto, ĉi tiu strategio, kiun mi nomas motivado de foresto , ne kutime kondukas al bona esplorado. Motivado de foresto estas simila al diri, ke ekzistas truo tie, kaj mi tre malfacile plenigos ĝin. Sed ne ĉiu truo devas esti plenigita.

Anstataŭ instigado de foresto, mi pensas, ke pli bona strategio estas serĉi esplorajn demandojn, kiuj estas gravajinteresaj (aŭ ideale ambaŭ). Ambaŭ ĉi tiuj terminoj iom malfacile difinas, sed unu maniero pensi pri grava esplorado estas ke ĝi havas iom mezurebla efiko aŭ nutras en grava decido fare de politikistoj. Ekzemple, mezuri la imposton de senlaboreco estas grava ĉar ĝi estas indikilo de la ekonomio, kiu kondukas politikajn decidojn. Ĝenerale mi opinias, ke esploristoj havas sufiĉe bonan senton pri tio, kio gravas. Do, en la resto de ĉi tiu sekcio, mi donos du ekzemplojn, kie mi opinias, ke rakontado estas interesa. En ĉiu kazo, la esploristoj ne kalkulis malrapide; pli ĝuste, ili kalkulis en tre apartaj agordoj, kiuj malkaŝis gravajn vidojn pri pli ĝeneralaj ideoj pri kiel funkcias sociaj sistemoj. Alivorte, multaj, kion faras ĉi tiuj aparta kalkulataj ekzercoj interesas, ne estas la datumo mem, ĝi venas de ĉi tiuj pli ĝeneralaj ideoj.

Unu ekzemplo de la simpla potenco de kalkulado venas de la studo de Henry Farber (2015) pri la konduto de taksiistoj de Novjorko. Kvankam ĉi tiu grupo eble ne sonas propre interesa, ĝi estas strategia esplor-ejo por provi du konkurencajn teoriojn en laborekonomio. Por la esplorado de Farber, ekzistas du gravaj trajtoj pri la labora medio de taksiistoj: (1) ilia horo salajro fluctuiĝas de tago al tago, bazita parte al faktoroj kiel la vetero, kaj (2) la nombro da horoj ili La laboro povas fluctui ĉiutage laŭ iliaj decidoj. Ĉi tiuj trajtoj kondukas al interesa demando pri la rilato inter horaj salajroj kaj horoj laboritaj. Neklasikaj modeloj en ekonomiko antaŭdiris, ke taksiistoj funkcios pli dum tagoj, kie ili havas pli altajn salajrojn. Alternative, modeloj de konduto-ekonomiko antaŭdiru ĝuste kontraŭe. Se ŝoforoj starigas apartan enspezan celon - diru $ 100 tage-kaj laboro ĝis tiu celo estas renkontita, tiam ŝoforoj finos malpli da horoj dum tagoj, kiujn ili gajnas pli. Ekzemple, se vi estus celo, vi eble funkcios kvar horojn en bona tago ($ 25 por horo) kaj kvin horojn en malbona tago ($ 20 por horo). Do, ĉu ŝoforoj laboras pli da horoj dum tagoj kun pli altaj horaj salajroj (kiel antaŭdiris la novklasikaj modeloj) aŭ pli da horoj dum tagoj kun pli malaltaj horaj salajroj (kiel antaŭdiris fare de kondukaj ekonomiaj modeloj)?

Por respondi ĉi tiun demandon, Farber akiris datumojn pri ĉiu taksio-vojaĝo prenita fare de Nov-Jorkaj kabanoj de 2009 ĝis 2013, datumoj nun publikaj. Ĉi tiuj datumoj -kiuj estis kolektitaj per elektronikaj metroj, kiujn la urbo bezonas taksiojn por uzi-inkluzivas informojn pri ĉiu vojaĝo: komenco de tempo, komenco de komenco, fina tempo, fina loko, avizo kaj konsilo (se la konsileto pagis per kreditkarto) . Uzante ĉi tiun takson-metron-datumon, Farber trovis, ke plej multaj ŝoforoj laboras pli dum tagoj, kiam salajroj estas pli altaj, koheraj kun la novklasika teorio.

Krom ĉi tiu ĉefa trovo, Farber povis uzi la grandecon de la datumoj por pli bona kompreno pri heterogeneco kaj dinamiko. Li trovis, kun la tempo, pli novaj ŝoforoj iom post iom lernas labori pli da horoj en altspeĉaj tagoj (ekz., Ili lernas konduti kiel la novklasika modelo antaŭdiras). Kaj novaj ŝoforoj, kiuj kondutas pli kiel celaj gajnantoj, estas pli verŝajne ĉesi esti taksiistoj. Ambaŭ ĉi tiuj pli subtilaj trovoj, kiuj helpas klarigi la observitan konduton de aktualaj ŝoforoj, estis nur eblaj pro la grandeco de la datumetaro. Ili estis neeble detekti en pli fruaj studoj, kiuj uzis (Camerer et al. 1997) foliojn de malgranda nombro da taksiistoj dum mallonga periodo (Camerer et al. 1997) .

La studo de Farber estis proksima al plej bona kazo por esplorado per granda datuma fonto ĉar la datumoj kolektitaj de la urbo estis sufiĉe proksime al la datumoj, kiujn Farber kolektis (unu diferenco estas, ke Farber volus informi pri totala salajro-tarifoj pliaj konsiloj-sed la grandurbo nur inkludis konsiletojn pagitajn per kreditkarto). Tamen, la datumoj sole ne sufiĉis. La ŝlosilo por la esplorado de Farber alportis interesan demandon al la datumoj, demando, kiu havas pli grandajn implikaĵojn pli ol nur ĉi tiun specifan agordon.

Dua ekzemplo de kalkulado de aferoj venas de esplorado fare de Gary King, Jennifer Pano, kaj Molly Roberts (2013) sur interreta cenzuras de la ĉina registaro. En ĉi tiu kazo, tamen, la esploristoj devis kolekti siajn proprajn grandajn datumojn kaj ili devis trakti la fakton, ke ilia datumo estis nekompleta.

Reĝo kaj kolegoj estis motivitaj de la fakto, ke sociaj amaskomunikiloj en Ĉinujo estas cenzuritaj de enorma ŝtata aparato, kiu pensas inkludi dekojn da miloj da homoj. Esploristoj kaj civitanoj, tamen, havas malmultan senton pri kiel ĉi tiuj censoroj decidas, kio enhavo devus esti forigita. Scienculoj de Ĉinio efektive havas konfliktajn atendojn pri kiuj specoj de afiŝoj plej verŝajne forigas. Iuj pensas, ke cenzoroj fokusiĝas sur afiŝoj, kiuj estas kritikaj de la ŝtato, dum aliaj opinias, ke ili fokusas en afiŝoj, kiuj instigas kolektivan konduton, kiel protestoj. Kalkulante, kiu el tiuj atendoj estas ĝustaj, havas implikaĵojn pri kiel esploristoj komprenas Ĉinion kaj aliajn aŭtoritatajn registarojn, kiuj cenzuras. Sekve, Reĝo kaj kolegoj volis kompari afiŝojn, kiuj estis publikigitaj kaj poste forigitaj per afiŝoj eldonitaj kaj neniam forigitaj.

Kolektanta tiujn afiŝojn implikis la mirinda inĝenierio heroaĵo de rampanta pli ol 1,000 ĉinaj sociaj amaskomunikiloj retejoj-ĉiu kun malsamaj paĝo layouts-trovanta koncernajn afiŝojn, kaj tiam revisitando tiujn afiŝojn por vidi kiu estis poste redaktita. Krom la normalaj inĝenierio problemoj asociitaj kun grandskala ttt-rampanta, tiu projekto havis la aldonita defio kiu lin mankis por esti ekstreme rapida ĉar multaj cenzurita afiŝojn prenitaj malsupren en malpli ol 24 horoj. Alivorte, malrapida crawler devus maltrafi multaj posts kiu estis cenzurita. Plui, la vespoj devis fari ĉiujn ĉi datenkolektado dum eskapante detekto ke la sociaj amaskomunikilaraj retejoj bloki aliron aŭ alie ŝanĝi sian politikon en respondo al la studo.

Je la tempo, kiam ĉi tiu amasa inĝeniera tasko estis finita, King kaj kolegoj akiris ĉirkaŭ 11 milionojn da poŝtoj en 85 malsamaj antaŭdifinitaj temoj, ĉiu kun supozata nivelo de sentiveco. Ekzemple, temo de alta sentiveco estas Ai Weiwei, la disidenta artisto; temo de meza sentiveco estas ĝentila kaj devaluado de la ĉina monero, kaj temo de malalta sentiveco estas la Monda Pokalo. De ĉi tiuj 11 milionoj da afiŝoj, ĉirkaŭ 2 milionoj estis cenzuritaj. Iom surprize, Reĝo kaj kolegoj trovis, ke afiŝoj pri tre sentemaj temoj estis cenzuritaj nur iomete pli ofte ol afiŝoj en meza kaj malalta sentemo. Alivorte, ĉinaj cenzoroj estas tre verŝajne cenzuri poŝton, kiu mencias al Ai Weiwei kiel poŝto kiu mencias la Monda Pokalo. Ĉi tiuj trovoj ne subtenas la ideon, ke la registaro cenzuras ĉiujn afiŝojn pri sentemaj temoj.

Tamen ĉi tiu simpla ŝtono de cenzurprezento laŭ temo povus esti trompa. Ekzemple, la registaro povus cenzuri afiŝojn, kiuj subtenas Ai Weiwei, sed lasas afiŝojn, kiuj estas maltrankviligaj pri li. Por distingi inter afiŝoj pli zorgeme, la esploristoj bezonis mezuri la senton de ĉiu poŝto. Bedaŭrinde, malgraŭ multe da laboro, plene aŭtomataj metodoj de sento detektado per ekzistantaj vortaroj ankoraŭ ne estas tre bonaj en multaj situacioj (pensas reen al la problemoj kreante tempon emocional de septembro 11, 2001 priskribita en sekcio 2.3.9). Sekve, King kaj kolegoj bezonis etikedi siajn 11 milionojn de sociaj amaskomunikiloj pri ĉu ili estis (1) kritikistoj pri la ŝtato, (2) subtenaj de la ŝtato, aŭ (3) nerelevaj aŭ faktaj raportoj pri la eventoj. Ĉi tio sonas kiel amasa laboro, sed ili solvis ĝin per potenca lertaĵo, kiu estas komuna en datuma scienco, sed relative malofta en socia scienco: supervisita lernado ; vidu figuron 2.5.

Unue, en paŝo tipe nomata preprocesado , la esploristoj transformis la sociajn amaskomunikilojn en matrican dokumenton , kie estis unu vico por ĉiu dokumento kaj unu kolumno, kiu registris ĉu la poŝto enhavis specifan vorton (ekz. Proteston aŭ trafikon) . Tuj poste, grupo de esploraj helpantoj etikedis la senton de specimeno de afiŝoj. Tiam ili uzis ĉi tiun manlibro-etikeditajn datumojn por krei maŝinan lernadon, kiu povus konkludi la senton de poŝto bazita sur ĝiaj trajtoj. Fine, ili uzis ĉi tiun modelon por taksi la senton de ĉiuj 11 milionoj da afiŝoj.

Tiel, anstataŭ legi kaj etikedi 11 milionojn da afiŝoj - kiuj estus logike neeblaj - King kaj kolegoj etikedis manlibro de kelkaj poŝtoj kaj poste uzis supervisan lernadon por taksi la sentojn de ĉiuj poŝtoj. Post kompletigado de ĉi tiu analizo, ili povis konkludi, ke iom surprize, la probablo de poŝto forigita ne rilatis al ĉu ĝi kritikas la ŝtaton aŭ subtenas la ŝtaton.

Figuro 2.5: Simplifika skemo de la proceduro uzata de King, Pano kaj Roberts (2013) por taksi la senton de 11 milionoj da ĉinaj sociaj amaskomunikiloj. Unue, en antaŭprocesa paŝo, la esploristoj transformis la sociajn amaskomunikilojn en matrican terminon (vidu Grimmer kaj Stewart (2013) por pliaj informoj). Due, ili manipulis la sentojn de malgranda specimeno de afiŝoj. Tria, ili trejnis supervisan lernadon por klasifiki la sentojn de afiŝoj. Kvara, ili uzis la supervisan lernadon por taksi la senton de ĉiuj afiŝoj. Vidu King, Pan kaj Roberts (2013), apendico B por pli detala priskribo.

Figuro 2.5: Simplifika skemo de la proceduro uzata de King, Pan, and Roberts (2013) por taksi la senton de 11 milionoj da ĉinaj sociaj amaskomunikiloj. Unue, en antaŭprocesa paŝo, la esploristoj transformis la sociajn amaskomunikilojn en matrican terminon (vidu Grimmer and Stewart (2013) por pliaj informoj). Due, ili manipulis la sentojn de malgranda specimeno de afiŝoj. Tria, ili trejnis supervisan lernadon por klasifiki la sentojn de afiŝoj. Kvara, ili uzis la supervisan lernadon por taksi la senton de ĉiuj afiŝoj. Vidu King, Pan, and Roberts (2013) , apendico B por pli detala priskribo.

Al la fino, King kaj kolegoj malkovris, ke nur tri tipoj de afiŝoj estis regule cenzuritaj: pornografio, kritiko pri cenzoroj, kaj tiuj, kiuj havis kolektivajn agojn (ekzemple, la eblecon konduki al grandskalaj protestoj). Observante grandan kvanton de afiŝoj forigitaj kaj afiŝojn, kiuj ne estis forigitaj, King kaj kolegoj povis lerni, kiel la censoroj funkcias nur rigardante kaj kalkulanta. Plie, antaŭvidante temon, kiu okazos laŭlonge de ĉi tiu libro, la supervisita lernado alproksimigas, ke ili uzis-manlibro pri iuj rezultoj kaj konstruado de maŝinforma modelo por etikedi la reston - rezultas esti tre ofta en socia esplorado en la cifereca aĝo . Vi vidos bildojn tre similan al figuro 2.5 en ĉapitroj 3 (Demandanta) kaj 5 (Kreanta amasan kunlaboron); ĉi tiu estas unu el la malmultaj ideoj, kiuj aperas en multaj ĉapitroj.

Ĉi tiuj ekzemploj -la labora konduto de taksiistoj en Novjorko kaj la socia amaskomunikilaro kondukas konduton de la ĉina registaro-montras, ke relative simpla kalkulado de grandaj datumaj fontoj povas, en iuj situacioj, konduki al interesa kaj grava esplorado. En ambaŭ kazoj, tamen, la esploristoj devis alporti interesajn demandojn al la granda fonto de datumoj; la datumoj mem ne sufiĉis.