2.4.1 fer fjölgandi hlutir

Einföld talning getur verið áhugavert ef þú sameina góða spurningu með góðum gögnum.

Þrátt fyrir að það sé slegið í háþróaðri tungu, er fjöldi félagslegra rannsókna í raun bara að telja hluti. Í aldri stóra gagna, geta vísindamenn treyst meira en nokkru sinni fyrr, en það þýðir ekki að þeir ættu bara að byrja að telja sjálfkrafa. Í staðinn, vísindamenn ættu að spyrja: Hvaða hlutir eru þess virði að telja? Þetta kann að virðast vera alveg huglægt mál, en það eru nokkrar almennar mynstur.

Oft hvetja nemendur til að telja rannsóknir sínar með því að segja: Ég ætla að telja eitthvað sem enginn hefur talað áður. Til dæmis gæti nemandi sagt að margir hafi rannsakað innflytjenda og margir hafa rannsakað tvíburar, en enginn hefur lært af tvíburum. Í þessari reynslu, þessi stefna, sem ég kalla hvatning fyrir fjarveru , leiðir yfirleitt ekki til góðrar rannsóknar. Hvatning er ekki eins og að segja að það sé gat þarna og ég er að vinna mjög erfitt að fylla það upp. En ekki þarf hvert gat að vera fyllt.

Í stað þess að hvetja til fjarveru, held ég að betri stefna sé að leita að rannsóknarspurningum sem eru mikilvægar eða áhugaverðar (eða helst bæði). Báðir þessir hugtök eru svolítið erfitt að skilgreina en ein leið til að hugsa um mikilvægar rannsóknir er að það hafi einhverja mælanleg áhrif eða fæða í mikilvæga ákvörðun stefnumótandi aðila. Til dæmis er mælikvarði á atvinnuleysi mikilvægt vegna þess að það er vísbending um hagkerfið sem rekur stefnumótun. Almennt held ég að vísindamenn hafi nokkuð góðan skilning á því sem er mikilvægt. Svo, í the hvíla af þessum kafla, ég ætla að gefa tvö dæmi þar sem ég held að telja sé áhugavert. Í hverju tilviki töldu vísindamennirnir ekki sjálfkrafa; frekar, þeir voru að telja í mjög sérstakar stillingar sem sýndu mikilvægar innsýn í almennar hugmyndir um hvernig félagsleg kerfi virka. Með öðrum orðum, mikið af því sem gerir þessi tiltekna telja æfingar áhugavert er ekki gögnin sjálft, það kemur frá þessum almennari hugmyndum.

Eitt dæmi um einföldan kraft að telja kemur frá Henry Farber (2015) rannsókn á hegðun ökumanna í New York City. Þrátt fyrir að þessi hópur gæti ekki hljómað í eðli sínu áhugaverðu, þá er það stefnumótandi rannsóknarstaður til að prófa tvær samkeppnisfræðilegar kenningar í vinnuafli. Vegna rannsókna Farber eru tveir mikilvægir eiginleikar um vinnuumhverfi leigubíla: 1) tímabundin laun sveiflast dag frá degi, að hluta til byggð á þáttum eins og veðri og (2) fjölda klukkustunda sem þeir vinna getur sveiflast á hverjum degi miðað við ákvarðanir þeirra. Þessar aðgerðir leiða til áhugaverðrar spurningar um sambandið milli klukkustundarlauna og vinnustunda. Neoclassical líkan í hagfræði spá því að leigubifreiðar muni vinna meira á dögum þar sem þeir hafa hærri vinnutíma. Að öðrum kosti spáðu módel frá hegðunarhagfræði nákvæmlega hið gagnstæða. Ef ökumenn ákveða ákveðna tekjamarkmið-segðu $ 100 á dag og vinndu þar til það er náð, þá munu ökumenn endar vinna færri klukkustundir á dögum sem þeir eru að vinna meira. Til dæmis, ef þú varst miðaþjónn gætirðu lent í fjórum klukkustundum á góðan dag ($ 25 á klukkustund) og fimm klukkustundir á slæmum degi ($ 20 á klukkustund). Þannig vinnur ökumenn fleiri klukkustundir á dögum með hærri klukkustundarlaun (eins og spáð er með nýklassískum líkönum) eða fleiri klukkustundir á dögum með lægri klukkutíma launum (eins og spáð er með hegðunarhagfræðilegum líkönum)?

Til að svara þessari spurningu fengu Farber gögn um hverja leigubíla sem tekin voru af New York City skálar frá 2009 til 2013, gögn sem eru nú aðgengileg almenningi. Þessar upplýsingar, sem voru safnað með rafrænum metrum sem borgin krefst að leigubílar nota til, innihalda upplýsingar um hverja ferð: upphafstími, upphafsstaður, lokadagur, lok staðsetning, fargjald og ábending (ef þjórfé var greitt með kreditkorti) . Farber komst að því að nota þessa farangursgögn, að flestir ökumenn vinna meira á dögum þegar laun eru hærri, í samræmi við nýklassískan kenningu.

Í viðbót við þessa helsta niðurstöðu, var Farber fær um að nota stærð gagna til að öðlast betri skilning á ólíkleika og virkni. Hann komst að því að með tímanum lærðu nýrir ökumenn smám saman að vinna fleiri klukkustundir á háum launadögum (td læra þeir að hegða sér eins og neoklassíska líkanið spáir). Og nýir ökumenn sem hegða sér meira eins og miðlari eru líklegri til að hætta að vera leigubílstjórar. Báðar þessar fíngerðar niðurstöður sem hjálpa til við að útskýra viðhorf núverandi ökumanna voru aðeins mögulegar vegna stærð gagnasafnsins. Þeir voru ómögulegt að uppgötva í fyrri rannsóknum sem notuðu pappírsblöð frá litlum fjölda ökumanna á stuttum tíma (Camerer et al. 1997) .

Farber rannsóknin var nálægt bestu tilfelli fyrir rannsóknir með stórum gagnagrunnum vegna þess að gögnin sem safnað var af borginni voru nokkuð nálægt þeim gögnum sem Farber hefði safnað (ein munur er sá að Farber hefði viljað fá upplýsingar um heildarfjölda laun-fargjöld auk ábendingar-en borgargögnin innihalda aðeins ráð sem greitt er með kreditkorti). Hins vegar voru gögnin einir ekki nóg. Lykillinn að rannsókn Farber var að vekja athyglisverða spurningu á gögnunum, spurning sem hefur stærri þýðingu en aðeins þessa tilteknu umhverfi.

Annað dæmi um að telja hluti koma frá rannsóknum Gary King, Jennifer Pan og Molly Roberts (2013) á netinu ritskoðun af kínverskum stjórnvöldum. Í þessu tilfelli þurfti vísindamenn hins vegar að safna eigin stórum gögnum og þurftu að takast á við þá staðreynd að gögn þeirra væru ófullnægjandi.

Konungur og samstarfsmenn voru hvattir af því að félagsleg fjölmiðlafærslur í Kína eru ritaðir af gríðarlegu ástandi búnaðar sem talið er að innihalda tugþúsundir manna. Vísindamenn og borgarar hafa hins vegar lítið vit á því hvernig þessi ritskoðun ákveða hvaða efni ætti að vera eytt. Fræðimenn í Kína hafa í raun andstæðar væntingar um hvaða tegundir af færslum sem líklegast er að fá eytt. Sumir telja að ritskoðanir leggi áherslu á færslur sem eru mikilvægar fyrir ríkið, en aðrir telja að þeir leggi áherslu á innlegg sem hvetja til sameiginlegrar hegðunar, svo sem mótmælenda. Ákvarða hvaða af þessum væntingum er rétt hefur áhrif á hvernig vísindamenn skilja Kína og aðrar heimildarstjórnir sem taka þátt í ritskoðun. Þess vegna vildu konungur og samstarfsmenn bera saman innlegg sem voru birtar og síðan eytt með innlegg sem voru birtar og aldrei eytt.

Söfnun þessar færslur þátt ótrúlega verkfræði feat af skríðandi meira en 1.000 kínverska félagslega fjölmiðla vefsíður-hver með mismunandi page layout-finna viðeigandi innlegg, og þá Endurlit þessar færslur til að sjá sem voru síðan eytt. Í viðbót við venjulegar verkfræði vandamál í tengslum við stórum stíl vefnum skrið, þetta verkefni var bætt áskorun sem það þarf að vera mjög hratt því margir ritskoðuð innlegg eru tekin niður í minna en 24 klst. Með öðrum orðum, a hægur vefskriðillinn myndi missa fullt af innleggjum sem voru bönnuð. Ennfremur crawlers þurfti að gera allt þetta gagnasöfnun meðan evading uppgötvun svo félagslega fjölmiðla vefsíður loka fyrir aðgang eða á annan hátt breyta stefnu þeirra til að bregðast við rannsóknina.

Frá því að þetta mikla verkfræðiverkefni hafði verið lokið höfðu konungur og samstarfsmenn fengið um 11 milljónir færslur á 85 mismunandi fyrirfram ákveðnum málefnum, hver með áætlaðan næmi. Til dæmis er efni af miklum næmi Ai Weiwei, dissident listamaðurinn; efni um miðlungs næmi er þakklæti og gengisþróun kínverskra gjaldmiðla og efni um lítið næmi er HM. Af þessum 11 milljón innlegg voru um 2 milljónir ritaðir. Konungur og samstarfsmenn komu í veg fyrir að innlegg á mjög viðkvæmum málum voru einungis ritaðar svolítið oftar en færslur um miðlungs- og lítið næmi. Með öðrum orðum, kínverska ritskoðanir eru líklega líklegar til að ritskoða færslu sem nefnir Ai Weiwei sem staða sem nefnir HM. Þessar niðurstöður styðja ekki þá hugmynd að ríkisstjórnin skynji öll innlegg á viðkvæmum málum.

Þessi einfalda útreikningur á ritskoðunarmálum eftir efni gæti hins vegar verið villandi. Til dæmis gæti ríkisstjórnin ritstýrt innlegg sem styðja Ai Weiwei, en skilið eftir störfum sem eru gagnrýninn á honum. Til þess að greina á milli staða vandlega þurfti vísindamenn að mæla viðhorf hvers pósts. Því miður, þrátt fyrir mikla vinnu, eru samtals sjálfvirkar aðferðir við að skynja viðhorf með því að nota fyrirliggjandi orðabækur ennþá ekki mjög góðar í mörgum tilfellum (hugsaðu aftur til vandamála sem skapa tilfinningalega tímalínu 11. september 2001 sem lýst er í kafla 2.3.9). Konungur og samstarfsmenn þurftu því að merkja 11 milljónir félagslegra fjölmiðla um hvort þau væru (1) gagnrýninn af ríkinu, (2) stuðning við ríkið, eða (3) óviðkomandi eða raunverulegum skýrslum um atburði. Þetta hljómar eins og gríðarlegt starf, en þau leysa það með öflugri bragð sem er algeng í upplýsingafræði en tiltölulega sjaldgæft í félagsvísindum: undir eftirliti með námi ; sjá mynd 2.5.

Í fyrsta lagi í skrefi sem venjulega var kallaður forvinnsla , breyttu vísindamenn félagsmiðlum í skjalatöflu , þar sem einn röð var fyrir hvert skjal og einn dálki sem skráði hvort staða innihéldu ákveðin orð (td mótmæli eða umferð) . Næstur, hópur rannsókna aðstoðarmenn handmerki viðhorf sýnishorn af innlegg. Síðan notuðu þeir þessa höndamerkta gögn til að búa til námsmodil fyrir vél sem gæti dregið úr viðhorf á færslu miðað við eiginleika þess. Að lokum notuðu þeir þetta líkan til að meta viðhorf allra 11 milljón innlegga.

Svona, frekar en handvirkt að lesa og merkja 11 milljón innlegg - sem væri skipulagslega ómögulegt - Konungur og samstarfsmenn merktu handvirkt lítið af innleggum og notuðu síðan undir eftirliti til að meta viðhorf allra innlegga. Eftir að hafa lokið þessari greiningu gátu þeir tekist að álykta að líkurnar á því að staða væri eytt var óháð því hvort það væri gagnrýnt ríkið eða stuðning ríkisins.

Mynd 2.5: Simplified skýringarmynd á málsmeðferð King, Pan og Roberts (2013) til að meta viðhorf 11 milljón kínverskra félagslegra fjölmiðla. Í fyrsta lagi í forvinnsluþrepi breyttu vísindamenn félagsmiðlum í skjalatöflu (sjá Grimmer og Stewart (2013) til að fá frekari upplýsingar). Í öðru lagi hönduðust þau tilfinningar lítillar sýnishorn af innleggum. Í þriðja lagi lærðu þeir námsmat sem var undir eftirliti til að flokka ummæli innlegga. Í fjórða lagi notuðu þeir eftirlitsnemann til að meta viðhorf allra innlegga. Sjá King, Pan og Roberts (2013), viðauka B fyrir nánari lýsingu.

Mynd 2.5: Simplified skýringarmynd á málsmeðferð King, Pan, and Roberts (2013) til að meta viðhorf 11 milljón kínverskra félagslegra fjölmiðla. Í fyrsta lagi í forvinnsluþrepi breyttu vísindamenn félagsmiðlum í skjalatöflu (sjá Grimmer and Stewart (2013) til að fá frekari upplýsingar). Í öðru lagi hönduðust þau tilfinningar lítillar sýnishorn af innleggum. Í þriðja lagi lærðu þeir námsmat sem var undir eftirliti til að flokka ummæli innlegga. Í fjórða lagi notuðu þeir eftirlitsnemann til að meta viðhorf allra innlegga. Sjá King, Pan, and Roberts (2013) , viðauka B fyrir nánari lýsingu.

Að lokum komst konungur og samstarfsmenn að því að aðeins þrjár gerðir af innleggum voru reglulega ritaðir: klám, gagnrýni á ritskoðun og þeir sem höfðu sameiginlega aðgerðarmöguleika (þ.e. möguleika á að leiða til stórfelldar mótmælenda). Með því að fylgjast með miklum fjölda innlegga sem voru eytt og innlegg sem ekki voru eytt, voru konungur og samstarfsmenn fær um að læra hvernig ritskoðunin virkar bara með því að horfa á og telja. Ennfremur að skýra fyrir um þema sem mun eiga sér stað í þessari bók, sem eftirlitsaðildaraðferðin sem þau notuðu - merkja nokkrar niðurstöður og síðan að byggja upp vélarlíkan til að merkja afganginn - reynist mjög algeng í félagslegum rannsóknum á stafrænu aldri . Þú munt sjá myndir mjög líkar við mynd 2.5 í kafla 3 (Spyrja spurninga) og 5 (Búa til fjöldamiðlun); Þetta er ein af fáum hugmyndum sem birtast í mörgum köflum.

Þessar dæmi - starfshegðun ökumanna í New York og félagslega fjölmiðla ritskoðunarhætti kínverskra stjórnvalda - sýna að tiltölulega einföld telja stór gagnasöfn geta leitt til áhugaverðra og mikilvægra rannsókna í sumum tilfellum. Í báðum tilvikum þurfti vísindamenn hins vegar að koma með áhugaverðar spurningar á stóru gagnamagnið; gögnin sjálfu var ekki nóg.