2.4.1 Counting dingen

Simple groeit kin wêze nijsgjirrich as jo kombinearje in goede fraach mei goede gegevens.

Hoewol it yn 'e súksesfolle klankende taal bepaald wurdt, is in soad sosjale ûndersiken echt gewoan dingende dingen. Yn 'e leeftyd fan grutte gegevens kinne ûndersikers mear as ea steane, mar dat betsjuttet net dat se gewoan begjinne moatte te ferwachtsjen. Yn 't plak moatte ûndersikers freegje: Wat dingen binne te rekkenjen? Dit kin wêze as in folsleine subjektive saak, mar dêr binne guon algemiene patroanen.

Faak stimulearje learlingen har rekken ûndersiikje troch te sizzen: Ik sille ien ding dat net ien hat earder talitten. Bygelyks kin in studint sizze dat in protte minsken migranten hawwe studearre en in soad minsken hawwe twilling studearre, mar gjinien hat migrantelingen studearre. Yn myn ûnderfining is dizze strategy, dy't ik motivaasje troch absinsje neamt, net normaal liedt ta goede ûndersyk. Motivaasje troch ôfwêzigens is maklik sa't se sizze dat der in gat is dêr, en ik sil tige hurd wurkje om it te folle. Mar net alle gatten moatte fol wêze.

Ynstee fan motivearring troch absinsje, tink ik dat in better strategy is om ûndersyksfragen te sykjen dy't wichtich of ynteressant binne (of ideaal sawol). Beide fan dizze termen binne in bytsje hurder om te definiearjen, mar in manier om tinke oer wichtich ûndersyk is dat it wat misbrûkele impact of feeds hat yn in wichtige beslút troch beliedsmakkers. Bygelyks, it messen fan 'e wurkleazens is wichtich omdat it in lekker fan' e ekonomy is dy't beliedsûntdielingen draait. Meastentiids tink ik dat ûndersikers in aardich goed sin hawwe fan wat wichtich is. Dus, yn 'e rest fan dit paragraaf sil ik twa foarbylden leverje wêr't ik tink dat is interessant. Yn elk gefal wienen de ûndersikers net happerich te ferwachtsjen; Earder, se rekkenje yn tige bepaalde ynstellings dy't wichtige ynsjenningen yn mear algemiene ideeën ûntdutsen hawwe oer hoe't sosjale systemen wurkje. Mei oare wurden, in soad fan wat it bysûndere toetsen fan 'e oefeningen interessant makket, is net de gegevens sels, it komt út dizze mear algemiene ideeën.

In foarbyld fan 'e ienfâldige krêft fan tellen komt fan' e Henry Farber's (2015) stúdzje fan it gedrach fan taxi-bestjoerders fan New York City. Hoewol dizze groep miskien net iensich interessant klinkt, is it in strategysk ûndersyksplak foar testen fan twa konkurearjende teoryen yn laboronomie. Foar it doel fan Farber's ûndersyk binne der twa wichtige funksjes oer it arbeidsomjouwing fan taxi drivers: (1) har oere-leeftyd fluktuïte fan dei oant dei, basearre dielt op faktueren as it waar, en (2) it tal oeren dat se wurk kin elke dei faze op basis fan har besluten. Dizze funksjes liede ta in nijsgjirrige fraach oer de relaasje tusken oere-leeftyd en oeren wurke. Neoklassiske modellen yn 'e ekonomy sjogge dat taksy-bestjoerders mear wurkje op de dagen dêr't se hegere oeren lien hawwe. As alternatyf foarbylden fan 'e gedrachsekonomy sjogge jo it tsjinoerstelde. As de bestjoerders in bepaald ynkommensdoel sette - sizze $ 100 per dei - en wurkje oant dat doel foldocht, dan sille de bestjoerders har minder oeren wurkje op dagen dy't se mear krije. Bygelyks, as jo in doelbewenners wiene, dan kinne jo ein fjouwer oeren wurkje op in goeie dei ($ 25 per oere) en fiif oeren op in minne dei ($ 20 per oere). Dus soene de bestjoerders mear oeren wurkje op dagen mei hegere oeren lienen (sa't it praten wurdt troch de neoklassisyske modellen) of mear oeren op dagen mei legere oeren lienen (sa't troch fertraging ekonomyske modellen presintearre wurdt)?

Om dizze fraach te beantwurdzjen Farber krigen data oer elke taxi reis dy't New York City cabs fan 2009 oant 2013 nommen binne, dat gegevens no iepenbier beskikber binne. Dizze gegevens dy't troch elektroanyske meter sammele binne dat de stedsferbinings gebrûk meitsje moatte - ynformaasje ynfo oer elke reis: begjinnende tiid, startlokaasje, eintiid, ein lokaasje, fare en tip (as de tip waard betelle mei in kredytkaart) . Mei dizze taxi meter gegevens fûn Farber dat de measte bestjoerders mear op wurkjen wurkje op dagen dêr't ligen heger binne, konsekwint mei de neoklassisyske teory.

Neist dizze wichtige fynst koe Farber de grutte fan 'e gegevens brûke foar in better begryp fan heterogeniteit en dynamyk. Hy fûn dat, yn 'e rin fan' e tijd, nije learkrêften stadichoan learen om mear oeren te wurkjen op heechwearde dagen (bgl. Se leare te behanneljen as it neoklassiske model foarsjocht). En nije bestjoerders dy't mear as doelbewenners behannelje, binne mear as wierskynlik te wêzen fan taksi-bestjoerders. Beide fan dizze subtilere fynsten, dy't de beoardielde gedrach fan hjoeddeiske bestjoerders helpe, binne allinich mooglik wegen fan de grutte fan it datasjet. Se wiene ûnmooglik om yn eardere stúdzjes te (Camerer et al. 1997) fan in lyts tal taxi-bestjoerders oer in koarte tiid (Camerer et al. 1997) .

Farber's stúdzje wie ticht by in best-case senario foar in ûndersyk mei in grutte data boarne om't de gegevens dy't troch de stêd sammele waarden krekt tichtby de gegevens dy't Farber sammele ha (ien ferskil is dat Farber soene gegevens oer total ljeppers plus tips - mar de stedsgegevens befette allinich tips dy't betelle wurde troch credit card). De gegevens allinnich wiene net genôch. De kaai foar Farber's ûndersyk hat in nijsgjirrige fraach oan 'e gegevens brocht, in fraach dy't grutter gefolchingen hat dan allinich dizze spesifike ynstelling.

In twadde foarbyld fan it dingjen fan dingen komt út ûndersyk fan Gary King, Jennifer Pan, en Molly Roberts (2013) oer online sensure troch de Sineeske regearing. Yn dit gefal moasten de ûndersikers har eigen grutte gegevens sammelje en se moasten omgean mei it feit dat harren gegevens ûnfoldwaande binne.

Kening en kollega's waarden motivearre troch it feit dat sosjale media-posten yn Sina sintraere wurde troch in geweldige steatapparat dy't gedacht is om tsientûzenen minsken te winnen. Undersikers en boargers hawwe lykwols net in soad gefoel hoe't dizze sintra's beslute hokker ynhâld ferwiderje moat. Untfongen fan "http://fy.wikipedia.org/w/index.php?title=Kategory:Wetter_yn_it_Ofbylding&oldid=60090" Kategoryen: Guon tinke dat sintraasjes rjochtsje op posts dy't kritysk binne fan 'e steat, wylst oaren tinke dat se rjochtsje op berjochten dy't kollektyf gedrach stimulearje, lykas protests. Tink derom út hokker fan dizze ferwachtingen is korrekt hat gefolgen foar hoe't ûndersikers Sina en oare autoritêre regearen begripe dy't yn sesje hawwe. Dêrom woe kening en kollega's berjochten sjen litte dy't publisearre waarden en letter ferwiderje mei posts dy't publisearre waarden en nea wiske.

Collecting dizze berjochten belutsen it amazing engineering feat fan Crawling mear as 1.000 Chinese sosjale media websiden-elk mei ferskillende side layouts-finding relevante berjochten, en dan revisiting dizze berjochten om te sjen hokker waarden dêrnei wiske. Njonken de normale engineering problemen ferbûn mei grutte skaal web-Crawling, dit projekt hie de tafoege útdaging dat it nedich te wêzen tige fluch omdat in soad censored berjochten wurde ôfnommen yn minder as 24 oeren. Yn oare wurden, in trage crawler soe misse in soad berjochten dy't censored. Fierder, de crawlers moasten dwaan al dizze gegevens samling wylst striid tsjin opspoaren dat de sosjale media websites blokkearje tagong of oars feroarje harren belied yn nei oanlieding fan it ûndersyk.

By de tiid dat dizze massive technyske opdracht foltôge wie, hiene kening en kollega's sa'n 11 miljoen punten op 85 ferskillende presintearjen ûnderwerpen krigen, elk mei in oannommen nivo fan sensibiliteit. Bygelyks, in ûnderwerp fan hege gefoeligens is Ai Weiwei, de dissident artist; In ûnderwerp fan middelbere sensibiliteit is wurdearring en devaluaasje fan 'e Sineeske munt, en in ûnderwerp fan lege sensibiliteit is de Wrâldbeker. Fan dizze 11 miljoen punten waarden sa'n 2 miljoen besmetten. Eartiids ferwûnderlik, kening en kollega's fûnen dat posten op heul gefoelige ûnderwerpen allinne mar wat faker as fertsjinwurdige sintúten fertsjinne as berjochten op middel- en leech-sensitiviteel ûnderwerpen. Mei oare wurden, sineare sintra's hawwe sawat wierskynlik in post te fertsjinjen dy't Ai Weiwei neamt as in post dy't de wrâldbeker neamt. Dizze befiningen stypje it idee dat de regearing alle posten op sensitive ûnderwerpen fertsjinnet.

Dizze ienfâldige berekkening fan sesje-rinte troch ûnderwerp kin lykwols misliedend wêze. Sa kinne bygelyks it regear sintraal posten dy't stypje fan Ai Weiwei, mar litte posten dy't kritysk binne fan him. Om ûndernimmers mear sertifikaat te ûnderskieden, moasten de ûndersikers de fiellen fan elke post mjitten. Spitigernôch, nettsjinsteande in soad wurk, folslein automatisearre metoaden fan sentimetreksjes mei help fan pre-besteande wurdboeken binne noch altyd net hiel goed yn in soad situaasjes (tink oan 'e problemen dy't in emosjonele timeline fan 11 septimber 2001 beskreaun is yn' e seksje 2.3.9 beskreaun). Dêrom moast kening en kollega's in manier nedich om har 11 miljoen sosjale mediaposten te markearjen as se krigen (1) kritysk fan 'e steat, (2) stypje fan' e steat, of (3) unbelangrike of faktuele rapporten oer de eveneminten. Dit klinkt as in massive baan, mar se beslute it mei in krêftige trúk dat yn 'e gegevenswittenskip faak is, mar relatyf seldsum yn' e sosjale wittenskip: bewarre learen ; sjoch figuer 2.5.

Earst, yn in stap dy't typysk preprocessing neamde, hawwe de ûndersikers de sosjale mediaposten ynsetten yn in dokumint-matrix , wêr't ien rige foar elke dokumint wie en ien kolom dy't registrearre oft de post in spesifyk wurd (bygelyks protestje of ferkear) . Dêrnei is in groep ûndersiidsassistenten hân-markearre de gefoelens fan in samling fan berjochten. Dêrnei brûkten se dizze hand-labeled gegevens om in masine-learmodel te meitsjen dy't de fiellingen fan in post op grûn fan har kenmerken ynfolje koe. Uteinlik hawwe se dit model brûkt om de fiellingen fan alle 11 miljoen punten te skatten.

Dêrtroch, yn stee fan manuale lêzen en markearring fan 11 miljoen posten - dy't logistysk unmooglik wêze soe - Kening en kollega's manulearre in mantsje mei in lyts oantal posten en brûkte dêrnei kontrolearre learen om de gefoelens fan alle posts te skaten. Nei it foltôgjen fan dizze analysearjen wiene se yn 't gefal dat it, wat ferrassend, de problemen fan in post dy't wiske wie, net ferbean wie oft it kritysk wie fan' e steat of stipe fan 'e steat.

Figure 2.5: Feroaring fan 'e prosedueres dy't kening, Pan, en Roberts brûkt (2013) om de gefoelens fan 11 miljoen sosjale mediaposten te beskôgjen. Earst, yn in preprosessearjende stap sette de ûndersikers de sosjale mediaposten yn in dokuminteskema (sjoch Grimmer en Stewart (2013) foar mear ynformaasje). Twad, sy hawwe de gefoelens fan in lytse sample fan postsjes. Tredde, hawwe se in begeliedend learmodel te trainearjen om de sensaasjes fan berjochten te klassifisearjen. Fjirde, brûkten se it behearse learmodel om de gefoel fan alle posten te skatten. Sjoch King, Pan en Roberts (2013), taheakke B foar in mear detaillearre beskriuwing.

Figure 2.5: Feroaring fan 'e prosedueres dy't King, Pan, and Roberts (2013) om de gefoel fan 11 miljoen sosjale mediaposten te beskôgjen. Earst, yn in preprosessearjende stap sette de ûndersikers de sosjale Grimmer and Stewart (2013) yn in dokuminteskema (sjoch Grimmer and Stewart (2013) foar mear ynformaasje). Twad, sy hawwe de gefoelens fan in lytse sample fan postsjes. Tredde, hawwe se in begeliedend learmodel te trainearjen om de sensaasjes fan berjochten te klassifisearjen. Fjirde, brûkten se it behearse learmodel om de gefoel fan alle posten te skatten. Sjoch King, Pan, and Roberts (2013) , taheakke B foar in mear detaillearre beskriuwing.

Yn 'e ein, ûntduts kening en kollega's dat allinich trije soarten fan postsen wurde regelmjittich ferhurde: pornografy, krityk fan sifers, en dyjingen dy't kollektyf aktyf potinsjeel hiene (dus de mooglikheid om in grutskalige protests te lieden). By beoardielen fan in geweldige tal berjochten dy't wiske wurde en posten dy't net wiske binne, koe King en kollega's leare hoe't de sintraal wurkje krekt troch te sjen en te fertsjinjen. Fierder befetsje in tema dy't yn dit boek foarbygean sil, de behearlike learprobleem dy't se brûke hawwe - hânetiketearje wat resultaten en it bouwen fan in masine-learmodel foar it labelen fan 'e rêst - bliuwt gewoan yn it sosjale ûndersyk yn' t digitale leeftyd . Jo sjogge foto's dy't hiel ferlykber binne mei figuer 2.5 yn haadstikken 3 (fragen stelle) en 5 (Materiaal oanmeitsje); dit is ien fan 'e pear ideeën dy't ferskynt yn meardere haadstikken.

Dizze foarbylden - it wurkgedrach fan taxi-drivers yn New York en it sosjale media-senseargedrach fan 'e Sineeske regearing-toan sjen dat relatyf ienfâldige rekkening fan grutte data boarnen yn guon situaasjes liede kinne ta nijsgjirrich en wichtich ûndersyk. Yn beide gefallen moasten de ûndersikers ek nijsgjirrige fragen te bringen nei de grutte gegevensboarne; De gegevens foar himsels wiene net genôch.