2.4.1 Counting asiat

Yksinkertainen laskenta voi olla mielenkiintoista jos yhdistää hyvä kysymys hyvä data.

Vaikka se on houkuteltu hienostuneesti kuulostavalla kielellä, monet yhteiskunnalliset tutkimukset ovat oikeastaan ​​vain laskemalla asioita. Suurten tietojen aikakaudella tutkijat voivat laskea enemmän kuin koskaan, mutta tämä ei tarkoita sitä, että heidän olisi vain aloitettava laskenta sattumanvaraisesti. Sen sijaan tutkijoiden pitäisi kysyä: Mitä asioita kannattaa laskea? Tämä voi tuntua täysin subjektiiviselta, mutta on olemassa yleisiä kuvioita.

Usein opiskelijat motivoivat laskentatutkimusta sanomalla: aion laskea jotain, jota kukaan ei ole koskaan laskenut aiemmin. Esimerkiksi opiskelija voisi sanoa, että monet ihmiset ovat opiskelleet maahanmuuttajia ja monet ihmiset ovat opiskelleet kaksosia, mutta kukaan ei ole tutkinut siirtolais-kaksosia. Kokemukseni mukaan tämä strategia, jota kutsun motivaatioksi poissa ollessa , ei yleensä johda hyvään tutkimukseen. Motivaatio poissaololla on sellainen kuin sanoa, että siellä on reikä, ja aion työskennellä kovasti sen täyttämiseksi. Mutta kaikkia reikiä ei tarvitse täyttää.

Sen sijaan, että motivoi poissaolo, mielestäni parempi strategia on etsiä tutkimuskysymyksiä, jotka ovat tärkeitä tai mielenkiintoisia (tai ihanteellisesti molempia). Molemmat näistä termeistä on vaikea määritellä, mutta yksi tärkeä tutkimus on se, että sillä on mitattavissa olevia vaikutuksia tai syötetään päättäjien tärkeään päätökseen. Esimerkiksi työttömyysasteen mittaaminen on tärkeä, koska se on talouden indikaattori, joka ohjaa poliittisia päätöksiä. Yleisesti ottaen mielestäni tutkijoilla on melko hyvä käsitys siitä, mikä on tärkeää. Joten, tässä osassa, annan kaksi esimerkkiä, joissa luulen, että laskeminen on mielenkiintoista. Kussakin tapauksessa tutkijat eivät laskeneet sattumanvaraisesti; pikemminkin he laskivat hyvin erityisissä tilanteissa, jotka paljastivat tärkeitä näkemyksiä yleisemmistä käsityksistä siitä, miten sosiaaliset järjestelmät toimivat. Toisin sanoen paljon, mikä tekee nämä erityiset laskentaharjoitukset mielenkiintoisiksi, ei ole itse tieto, se on peräisin näistä yleisemmistä ideoista.

Yksi esimerkki yksinkertaisesta laskentatehosta tulee Henry Farberin (2015) tutkimuksesta New Yorkin taksinkuljettajien käyttäytymisestä. Vaikka tämä ryhmä ei ehkä kuulosta luonnostaan ​​mielenkiintoiselta, se on strateginen tutkimuspaikka testaamaan kaksi kilpailevaa teoriaa työelämän taloustieteessä. Farberin tutkimuksessa on kaksi tärkeää ominaisuutta taksinkuljettajien työympäristöstä: (1) niiden tuntipalkka vaihtelee päivittäin perustuen osittain säätilaan, ja (2) niiden tuntien määrä, työ voi vaihdella joka päivä perustuen päätöksiin. Nämä piirteet johtavat mielenkiintoiseen kysymykseen tuntipalkan ja työtuntien välisestä suhteesta. Taloudellisissa uusklassisissa malleissa ennustetaan, että taksinkuljettajat työskentelevät enemmän päivinä, jolloin heillä on korkeampi tuntipalkka. Vaihtoehtoisesti mallien käyttäytymistieteellinen taloustieteet ennustavat päinvastoin. Jos kuljettajat asettavat tietyn tulotavoitteen eli 100 dollaria päivässä - ja työtä, kunnes tavoite saavutetaan, kuljettajat päätyvät työskentelemään vähemmän tunteja päivinä, jolloin he ansaitsevat enemmän. Jos esimerkiksi olisit kohdeyritys, saatat päätyä työskentelemään neljä tuntia hyvänä päivänä (25 dollaria tunnissa) ja 5 tuntia huonoina päivinä (20 dollaria tunnissa). Joten kuljettajat työskentelevät enemmän tunteja päivinä, joilla korkeammat tuntipalkat (kuten neoklassiset mallit ennustavat) tai useampia tunteja päivinä, joilla on alempia tuntipalkkoja (kuten käyttäytymismallit ennustavat)?

Vastauksena tähän kysymykseen Farber sai tietoa kaikista New York Cityn ohjaamoista vuodesta 2009 vuoteen 2013 lähtien toteutetuista taksimatkoista, jotka ovat nyt julkisesti saatavilla. Nämä tiedot, jotka on kerätty elektronisilla mittareilla, joita kaupunki tarvitsee taksin käyttöön, sisältävät tietoa jokaisesta matkasta: alkamisaika, alkamispaikka, loppumisaika, loppupiste, hinta ja kärki (jos kärki maksettiin luottokortilla) . Tämän taksimittarin tietojen avulla Farber havaitsi, että useimmat kuljettajat työskentelevät enemmän päivinä, jolloin palkat ovat korkeammat, neoklassisen teorian mukaisesti.

Tämän tärkeimmän havainnon lisäksi Farber pystyi käyttämään tietojen kokoa heterogeenisyyden ja dynamiikan ymmärtämiseksi paremmin. Hän havaitsi, että ajan myötä uudet kuljettajat oppivat vähitellen lisäämään työaikoja korkean palkan aikana (esim. He oppivat käyttäytymään uusklassisen mallin ennustuksena). Ja uudet kuljettajat, jotka käyttäytyvät paremmin kuin tavoittelijat, ovat todennäköisemmin lopettamatta kuin taksinkuljettajat. Molemmat näistä hienovaraisimmista havainnoista, jotka auttavat selittämään nykyisten ajureiden havaittua käyttäytymistä, olivat mahdollisia ainoastaan ​​aineiston koon vuoksi. Niitä ei voitu havaita aikaisemmissa tutkimuksissa, jotka käyttivät pieniä määriä taksinkuljettajia lyhyessä ajassa (Camerer et al. 1997) .

Farberin tutkimus oli lähellä parhaaseen mahdolliseen skenaarioon suurta tietolähdettä käyttävässä tutkimuksessa, koska kaupungin kerätyt tiedot olivat melko lähellä Farberin keräämiä tietoja (eräs ero on se, että Farber olisi halunnut tietoja yhteensä palkkamaksut ja vinkit - mutta kaupungin tiedot sisälsivät vain luottokortilla maksetut vinkit). Yksittäiset tiedot eivät kuitenkaan riittäneet. Farberin tutkimuksen avain oli tuoda mielenkiintoinen kysymys tietoihin, kysymys, jolla on suurempia seurauksia tämän erityispiirteen ulkopuolella.

Toinen esimerkki asioiden laskemisesta on Gary Kingin, Jennifer Panin ja Molly Robertsin (2013) tutkimuksen Kiinan hallinnon online-sensuurista. Tässä tapauksessa tutkijoiden oli kuitenkin kerättävä omia suuria tietojaan, ja heidän oli käsiteltävä sitä, että heidän tietonsa olivat puutteelliset.

Kuningas ja kollegat olivat motivoituneita siitä, että sosiaalisen median virat Kiinassa sensuroidaan valtavaan valtion laitteeseen, jonka katsotaan sisältävän kymmeniätuhansia ihmisiä. Tutkijoilla ja kansalaisilla on kuitenkin vähän merkitystä siihen, miten nämä sensuroijat päättävät sisällön poistamisesta. Kiinan tutkijoilla on todellisia ristiriitaisia ​​odotuksia siitä, millaisia ​​virkoja todennäköisesti poistetaan. Jotkut ajattelevat, että sensuurit keskittyvät virkoihin, jotka ovat kriittisiä valtion puolesta, kun taas toiset ajattelevat keskittyvän sellaisiin virkoihin, jotka kannustavat kollektiiviseen käyttäytymiseen, kuten protesteihin. Havainnollistaminen, mikä näistä odotuksista on oikea, vaikuttaa siihen, miten tutkijat ymmärtävät Kiinan ja muiden autoritääristen hallitusten, jotka harjoittavat sensuuria. Siksi kuningas ja kollegat halusivat verrata julkaistuja ja myöhemmin poistettuja virkoja julkaistuilla ja koskaan poistetuilla viesteillä.

Keräämällä nämä virat mukana hämmästyttävä engineering feat indeksoinnin yli 1000 Kiinan sosiaalisen median sivustot-kukin eri sivuntaitot-oikeiden virkaa, ja sitten tarkistamassa näitä viestejä, mitkä sittemmin poistettu. Lisäksi normaalin teknisiin kysymyksiin, jotka liittyvät suuren mittakaavan web-indeksoinnin, tämä projekti oli lisätty haaste että sen oli erittäin nopeasti, koska monet sensuroitu virkaa otetaan alas alle 24 tuntia. Toisin sanoen, hidas tela kaipaisi paljon viestejä, jotka sensuroitiin. Edelleen indeksoijat oli tehdä kaiken tämän tiedonkeruun ajan välttäen havaitseminen ettei sosiaalisen median sivustot estää pääsyn tai muuten muuttaa politiikkaansa vastauksena tutkimuksen.

Kun tämä valtava tekninen tehtävä oli valmis, kuningas ja kollegat saivat noin 11 miljoonaa virkaa 85 eri ennalta määritellyllä aihealueella, joista kullakin oli oletettu herkkyys. Esimerkiksi korkean herkkyyden aiheena on toisteva taiteilija Ai Weiwei; Keskitason herkkyys on Kiinan valuutan arvostus ja devalvaatio, ja herkän aiheen aiheena on MM. Näistä 11 miljoonasta virasta noin 2 miljoonaa oli sensuroitu. Jonkinlainen yllättävää on, että kuningas ja kollegat löysivät, että erittäin arkaluonteisiin aiheisiin liittyvät virat olivat sensuroidut vain hieman useammin kuin keski- ja herkkyystiedoissa. Toisin sanoen kiinalaiset sensuurit ovat yhtä todennäköisesti sensuroituina, jossa mainitaan Ai Weiwei, joka mainitsee maailmancupin. Nämä havainnot eivät tue ajatusta siitä, että hallitus sensuroi kaikki herkkiä aiheita koskevat virat.

Tämä yksinkertainen lasku sensuurien määrästä aiheen mukaan voi kuitenkin olla harhaanjohtavaa. Esimerkiksi hallitus saattaa sensuroida sellaisia ​​virkoja, jotka tukevat Ai Weiweiä, mutta jättävät viestit, jotka ovat kriittisiä hänestä. Jotta virkoja voitaisiin erottaa tarkemmin, tutkijat tarvitsivat mitata kunkin viestin tunteita . Valitettavasti paljon töistä huolimatta täysin automaattiset tunneilmaisutestimenetelmät, jotka käyttävät jo olemassa olevia sanakirjoja, eivät vielä ole kovin hyviä monissa tilanteissa (ajattele ongelmat, jotka aiheuttavat syyskuun 11. päivän 2001 tunneaikataulun, joka on kuvattu kappaleessa 2.3.9). Siksi kuningas ja kollegat tarvitsivat tapaa merkitä heidän 11 ​​miljoonan sosiaalisen median virkansa, olivatko he (1) kriittisiä valtioista, (2) valtion tukemista vai (3) tapahtumista merkityksettömiä tai tosiseikkoja koskevia raportteja. Tämä kuulostaa massiiviselta työtä, mutta he ratkaisivat sen käyttäen voimakasta temppua, joka on yhteistä tietotieteessä, mutta suhteellisen harvinainen yhteiskuntatieteissä: valvottu oppiminen ; katso kuva 2.5.

Ensinnäkin vaiheessa, jota tyypillisesti kutsuttiin esikäsittelyksi , tutkijat muunsivat sosiaalisen median viestit dokumenttimatriisiksi matriisiksi , jossa jokaiselle asiakirjalle oli yksi rivi ja yksi sarake, joka kirjasi, onko viesti sisältänyt tietyn sanan (esim. Protesti tai liikenne) . Seuraavaksi tutkimusapulaisten ryhmä käsitteli käsin viestinäytteen tunteen. Sitten he käyttivät tätä käsin merkittyjä tietoja luodakseen koneen oppimismallin, joka voisi johtaa viestin tunteeseen sen ominaisuuksiin perustuen. Lopuksi he käyttivät tätä mallia arvioidakseen kaikkien 11 miljoonan virkaa.

Sen sijaan, että luki ja merkitsi 11 miljoonaa virkaa manuaalisesti - mikä olisi logistisesti mahdotonta - kuningas ja työtoverit merkitsivät manuaalisesti pienen määrän virkoja ja käyttivät sitten valvotun oppimisen arvioidakseen kaikkien virkailijoiden sentimentaalin. Tämän analyysin päätyttyä he päättelivät, että jonkin verran yllättävää, että tehtävän todennäköisyys on poistettu, ei liity siihen, oliko se kriittinen tilasta tai valtion kannustajasta.

Kuva 2.5: Yksinkertaistettu kaavamainen menettely, jota King, Pan ja Roberts (2013) käyttävät arvioimaan 11 miljoonan kiinalaisen sosiaalisen median viestiä. Ensinnäkin esikäsittelyvaiheessa tutkijat muutti sosiaalisen median viestit dokumenttimatriisiksi (katso Grimmer ja Stewart (2013) saadaksesi lisätietoja). Toiseksi, he käsittelivät pienen otoksen virkoja. Kolmanneksi he kouluttivat valvottu oppimismalli luokitellakseen virkoja. Neljänneksi he käyttivät ohjatun oppimismallin arvioidakseen kaikkien virkailijoiden sentimentaalin. Katso lisätietoja King, Pan ja Roberts (2013) liitteestä B.

Kuva 2.5: Yksinkertaistettu kaavamainen menettely, jota King, Pan, and Roberts (2013) käyttävät arvioimaan 11 miljoonan kiinalaisen sosiaalisen median viestiä. Ensinnäkin esikäsittelyvaiheessa tutkijat muutti sosiaalisen median viestit dokumenttimatriisiksi (katso Grimmer and Stewart (2013) saadaksesi lisätietoja). Toiseksi, he käsittelivät pienen otoksen virkoja. Kolmanneksi he kouluttivat valvottu oppimismalli luokitellakseen virkoja. Neljänneksi he käyttivät ohjatun oppimismallin arvioidakseen kaikkien virkailijoiden sentimentaalin. Katso lisätietoja King, Pan, and Roberts (2013) liitteestä B.

Lopulta kuningas ja kollegat havaitsivat, että vain kolmea virkaa on sensuroitu säännöllisesti: pornografia, sensuurien kritiikki ja ne, joilla oli kollektiivinen toimintapotentiaali (ts. Mahdollisuus johtaa suurimittaisiin mielenosoituksiin). Tarkkailemalla valtava määrä poistettuja virkoja ja viestejä, joita ei poistettu, kuningas ja kollegat saivat tietää, miten sensuurit toimivat vain katsomalla ja laskemalla. Lisäksi koko tämän kirjan aikana esiin tulevan teeman ennakointiin käytetyllä valvotun oppimisen lähestymistavalla, jota käytettiin - käsin merkitsemällä joitain tuloksia ja sitten rakentamalla koneen oppimismalli jäljelle merkitsemiseksi - osoittautuu hyvin yleiseksi yhteiskunnallisessa tutkimuksessa digitaalisessa iässä . Näet kuvat, jotka ovat hyvin samanlaisia ​​kuin kuvio 2.5 luvussa 3 (Kysymykset) ja 5 (Luominen massayhteistyö); tämä on yksi harvoista ajatuksista, jotka näkyvät useissa luvuissa.

Nämä esimerkit - New Yorkissa toimivien taksinkuljettajien käyttäytyminen ja Kiinan hallituksen sosiaalisen median sensuuri käyttäytyminen - osoittavat, että suhteellisen yksinkertainen suurien tietolähteiden laskeminen voi joissakin tilanteissa johtaa mielenkiintoiseen ja tärkeään tutkimukseen. Molemmissa tapauksissa tutkijoiden oli kuitenkin tuotava mielenkiintoisia kysymyksiä suurelle tietolähteelle; tiedot eivät sinänsä riitä.