2.2 Big data

Tämä käännös on luotu tietokoneella. ×

2.2 Big data

Yritykset ja hallitukset keräävät suuria tietoja ja keräävät niitä muuhun tarkoitukseen kuin tutkimukseen. Näiden tutkimustietojen käyttäminen vaatii siis uudelleensoittamista.

Ensimmäinen tapa, jolla monet ihmiset kohtaavat yhteiskunnallista tutkimusta digitaaliaikana, on usein mitä kutsutaan suuriksi tiedoiksi . Huolimatta tämän sanan laajasta käytöstä, ei ole yksimielisyyttä siitä, mitä suuria tietoja on. Kuitenkin yksi yleisimmistä suuren datan määritelmistä keskittyy "3 Vs": Volume, Variety ja Velocity. Liikaa on paljon tietoa, eri muodoissa, ja se luodaan jatkuvasti. Jotkut suurten tietojen fanit lisäävät myös muita "Vs", kuten Veracity ja Value, kun taas jotkut arvostelijat lisäävät Vs kuten Vague ja Vacuous. Sosiaalisen tutkimuksen tarkoituksiin mielestäni parempi paikka aloittaa 5 "Ws": Kuka, mitä, missä, milloin ja milloin vain 3 "Vs" (tai 5 "Vs" tai 7 "Vs" , ja miksi. Itse asiassa uskon, että monet suurista tietolähteistä syntyneet haasteet ja mahdollisuudet tulevat vain yhdestä "W": Miksi.

Analogia-aikana useimmat sosiaaliseen tutkimukseen käytetyt tiedot luotiin tutkimusta varten. Digitaalisessa iässä kuitenkin yritykset ja hallitukset luovat valtavan määrän tietoja muihin tarkoituksiin kuin tutkimukseen, kuten palvelujen tarjoamiseen, voiton tuottamiseen ja lakien hallinnoimiseen. Creative ihmiset ovat kuitenkin huomanneet, että voit palauttaa tämän yrityksen ja hallituksen tiedot tutkimusta varten. Ajattelemalla taulun analogiaa luvussa 1, aivan kuten Duchamp uudelleensijautui löytämästä esineestä taiteen luomiseksi, tutkijat voivat nyt palauttaa löydetyt tiedot tutkimusta varten.

Vaikka epäilemättä on valtavia mahdollisuuksia uudelleensijoittamiseen, myös tietoja, joita ei ole luotu tutkimustarkoituksiin, tuo mukanaan uusia haasteita. Vertaa esimerkiksi sosiaalisen median palvelua, kuten Twitterä, jossa on perinteinen mielipidetutkimus, kuten yleinen sosiaalinen selvitys. Twittern päätavoite on tarjota käyttäjälle palvelu ja saada voittoa. Sosiaalinen tutkimuskeskus keskittyy toisaalta yleistutkimustietojen tuottamiseen sosiaaliseen tutkimukseen, erityisesti yleisen mielipidetutkimuksen osalta. Tämä tavoitteiden ero tarkoittaa, että Twitterin ja General Social Surveyin luomien tietojen erilaiset ominaisuudet ovat, vaikka molempia voidaan käyttää yleisen mielipiteen tutkimiseen. Twitter toimii asteikolla ja nopeudella, jota General Social Survey ei pysty vastaamaan, mutta toisin kuin General Social Survey, Twitter ei tarkkaile käyttäjiä tarkkaan ja ei toimi kovasti vertailukelpoisuuden säilyttämiseksi ajan myötä. Koska nämä kaksi tietolähdettä ovat niin erilaisia, ei ole järkevää sanoa, että yleinen sosiaalinen kysely on parempi kuin Twitter tai päinvastoin. Jos haluat tunneittain maailmanlaajuisen tunnelman (esim. Golder and Macy (2011) ), Twitter on paras. Toisaalta, jos haluat ymmärtää pitkän aikavälin muutoksia asenteiden polarisaatiossa Yhdysvalloissa (esim. DiMaggio, Evans, and Bryson (1996) ), General Social Survey on paras valinta. Yleisemmin, sen sijaan, että yrittäisimme väittää, että suuret tietolähteet ovat parempia tai huonompia kuin muut tietolajit, tässä luvussa pyritään selvittämään, millaisia tutkimuskysymyksiä suurilla tietolähteillä on houkuttelevia ominaisuuksia ja minkälaisia kysymyksiä ne eivät ehkä ole ihanteellinen.

Kun ajatellaan suuria tietolähteitä, monet tutkijat keskittyvät välittömästi yritysten luomien ja kerättyjen verkkotietojen, kuten hakukoneiden lokit ja sosiaalisen median viestit. Kuitenkin tämä kapea painopiste jättää kaksi muuta tärkeätä suurta tietolähdettä. Ensinnäkin yhä useammat suuret tietolähteet tulevat fyysisen maailman digitaalisista laitteista. Esimerkiksi tässä luvussa kerron teille tutkimuksesta, joka kertoo supermarketin tarkistustiedot tutkimalla, miten hänen uroistuensa tuottavuus vaikuttaa työntekijän tuottavuuteen (Mas and Moretti 2009) . Sitten seuraavissa luvuissa kerron teistä tutkijoista, jotka käyttävät matkapuhelimissa olevia puhelutietoja (Blumenstock, Cadamuro, and On 2015) sekä sähkölaitosten luomaa laskutustietoa (Allcott 2015) . Kuten nämä esimerkit havainnollistavat, suuret tietolähteet ovat enemmän kuin vain verkkokäyttäytyminen.

Toinen tärkeä suuri tietolähde, jota kaipaa kapea keskittyminen verkkokäyttäytymiseen, on hallitusten luomia tietoja. Nämä hallitustiedot, joita tutkijat kutsuvat hallintotallenteiksi , sisältävät esimerkiksi verotustietueita, koulurekistereitä ja elintärkeitä tilastotietoja (esim. Syntymätodistukset ja kuolemantapaukset). Hallitukset ovat luoneet tällaisia tietoja joissakin tapauksissa satoja vuosia ja yhteiskuntatieteilijät ovat hyödyntäneet niitä lähes yhtä kauan kuin yhteiskuntatieteilijät ovat. Digitaalinen muutos on kuitenkin muuttanut, mikä on johtanut siihen, että hallitukset keräävät, välittävät, säilyttävät ja analysoivat tietoja merkittävästi. Esimerkiksi tässä luvussa kerron teille tutkimuksesta, joka keräsi tietoja New Yorkin hallituksen digitaalisista taksimittareista käsittelemään perustavaa laatua olevaa keskustelua työelämätiedoista (Farber 2015) . Sitten seuraavissa luvuissa kerron, miten hallituksen kerättyjä äänestystuloksia käytettiin kyselyssä (Ansolabehere and Hersh 2012) ja kokeessa (Bond et al. 2012) .

Mielestäni ajatus uudelleensulautumisesta on olennaista oppimista suurista tietolähteistä, ja ennen kuin puhumme tarkemmin suurien tietolähteiden ominaisuuksista (osa 2.3) ja miten niitä voidaan käyttää tutkimuksessa (2.4), haluan tarjota kaksi kappaletta yleistä neuvontaa uudelleensijoittamisesta. Ensinnäkin voi olla houkuttelevaa miettiä kontrastia, jonka olen määrittänyt löytyneiden tietojen ja "suunniteltujen" tietojen välillä. Se on lähellä, mutta se ei ole aivan oikein. Vaikka tutkijoiden näkökulmasta "löydetään" suuria tietolähteitä, he eivät vain pudota taivaalta. Sen sijaan tietolähteet, jotka tutkijat "löytävät", on suunnitellut joku jonkin tarkoitusta varten. Koska joku on suunnitellut "löydetyt" tiedot, suosittelen aina, että yrität ymmärtää mahdollisimman paljon ihmisiä ja prosesseja, jotka ovat luoneet tietosi. Toiseksi, kun siirrät tietoja uudelleen, on usein äärimmäisen hyödyllistä kuvitella ongelman ihanteellinen datasarja ja vertaa sitten ihanteellinen datasarja siihen, jota käytät. Jos et kerääsi tietoja itse, on todennäköisesti tärkeitä eroja mitä haluat ja mitä sinulla on. Näiden erojen huomioiminen auttaa selventämään, mitä voit ja et voi oppia tiedoistasi, ja se saattaa ehdottaa uusia tietoja, jotka sinun pitäisi kerätä.

Kokemukseni mukaan yhteiskuntatieteilijät ja tiedemiehet pyrkivät lähestymään uudelleenjärjestelyjä hyvin erilaisella tavalla. Sosiaalitieteilijät, jotka ovat tottuneet työskentelemään tutkimukseen suunnitelluilla tiedoilla, ovat tyypillisesti nopeita osoittamaan ongelmat, jotka liittyvät uudelleenmuotoilluihin tietoihin ja jättäen huomiotta sen vahvuudet. Toisaalta tiedetieteilijät tyypillisesti korostavat nopeasti uudelleen toimitettujen tietojen edut ja jättävät huomiotta sen heikkoudet. Luonnollisesti paras tapa on hybridi. Toisin sanoen tutkijoiden on ymmärrettävä suurien tietolähteiden ominaisuuksia - sekä hyviä että huonoja - ja sitten selvittää, miten oppia niistä. Ja tämä on suunnitelma tämän luvun lopusta. Seuraavassa osassa kuvataan kymmenen suurien tietolähteiden yhteisiä ominaisuuksia. Seuraavassa jaksossa kuvaillaan kolme tutkimusmenetelmää, jotka toimivat hyvin tällaisten tietojen kanssa.