2.2 Big andmed

Ettevõtted ja valitsused loovad ja koguvad suuri andmeid muuks kui uuringuteks. Seepärast on andmete kasutamine teadusuuringute jaoks vajalik tagasipöördumiseks.

Esimene viis, kuidas paljud inimesed kogevad digitaalajastul sotsiaalseid uuringuid, on seda, mida sageli nimetatakse suurteks andmeteks . Hoolimata selle termini laialdasest kasutamisest pole üksmeelt selle üle, millised suured andmed on isegi olemas. Siiski keskendub üks suuremahuliste andmete kõige sagedasemate määratluste hulka "3 Vs": maht, mitmekesisus ja kiirus. Peaaegu on palju andmeid mitmel kujul ja see on pidevalt loodud. Mõni suurte andmete fänn lisab ka teisi "Vs" nagu Veracity ja Value, samas kui mõned kriitikud lisavad Vsid nagu Vague ja Vacuous. Sotsiaalsete uuringute eesmärgil on minu arvates pigem 3-Vs (või 5 "Vs" või 7 "Vs") asemel 5 "W": kes, mida, kus, millal , ja miks. Tegelikult arvan, et paljud suured andmeallikad tekitavad väljakutsed ja võimalused tulenevad ainult ühest "W" -st: miks.

Analoogiaastal loodi enamik andmeid, mida kasutati sotsiaalsete uuringute jaoks teadusuuringute tegemiseks. Kuid digitaalajastul loovad ettevõtted ja valitsused tohutul hulgal andmeid muudel eesmärkidel kui teadusuuringud, näiteks teenuste pakkumine, kasumit teenimine ja seaduste haldamine. Kuid loomingulised inimesed on mõistnud, et saate selle ettevõtte ja valitsuse andmeid teadusuuringute jaoks ümber kujundada . Kui mõtlema 1. peatükis olevale kunsti analoogiale, nagu Duchamp retseptis kunstinimekirja leidmiseks loodud objekti, saavad teadlased nüüd teadustöö loomiseks kasutada leitud andmeid.

Kuigi on olemas kahtlemata tohutud võimalused varade ümberpaigutamiseks, on uute andmete väljakirjutamiseks kasutatavaid andmeid, mis ei olnud loodud teadusuuringute eesmärgil. Võrrelge näiteks sotsiaalmeediateenust, näiteks vidistama, traditsioonilise avaliku arvamuse uuringuga, näiteks üldise sotsiaalse uuringuga. Twitteri peamised eesmärgid on pakkuda oma kasutajatele teenust ja teenida kasumit. Teisest küljest on üldine sotsiaalvaldkonna uuring keskendunud üldist huvi pakkuvate andmete loomisele sotsiaalsete uuringute jaoks, eriti avaliku arvamuse uurimiseks. Eesmärkide erinevus tähendab seda, et Twitteris ja üldise sotsiaalvaldkonna uuringus loodud andmetel on erinevad omadused, kuigi mõlemat saab kasutada avaliku arvamuse uurimiseks. Twitter tegutseb skaalal ja kiirusel, mis üldise sotsiaalse uuringu puhul ei sobi, kuid vastupidiselt üldisele sotsiaalsele uuringule ei tee Twitter veel hoolikalt kasutajaid ja ei tee palju tööd, et aja jooksul võrreldavust säilitada. Kuna need kaks andmeallikat on nii erinevad, ei ole mõtet öelda, et üldine sotsiaalülevaade oleks parem kui vidistama või vastupidi. Kui soovite globaalse tuju tundide mõõtmist (nt Golder and Macy (2011) ), on Twitter kõige parem. Teisest küljest, kui soovite mõista pikaajalisi muutusi hoiakute polariseerumises Ameerika Ühendriikides (nt DiMaggio, Evans, and Bryson (1996) ), siis on parim valik üldist sotsiaaluuringut. Üldisemalt, selle asemel, et üritada väita, et suured andmeallikad on paremad või halvemad kui muud liiki andmed, püütakse selles peatükis selgitada, millistele uurimisküsimustele on suurte andmeallikate atraktiivsed omadused ja millistele küsimustele need ei pruugi olla ideaalne.

Kui mõtleme suurte andmeallikate üle, keskenduvad paljud teadlased viivitamata ettevõtete loodud ja kogutud online-andmetele, näiteks otsingumootorite logidele ja sotsiaalse meedia postitustele. Kuid see kitsas fookus jätab välja kaks muud olulist informatsiooniallikat. Esiteks on üha suuremad ettevõtted suured andmeallikad pärit füüsilisest maailmast pärit digitaalseadmetest. Näiteks selles peatükis räägin sulle uuringust, mis toetas supermarketite väljavõtte andmeid, et uurida, kuidas töötaja tootlikkust mõjutavad tema eakaaslaste tootlikkus (Mas and Moretti 2009) . Järgnevas peatükis räägin teile teadlaste kohta, kes kasutasid mobiiltelefonidest (Allcott 2015) (Blumenstock, Cadamuro, and On 2015) ja arvelduste andmeid, mille on loonud elektriettevõtted (Allcott 2015) . Nagu need näited illustreerivad, on ettevõtte suured andmeallikad enamasti rohkem kui lihtsalt veebipõhine käitumine.

Teine oluline suurte andmete allikas, mida kitsas veebipõhises käitumises keskendutakse, on valitsuste loodud andmed. Need valitsuse andmed, mida teadlased nimetavad valitsuse administratiivseteks registriteks , hõlmavad selliseid asju nagu maksudokumendid, koolikirjed ja perekonnaseisuaktid (nt sünnide ja surmajuhtumite registrid). Valitsused on selliseid andmeid loonud mõnedel juhtudel sadu aastaid ja sotsiaalteadlased on neid kasutanud nii kaua, kui on olnud sotsiaalteadlasi. Kuid see, mis on muutunud, on digiteerimine, mis andis valitsustele oluliselt lihtsamaks andmete kogumise, edastamise, salvestamise ja analüüsimise. Näiteks selles peatükis räägin teile uuringust, mis toetas New Yorgi linnavalitsuse digitaalsete taksomeetrite andmeid, et lahendada tööjõu majanduse põhjalik arutelu (Farber 2015) . Järgnevas peatükis ütlen teile, kuidas valitsuse poolt kogutud hääletustulemusi kasutati uuringus (Ansolabehere and Hersh 2012) ja eksperimendil (Bond et al. 2012) .

Ma arvan, et ümbersuunamise idee on suurte andmeallikate õppimisel oluline, ja enne, kui räägitakse konkreetsemalt suurte andmeallikate omadustest (punkt 2.3) ja kuidas neid uurimistöös kasutada (jaotis 2.4), tahaksin pakkuma kahte ühist nõu üldise nõustamise kohta. Esiteks võib olla ahvatlev mõelda kontrastis, mille ma olen seadnud olevat "leitud" andmete ja "kavandatud" andmete vahel. See on lähedal, kuid see pole päris õige. Kuigi teadlaste vaatevinklist leitakse suured andmeallikad, ei lange nad lihtsalt taevast alla. Selle asemel loovad teadlaste poolt "leitud" andmeallikad mõne eesmärgi jaoks keegi. Kuna keegi tuvastas leitud andmed, soovitan alati proovida võimalikult palju inimesi ja protsesse, mis teie andmeid loonud, mõista. Teiseks, kui teete andmeid uuesti, on sageli äärmiselt kasulik kujutada oma probleemile ideaalseid andmesidet ja seejärel võrrelda seda ideaalse andmekogu sellega, mida te kasutate. Kui te ise andmeid ise ei kogunud, on tõenäoliselt olulised erinevused selle vahel, mida soovite ja mis teil on. Nende erinevuste märgistamine aitab selgitada, mida saate ja mida ei saa õppida teie olevatel andmetel, ning see võib soovitada uusi andmeid, mida peaksite koguma.

Minu kogemuste kohaselt lähenesid sotsiaalteadlased ja andmeteadlased väga erinevalt. Sotsiaalteadlased, kes on harjunud töötama teadusuuringute jaoks mõeldud andmetega, on tavaliselt kiire ülevaade probleemidest, mida on korrigeeritud andmetega, ignoreerides selle tugevusi. Teisest küljest on andmeteadlaste jaoks kiire ülevaade tagasinõudmisandmete eelistest, ignoreerides selle nõrkusi. Loomulikult on parim lähenemisviis hübriid. See tähendab, et teadlastel tuleb mõista suurte andmeallikate omadusi - nii head kui ka halba - ja seejärel välja mõelda, kuidas neist õppida. Ja see on selle peatüki ülejäänud osa plaan. Järgmises jaos kirjeldatakse suurte andmeallikate kümmet ühist tunnust. Siis kirjeldan järgmises jaotises kolme uurimisviisi, mis võib nende andmetega hästi toimida.