2.2 Big dati

Šis tulkojums tika izveidota ar datoru. ×

2.2 Big dati

Lielus datus izveido un apkopo uzņēmumi un valdības citiem mērķiem, nevis pētījumiem. Tāpēc, izmantojot šos datus pētniecībai, ir nepieciešams atkārtoti izmantot.

Pirmais veids, kā daudzi cilvēki saskaras ar sociālo pētījumu digitālajā laikmetā, ir tas, ko bieži sauc par lieliem datiem . Neraugoties uz šī termina plašo izmantošanu, nav vienprātības par to, kādi lieli dati pat ir. Tomēr viena no visbiežāk izmantotajām lielo datu definīcijām koncentrējas uz "3 Vs": apjoms, šķirne un ātrums. Aptuveni, ir daudz datu dažādos formātos, un to veido pastāvīgi. Daži lielu datu fani arī pievieno citus "Vs", piemēram, Veracity un Value, bet daži kritiķi pievieno Vs, piemēram, Vague un Vacuous. Sociālo pētījumu nolūkos es domāju, ka nevis 3 "Vs" (vai 5 "Vs" vai 7 "Vs"), bet labāk, lai sāktu, ir 5 "Ws": Kas, Kas, Kur, Kad , un kāpēc. Faktiski es domāju, ka daudzi no izaicinājumiem un iespējām, ko rada lielie datu avoti, izriet tikai no viena "W": kāpēc.

Analogā vecumā lielākā daļa datu, kas tika izmantoti sociālajiem pētījumiem, tika izveidota, lai veiktu pētījumus. Tomēr digitālajā laikmetā uzņēmumi un valdības izveido milzīgu datu apjomu citiem mērķiem, nevis pētījumiem, piemēram, pakalpojumu sniegšanai, peļņas gūšanai un likumu pārvaldībai. Tomēr radošie cilvēki ir sapratuši, ka jūs varat pārveidot šos korporatīvos un valdības datus pētniecībai. Domājot par mākslas analoģiju 1. nodaļā, tāpat kā Duchamp atkārtoja atrasto objektu, lai radītu mākslu, zinātnieki tagad var pārveidot atrastos datus, lai radītu pētījumu.

Kaut arī pastāv neapšaubāmi lielas iespējas atkārtoti izmantot materiālus, datu izmantošana, kas nav izveidoti arī pētniecības nolūkos, rada arī jaunas problēmas. Piemēram, salīdziniet sociālo mediju pakalpojumu, piemēram, čivināt, ar tradicionālu sabiedriskās domas aptauju, piemēram, vispārējo sociālo pētījumu. Galvenie Twitter mērķi ir sniegt pakalpojumus saviem lietotājiem un gūt peļņu. No otras puses, Vispārējā sociālā pētījuma mērķis ir radīt vispārējas nozīmes datus sociālajiem pētījumiem, jo īpaši sabiedriskās domas pētījumiem. Šī mērķauditorijas atšķirība nozīmē, ka Twitter izveidotajiem datiem un Vispārējās sociālās aptaujas izveidotajiem datiem ir atšķirīgas īpašības, lai gan abus var izmantot, lai izpētītu sabiedrisko domu. Twitter darbojas mērogā un ātrumā, ka vispārējā sociālā apsekojuma dati nesakrīt, taču atšķirībā no vispārējās sociālās aptaujas Twitter rūpīgi neizlasa lietotājus un nespēj strādāt, lai laika gaitā saglabātu salīdzināmību. Tā kā šie divi datu avoti ir tik dažādi, nav jēgas teikt, ka Vispārējā sociālā aptauja ir labāka par Twitter versiju un otrādi. Ja vēlaties veikt stundas globālā noskaņojuma pasākumus (piemēram, Golder and Macy (2011) ), vislabāk ir čivināt. No otras puses, ja jūs vēlaties izprast ilgtermiņa izmaiņas attieksmju polarizācijā Amerikas Savienotajās Valstīs (piemēram, DiMaggio, Evans, and Bryson (1996) ), tad vispiemērotākā ir vispārējā sociālā pārskata izvēle. Vispārīgāk, nevis cenšoties apgalvot, ka lieli datu avoti ir labāki vai sliktāki par citiem datu veidiem, šajā nodaļā mēģināsim noskaidrot, par kādiem pētījumu veidiem lieliem datu avotiem ir pievilcīgas īpašības un kādus jautājumus tās var nebūt ideāls.

Domājot par lieliem datu avotiem, daudzi pētnieki nekavējoties koncentrējas uz uzņēmumu izveidotiem un apkopotiem tiešsaistes datiem, piemēram, meklētājprogrammu žurnāliem un sociālās plašsaziņas līdzekļu ziņojumiem. Tomēr šai šaurāka uzmanība tiek izslēgta no diviem citiem nozīmīgiem lielu datu avotiem. Pirmkārt, arvien lielāki uzņēmumu lielie datu avoti nāk no digitālajām ierīcēm fiziskajā pasaulē. Piemēram, šajā nodaļā es jums pastāstīšu par pētījumu, kurā tika izmantoti lielveikalu izrakstīšanas dati, lai noskaidrotu, kā darba ņēmēja produktivitāti ietekmē vienaudžu produktivitāte (Mas and Moretti 2009) . Tad turpmākajās nodaļās es jums pastāstīšu par pētniekiem, kuri izmantoja zvanu ierakstus no mobilajiem telefoniem (Blumenstock, Cadamuro, and On 2015) un elektroenerģijas pakalpojumu (Allcott 2015) izveidotos norēķinu datus (Allcott 2015) . Kā parādīts šajos piemēros, uzņēmumu lielie datu avoti ir vairāk nekā tikai tiešsaistes uzvedība.

Otrs nozīmīgs lielu datu avots, ko neievēro šaurā koncentrēšanās uz uzvedību tiešsaistē, ir valdību izveidotie dati. Šie valdības dati, kurus zinātnieki sauc par valdības administratīvajiem ierakstiem , ietver tādas lietas kā nodokļu ieraksti, skolas ieraksti un statistikas reģistri (piemēram, dzimšanas un nāves reģistrs). Valdības ir izveidojušas šāda veida datus dažos gadījumos simtiem gadu, un sociologi tos ir izmantojuši gandrīz tik ilgi, kamēr ir sociologi. Tomēr ir mainījusies digitalizācija, kas valdībai ir ievērojami atvieglojusi datu vākšanu, pārsūtīšanu, saglabāšanu un analīzi. Piemēram, šajā nodaļā es jums pastāstīšu par pētījumu, kurā tika izmantoti dati no Ņujorkas pilsētas ciparu taksometru skaitītājiem, lai risinātu pamatjautājumus darba ekonomikā (Farber 2015) . Tad turpmākajās nodaļās es jums pastāstīšu, kā valsts apsekojumā izmantotie balsošanas ieraksti (Ansolabehere and Hersh 2012) un eksperiments (Bond et al. 2012) .

Es domāju, ka ideja par atkārtotu izmantošanu ir būtiska, lai mācītos no lieliem datu avotiem, un tādēļ, pirms runāt precīzāk par lielu datu avotu īpašībām (2.3. Sadaļa) un kā tos var izmantot pētījumos (2.4. Sadaļa), es gribētu piedāvāt divus vispārīgus padomus par atkārtošanu. Pirmkārt, var būt vilinoši domāt par kontrastu, kuru esmu iestatījis kā starp "atrasti" dati un "izstrādāti" dati. Tas ir tuvu, bet tas nav pilnīgi pareizi. Pat ja no pētnieku viedokļa tiek atklāti lieli datu avoti, tie ne tikai krīt no debesīm. Tā vietā datu avoti, kurus pētnieki ir "atraduši", ir paredzēti kādam mērķim. Tā kā kāds ir izveidojis "atrastu" datus, es vienmēr iesaku mēģināt saprast pēc iespējas vairāk par cilvēkiem un procesiem, kas izveidoja jūsu datus. Otrkārt, kad jūs atkārtoti izmantojat datus, bieži ir ļoti noderīgi iedomāties ideālu datu kopu savai problēmai un pēc tam salīdziniet šo ideālo datu kopu ar to, kuru izmantojat. Ja pats neesat savācis datus, iespējams, ka būs būtiskas atšķirības starp to, ko vēlaties un ko jūs esat. Ņemot vērā šīs atšķirības, būs iespējams noskaidrot, ko jūs varat un ko nevarat mācīties no saviem datiem, un tas var ieteikt jaunus datus, kas jums būtu jāsavāc.

Pēc manas pieredzes sociologi un datu zinātnieki mēdz atkārtoti izmantot dažādas metodes. Sociālie zinātnieki, kuri ir pieraduši strādāt ar pētījumiem paredzētiem datiem, parasti ātri norāda uz problēmām, kas saistītas ar pārspīlētiem datiem, ignorējot tās stiprās puses. No otras puses, datu zinātnieki parasti ātri norāda uz pārspīlēto datu priekšrocībām, ignorējot tā trūkumus. Protams, labākā pieeja ir hibrīds. Tas nozīmē, ka pētniekiem ir jāsaprot lielu datu avotu īpašības - gan labas, gan sliktas - un pēc tam izdomājiet, kā no tiem mācīties. Un tas ir plāns pārējā šīs nodaļas daļā. Nākamajā iedaļā es aprakstīšu desmit kopīgu lielu datu avotu īpašības. Tad nākamajā iedaļā es aprakstīšu trīs pētniecības pieejas, kas var darboties ar šādiem datiem.