2.2 Big gegevens

Big gegevens wurde makke en sammele troch oerheden foar doelen oare as ûndersyk. Mei help fan dizze gegevens foar ûndersyk, dêrom, freget in nije bestimming.

In idealized werjefte fan sosjale ûndersyk stelt in wittenskipper mei in idee en dêrnei it sammeljen fan gegevens om te testen dat idee. Dizze styl fan ûndersyk liedt ta in strakke fit tusken ûndersyk fraach en gegevens, mar it is beheind, omdat in yndividuele ûndersiker faak net de middels nedich te sammeljen de gegevens dy't se nedich hawwe, lykas grutte, ryk, en nasjonaal-represintative gegevens. Dêrom, in soad fan sosjale ûndersyk yn it ferline hat brûkt grutskalige sosjale ûndersiken, lykas it Algemien Maatskiplik Survey (GSS), de Amerikaanske National Election Study (Anes), en Panel Study fan Income Dynamics (PSID). Dy grutskalige ûndersyk wurde algemien rinne troch in ploech fan ûndersikers en se binne bedoeld om te meitsjen gegevens dy't brûkt wurde kin troch in protte ûndersikers. Fanwegen de doelen fan dizze grutskalige enkêtes, grutte soarch wurdt setten yn it ûntwerpen fan 'e gegevens kolleksje en it tarieden fan de dêrút gegevens foar gebrûk troch de ûndersikers. Dizze gegevens wurde troch ûndersikers en foar ûndersikers.

De measte sosjale ûndersyk mei help fan digitale leeftyd boarnen, lykwols, is essinsjeel-oars. Ynstee fan mei help fan gegevens sammele troch ûndersikers en foar ûndersikers, dat brûkt gegevens boarnen dy't makke en sammele troch bedriuwen en oerheden foar harren eigen doelen lykas it meitsjen fan winst, it bieden fan in tsjinst, of behear fan in wet. Dy saken en oerheid gegevens boarnen hawwe komme te neamd wurde grutte gegevens. It dwaan fan ûndersyk mei grutte gegevens is oars as it dwaan fan ûndersyk mei gegevens dy't wie oarspronklik makke foar ûndersyk. Ferlykje, bygelyks, in sosjale media webside, lykas Twitter, mei in tradisjonele publike miening ûndersyk lykas it Algemien Maatskiplik Survey (GSS). Twitter syn wichtichste doelen binne te bieden in tsjinst oan syn brûkers en om in winst. Yn it proses fan berikken dy doelen, Twitter skept gegevens dy't miskien wêze nuttich foar stúdzje beskate aspekten fan de publike opiny. Mar, oars as de Algemiene Sosjale Survey (GSS), Twitter is net yn it foarste plak rjochte op sosjale ûndersyk.

De term grutte gegevens is frustratingly dizenich, en it groepen byinoar soad ferskillende dingen. Foar it tapassen fan sosjale ûndersyk, ik tink dat it is brûkber te ûnderskieden tusken twa soarten fan grutte gegevens boarnen: oerheid bestjoerlike records en it bedriuwslibben bestjoerlike records. Government bestjoerlike records binne gegevens dy't makke troch oerheden as part fan harren routine aktiviteiten. Dizze soarten fan argyfstikken binne brûkt troch ûndersikers yn it ferline-lykas demographers studearre berte, houlik, en ferstjerren records-mar oerheden binne hieltyd mear it sammeljen en it loslitten fan detaillearre records yn analyzable foarmen. Bygelyks, de New York City regear ynstallearre digitale meter binnenkant fan alle taksy yn 'e stêd. Dy meter opnimme alle soarten fan gegevens oer eltse taksy ride ynklusyf de bestjoerder, de begjintiid en lokaasje, it stop tiid en lokaasje, en de fare. Yn in ûndersyk dat ik fertelle letter yn dit haadstik, Henry Keiswetter (2015) repurposed dizze gegevens te pakken in fûnemintele debat yn arbeid ekonomy oer de relaasje tusken stündlich lean en it tal fan oeren wurke.

De twadde wichtichste soarte fan grutte gegevens foar sosjale ûndersyk is bedriuw bestjoerlike records. Dat binne gegevens dy't bedriuw meitsje en sammelje as ûnderdiel fan harren routine aktiviteiten. Dat bedriuw bestjoerlike records wurde faak neamd digitale spoaren, en ûnder mear saken lykas search engine fraach logs, sosjale media berichten, en neame records út mobile tillefoans. Kritysk, dizze bedriuw bestjoerlike records binne net allinnich oer online gedrach. Bygelyks, winkels dy't brûke check-out Scanners binne it meitsjen fan real-time maatregels fan arbeider produktiviteit. Yn in ûndersyk dat ik fertelle jo oer letter yn dit haadstik, Alexandre Mas en Enrico Moretti (2009) repurposed dizze supermerk check-out gegevens te bestudearjen hoe't in arbeiders 'produktiviteit wurdt beynfloede troch de produktiviteit fan harren leeftydsgenoaten.

As beide fan dizze foarbylden yllustrearje, it idee fan in nije bestimming is fûnemintele te learen fan grutte gegevens. Yn myn ûnderfining, sosjale wittenskippers en gegevens wittenskippers oanpak oan dit Repurposing hiel oars. Sosjale wittenskippers, dy't wend oan wurkjen mei gegevens ûntwurpen foar ûndersyk, binne fluch te lêzers út de problemen mei repurposed gegevens wylst negearjen syn sterke punten. Oan de oare kant, gegevens wittenskippers binne fluch te lêzers út de foardielen fan repurposed gegevens wylst negearjen syn swakheden. Fansels, de bêste oanpak soe wêze in hybride. Dat is, ûndersikers moatte begripe de skaaimerken fan dizze nije boarnen fan data-sawol goed en kwea-en dêrnei derachter te learen fan har. En, dat is it plan foar de rest fan dit haadstik. Folgjende, ik sil beskriuwe tsien mienskiplike skaaimerken fan it bedriuwslibben en de oerheid bestjoerlike gegevens. Nei dat, ik sil beskriuwe trije ûndersyk oanpak dy't brûkt wurde kin mei dizze gegevens, oanpak dy't goed geskikt oan de skaaimerken fan dizze gegevens.