2.2 Big andmed

Big andmed on loodud ja kogutud valitsused muudel eesmärkidel kui teadus. Nende andmete kasutamisel teadusuuringute, seetõttu nõuab repurposing.

Idealiseeritud silmas sotsiaaluuringute kujutleb teadlane, millel on mõte ja siis andmete kogumine, et testida, et idee. See stiil teadus viib vaheline tihe uurimisküsimus ja andmeid, kuid see on piiratud, sest individuaalne uurija sageli ei ole vajalikke ressursse koguda andmeid, mida nad vajavad, nagu näiteks suured, rikkad ja riiklikult esindaja andmed. Seega, palju sotsiaaluuringute minevikus on kasutatud suurte sotsiaalsete uuringud, nagu näiteks General Social Survey (GSS), Ameerika Valimiskomisjonile Study (ANES) ning Panel Study of Income Dynamics (PSID). Need laiaulatuslik vaatlus on üldiselt juhitud meeskond teadlaste ja nende eesmärk on luua andmeid, mida saab kasutada paljud teadlased. Kuna eesmärgid nende suurte uuringud, väga hoolikalt pannakse projekteerimisel andmete kogumine ja ettevalmistamine saadud andmete kasutamiseks teadlased. Need andmed on teadlased ja teadlaste.

Enamik sotsiaalsed uuringud kasutades digitaalajastul allikad, aga on täiesti erinev. Selle asemel kasutatakse kogutud andmete teadlased ja teadlaste, mida ta kasutab andmete allikad, mis on loodud ja kogutud ettevõtete ja valitsuste poolt enda tarbeks näiteks kasumit, teenust osutav või manustades õigusega. Need ettevõtluse ja valitsuse andmeallikad on hakatud kutsuma suur andmed. Teadustöö suurte andmed on erinev kui teed teadusuuringute andmeid, mis olid algselt loodud teadusuuringute. Võrrelge näiteks sotsiaalse meedia veebisaidi, nagu Twitter, traditsioonilise avaliku arvamuse uuringu, nagu General Social Survey (GSS). Twitter peamisteks eesmärkideks on pakkuda teenust oma kasutajatele ja kasumit teenida. Protsessis nende eesmärkide saavutamiseks, Twitter loob andmeid, mis võib olla kasulik, õpib teatavate aspektide kohta avalik arvamus. Kuid erinevalt General Social Survey (GSS), Twitter ei ole keskendunud peamiselt sotsiaalsed uuringud.

Mõiste suur andmed on frustratingly ebamäärane ja see koondab palju erinevaid asju. Selleks et sotsiaalsed uuringud, ma arvan, et see on kasulik eristada kahte liiki suur andmeallikate: omavalitsuse arvestust ja äri haldus arvestust. Halduskogu andmed on andmed, mis on loodud valitsuste osana oma rutiinset tegevust. Sellised andmed on kasutatud uurijate poolt möödunud nagu demograafid õpib sünni-, abielu- ja surma arvestust-, kuid valitsused üha enam kogumise ja vabastades üksikasjalikku arvestust analyzable vorme. Näiteks New York City valitsus paigaldas digitaalsed meetri sees iga takso linna. Need meetri salvestada igasuguseid andmeid iga taksosõidu sealhulgas juht, algusaeg ja koht, stopp aja ja koha, ja pileti hind. Uuringus, mis ma ütlen hiljem selles peatükis, Henry Farber (2015) repurposed neid andmeid käsitleda põhimõtteline arutelu ökonoomika seoste kohta tunnipalk ja töötatud tundide arv.

Teine peamine tüüpi suur andmed sotsiaalsed uuringud on äri haldus arvestust. Need on andmed, et äri luua ja koguda osana oma rutiinset tegevust. Need äri haldusandmetest nimetatakse sageli digitaalse jälgi ning sisaldavad asjad otsingumootori päringulogisid, sotsiaalse meedia teateid, ja kõne arvestust mobiiltelefonid. Kriitiliselt, nende ettevõtete halduskoormuse andmed ei ole peaaegu käitumist võrgus. Näiteks kasutavad kauplused väljaregistreerimisel skannerid luua reaalajas meetmeid töötaja tootlikkus. Uuringus, et ma ütlen teile hiljem selles peatükis, Alexandre Mas ja Enrico Moretti (2009) repurposed see supermarket väljaregistreerimisel andmeid, et uurida, kuidas töötajate tootlikkus on mõjutanud tootlikkust eakaaslastega.

Kuna mõlemad näited illustreerivad, idee repurposing on oluline õppida suur andmed. Minu kogemus, ühiskonnateadlased ja andmete teadlased läheneda sellele repurposing väga erinevalt. Ühiskonnateadlased, kes on harjunud töötama andmeid mõeldud uurimistöö on kiire rõhutada probleeme repurposed andmed unustades oma tugevaid külgi. Teiselt poolt, andmete teadlased on kiire rõhutada kasu repurposed andmed unustades oma nõrkusi. Loomulikult on parim lahendus oleks hübriid. See tähendab, et teadlased peavad mõistma omadused nende uute allikate andmed-nii häid kui halbu-ja siis nuputada, kuidas õppida. Ja see on plaan ülejäänud seda peatükki. Järgmine, ma kirjeldada kümme ühised omadused ettevõtluse ja valitsuse administratiivsed andmed. Pärast seda, ma kirjeldada kolme uurimisvaldkonda lähenemisviise, mida saab kasutada koos nende andmete lähenemisviise, mis sobivad hästi omadusi neid andmeid.