2.2 Velike podatki

Big podatki so ustvarili in vlade zbirajo za druge raziskave namene. Z uporabo teh podatkov za raziskave, zato zahteva repurposing.

Idealiziran pogled na socialne raziskave misli, znanstvenik, ki ima idejo in zbiranje podatkov, da preizkusite to idejo. Ta slog raziskav vodi v tesno prileganje med raziskovalno vprašanje in podatkov, vendar je omejena, ker posameznik raziskovalec pogosto nimajo potrebnih sredstev za zbiranje podatkov, ki jih potrebujejo, kot so velike, bogate in nacionalno reprezentativnih podatkov. Zato je veliko socialne raziskave v preteklosti, ki se uporabljajo velike socialne raziskave, kot so socialne ankete General (GSS), nacionalna študija ameriške volitev (Anes) in Panel preučevanje dohodka Dynamics (PSID). To raziskava velike so običajno vodi skupina raziskovalcev in so zasnovani za ustvarjanje podatkov, ki jih mnogi raziskovalci lahko uporabljajo. Ker je od ciljev teh raziskav velikih, je velika skrb dana v načrtovanju zbiranja podatkov in priprave končnih podatkov za uporabo s strani raziskovalcev. Ti podatki so raziskovalci in raziskovalci.

Najbolj socialne raziskave z uporabo digitalnih starostne virov, pa je bistveno drugačna. Namesto z uporabo podatkov, ki jih raziskovalci in raziskovalci zbrani, uporablja vire podatkov, ki so bile ustvarjene in podjetij in vlad, zbrane za njihove lastne namene, kot so ustvarjanje dobička, zagotavljanja storitev, ali dajanjem zakon. Ti poslovni in vladni viri podatkov so prišli, da se imenuje veliko podatkov. Delal raziskave z veliko podatkov je drugačna kot raziskovalno delo s podatki, ki je bil prvotno ustvarjen za raziskave. Primerjaj na primer spletna stran socialnih medijev, kot so Twitter, s tradicionalno javnomnenjske ankete, kot so socialne ankete General (GSS). Glavni cilji Twitter so za zagotavljanje storitev za svoje uporabnike in da bi dobiček. V procesu doseganja teh ciljev, Twitter ustvarja podatke, ki so lahko koristni za proučevanje nekaterih vidikov javnega mnenja. Ampak, za razliko od socialne ankete General (GSS), Twitter ni v prvi vrsti osredotočena na družbene raziskave.

Izraz velik podatkov je frustratingly nejasna, in ta sektor združuje veliko različnih stvari. Za socialne raziskave, mislim, da je koristno razlikovati med dvema vrstama velikih podatkovnih virov:. Administrativnih evidenc državnih in poslovnih upravnih evidenc vlada administrativni zapisi so podatki, ki so jih vlade ustvarjene v okviru svojih rednih aktivnosti. Te vrste evidenc, so raziskovalci uporabljali v preteklosti, kot so demografi študirajo rojstvo, poroka in smrt evidence-a so vlade vse bolj zbrala in objavila podrobne evidence v analyzable oblikah. Na primer, New York City vlada vgrajen digitalni metrov znotraj vsakega taksi v mestu. Ti merilniki evidentira vse vrste podatkov o vsakem vožnjo s taksijem, vključno z voznikom, z začetkom in lokacijo, čas zaustavitve in lokacijo, in fare. V študiji, da bom povedal, kasneje v tem poglavju, Henry Farber (2015) repurposed te podatke obravnavati temeljno razpravo v delovnih ekonomije o odnosu med urnimi plač in števila delovnih ur.

Druga glavna vrsta velikih podatkov za socialne raziskave je poslovna administrativne evidence. To so podatki, ki posel ustvarjajo in zbirajo kot del svojih rednih dejavnosti. Te poslovne upravne evidence se pogosto imenujejo digitalnih sledi, in vključujejo stvari, kot dnevnike poizvedb iskalnika, delovna mesta socialnih medijev, in klic evidence iz mobilnih telefonov. Kritično te poslovne administrativne evidence, ne gre le za vedenje na spletu. Na primer, trgovin, ki uporabljajo check-out skenerji ustvarjajo v realnem času ukrepe produktivnosti delavca. V študiji, ki ti bom povedal kasneje v tem poglavju, Alexandre Mas in Enrico Moretti (2009) repurposed to supermarket podatke preverite, da bi raziskali, kako je produktivnost delavskega vplivala na produktivnost svojih vrstnikov.

Zaradi obeh omenjenih primerov ponazarjajo, ideja repurposing je ključnega pomena za učenje iz velikih podatkov. Po mojih izkušnjah, družboslovci in podatkovnih znanstveniki pristopiti k temu repurposing zelo različno. Družboslovci, ki so navajeni, da delajo s podatki, namenjenih za raziskave, so hitro opozoriti na težave z repurposed podatkov, medtem ko ignorirajo svoje prednosti. Po drugi strani pa podatki znanstveniki so hitro poudariti prednosti repurposed podatkov, medtem ko ignorirajo svoje slabosti. Seveda bi bil najboljši pristop je hibrid. To pomeni, da morajo raziskovalci razumeti značilnosti teh novih virov podatkov-tako dobre in slabe, in nato ugotoviti, kako se učiti od njih. In, da je načrt za preostanek tega poglavja. Naslednja, bom opisala deset skupnih značilnosti poslovnih in vladnih administrativnih podatkov. Po tem bom opisala tri raziskovalne pristope, ki se lahko uporabljajo s temi podatki, pristopov, ki so dobro prilagojeni na značilnosti teh podatkov.