2.2 Groot data

Groot data word geskep en versamel deur maatskappye en regerings vir ander doeleindes as navorsing. Die gebruik van hierdie data vir navorsing vereis dus herhaling.

Die eerste manier waarop baie mense sosiale navorsing in die digitale era ervaar, is deur wat dikwels groot data genoem word . Ten spyte van die wydverspreide gebruik van hierdie term, is daar geen konsensus oor hoe groot data selfs is nie. Een van die mees algemene definisies van groot data fokus egter op die "3 Vs": Volume, Variety en Velocity. Roughly, daar is baie data, in 'n verskeidenheid van formate, en dit word voortdurend geskep. Sommige ondersteuners van groot data voeg ook ander "Vs" soos Veracity and Value, terwyl sommige kritici Vs soos Vague en Vacuous voeg. In plaas van die 3 "Vs" (of die 5 "Vs" of die 7 "Vs"), vir die doeleindes van sosiale navorsing, dink ek 'n beter plek om te begin is die 5 "Ws": Wie, Wat, Waar, Wanneer , en waarom. Trouens, ek dink dat baie van die uitdagings en geleenthede wat deur groot databronne geskep word, van net een "W" kom: Waarom.

In die analoog ouderdom is die meeste data wat vir sosiale navorsing gebruik is, geskep om navorsing te doen. In die digitale era word egter 'n groot hoeveelheid data geskep deur maatskappye en regerings vir ander doeleindes as navorsing, soos die verskaffing van dienste, die opwekking van wins en die bestuur van wette. Kreatiewe mense het egter besef dat jy hierdie korporatiewe en regeringsdata vir navorsing kan heraangestel . Dink terug aan die kuns-analogie in hoofstuk 1, net soos Duchamp 'n bevind voorwerp vir kuns skep, kan wetenskaplikes nou die data wat herwin word, heroorweeg om navorsing te skep.

Alhoewel daar ongetwyfeld groot geleenthede vir herposisionering is, gebruik data wat nie vir die doeleindes van navorsing geskep is nie, ook nuwe uitdagings. Vergelyk byvoorbeeld 'n sosiale media diens, soos Twitter, met 'n tradisionele openbare meningsopname, soos die Algemene Sosiale Opname. Twitter se hoof doelwitte is om 'n diens aan sy gebruikers te lewer en om wins te maak. Die Algemene Sosiale Opname, aan die ander kant, fokus op die skep van algemene data vir sosiale navorsing, veral vir publieke opinie-navorsing. Hierdie verskil in doelwitte beteken dat die data wat deur Twitter geskep is en wat geskep is deur die Algemene Sosiale Opname, verskillende eienskappe het, alhoewel albei gebruik kan word om die publieke opinie te bestudeer. Twitter werk op 'n skaal en spoed wat die Algemene Sosiale Opname nie kan ooreenstem nie, maar Twitter, in teenstelling met die Algemene Sosiale Opname, pas nie gebruikers versigtig op nie en werk nie hard om vergelykbaarheid oor tyd te behou nie. Omdat hierdie twee databronne so verskillend is, is dit nie sinvol om te sê dat die algemene sosiale opname beter is as Twitter of andersom nie. As jy uurlikse maatreëls van globale bui wil hê (bv. Golder and Macy (2011) ), is Twitter die beste. Aan die ander kant, as jy langtermyn veranderinge in die polarisasie van houdings in die Verenigde State wil verstaan ​​(bv. DiMaggio, Evans, and Bryson (1996) ), is die Algemene Sosiale Opname die beste keuse. Meer in die algemeen, eerder as om te probeer om te argumenteer dat groot databronne beter of erger is as ander tipes data, sal hierdie hoofstuk poog om te verduidelik vir watter soort navorsingsvrae groot databronne aantreklike eienskappe het en vir watter soort vrae hulle dalk nie mag wees nie. ideale.

As jy dink aan groot databronne, fokus baie navorsers dadelik op aanlyn data wat geskep en versamel word deur maatskappye, soos soekenjins en sosiale media-boodskappe. Hierdie smal fokus verlaat egter twee ander belangrike bronne van groot data. Eerstens kom korporatiewe groot data bronne uit digitale toestelle in die fisiese wêreld. Byvoorbeeld, in hierdie hoofstuk vertel ek jou van 'n studie wat die heruitgevoerde uitkykdata vir supermarkte ondersoek om te bepaal hoe 'n werker se produktiwiteit beïnvloed word deur die produktiwiteit van haar eweknieë (Mas and Moretti 2009) . Dan, in latere hoofstukke, sal ek jou vertel van navorsers wat oproeprekords van selfone (Blumenstock, Cadamuro, and On 2015) en faktuurdata geskep deur elektriese nutsdienste (Allcott 2015) . Soos hierdie voorbeelde illustreer, is korporatiewe groot databronne meer as net aanlyngedrag.

Die tweede belangrike bron van groot data wat gemis word deur 'n noue fokus op aanlyngedrag, is data wat deur regerings geskep word. Hierdie regeringsdata, wat navorsers die regering se administratiewe rekords noem , sluit dinge in soos belastingrekords, skoolrekords en belangrike statistiese rekords (bv. Registers van geboortes en sterftes). Regerings het hierdie soort data geskep vir, in sommige gevalle, honderde jare, en sosiale wetenskaplikes gebruik hulle amper so lank as wat daar sosiale wetenskaplikes was. Wat egter verander het, is digitalisering, wat dit regtig makliker maak vir regerings om data te versamel, oordra, stoor en analiseer. Byvoorbeeld, in hierdie hoofstuk, sal ek jou vertel van 'n studie wat herbevestigde data van die digitale taxi meter van die New York City regering om 'n fundamentele debat in arbeidsekonomie (Farber 2015) . Dan, in latere hoofstukke, sal ek jou vertel hoe regering-versamelde stemrekords in 'n opname gebruik is (Ansolabehere and Hersh 2012) en 'n eksperiment (Bond et al. 2012) .

Ek dink die idee van herposisionering is fundamenteel om te leer uit groot databronne, en dus, voordat ek meer spesifiek oor die eienskappe van groot databronne (afdeling 2.3) praat en hoe dit gebruik kan word in navorsing (afdeling 2.4), wil ek graag om twee stukke algemene raad oor repurposing aan te bied. Eerstens kan dit aanloklik wees om te dink aan die kontras wat ek opgestel het tussen die "gevind" data en "ontwerpte" data. Dit is naby, maar dit is nie heeltemal reg nie. Alhoewel, uit die perspektief van navorsers, groot databronne gevind word, val hulle nie net van die lug af nie. In plaas daarvan word databronne wat deur navorsers gevind word, vir een of ander doel deur iemand ontwerp. Omdat "gevind" data deur iemand ontwerp is, beveel ek altyd aan om soveel as moontlik te probeer verstaan ​​oor die mense en prosesse wat jou data geskep het. Tweedens, wanneer jy data heroorweeg, is dit dikwels uiters nuttig om die ideale datastel vir jou probleem voor te stel en dan die ideale datastel met die een wat jy gebruik, te vergelyk. As u self u data nie ingesamel het nie, is daar waarskynlik belangrike verskille tussen wat u wil hê en wat u het. As jy hierdie verskille opmerk, sal dit help om te verduidelik wat jy kan en kan nie leer van die data wat jy het nie, en dit sal moontlik nuwe data voorstel wat jy moet insamel.

In my ondervinding is sosiale wetenskaplikes en data wetenskaplikes geneig om hulself te heroorweeg. Sosiale wetenskaplikes, wat gewoond is aan die gebruik van data wat ontwerp is vir navorsing, is tipies vinnig om die probleme met heropgemaakte data uit te wys terwyl hulle die sterk punte ignoreer. Aan die ander kant is data wetenskaplikes tipies vinnig om die voordele van heropgeloste data uit te wys terwyl hulle swakhede ignoreer. Natuurlik is die beste benadering 'n baster. Dit is dat navorsers die eienskappe van groot databronne moet verstaan ​​- goed en sleg - en dan uitvind hoe om van hulle te leer. En dit is die plan vir die res van hierdie hoofstuk. In die volgende gedeelte sal ek tien algemene kenmerke van groot databronne beskryf. Dan sal ek in die volgende gedeelte drie navorsingsbenaderings beskryf wat goed met sulke data kan werk.