2.2 Big gegevens

Grutte gegevens binne makke en sammele troch bedriuwen en oerheden foar oare doelen as ûndersyk. It gebrûk fan dizze gegevens foar ûndersyk freget dêrom opnij.

De earste manier dy't in soad minsken op sosjale ûndersiken yn 'e digitale leeftyd opkomt, is troch wat faak de grutte data neamd wurdt . Nettsjinsteande it wiidferspraat gebrûk fan dizze term, is der gjin konsensus oer wat grutte data sels is. Mar ien fan 'e meast foarkommende definysjes fan grutte gegevens rjochtet him op' e "3 Vs": Volume, Variety, Velocity. Rûchwei is der in protte gegevens, yn in ferskaat oan formaten, en it wurdt stilend makke. Guon fans fan grutte gegevens adde ek oare "Vs", lykas Veracity and Value, wylst guon kritisy as Vega en Vacuous foegje. Neffens de 3 "Vs" (of de 5 "Vs" of de 7 "Vs"), foar 't doel fan sosjale ûndersiken, tink ik dat in better plak te begjinnen is de 5 "Ws": Wa, wêr, wêr, As , en werom. Yn 't feit tink ik dat in soad fan' e útdagings en kânsen dy't troch grutte gegevensboarnen ûntstien binne út mar ien "W" folgje: Wêrom.

Yn it analoere leeftyd waarden de measte gegevens dy't brûkt wurde foar sosjale ûndersiken foar it doel fan ûndersyk. Yn 'e digitale leeftyd wurdt lykwols in heule oantal gegevens makke troch bedriuwen en regearingen foar oare doelen as ûndersiik, lykas tsjinsten, fertsjinjen fan profiten, en wetjouwing. Kreative minsken, lykwols, hawwe realisearre dat jo kinne repurpose dizze bedriuwslibben en de oerheid gegevens foar ûndersyk. Tinkend oan 'e keunst analogy yn haadstik 1, krekt as Duchamp opnij in fûnemint foar keunst makke, kinne wittenskippers no opnommen wurde dat gegevens fûn wurde om ûndersyks te meitsjen.

Wylst der wierskynlik grutte kânsen binne foar werynrjochting, gebrûk fan gegevens dy't net ûntfongen binne foar it doel fan ûndersiik binne ek nije útdagingen presintearre. Fergelykjen, bygelyks, in social media tsjinst, lykas Twitter, mei in tradysjonele publike mieningûndersyk, lykas de Algemiene Sosjale Underwerp. Twitter's belangrykste doelen binne om in tsjinst te leverjen oan har brûkers en in winst te meitsjen. De Algemene Sosjaal Underwerp is oan 'e oare kant rjochte op it meitsjen fan algemiene doelgegevens foar sosjale ûndersyk, benammen foar ûndersiken fan publike mieningen. Dit ferskil yn doelen betsjut dat de gegevens fan Twitter en dat troch de Algemiene Sosjale Survey ûntstiene ferskillende eigenskippen hawwe, ek al kinne beide brûkt wurde om te studearjen fan publike miening. Twitter wurket op in skaal en snelheid dat de Algemiene Sosjale Survey kin net oerienkomme, mar, yn 'e mande mei de Algemiene Sosjale Underwerp, Twitter docht net gewoane brûkers en probearret net dreech om fergeliking te behâlden mei de tiid. Om't dizze twa gegevensboarnen sa oars binne, makket it net sin te sizzen dat de Algemiene Sosjale Wittenskip better is as Twitter of oarsom. As jo ​​regelmjittige maatregels fan globale stimming wolle (bgl. Golder and Macy (2011) ), Twitter is it bêste. Oan 'e oare kant, as jo langere terminen feroarje wolle yn' e polarisaasje fan hâlding yn 'e Feriene Steaten (bgl. DiMaggio, Evans, and Bryson (1996) ), dan is de Algemiene Sosjale Underwerp de bêste kar. Mear generaal, ynstee fan probearje om te argearjen dat grutte data boarnen better of slimmer binne as oare soarten data, sil dit haadstik besykje om te ferklearjen foar hokker ûndersiken fragen grutte data boarnen hawwe oantreklike eigenskippen hawwe en hokker soarten fragen dy net mooglik binne ideaal.

As tinken oer grutte gegevens boarnen falle in protte ûndersikers fuortendaliks op online datasken dy't makke binne en sammele troch bedriuwen, lykas sykmasjetten en sosjale mediaposten. Dit smelle fokus makket lykwols twa oare wichtige boarnen fan grutte gegevens. Earst, hieltyd mear bedriuwere grutte gegevensboarnen komme fan digitale apparaten yn 'e fysike wrâld. Bygelyks, yn dit haadstik sil ik jo fertelle oer in stúdzje dat gegevens fan supermerken kontrolearje om te ûndersykjen hoe't de produktiviteit fan 'e wurkerin beynfloede wurdt troch de produktiviteit fan har kollega's (Mas and Moretti 2009) . Dan, yn lettere haadstikken sil ik jo fertelle oer ûndersikers dy't gebrûk fan rapporten fan mobile tillefoans brûkten (Blumenstock, Cadamuro, and On 2015) en fakturearjen fan gegevens makke troch elektryske utilities (Allcott 2015) . Om't dizze foarbylden yllustrearje, binne grutte bedriuwsgebrûk oer mear as just online gedrach.

De twadde wichtige boarne fan grutte gegevens fermindere troch in smelle fokus op online gedrach is gegevens dy't makke wurde troch regearingen. Dizze oerheidsgegevens, dêr't ûndersikers bestjoeren fan bestjoerlike bestjoersrjochten neame, binne dingen lykas belestingtsjûgels, skoalreklisten, en wichtige statistyske tema's (bygelyks registries of births and deaths). De regearingen meitsje dy soart gegevens foar, yn guon gefallen, hûnderten jierren, en sosjale wittenskippers hawwe se sawat sa lang brûkt om't se sosjale wittenskippers binne. Wat lykwols feroare is, is digitalisearring, dy't it regel makliker makket foar regio's om sammeljen, oer te jaan, te wiskjen en te analysearjen fan gegevens. Bygelyks, yn dit haadstik sil ik jo fertelle oer in stúdzje dat data fan 'e digitale taksymeter fan New York City regeare om in fûnemintele debat yn' e arbeidsekonomy te berikken (Farber 2015) . Dan yn 'e lettere haadstikken sil ik jo fertelle oer hoe't regearjen fan stimmberjochten brûkt waarden yn in survey (Ansolabehere and Hersh 2012) en in eksperimint (Bond et al. 2012) .

Ik tink dat it idee fan werynrjochting is grûnwize foar it learen fan grutte data boarnen, en dus, earder spesjaal spesjaal oer de eigenskippen fan grutte gegevensboarnen (seksje 2.3) en hoe't dizze kin brûkt wurde yn ûndersiik (seksje 2.4), ik soe graach om twa partijen fan algemiene advizen oer oanbiede te bieden. Earst kin it ferhaal wêze om te tinken oer it kontrast dat ik ynsteld hawn tusken 'fûn' gegevens en 'ûntwurpen' gegevens. Dat is ticht, mar it is net hielendal rjocht. Hoewol, út it perspektyf fan ûndersikers, binne grutte gegevensboarnen "fûn", se falje net gewoan út 'e himel. Ynstee dêrfan binne gegevensboarnen dy't "fûn" binne troch ûndersikers ûntwurpen troch ien foar ien of oare doelen. Om't "fûnen" gegevens ûntwurpen binne troch ien, ik ried altyd oan dat jo as safolle mooglik begripe wolle oer de minsken en prosessen dy't jo gegevens makke hawwe. Twadder as jo gegevens opnij binne, is it faak ekstra brûkber om it ideale dataset foar jo probleem te foarkommen en dan it ideale dataset te fergelykjen mei dejinge dy't jo brûke. As jo ​​jo gegevens net sels sammele hawwe, dan binne wierskynlik wichtige ferskillen tusken wat jo wolle en wat jo hawwe. It beoardieljen fan dizze ferskillen sille helpe te klikken wat jo kinne en net learje kinne fan de gegevens dy't jo hawwe, en it kin nije data beweegje dat jo sammele moatte.

Yn myn erfaringen binne de sosjale wittenskippers en data-wittenskippers neier om oanjouwe werklik te ûnderskieden. Sosjale wittenskippers, dy't gewoan wurkje oan wurkje mei gegevens dy't ûntworpen binne foar ûndersyk, binne typysk flugge om de problemen op te rjochtsjen mei werjûn gegevens, wylst se har sterkte ûnthâlde. Oan 'e oare kant binne gegevenswittenskippers typysk flugge om de foardielen fan repurposearre gegevens op te paden, wylst se har swakkens ignorearje. Natuerlik is de bêste oanpak in hybride. Dat is, ûndersikers moatte de karakteristiken fan grutte gegevensboarnen begripe - sawol goed as min - en dan útfine hoe't se fan har leare. En dat is it plan foar de rest fan dit haadstik. Yn 'e folgjende paragraaf sil ik tsien mienskiplike skaaimerken fan grutte data boarnen beskriuwe. Dan sil ik yn 'e folgjende paragraaf trije wittenskiplike oanfragen beskriuwe dy't goed mei sokke gegevens wurkje kinne.