2.2 Data Mawr

Crëir a chasglir data mawr gan gwmnïau a llywodraethau at ddibenion heblaw ymchwil. Gan ddefnyddio'r data hwn ar gyfer ymchwil, felly, mae angen ail-osod.

Y ffordd gyntaf y mae llawer o bobl yn dod ar draws ymchwil gymdeithasol yn yr oes ddigidol trwy'r hyn a elwir yn aml yn ddata mawr . Er gwaethaf y defnydd eang o'r tymor hwn, nid oes consensws ynghylch pa ddata mawr sydd hyd yn oed. Fodd bynnag, mae un o'r diffiniadau mwyaf cyffredin o ddata mawr yn canolbwyntio ar y "3 Vs": Cyfrol, Amrywiaeth, a Chyflymder. Yn fras, mae llawer o ddata, mewn amrywiaeth o fformatau, ac mae'n cael ei greu yn gyson. Mae rhai cefnogwyr o ddata mawr hefyd yn ychwanegu "Vs" eraill fel Veracity and Value, tra bod rhai beirniaid yn ychwanegu Vs megis Vague a Vacus. Yn hytrach na'r 3 "Vs" (neu'r 5 "Vs" neu'r 7 "Vs"), at ddibenion ymchwil gymdeithasol, rwy'n credu mai lle gwell i ddechrau yw'r 5 "Ws": Pwy, Beth, Ble, Pryd , a Pam. Mewn gwirionedd, credaf fod llawer o'r heriau a'r cyfleoedd a grëir gan ffynonellau data mawr yn dilyn o un "W": Pam.

Yn yr oedran analog, crewyd y rhan fwyaf o'r data a ddefnyddiwyd ar gyfer ymchwil gymdeithasol er mwyn gwneud ymchwil. Yn yr oes ddigidol, fodd bynnag, mae cwmnïau a llywodraethau'n creu cryn dipyn o ddata at ddibenion heblaw ymchwil, megis darparu gwasanaethau, cynhyrchu elw a gweinyddu cyfreithiau. Fodd bynnag, mae pobl greadigol wedi sylweddoli y gallwch ail-dalu'r data corfforaethol a llywodraeth hon ar gyfer ymchwil. Gan feddwl yn ôl i'r cyfatebiaeth gelf ym mhennod 1, yn union fel y dychwelodd Duchamp wrthwynebiad a ddarganfuwyd i greu celf, gall gwyddonwyr nawr gael eu hailbynnu i ddod o hyd i ddata i greu ymchwil.

Er nad oes yna gyfleoedd anferth ar gyfer ail-osod, gan ddefnyddio data na chreuwyd at ddibenion ymchwil hefyd yn cyflwyno heriau newydd. Cymharwch, er enghraifft, wasanaeth cyfryngau cymdeithasol, fel Twitter, gydag arolwg barn cyhoeddus traddodiadol, fel yr Arolwg Cymdeithasol Cyffredinol. Prif nodau Twitter yw darparu gwasanaeth i'w defnyddwyr ac i wneud elw. Mae'r Arolwg Cymdeithasol Cyffredinol, ar y llaw arall, yn canolbwyntio ar greu data pwrpas cyffredinol ar gyfer ymchwil gymdeithasol, yn enwedig ar gyfer ymchwil barn y cyhoedd. Mae'r gwahaniaeth hwn mewn nodau'n golygu bod gan y data a grëwyd gan Twitter a'r hyn a grėwyd gan yr Arolwg Cymdeithasol Cyffredinol wahanol eiddo, er y gellir defnyddio'r ddau ar gyfer astudio barn y cyhoedd. Mae Twitter yn gweithredu ar raddfa a chyflymder na all yr Arolwg Cymdeithasol Cyffredinol ei gyfateb, ond, yn wahanol i'r Arolwg Cymdeithasol Cyffredinol, nid yw Twitter yn samplu defnyddwyr yn ofalus ac nid yw'n gweithio'n galed i gynnal cymaradwy dros amser. Oherwydd bod y ddwy ffynhonnell ddata hyn mor wahanol, nid yw'n gwneud synnwyr i ddweud bod yr Arolwg Cymdeithasol Cyffredinol yn well na Twitter neu i'r gwrthwyneb. Os ydych am fesurau fesul awr o hwyliau byd-eang (ee, Golder and Macy (2011) ), Twitter yw'r gorau. Ar y llaw arall, os ydych chi am ddeall newidiadau hirdymor ym mholareiddio agweddau yn yr Unol Daleithiau (ee, DiMaggio, Evans, and Bryson (1996) ), yna'r Arolwg Cymdeithasol Cyffredinol yw'r dewis gorau. Yn fwy cyffredinol, yn hytrach na cheisio dadlau bod ffynonellau data mawr yn well neu'n waeth na mathau eraill o ddata, bydd y bennod hon yn ceisio egluro pa fathau o gwestiynau ymchwil sydd gan ffynonellau data mawr yn eiddo deniadol ac ar gyfer pa fath o gwestiynau nad ydynt efallai ddelfrydol.

Wrth feddwl am ffynonellau data mawr, mae llawer o ymchwilwyr yn canolbwyntio ar unwaith ar ddata ar-lein a grëwyd ac a gesglir gan gwmnïau, megis logiau peiriannau chwilio a swyddi cyfryngau cymdeithasol. Fodd bynnag, mae'r ffocws cul hwn yn gadael dau ffynhonnell bwysig arall o ddata mawr. Yn gyntaf, mae ffynonellau data mawr corfforaethol cynyddol yn dod o ddyfeisiau digidol yn y byd ffisegol. Er enghraifft, yn y bennod hon, byddaf yn dweud wrthych am astudiaeth sy'n dadansoddi data gwirio archfarchnadoedd i astudio sut mae cynhyrchiant ei chyfoedion (Mas and Moretti 2009) yn effeithio ar gynhyrchiant gweithiwr. Yna, mewn penodau diweddarach, byddaf yn dweud wrthych am ymchwilwyr a ddefnyddiodd gofnodion galwadau o ffonau symudol (Blumenstock, Cadamuro, and On 2015) a data bilio a grëwyd gan gyfleustodau trydan (Allcott 2015) . Fel mae'r enghreifftiau hyn yn dangos, mae ffynonellau data mawr corfforaethol yn ymwneud â mwy nag ymddygiad ar-lein yn unig.

Yr ail ffynhonnell bwysig o ddata mawr a gollwyd gan ffocws cul ar ymddygiad ar-lein yw data a grëir gan lywodraethau. Mae'r data llywodraeth hyn, sy'n ymchwilwyr yn galw cofnodion gweinyddol y llywodraeth , yn cynnwys pethau megis cofnodion treth, cofnodion ysgol, a chofnodion ystadegau hanfodol (ee, cofrestriadau genedigaethau a marwolaethau). Mae llywodraethau wedi bod yn creu'r math hwn o ddata, mewn rhai achosion, cannoedd o flynyddoedd, ac mae gwyddonwyr cymdeithasol wedi bod yn eu hecsbloetio am bron cyn belled ag y bu gwyddonwyr cymdeithasol. Yr hyn sydd wedi newid, fodd bynnag, yw digido, sydd wedi ei gwneud yn ddramatig yn haws i lywodraethau gasglu, trosglwyddo, storio a dadansoddi data. Er enghraifft, yn y bennod hon, byddaf yn dweud wrthych am astudiaeth sy'n ailosod data o fesuryddion tacsi digidol llywodraeth New York City er mwyn mynd i'r afael â dadl sylfaenol mewn economeg llafur (Farber 2015) . Yna, mewn penodau diweddarach, dywedaf wrthych chi sut y defnyddiwyd cofnodion pleidleisio a gasglwyd gan y llywodraeth mewn arolwg (Ansolabehere and Hersh 2012) ac arbrawf (Bond et al. 2012) .

Rwy'n credu bod y syniad o ail-greu yn hanfodol i ddysgu o ffynonellau data mawr, ac felly, cyn siarad yn fwy penodol am briodweddau ffynonellau data mawr (adran 2.3) a sut y gellir defnyddio'r rhain mewn ymchwil (adran 2.4), hoffwn i mi i gynnig dau ddarn o gyngor cyffredinol ynghylch ail-osod. Yn gyntaf, gall fod yn demtasiwn meddwl am y cyferbyniad yr wyf wedi'i sefydlu fel rhwng data "dod o hyd" a data "wedi'i ddylunio". Mae hynny'n agos, ond nid yw'n iawn iawn. Er hynny, o safbwynt ymchwilwyr, mae ffynonellau data mawr yn "dod o hyd," nid ydynt yn syrthio o'r awyr. Yn lle hynny, mae ffynonellau data sy'n cael eu "dod o hyd" gan ymchwilwyr wedi'u cynllunio gan rywun at ryw ddiben. Oherwydd bod data "wedi dod o hyd" wedi'i gynllunio gan rywun, rwyf bob amser yn argymell eich bod yn ceisio deall cymaint â phosibl am y bobl a'r prosesau a greodd eich data. Yn ail, pan fyddwch yn ail-greu data, mae'n aml yn ddefnyddiol iawn i ddychmygu'r set ddata delfrydol ar gyfer eich problem ac yna cymharu'r set ddata ddelfrydol honno gyda'r un rydych chi'n ei ddefnyddio. Os na chawsoch eich data eich hun, mae'n debyg y bydd gwahaniaethau pwysig rhwng yr hyn yr hoffech chi a'r hyn sydd gennych chi. Bydd nodi'r gwahaniaethau hyn yn helpu i egluro'r hyn y gallwch chi ac na allant ei ddysgu o'r data sydd gennych, a gallai awgrymu data newydd y dylech ei chasglu.

Yn fy mhrofiad i, mae gwyddonwyr cymdeithasol a gwyddonwyr data yn dueddol o fynd ati i ail-osod yn wahanol iawn. Fel rheol, mae gwyddonwyr cymdeithasol, sy'n gyfarwydd â gweithio gyda data a ddyluniwyd ar gyfer ymchwil, yn gyflym i nodi'r problemau gyda data sydd wedi eu hailgylchu wrth anwybyddu ei gryfderau. Ar y llaw arall, mae gwyddonwyr data fel arfer yn cyfeirio at fanteision data a ailstrwythir wrth anwybyddu ei wendidau. Yn naturiol, mae'r ymagwedd orau yn hybrid. Hynny yw, mae angen i ymchwilwyr ddeall nodweddion ffynonellau data mawr - yn dda ac yn ddrwg - ac yna cyfrifwch sut i ddysgu oddi wrthynt. Ac, dyna'r cynllun ar gyfer gweddill y bennod hon. Yn yr adran nesaf, byddaf yn disgrifio deg nodwedd gyffredin ffynonellau data mawr. Yna, yn yr adran ganlynol, disgrifiaf dair dull ymchwil a all weithio'n dda gyda data o'r fath.