2.1 Cyflwyniad

Yn yr oedran analog, casglu data am ymddygiad - pwy sy'n gwneud beth, a phryd-yn ddrud, ac felly'n gymharol brin. Yn awr, yn yr oes ddigidol, mae ymddygiad biliynau o bobl yn cael eu cofnodi, eu storio a'u dadansoddi. Er enghraifft, bob tro y byddwch chi'n clicio ar wefan, gwneud galwad ar eich ffôn symudol, neu dalu am rywbeth gyda'ch cerdyn credyd, mae cofnod digidol o'ch ymddygiad yn cael ei greu a'i storio gan fusnes. Oherwydd bod y mathau hyn o ddata yn ôlproduct o weithredoedd bob dydd pobl, fe'u gelwir yn aml yn olion digidol . Yn ogystal â'r olion hyn a gedwir gan fusnesau, mae gan lywodraethau ddata hynod gyfoethog hefyd am bobl a busnesau. Gyda'i gilydd, mae'r cofnodion busnes a llywodraeth hyn yn aml yn cael eu galw'n ddata mawr .

Mae'r llifogydd sy'n codi o ddata mawr yn golygu ein bod wedi symud o fyd lle roedd data ymddygiadol yn brin i fyd lle mae data ymddygiadol yn ddigon. Y cam cyntaf at ddysgu o ddata mawr yw sylweddoli ei fod yn rhan o gategori ehangach o ddata a ddefnyddiwyd ar gyfer ymchwil gymdeithasol ers sawl blwyddyn: data arsylwi . Ychydig, data arsylwi yw unrhyw ddata sy'n deillio o arsylwi system gymdeithasol heb ymyrryd mewn rhyw ffordd. Ffordd brwd i feddwl amdano yw mai data arsylwi yw popeth nad yw'n golygu siarad â phobl (ee, arolygon, pwnc pennod 3) neu newid amgylcheddau pobl (ee, arbrofion, pwnc pennod 4). Felly, yn ogystal â chofnodion busnes a llywodraeth, mae data arsylwi hefyd yn cynnwys pethau fel testun erthyglau papur newydd a lluniau lloeren.

Mae tair rhan i'r bennod hon. Yn gyntaf, yn adran 2.2, rwy'n disgrifio ffynonellau data mawr yn fwy manwl ac yn egluro gwahaniaeth sylfaenol rhyngddynt a'r data a ddefnyddiwyd fel arfer ar gyfer ymchwil gymdeithasol yn y gorffennol. Yna, yn adran 2.3, rwy'n disgrifio deg nodwedd gyffredin ffynonellau data mawr. Mae deall y nodweddion hyn yn eich galluogi i adnabod cryfderau a gwendidau ffynonellau presennol yn gyflym a bydd yn eich helpu i harneisio'r ffynonellau newydd a fydd ar gael yn y dyfodol. Yn olaf, yn adran 2.4, rwy'n disgrifio tair prif strategaeth ymchwil y gallwch eu defnyddio i ddysgu o ddata arsylwi: cyfrif pethau, rhagweld pethau, a brasamcanu arbrawf.