2.3 Deg nodwedd gyffredin o ddata mawr

Mae ffynonellau data mawr yn tueddu i gael nifer o nodweddion yn gyffredin; mae rhai yn gyffredinol dda ar gyfer ymchwil gymdeithasol ac mae rhai yn gyffredinol wael.

Er bod pob ffynhonnell ddata fawr yn wahanol, mae'n ddefnyddiol sylwi bod rhai nodweddion sy'n tueddu i ddigwydd dro ar ôl tro. Felly, yn hytrach na chymryd dull llwyfan-wrth-blatfform (ee, dyma'r hyn y mae angen i chi ei wybod am Twitter, dyma'r hyn y mae angen i chi ei wybod am ddata chwilio Google, ac ati), rwy'n mynd i ddisgrifio deg nodwedd gyffredinol mawr ffynonellau data. Mae troi yn ôl o fanylion pob system benodol ac edrych ar y nodweddion cyffredinol hyn yn galluogi ymchwilwyr i ddysgu'n gyflym am ffynonellau data presennol a bod ganddynt set gadarn o syniadau i ymgeisio i'r ffynonellau data a grëir yn y dyfodol.

Er bod nodweddion dymunol ffynhonnell ddata yn dibynnu ar y nod ymchwil, mae'n ddefnyddiol fy mod yn grwpio'r deg nodwedd yn gryno yn ddau gategori eang:

  • yn gyffredinol ddefnyddiol ar gyfer ymchwil: mawr, bob amser, ac anweithredol
  • Yn gyffredinol yn broblemus ar gyfer ymchwil: anghyflawn, anhygyrch, nad yw'n gynrychioliadol, yn diflannu, yn anghydnaws, yn frwnt ac yn sensitif yn algorithm

Gan fy mod yn disgrifio'r nodweddion hyn, byddwch yn sylwi eu bod yn aml yn codi oherwydd na chreu ffynonellau data mawr at ddiben ymchwil.