2.3 Deich shaintréithe coitianta de shonraí móra

Is minic go mbíonn roinnt tréithe i gcoitinne ag foinsí móra sonraí; tá cuid mhaith go maith le haghaidh taighde sóisialta i gcoitinne agus tá cuid acu go dona i gcoitinne.

Cé go bhfuil gach foinse sonraí mór ar leith, tá sé cabhrach tabhairt faoi deara go bhfuil tréithe áirithe ann a tharlaíonn arís agus arís eile. Dá bhrí sin, seachas cur chuige ardán-trí-ardán a ghlacadh (m.sh., cad é a theastaíonn uait a bheith agat faoi Twitter, is é seo a theastaíonn uait a fháil faoi shonraí cuardaigh Google, etc.), beidh mé ag cur síos ar dheich tréithe ginearálta mór foinsí sonraí. Trí dhul ar ais ó shonraí gach córas ar leith agus ag féachaint ar na saintréithe ginearálta seo, cuireann ar chumas taighdeoirí foghlaim go tapa faoi fhoinsí sonraí atá ann cheana féin agus tá sraith smaointe daingean acu a chur i bhfeidhm maidir leis na foinsí sonraí a chruthaítear sa todhchaí.

Cé go bhfuil na saintréithe atá ag teastáil foinse sonraí ag brath ar an gcuspóir taighde, bíonn sé úsáideach na deich dtréithe a ghrúpáil i dhá chatagóir leathan:

  • Go ginearálta cabhrach le haghaidh taighde: mór, i gcónaí, agus neamhghníomhach
  • go ginearálta fadhbanna le haghaidh taighde: neamhiomlán, neamh-inrochtana, neamh-léiritheach, drifting, confounded algorithmically, salach, agus íogair

Ós rud é go bhfuil mé ag cur síos ar na saintréithe seo, feicfidh tú go n-eascraíonn siad go minic toisc nár cruthaíodh foinsí sonraí móra chun críche taighde.