2.3 Tíu algengar einkenni stórra gagna

Stórir gagnaheimildir hafa tilhneigingu til að hafa marga eiginleika sameiginlega; Sumir eru almennt góðir fyrir félagslega rannsóknir og sumir eru almennt slæmir.

Jafnvel þó að hver stór gagnasending sé greinilegur, þá er það gagnlegt að taka eftir því að það eru ákveðin einkenni sem hafa tilhneigingu til að eiga sér stað aftur og aftur. Þess vegna, frekar en að taka vettvangsupplýsingar um borð (td hér er það sem þú þarft að vita um Twitter, hér er það sem þú þarft að vita um leitarniðurstöður Google, osfrv.), Ég ætla að lýsa tíu almennum einkennum stórs gögn uppspretta. Að læra af upplýsingum um hvert tiltekið kerfi og horfa á þessar almennu einkenni gerir vísindamönnum kleift að læra fljótt um núverandi gagnaheimildir og hafa ákveðnar hugmyndir að því að sækja um gögn sem verða til í framtíðinni.

Jafnvel þótt viðeigandi einkenni gagnaheimildir byggist á rannsóknarmarkmiðinu, finnst mér gagnlegt að hópa tíu einkenni í tvær breiður flokka:

  • almennt gagnlegt fyrir rannsóknir: stórt, ávallt áfram og óvirk
  • almennt erfið fyrir rannsóknir: ófullnægjandi, óaðgengilegur, órepresentative, reki, algorithmically hneykslaður, óhreinn og viðkvæmur

Eins og ég lýsi þessum eiginleikum munt þú taka eftir því að þau koma oft upp vegna þess að stór gögn voru ekki búin til í þeim tilgangi að rannsaka.