2.3 Bieži īpašības lielā datu

Lielas datu avoti mēdz būt desmit īpašības; daži ir labi sociālo pētījumu un daži ir slikti.

Ja zinātnieki gatavojas mācīties no lielajiem datiem, tie neradīja vai savākt, tad tie ir jāsaprot savas vispārējās īpašības. Nevis ņemot platformu ar platformas pieeja (piemēram, šeit ir tas, ko jums ir jāzina par čivināt, lūk, ko jums ir jāzina par Google meklēšanas dati uc), es esmu gatavojas, lai aprakstītu desmit vispārējās īpašības lielo datu, īpašības, kas rodas jo dati netika izveidota, lai sociālo pētījumu. Ar pastiprināšanu atpakaļ no detaļas katras konkrētās sistēmas un meklē šiem vispārējiem īpašības, pētnieki var ātri uzzināt vairāk par esošajiem datu avotiem, un ir stingri kopumu ideju piemērot nākotnes datu avotiem.

Man šķiet noderīgi grupai īpašībām divās kategorijās:

  • kopumā labu pētniecībai: liels, vienmēr-on, non-reaktīvā
  • parasti slikti pētniecībai: nepilnīgu, nepieejami, nav pārstāvja, dreifēšanu, algoritmiski sagrāvusi, nepieejami, netīrs, un jutīga

Vispārīgi runājot, valsts administratīvās ieraksti ir mazāk nav reprezentatīvi, mazāk algoritmiski sagrāvusi, un mazāk slīdēt. No otras puses, uzņēmējdarbības administratīvie ieraksti mēdz būt lielāki un vienmēr-on.