2.3 Common einkenni stór gögn

Big gögn heimildum hafa tilhneigingu til að hafa tíu eiginleika; sumir eru góð fyrir félagslega rannsókna og sumir eru slæm.

Ef vísindamenn eru að fara að læra af stór gögn sem þeir vildu ekki búa eða safna, þá verða þeir að skilja almenn einkenni. Frekar en að taka vettvang með palli nálgun (td, hér er það sem þú þarft að vita um Twitter, hér er það sem þú þarft að vita um Google gögn leita, etc), ég ætla að lýsa tíu almenn einkenni stór gögn, eiginleikar sem koma upp vegna þess að gögn var ekki búið í þeim tilgangi að félagslega rannsókna. Með stepping aftur frá the smáatriði af hverju einstöku kerfi og horfa á þessar almennu eiginleika, vísindamenn geta fljótt læra meira um núverandi gögn heimildum og hafa traustan sett af hugmyndum til að eiga við komandi gögn heimildum.

Mér finnst það hjálplegt að flokka eiginleikum í tvo flokka:

  • almennt gott fyrir rannsóknum: stór, alltaf-á, non-reactive
  • almennt slæmt fyrir rannsóknum: ófullnægjandi, óaðgengilegur, non-fulltrúa, reki, algorithmically háðungar, óaðgengilegar, óhrein, og viðkvæm

Í stórum dráttum eru stjórnvöld framkvæmdavald færslur minna ekki fulltrúa, minna algorithmically skammar og minna reki. Á hinn bóginn, hafa tilhneigingu viðskipti og stjórnsýsluupplýsingar til að vera stærri og meiri alltaf-á.