2.3 Kumi sifa za kawaida za data kubwa

Vyanzo vyenye vya data huwa na sifa nyingi kwa kawaida; baadhi kwa ujumla ni nzuri kwa ajili ya utafiti wa kijamii na baadhi ni mbaya sana.

Ingawa kila chanzo kikubwa cha data ni tofauti, ni muhimu kutambua kuwa kuna sifa fulani ambazo zinaonekana kutokea tena na tena. Kwa hiyo, badala ya kuchukua mbinu ya jukwaa-kwa-jukwaa (kwa mfano, hapa ndio unayohitaji kujua kuhusu Twitter, hapa ndio unayohitaji kujua kuhusu data ya utafutaji wa Google, nk), nitaelezea sifa kumi za jumla za kubwa vyanzo vya data. Kuondoka nyuma kutoka kwa maelezo ya kila mfumo na kutazama sifa hizi zote huwezesha watafiti kujifunza haraka juu ya vyanzo vya data zilizopo na kuwa na kuweka imara ya mawazo ya kuomba kwenye vyanzo vya data ambavyo vitatengenezwa baadaye.

Ingawa sifa zinazohitajika za chanzo cha data zinategemea lengo la utafiti, ninaona kuwa ni muhimu kwa kikundi kikubwa sifa kumi katika makundi mawili mawili:

  • kwa manufaa kwa ajili ya utafiti: kubwa, daima-juu, na yasiyo ya kufanya kazi
  • kwa ujumla shida ya utafiti: haijakamilika, haipatikani, haitoshi, inajishughulisha, imetoshehewa na algorithmically, chafu, na nyeti

Kwa kuwa ninaelezea sifa hizi utaona kuwa mara nyingi hutokea kwa sababu vyanzo vya data kubwa hazikuundwa kwa lengo la utafiti.