2.3 Dziesięć wspólnych cech dużych zbiorów danych

Duże źródła danych mają często wspólną cechę; niektóre są ogólnie dobre dla badań społecznych, a niektóre są na ogół złe.

Mimo że każde duże źródło danych jest odrębne, warto zauważyć, że istnieją pewne cechy, które mają tendencję do występowania w kółko. Dlatego zamiast podejścia opartego na platformie (np. O tym, co musisz wiedzieć o Twitterze, o tym, co musisz wiedzieć o danych wyszukiwarki Google itp.), Opiszę dziesięć ogólnych cech dużych źródła danych. Odsunięcie się od szczegółów każdego systemu i spojrzenie na te ogólne cechy umożliwia badaczom szybkie poznanie istniejących źródeł danych i posiadanie zestawu pomysłów do zastosowania do źródeł danych, które zostaną utworzone w przyszłości.

Mimo że pożądane cechy źródła danych zależą od celu badawczego, uważam za pomocne bezproblemowe zgrupowanie dziesięciu cech w dwie szerokie kategorie:

  • na ogół pomocne w badaniach: duże, zawsze aktywne i niereaktywne
  • generalnie problematyczne dla badań: niekompletne, niedostępne, niereprezentatywne, dryfujące, algorytmicznie mylące, brudne i wrażliwe

Kiedy opisuję te cechy, zauważysz, że często powstają, ponieważ duże źródła danych nie zostały stworzone do celów badawczych.