2.3 الخصائص المشتركة العشر للبيانات الضخمة

تميل مصادر البيانات الكبيرة إلى وجود عدد من السمات المشتركة ؛ بعضها جيد بشكل عام للبحث الاجتماعي وبعضها سيئ بشكل عام.

على الرغم من أن كل مصدر بيانات كبير متميز ، إلا أنه من المفيد ملاحظة أن هناك خصائص معينة تميل إلى الظهور مرارًا وتكرارًا. لذلك ، بدلاً من اتباع منهج النظام الأساسي (على سبيل المثال ، إليك ما تحتاج إلى معرفته حول Twitter ، إليك ما تحتاج إلى معرفته عن بيانات بحث Google ، إلخ.) ، سأقوم بوصف عشر خصائص عامة مصادر البيانات. إن التراجع من تفاصيل كل نظام معين والنظر في هذه الخصائص العامة يمكن الباحثين من التعرف بسرعة على مصادر البيانات الموجودة ولديهم مجموعة ثابتة من الأفكار لتطبيقها على مصادر البيانات التي سيتم إنشاؤها في المستقبل.

على الرغم من أن الخصائص المرغوبة لمصدر البيانات تعتمد على هدف البحث ، إلا أنني أجد أنه من المفيد تجميع الخصائص العشرة بشكل فاضح في فئتين رئيسيتين:

  • مفيدة بشكل عام للبحث: كبيرة ودائمة وغير متفاعلة
  • مشكلة عامة للبحث: غير كاملة ، يتعذر الوصول إليها ، غير تمثيلية ، انجراف ، مرتبكة خوارزميات ، قذرة ، وحساسة

وبما أنني أصف هذه الخصائص ، فستلاحظ أنها غالبًا ما تنشأ بسبب عدم إنشاء مصادر البيانات الكبيرة بغرض البحث.