2.1 مقدمة

في سن التناظرية، وجمع البيانات حول سلوك من يفعل ماذا عندما-كان مكلفا، وبالتالي، نادرة نسبيا. الآن، في العصر الرقمي، وتسجل السلوكيات المليارات من الناس، وتخزين، وتحليل كما على سبيل المثال، في كل مرة تنقر على موقع على شبكة الانترنت، إجراء مكالمة على الهاتف الخليوي الخاص بك، أو دفع ثمن شيء مع بطاقة الائتمان الخاصة بك، يتم إنشاء سجل رقمي من سلوكك وتخزينها من قبل رجال الأعمال. لأن هذه البيانات هي نتيجة ثانوية من كل تصرفات الناس في اليوم، وغالبا ما يطلق عليه آثار الرقمية. وبالإضافة إلى هذه الآثار التي تحتفظ بها الشركات، وعلى الحكومات أيضا بيانات غنية بشكل لا يصدق عن كل من الأفراد والشركات والبيانات التي غالبا ما تكون رقمية وتحليل كما معا غالبا ما تسمى هذه السجلات التجارية والحكومية البيانات الكبيرة.

طوفان ارتفاع من أي وقت مضى للبيانات الكبيرة يعني أننا انتقلنا من عالم حيث كانت البيانات السلوكية الشحيحة إلى عالم حيث البيانات السلوكية وفيرة. ولكن، لأن هذه الأنواع من البيانات هي جديدة نسبيا، وهو مبلغ المؤسف البحوث استخدامها يشبه العلماء عمياء مطاردة البيانات المتاحة. هذا الفصل، بدلا من ذلك، يوفر نهج مبدئي لفهم مصادر مختلفة من البيانات وكيف يمكن استخدامها. هذا الفهم أكثر ثراء يجب أن تساعدك تطابق أفضل الأسئلة البحثية لمصادر مناسبة من البيانات. أو، إذا لم تتوفر هذه المصادر الحالية اقناع لكم لجمع البيانات الخاصة بك باستخدام الأفكار الواردة في الفصول القادمة.

الخطوة الأولى للتعلم من البيانات الكبيرة هي أن ندرك أنه جزء من فئة أوسع من البيانات التي تم استخدامها للبحث الاجتماعي لسنوات عديدة: بيانات الرصد. تقريبا، البيانات الرصدية أي البيانات التي تنتج عن مراقبة نظام اجتماعي دون التدخل في بعض الطريق. وهناك طريقة بدائية للتفكير في الامر هو أن بيانات الرصد هو كل شيء التي لا تنطوي على التحدث مع الناس (على سبيل المثال، والدراسات الاستقصائية، موضوع الفصل 3) أو تغيير البيئات الناس (على سبيل المثال، والتجارب، وموضوع الفصل 4). وهكذا، بالإضافة إلى السجلات التجارية والحكومية، ويشمل بيانات الرصد أيضا أشياء مثل نص مقالات في الصحف وصور الأقمار الصناعية.

هذا الفصل من ثلاثة أجزاء. أولا، في القسم 2.2، ووصف البيانات الكبيرة بمزيد من التفصيل وتوضيح الفرق الأساسي بينه وبين البيانات التي تم تستخدم عادة للبحث الاجتماعي في الماضي. ثم، في القسم 2.3، أصف عشر الخصائص المشتركة من مصادر البيانات الكبيرة. فهم هذه الخصائص تمكننا من التعرف بسرعة على نقاط القوة والضعف في المصادر الحالية، وسوف يساعدنا تسخير مصادر جديدة التي سيتم إنشاؤها في المستقبل. وأخيرا، في القسم 2.4، أصف ثلاث استراتيجيات رئيسية للبحث التي يمكنك استخدامها لمعرفة من البيانات الرصدية: الأشياء عد، أشياء التنبؤ، وتقارب تجربة.