2.3.1.1 الكبير

مجموعات البيانات الكبيرة هي وسيلة لتحقيق الغاية؛ فهي ليست غاية في حد ذاتها.

أول من الخصائص الثلاث جيدة من البيانات الكبيرة هي الأكثر مناقشة: هذه هي البيانات الكبيرة. هذه مصادر البيانات يمكن أن تكون كبيرة في ثلاث طرق مختلفة: كثير من الناس، والكثير من المعلومات للشخص الواحد، أو ملاحظات عديدة على مر الزمن. وجود مجموعة بيانات كبيرة تمكن بعض أنواع معينة من التجانس قياس أبحاث ودراسة الأحداث النادرة، كشف عن الخلافات الصغيرة، وعمل التقديرات السببية من بيانات الرصد. ويبدو أيضا أن تؤدي إلى نوع معين من ارتباك.

أول شيء لأي حجم مفيد بشكل خاص يتحرك وراء المتوسطات عمل تقديرات لمجموعات فرعية محددة. على سبيل المثال، غاري الملك، جنيفر عموم، ومولي روبرتس (2013) قياس احتمال أن المشاركات وسائل الاعلام الاجتماعية في الصين تخضع للرقابة من قبل الحكومة. في حد ذاته هذا الاحتمال متوسط ​​الحذف ليست مفيدة جدا لفهم لماذا الحكومة رقابة مشددة بعض الوظائف دون غيرها. ولكن، لأن مجموعة البيانات التي شملت 11 مليون وظيفة، كما أنتجت الملك وزملاؤه تقديرات لاحتمال الرقابة للوظائف على 85 فئات منفصلة (مثل المواد الإباحية، والتبت، والمرور في بكين). بمقارنة احتمال الرقابة للوظائف في فئات مختلفة، وأنهم كانوا قادرين على فهم المزيد عن كيف ولماذا رقابة مشددة على الحكومة أنواع معينة من الوظائف. مع 11000 المشاركات (بدلا من 11 مليون وظيفة)، فإنها لم تكن قادرة على انتاج هذه التقديرات فئة محددة.

الثانية، وحجم هو مفيدة بشكل خاص لتدرس من الأحداث النادرة. على سبيل المثال، غويل وزملاؤه (2015) أراد لدراسة الطرق المختلفة التي يمكن أن تذهب تويت الفيروسي. لأن شلالات كبيرة من إعادة تويت-هي غاية نادرة-على وشك واحد في 3000، أنها تحتاج إلى دراسة أكثر من مليار تويت من أجل العثور على شلالات كبيرة بما يكفي لتحليلها.

ثالثا، تمكن مجموعات كبيرة من البيانات للباحثين لاكتشاف الفروق الصغيرة. في الواقع، فإن الكثير من التركيز على البيانات الكبيرة في الصناعة هو حول هذه الاختلافات الصغيرة: كشف موثوق الفرق بين نسب النقر إلى الظهور 1٪ و 1.1٪ على الإعلانات يمكن أن تترجم إلى الملايين من الدولارات من عائدات إضافية. في بعض البيئات العلمية، قد لا تكون هذه الخلافات الصغيرة المهم وخاصة (حتى لو كانت ذات دلالة إحصائية). ولكن، في بعض البيئات السياسة، يمكن لمثل هذه الخلافات الصغيرة تصبح ذات أهمية عندما ينظر في مجموع المباراتين. على سبيل المثال، إذا كان هناك نوعان من التدخلات الصحية العامة واحد هو أكثر قليلا فعالة من الآخر، ثم التحول إلى تدخل أكثر فعالية ويمكن في نهاية المطاف إنقاذ آلاف الأرواح إضافية.

وأخيرا، مجموعات كبيرة من البيانات زيادة كبيرة في قدرتنا على تقديم تقديرات السببية من بيانات الرصد. على الرغم من أن مجموعات البيانات الكبيرة لا تغيير جذري في مشاكل مع جعل الاستدلال السببي من بيانات الرصد، مطابقة والتجارب اثنين الطبيعية تقنيات أن الباحثين قد وضعت لتقديم المطالبات السببية من الرصدية البيانات على حد سواء الاستفادة بشكل كبير من مجموعات البيانات الكبيرة. ساوضح وتوضيح هذه المطالبة بمزيد من التفصيل لاحقا في هذا الفصل عندما أصف استراتيجيات البحث.

وعلى الرغم من كبر عموما خاصية جيدة عند استخدامها بشكل صحيح، لقد لاحظت أن كبر يؤدي عادة إلى خطأ مفاهيمي. لسبب ما، يبدو كبر لقيادة الباحثون إلى تجاهل كيف تم إنشاؤها البيانات الخاصة بهم. في حين كبر لا يقلل من الحاجة للقلق بشأن خطأ عشوائي، فإنه في الواقع يزيد من حاجة للقلق حول أخطاء منهجية، وأنواع من الأخطاء التي أنا أصف في أكثر دون أن تنشأ من التحيز في كيفية خلق البيانات وجمعها. في مجموعة بيانات صغير، على حد سواء خطأ عشوائي والخطأ المنهجي يمكن أن تكون هامة، ولكن في خطأ عشوائي بيانات كبيرة ويمكن أن متوسط ​​بعيدا ويهيمن على خطأ منهجي. الباحثين الذين لا نفكر في خطأ منهجي في نهاية المطاف باستخدام مجموعات بياناتها كبيرة للحصول على تقدير دقيق لشيء خطأ. أنها سوف تكون غير دقيقة بالضبط (McFarland and McFarland 2015) .