2.3.2.6 القذرة

مصادر البيانات الكبيرة يمكن تحميلها مع غير المرغوب فيه وغير المرغوب فيها.

ويعتقد بعض الباحثين أن مصادر البيانات الكبيرة، ولا سيما من المصادر على شبكة الانترنت، هي البكر ليتم جمعها تلقائيا. في الواقع، والناس الذين عملوا مع مصادر البيانات الكبيرة يعرفون أنهم في كثير من الأحيان القذرة. أي أنها كثيرا ما تتضمن البيانات التي لا تعكس الإجراءات الحقيقية التي تهم الباحثين. العديد من علماء الاجتماع هم بالفعل على دراية عملية تنظيف بيانات المسح الاجتماعي على نطاق واسع، ولكن تنظيف مصادر البيانات الكبيرة وأكثر صعوبة لسببين: 1) أنها لم تخلق من قبل الباحثين للباحثين و 2) الباحثون بشكل عام فهم أقل من كيف أنشئت من أجلها.

وتتضح خطورة بيانات التتبع الرقمي القذرة التي كتبها Back والزملاء (2010) دراسة رد فعل عاطفي على هجمات 11 سبتمبر 2001. الباحثون عادة دراسة ردا على الأحداث المأساوية باستخدام بيانات بأثر رجعي جمعها على مدى أشهر أو حتى سنوات. ولكن، والعودة وزملاءه على الرسائل دائما على مصدر من آثار، والرقمية قتية، المسجلة تلقائيا من 85،000 الأمريكية الاستدعاء وهذا ما مكن الباحثين لدراسة ردود فعل عاطفية على جدول زمني أدق بكثير. ذهابا والزملاء خلق دقيقة تلو الدقيقة زمني العاطفي من 11 سبتمبر من قبل ترميز المحتوى العاطفي للرسائل الاستدعاء بالنسبة المئوية من الكلمات ذات الصلة (1) الحزن (على سبيل المثال، والبكاء والحزن)، (2) والقلق (على سبيل المثال، قلق خوفا)، و (3) الغضب (على سبيل المثال، والكراهية، حاسمة). ووجد الباحثون أن الحزن والقلق يتقلب طوال اليوم من دون نمط قوي، ولكن ذلك كان هناك زيادة مذهلة في الغضب على مدار اليوم. ويبدو أن هذا البحث ليكون مثالا رائعا للقوة دائما على مصادر البيانات: استخدام الأساليب القياسية سيكون من المستحيل أن يكون مثل هذا الجدول الزمني عالية الدقة من الاستجابة الفورية لحدث غير متوقع.

في وقت لاحق عام واحد فقط، ومع ذلك، سينثيا بيري (2011) نظرت إلى المزيد من البيانات بعناية. اكتشفت أن عددا كبيرا من الرسائل الغاضبة يفترض تم إنشاؤها بواسطة النداء واحد، وكانت كلها متطابقة. وهنا ما قالت تلك الرسائل من المفترض غاضبة:

"آلة إعادة تشغيل NT [اسم] في مجلس الوزراء [اسم] في [موقع]: الحرجة: [التاريخ والوقت]"

وصفت هذه الرسائل غاضبة لأنها تضمنت كلمة "الهامة"، مما قد يشير عموما الغضب ولكن لا في هذه الحالة. إزالة الرسائل التي يولدها هذا النداء الآلي واحد يلغي تماما الزيادة الواضحة في الغضب على مدار اليوم (الشكل 2.2). وبعبارة أخرى، فإن النتيجة الرئيسية في Back, Küfner, and Egloff (2010) وكانت قطعة أثرية من الاستدعاء واحد. كما يوضح هذا المثال، تحليل بسيط نسبيا من البيانات المعقدة والفوضى نسبيا لديه القدرة على غير ما يرام على محمل الجد.

الشكل 2.2: الاتجاهات المقدرة في الغضب على مدار 11 سبتمبر 2001 على أساس 85،000 الاستدعاء الأمريكية (العودة، Küfner، وEgloff 2010؛ بيري 2011؛ ​​العودة، Küfner، وEgloff 2011). في الأصل، والعودة، ذكرت Küfner، وEgloff (2010) وجود نمط من زيادة الغضب طوال اليوم. ومع ذلك، تم إنشاؤها معظم هذه الرسائل الغاضبة على ما يبدو من قبل النداء واحد أرسلت مرارا وتكرارا الرسالة التالية: الجهاز إعادة تشغيل NT [اسم] في مجلس الوزراء [اسم] في [موقع]: الحرجة: [التاريخ والوقت]. مع إزالة هذه الرسالة، والزيادة الواضحة في الغضب يختفي (بيري 2011؛ ​​العودة، Küfner، وEgloff 2011). هذا الرقم هو استنساخ الشكل 1B في بيري (2011).

الشكل 2.2: الاتجاهات المقدرة في الغضب على مدار 11 سبتمبر 2001 على أساس 85،000 الاستدعاء الأمريكية (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . في الأصل، Back, Küfner, and Egloff (2010) ذكرت وجود نمط من زيادة الغضب طوال اليوم. ومع ذلك، تم إنشاؤها معظم هذه الرسائل الغاضبة على ما يبدو من قبل النداء واحد أرسلت مرارا وتكرارا الرسالة التالية: "الجهاز إعادة تشغيل NT [اسم] في مجلس الوزراء [اسم] في [موقع]: الحرجة: [التاريخ والوقت]". مع إزالة هذه الرسالة، والزيادة الواضحة في الغضب يختفي (Pury 2011; Back, Küfner, and Egloff 2011) . هذا الرقم هو استنساخ الشكل 1B في Pury (2011) .

في حين يمكن أن الاستدعاء يتم الكشف عن البيانات القذرة التي تم إنشاؤها عن غير قصد مثل من صاخبة واحدا تلو باحث دقيق إلى حد معقول، وهناك أيضا بعض الأنظمة على الانترنت التي تجذب الاطر المتعمدة. هذه الاطر توليد بنشاط بيانات وهمية، وغالبا بدافع الربح، العمل الشاق للغاية للحفاظ على البريد الالكتروني غير المرغوب بهم أخفى. على سبيل المثال، النشاط السياسي على تويتر يبدو أن تشمل على الأقل بعض المزعج متطورة إلى حد معقول، حيث يتم إجراء بعض الأسباب السياسية عمدا لتبدو أكثر شعبية من أنهم الفعلية هي (Ratkiewicz et al. 2011) . تواجه الباحثين العاملين مع البيانات التي قد تحتوي على البريد المزعج المتعمد التحدي المتمثل في إقناع جمهورهم أنهم الكشف عن وإزالة البريد المزعج ذات الصلة.

وأخيرا، ما يعتبر بيانات القذرة يمكن أن تعتمد بطرق خفية على أسئلة البحث الخاصة بك. على سبيل المثال، يتم إنشاء العديد من عمليات التحرير ويكيبيديا عن طريق السير الآلي (Geiger 2014) . إذا كنت مهتما في البيئة من ويكيبيديا، ثم هذه السير مهمة. ولكن، إذا كنت مهتما في كيفية المساهمة البشر ويكيبيديا، ينبغي أن تستبعد هذه التعديلات التي قدمتها هذه السير.

أفضل الطرق لتجنب التعرض للينخدع البيانات القذرة هي أن نفهم كيف تم إنشاء البيانات الخاصة بك لإجراء تحليل استكشافية بسيطة، مثل صنع المؤامرات مبعثر بسيطة.