2.2 البيانات الكبيرة

يتم إنشاء البيانات الكبيرة وجمعها من قبل الشركات والحكومات لأغراض أخرى غير البحث. لذلك ، يتطلب استخدام هذه البيانات للبحث إجراء إعادة توجيه.

الطريقة الأولى التي يواجهها العديد من الأشخاص في البحث الاجتماعي في العصر الرقمي هي من خلال ما يسمى بالبيانات الضخمة . على الرغم من الاستخدام الواسع النطاق لهذا المصطلح ، لا يوجد إجماع حول ما هي البيانات الضخمة حتى. ومع ذلك ، يركز أحد التعاريف الأكثر شيوعًا للبيانات الضخمة على "3 Vs": Volume و Variety و Velocity. تقريبا ، هناك الكثير من البيانات ، في مجموعة متنوعة من الأشكال ، ويجري إنشاؤه باستمرار. يضيف بعض محبي البيانات الكبيرة أيضًا "Vs" أخرى مثل Veracity و Value ، في حين يضيف بعض النقاد Vs مثل Vague و Vacuous. بدلاً من الـ 3 "Vs" (أو 5 "Vs" أو 7 "Vs") ، لأغراض البحث الاجتماعي ، أعتقد أن أفضل مكان للبدء هو 5 "Ws": Who، What، Where، When ، و لماذا. في الحقيقة ، أعتقد أن العديد من التحديات والفرص التي أوجدتها مصادر البيانات الضخمة تتبع من "W" واحدة فقط: لماذا.

في العصر التناظري ، تم إنشاء معظم البيانات التي استخدمت للبحث الاجتماعي لغرض إجراء البحوث. في العصر الرقمي ، ومع ذلك ، يتم إنشاء كمية هائلة من البيانات من قبل الشركات والحكومات لأغراض أخرى غير البحث ، مثل تقديم الخدمات ، وتوليد الأرباح ، وإدارة القوانين. بيد أن الأشخاص المبدعين قد أدركوا أنه يمكنك إعادة توظيف هذه البيانات المؤسسية والحكومية لأغراض البحث. بالعودة إلى التشبيه الفني في الفصل 1 ، تماماً كما أعاد دوشامب إعادة تشكيل كائن موجود لخلق الفن ، يستطيع العلماء الآن إعادة توظيف البيانات الموجودة لإنشاء الأبحاث.

على الرغم من وجود فرص هائلة لا شك في إعادة توظيفها ، فإن استخدام البيانات التي لم يتم إنشاؤها لأغراض البحث يمثل أيضًا تحديات جديدة. قارن ، على سبيل المثال ، خدمة وسائل الإعلام الاجتماعية ، مثل Twitter ، مع استطلاع الرأي العام التقليدي ، مثل المسح الاجتماعي العام. الأهداف الرئيسية لتويتر هي تقديم خدمة لمستخدميها وتحقيق ربح. من ناحية أخرى ، يركز المسح الاجتماعي العام على إنشاء بيانات ذات أغراض عامة للبحث الاجتماعي ، خاصة لبحوث الرأي العام. هذا الاختلاف في الأهداف يعني أن البيانات التي أنشأتها Twitter والتي أنشأها المسح الاجتماعي العام لها خصائص مختلفة ، على الرغم من أنه يمكن استخدام كلاهما لدراسة الرأي العام. يعمل تويتر على نطاق وسرعة لا يمكن أن يتطابق معها المسح الاجتماعي العام ، ولكن على عكس المسح الاجتماعي العام ، لا يقوم تويتر بتجربة المستخدمين بعناية ولا يعمل بجد للحفاظ على قابلية المقارنة بمرور الوقت. ولأن هذين المصدرين المختلفين للبيانات مختلفان إلى حد كبير ، فلا معنى للقول أن المسح الاجتماعي العام أفضل من تويتر أو العكس. إذا كنت تريد مقاييس ساعة من المزاج العالمي (مثل Golder and Macy (2011) ) ، فإن Twitter هو الأفضل. من ناحية أخرى ، إذا كنت تريد فهم التغييرات طويلة المدى في استقطاب المواقف في الولايات المتحدة (على سبيل المثال DiMaggio, Evans, and Bryson (1996) ) ، فإن الاستقصاء الاجتماعي العام هو الخيار الأفضل. بشكل عام ، بدلاً من محاولة القول بأن مصادر البيانات الكبيرة أفضل أو أسوأ من أنواع البيانات الأخرى ، سيحاول هذا الفصل توضيح أنواع الأسئلة البحثية التي تتعلق بمصادر البيانات الكبيرة التي لها خصائص جذابة وأي نوع من الأسئلة قد لا تكون المثالي.

عند التفكير في مصادر البيانات الضخمة ، يركز العديد من الباحثين على الفور على البيانات عبر الإنترنت التي تم إنشاؤها وجمعها من قبل الشركات ، مثل سجلات محركات البحث ومشاركات وسائل الإعلام الاجتماعية. ومع ذلك ، يترك هذا التركيز الضيق مصدرين مهمين آخرين للبيانات الكبيرة. أولاً ، تأتي مصادر البيانات الضخمة للشركات بشكل متزايد من الأجهزة الرقمية في العالم المادي. على سبيل المثال ، في هذا الفصل ، سوف أخبركم عن دراسة تفيد بأن بيانات السحب من السوبرماركت أعدت لدراسة كيفية تأثر إنتاجية العامل بإنتاجية أقرانه (Mas and Moretti 2009) . ثم ، في الفصول اللاحقة ، سأخبرك عن الباحثين الذين استخدموا سجلات المكالمات من الهواتف المحمولة (Blumenstock, Cadamuro, and On 2015) وبيانات الفواتير التي تم إنشاؤها بواسطة المرافق الكهربائية (Allcott 2015) . كما توضح هذه الأمثلة ، فإن مصادر البيانات الضخمة للشركات هي أكثر من مجرد سلوك عبر الإنترنت.

المصدر الثاني المهم للبيانات الضخمة التي أخطأها التركيز الضيق على السلوك عبر الإنترنت هو البيانات التي أنشأتها الحكومات. وتتضمن هذه البيانات الحكومية ، التي يطلق عليها الباحثون السجلات الإدارية الحكومية ، أشياء مثل السجلات الضريبية والسجلات المدرسية والسجلات الإحصائية الحيوية (مثل سجلات المواليد والوفيات). لقد قامت الحكومات بإنشاء هذه النوعية من البيانات ، في بعض الحالات ، مئات السنين ، واستغلها علماء الاجتماع لمدة تقارب علماء الاجتماع. غير أن ما تغير هو الرقمنة ، الأمر الذي جعل من الأسهل على الحكومات جمع البيانات ونقلها وتخزينها وتحليلها. على سبيل المثال ، في هذا الفصل ، سوف أخبركم عن دراسة أن البيانات المعاد توجيهها من عدادات سيارات الأجرة الرقمية لحكومة مدينة نيويورك من أجل معالجة نقاش أساسي في اقتصاديات العمل (Farber 2015) . بعد ذلك ، في الفصول اللاحقة ، سأخبرك عن كيفية استخدام سجلات التصويت التي جمعتها الحكومة في استطلاع (Ansolabehere and Hersh 2012) وتجربة (Bond et al. 2012) .

أعتقد أن فكرة إعادة التوجيه أمر أساسي للتعلم من مصادر البيانات الكبيرة ، وهكذا ، قبل التحدث بشكل أكثر تحديدًا عن خصائص مصادر البيانات الضخمة (القسم 2.3) وكيف يمكن استخدامها في البحث (القسم 2.4) ، أود لتقديم اثنين من النصائح العامة حول إعادة توجيه. أولاً ، قد يكون من المغري التفكير في التناقض الذي أعددته بين البيانات "الموجودة" والبيانات "المصممة". هذا قريب ، لكنه ليس صحيحًا تمامًا. على الرغم من أنه من وجهة نظر الباحثين ، فإن مصادر البيانات الضخمة "موجودة" ، لا تقع فقط من السماء. بدلاً من ذلك ، تم تصميم مصادر البيانات التي "وجدها" الباحثون بواسطة شخص ما لسبب ما. نظرًا لتصميم بيانات "تم العثور عليها" بواسطة شخص ما ، أوصي دائمًا بمحاولة فهم أكبر قدر ممكن عن الأشخاص والعمليات التي أدت إلى إنشاء بياناتك. ثانيًا ، عندما تقوم بإعادة تخصيص البيانات ، يكون من المفيد للغاية في كثير من الأحيان تخيل مجموعة البيانات المثالية لمشكلتك ثم مقارنة مجموعة البيانات المثالية بتلك التي تستخدمها. إذا لم تجمع بياناتك بنفسك ، فمن المحتمل أن تكون هناك اختلافات مهمة بين ما تريد وما لديك. سيساعد ملاحظة هذه الاختلافات في توضيح ما يمكنك وما لا يمكن أن تتعلمه من البيانات المتوفرة لديك ، وقد يقترح بيانات جديدة عليك جمعها.

في تجربتي ، يميل علماء الاجتماع وعلماء البيانات إلى الاقتراب من أمر مختلف تمامًا. علماء الاجتماع ، الذين اعتادوا العمل مع البيانات المصممة للأبحاث ، عادة ما يسارعون إلى الإشارة إلى المشكلات المتعلقة بالبيانات المعاد توجيهها بينما يتجاهلون نقاط قوتهم. من ناحية أخرى ، يسارع علماء البيانات إلى الإشارة إلى فوائد البيانات المعاد توجيهها مع تجاهل نقاط ضعفها. بطبيعة الحال ، فإن أفضل نهج هو هجين. أي أن الباحثين بحاجة إلى فهم خصائص مصادر البيانات الضخمة - سواء الجيدة أو السيئة - ثم معرفة كيفية التعلم منها. وهذه هي الخطة لبقية هذا الفصل. في القسم التالي ، سوف أصف عشر خصائص مشتركة لمصادر البيانات الضخمة. بعد ذلك ، في القسم التالي ، سوف أصف ثلاثة منهج بحث يمكن أن يعمل بشكل جيد مع هذه البيانات.