4.6.2 بناء الأخلاق في التصميم الخاص بك: استبدال وصقل وتقليل

جعل تجربتك أكثر إنسانية من خلال استبدال التجارب مع الدراسات غير التجريبية، صقل العلاجات، وتقليل عدد المشاركين.

النصيحة الثانية التي أود تقديمها حول تصميم التجارب الرقمية تتعلق بالأخلاقيات. كما تظهر تجربة Restivo و van de Rijt على barnstars في Wikipedia ، فإن انخفاض التكلفة يعني أن الأخلاقيات ستصبح جزءًا مهمًا بشكل متزايد من تصميم الأبحاث. بالإضافة إلى الأطر الأخلاقية التي توجه أبحاث المواد البشرية التي سوف أشير إليها في الفصل 6 ، يمكن للباحثين الذين يصممون التجارب الرقمية أن يعتمدوا أيضًا على الأفكار الأخلاقية من مصدر مختلف: المبادئ الأخلاقية التي تم تطويرها لتوجيه التجارب التي تنطوي على الحيوانات. على وجه الخصوص ، في كتابهم البارز " مبادئ التقنية التجريبية للإنسانية" ، اقترح Russell and Burch (1959) ثلاثة مبادئ يجب أن ترشد البحث الحيواني: استبدال ، صقل ، وتقليل. أود أن أقترح أن هذه الثلاثة R يمكن استخدامها أيضًا - في شكل معدل بشكل طفيف - لتوجيه تصميم التجارب البشرية. خاصه،

  • استبدال: استبدل التجارب بأساليب أقل تدخلاً إن أمكن.
  • صقل: صقل العلاج لجعله غير ضار قدر الإمكان.
  • تقليل: تقليل عدد المشاركين في تجربتك قدر الإمكان.

ولجعل هذه العناصر الثلاثة محددة وملموسة كيف يمكن أن تؤدي إلى تصميم تجريبي أفضل وأكثر إنسانية ، سوف أصف تجربة ميدانية على الإنترنت أحدثت نقاشًا أخلاقيًا. بعد ذلك ، سوف أصف كيف أن الثلاث R يقترح تغييرات ملموسة وعملية لتصميم التجربة.

تم إجراء واحدة من التجارب الميدانية الرقمية الأكثر إثارة للجدل من قبل آدم كرامر ، جيمي غيلروي ، وجيفري هانكوك (2014) وأصبح يطلق عليها "العدوى العاطفية". وقد أجريت التجربة على الفيسبوك وكان الدافع وراءها مزيج من العلمية و أسئلة عملية. في ذلك الوقت ، كانت الطريقة السائدة التي تفاعل بها المستخدمون مع Facebook هي خلاصة الأخبار ، وهي مجموعة من تحديثات الحالة على الفيسبوك خوارزمية من أصدقاء مستخدم على Facebook. وقد اقترح بعض منتقدي الفيسبوك أنه نظرًا لأن "آخر الأخبار" يحتوي على مشاركات إيجابية في الغالب - أصدقاء يتباهون بآخر حزبهم - فقد يؤدي ذلك إلى شعور المستخدمين بالحزن لأن حياتهم تبدو أقل إثارة في المقارنة. من ناحية أخرى ، ربما يكون التأثير هو عكس ذلك تمامًا: ربما جعل رؤية صديقك يتمتع بوقت جيد يجعلك تشعر بالسعادة. من أجل معالجة هذه الفرضيات المتنافسة - ولتحسين فهمنا لكيفية تأثر عواطف الشخص بعواطف أصدقائه - قام كرامر وزملاؤه بإجراء تجربة. وقد وضعوا حوالي 700،000 مستخدم في أربع مجموعات لمدة أسبوع واحد: مجموعة "أقل سلبية" ، والتي تم حجبها بشكل عشوائي عن المشاركات ذات الكلمات السلبية (على سبيل المثال ، "حزين") في News Feed ؛ مجموعة "منخفضة الإيجابيات" تم حجبها بشكل عشوائي عن المشاركات ذات الكلمات الإيجابية (مثل "سعيد") ؛ ومجموعتان تحكمان في المجموعة الضابطة لمجموعة "تقليل السلبية" ، تم حظر المشاركات عشوائياً بنفس معدل المجموعة "تخفيض السلبية" ولكن دون النظر إلى المحتوى العاطفي. تم إنشاء المجموعة الضابطة لمجموعة "تخفيض الإيجابية" بطريقة موازية. يوضح تصميم هذه التجربة أن مجموعة المراقبة المناسبة ليست دائمًا واحدة دون أي تغييرات. بدلاً من ذلك ، تتلقى مجموعة المراقبة في بعض الأحيان علاجًا من أجل إنشاء مقارنة دقيقة تتطلبها أسئلة البحث. في جميع الحالات ، كانت المشاركات التي تم حظرها من "آخر الأخبار" متوفرة للمستخدمين عبر أجزاء أخرى من موقع Facebook.

ووجد كريمر وزملاؤه أن النسبة المئوية للكلمات الإيجابية في تحديثات الحالة الخاصة بالمشاركين في حالة انخفاض الإيجابية انخفضت ونسبة الكلمات السلبية زادت. من ناحية أخرى ، بالنسبة للمشاركين في حالة انخفاض السلبية ، ارتفعت النسبة المئوية للكلمات الإيجابية وانخفضت الكلمات السلبية (الشكل 4.24). ومع ذلك ، كانت هذه التأثيرات صغيرة للغاية: كان الفرق في الكلمات الإيجابية والسلبية بين المعالجات والضوابط حوالي 1 في 1000 كلمة.

الشكل 4.24: دليل على العدوى الانفعالية (Kramer، Guillory، and Hancock 2014). استخدم المشاركون في حالة تقليل السلبية كلمات أقل سلبية وكلمات أكثر إيجابية ، واستخدم المشاركون في حالة انخفاض الإيجابية أكثر الكلمات السلبية وكلمات إيجابية أقل. تمثل الحانات الأخطاء القياسية المقدرة. مقتبس من Kramer، Guillory، and Hancock (2014)، figure 1.

الشكل 4.24: دليل على العدوى الانفعالية (Kramer, Guillory, and Hancock 2014) . استخدم المشاركون في حالة تقليل السلبية كلمات أقل سلبية وكلمات أكثر إيجابية ، واستخدم المشاركون في حالة انخفاض الإيجابية أكثر الكلمات السلبية وكلمات إيجابية أقل. تمثل الحانات الأخطاء القياسية المقدرة. مقتبس من Kramer, Guillory, and Hancock (2014) ، figure 1.

قبل مناقشة القضايا الأخلاقية التي أثارتها هذه التجربة ، أود أن وصف ثلاث قضايا علمية باستخدام بعض الأفكار السابقة في الفصل. أولاً ، ليس من الواضح كيف ترتبط التفاصيل الفعلية للتجربة بالمطالبات النظرية ؛ وبعبارة أخرى ، هناك أسئلة حول صلاحية البناء. ليس من الواضح أن تعداد الكلمات الموجب والسالب هو في الواقع مؤشر جيد للحالة العاطفية للمشاركين لأنه (1) ليس من الواضح أن الكلمات التي ينشرها الناس مؤشر جيد على مشاعرهم و (2) ليس من الواضح أن تقنية تحليل المشاعر المعينة التي استخدمها الباحثون قادرة على (Beasley and Mason 2015; Panger 2016) العواطف بشكل موثوق (Beasley and Mason 2015; Panger 2016) . بعبارة أخرى ، قد يكون هناك مقياس سيئ للإشارة المنحازة. ثانياً ، لا يخبرنا تصميم التجربة وتحليلها شيئاً عن أكثر الأشخاص تأثراً (أي أنه لا يوجد أي تحليل لعدم التجانس في تأثيرات المعالجة) وما هي الآلية التي قد تكون عليها. في هذه الحالة ، كان لدى الباحثين الكثير من المعلومات حول المشاركين ، ولكن تم التعامل معهم بشكل أساسي كأدوات في التحليل. ثالثًا ، كان حجم التأثير في هذه التجربة صغيرًا جدًا ؛ الفرق بين المعاملة وشروط السيطرة هو حوالي 1 في 1000 كلمة. توضح الصحيفة أن كرامر وزملاؤه يعتقدون أن تأثير هذا الحجم مهم لأن مئات الملايين من الأشخاص يدخلون إلى أخبارهم كل يوم. وبعبارة أخرى ، يجادلون بأنه حتى لو كانت التأثيرات صغيرة لكل شخص ، فإنهم يكونون كبيراً في مجموعهم. حتى إذا قبلت هذه الحجة ، فلا يزال من غير الواضح ما إذا كان تأثير هذا الحجم مهمًا فيما يتعلق بالمسألة العلمية الأكثر عمومية حول انتشار العاطفة (Prentice and Miller 1992) .

بالإضافة إلى هذه الأسئلة العلمية ، بعد أيام فقط من نشر هذه الورقة في وقائع الأكاديمية الوطنية للعلوم ، كان هناك غضب عارم من كل من الباحثين والصحافة (سوف أصف الحجج في هذا النقاش بمزيد من التفصيل في الفصل 6 ). تسببت القضايا التي أثيرت في هذه المناقشة في نشر المجلة "تعبيرًا تحريريًا مثيرًا للقلق" نادرًا حول الأخلاقيات وعملية المراجعة الأخلاقية للبحث (Verma 2014) .

بالنظر إلى تلك الخلفية حول العدوى العاطفية ، أود الآن أن أبين أن الثلاثات R يمكن أن تقترح تحسينات ملموسة وعملية للدراسات الحقيقية (بغض النظر عما قد تفكر فيه شخصيًا حول أخلاقيات هذه التجربة الخاصة). أول R هو استبدال : يجب على الباحثين السعي إلى استبدال التجارب بتقنيات أقل خطورة وخطورة ، إن أمكن. على سبيل المثال ، بدلاً من تشغيل تجربة عشوائية مضبوطة ، كان باستطاعة الباحثين استغلال تجربة طبيعية . كما هو موضح في الفصل 2 ، فإن التجارب الطبيعية هي الحالات التي يحدث فيها شيء ما في العالم يقترب من التنازل العشوائي للمعاملات (على سبيل المثال ، يانصيب يقرر من الذي سيتم صياغته في الجيش). الميزة الأخلاقية للتجربة الطبيعية هي أن الباحث لا يضطر إلى تقديم العلاجات: البيئة تفعل ذلك من أجلك. على سبيل المثال ، بالتزامن مع تجربة العدوى العاطفية ، Lorenzo Coviello et al. (2014) كانوا يستغلون ما يمكن تسميته تجربة طبيعية للعداوة العاطفية. اكتشفت Coviello وزملاؤها أن الناس ينشرون كلمات أكثر سلبية وكلمات إيجابية أقل في الأيام التي تمطر فيها. لذلك ، باستخدام التباين العشوائي في الطقس ، تمكنوا من دراسة تأثير التغييرات في موجز الأخبار دون الحاجة للتدخل على الإطلاق. كان الأمر كما لو أن الطقس كان يدير تجربتهم من أجلهم. إن تفاصيل إجراءاتهم معقدة بعض الشيء ، ولكن النقطة الأكثر أهمية في أغراضنا هنا هي أنه باستخدام تجربة طبيعية ، تمكنت Coviello وزملاؤها من التعرف على انتشار العواطف دون الحاجة إلى إجراء تجاربهم الخاصة.

الثاني من الثلاثة روبية هو صقل : ينبغي أن يسعى الباحثون إلى تحسين علاجاتهم لجعلها غير ضارة قدر الإمكان. على سبيل المثال ، بدلاً من منع المحتوى الذي كان إيجابيًا أو سلبيًا ، كان بوسع الباحثين تعزيز المحتوى الذي كان إيجابيًا أو سلبيًا. كان من شأن هذا التصميم المعزّز أن يغيّر المحتوى العاطفي من خلاصات أخبار المشاركين ، لكنه كان سيعالج أحد المخاوف التي عبّر عنها النقاد: أن التجارب كان من الممكن أن تتسبب في فقدان المشاركين لمعلومات مهمة في خلاصتهم الإخبارية. باستخدام التصميم الذي يستخدمه Kramer وزملاؤه ، من المحتمل أن يتم حظر الرسالة المهمة باعتبارها رسالة غير مهمة. ومع ذلك ، فمع التصميم المعزز ، ستكون الرسائل التي سيتم تهجيرها هي تلك الرسائل الأقل أهمية.

وأخيرًا ، يتم تقليل R الثالث: يجب أن يسعى الباحثون إلى تقليل عدد المشاركين في تجربتهم إلى الحد الأدنى المطلوب لتحقيق هدفهم العلمي. في التجارب التناظرية ، حدث هذا بشكل طبيعي بسبب التكاليف العالية المتغيرة للمشاركين. ولكن في التجارب الرقمية ، خاصة تلك التي لا تتصف بتكلفة متغيرة ، فإن الباحثين لا يواجهون قيودا على تكلفة حجم تجربتهم ، وهذا من شأنه أن يؤدي إلى تجارب كبيرة غير ضرورية.

على سبيل المثال ، كان من الممكن أن يستخدم كرامر وزملاؤه معلومات ما قبل المعالجة حول المشاركين - مثل سلوك النشر المسبق للعلاج - لجعل تحليلهم أكثر كفاءة. وبشكل أكثر تحديدًا ، بدلاً من مقارنة نسبة الكلمات الإيجابية في شروط المعالجة والتحكم ، كان من الممكن أن يقارن كريمر وزملاؤه التغيير في نسبة الكلمات الإيجابية بين الشروط ؛ نهج يسمى في بعض الأحيان تصميم مختلط (الشكل 4.5) ، وأحيانا يسمى مقيِّم الاختلاف في الاختلافات. وهذا هو ، بالنسبة لكل مشارك ، يمكن للباحثين إنشاء درجة التغيير (سلوك ما بعد المعالجة \(-\) قبل المعالجة ، ثم مقارنة درجات التغيير للمشاركين في ظروف العلاج والسيطرة. هذا الاختلاف في نهج الاختلافات هو أكثر كفاءة من الناحية الإحصائية ، مما يعني أن الباحثين يمكن أن يحققوا نفس الثقة الإحصائية باستخدام عينات أصغر بكثير.

بدون وجود البيانات الخام ، من الصعب أن نعرف بالضبط كم أكثر كفاءة لمقدار الاختلاف في الاختلافات كان سيحدث في هذه الحالة. لكن يمكننا أن ننظر إلى التجارب الأخرى ذات الصلة لفكرة تقريبية. Deng et al. (2013) أفادوا أنه باستخدام نموذج لمقدار الاختلاف في الاختلافات ، تمكنوا من تقليل التباين في تقديراتهم بحوالي 50٪ في ثلاث تجارب مختلفة عبر الإنترنت ؛ تم الإبلاغ عن نتائج مماثلة بواسطة Xie and Aurisset (2016) . هذا الخفض بنسبة 50٪ يعني أن الباحثين عن العدوى العاطفية ربما كانوا قادرين على خفض العينة إلى النصف إذا استخدموا طريقة تحليل مختلفة قليلاً. بعبارة أخرى ، مع تغيير بسيط في التحليل ، ربما تم حرمان 350،000 شخص من المشاركة في التجربة.

في هذه المرحلة ، قد تتساءل لماذا يجب على الباحثين أن يهتموا إذا كان 350،000 شخص في حالة عدوى عاطفية دون داع. هناك ميزتان خاصتان للعداوة العاطفية التي تثير القلق مع الحجم المفرط المناسب ، ويتم مشاركة هذه الميزات من خلال العديد من التجارب الميدانية الرقمية: (1) هناك عدم يقين حول ما إذا كانت التجربة ستسبب ضررًا لبعض المشاركين على الأقل و (2) مشاركة لم يكن طوعي. يبدو من المعقول محاولة إبقاء التجارب التي تحتوي على هذه الميزات صغيرة قدر الإمكان.

ولكي تكون واضحًا ، فإن الرغبة في تقليل حجم تجربتك لا تعني أنه يجب عدم إجراء تجارب كبيرة بتكلفة منخفضة. هذا يعني أن تجاربك يجب ألا تكون أكبر من حاجتك لتحقيق هدفك العلمي. إحدى الطرق المهمة للتأكد من أن حجم التجربة يتم بشكل مناسب هو إجراء تحليل للقدرة (Cohen 1988) . في العصر التناظري ، قام الباحثون عمومًا بتحليل الطاقة للتأكد من أن دراستهم لم تكن صغيرة جدًا (أي أقل من الطاقة). الآن ، ومع ذلك ، ينبغي للباحثين القيام بتحليل الطاقة للتأكد من أن دراستهم ليست كبيرة جدا (أي ، الإفراط في الطاقة).

في الختام ، توفر العناصر الثلاثة - استبدالها وصقلها وتقليلها - مبادئ تساعد الباحثين على بناء أخلاقيات في تصميماتهم التجريبية. بالطبع ، كل من هذه التغييرات المحتملة للعداوة العاطفية تقدم مقايضات. على سبيل المثال ، لا تكون الأدلة المستقاة من التجارب الطبيعية دائمًا كما هي تمامًا مثل التجارب العشوائية ، وقد يكون تنفيذ المحتوى أكثر صعوبة من الناحية اللوجستية من حظر المحتوى. لذا ، فإن الغرض من اقتراح هذه التغييرات لم يكن لتخمين قرارات الباحثين الآخرين. بدلا من ذلك ، كان لتوضيح كيف يمكن تطبيق الثلاثة R في وضع واقعي. في الواقع ، فإن مسألة المقايضات تأتي طوال الوقت في تصميم البحوث ، وفي العصر الرقمي ، ستشمل هذه المقايضات بشكل متزايد اعتبارات أخلاقية. لاحقاً ، في الفصل 6 ، سأقدم بعض المبادئ والأطر الأخلاقية التي يمكن أن تساعد الباحثين على فهم ومناقشة هذه المقايضات.