4.6.2 ایجاد اخلاق در طراحی شما: جایگزینی، اصلاح و کاهش

را آزمایش خود را انسانی تر با جایگزین آزمایش با مطالعات غیر تجربی، پالایش درمان، و کاهش تعداد شرکت کنندگان است.

قطعه دوم مشاوره ای که می خواهم در مورد طراحی آزمایش های دیجیتال ارائه دهم مربوط به اخلاق است. همانطور که Restivo و Van de Rijt در مورد برنستار در ویکیپدیا نشان می دهد، هزینه کاهش می یابد بدین معنی است که اخلاق تبدیل به بخش مهمی از طراحی تحقیق می شود. علاوه بر چارچوب اخلاقی که تحقیقات انسانی را هدایت می کند که من در فصل 6 توضیح خواهم داد، محققانی که آزمایش های دیجیتالی را طراحی می کنند نیز می توانند بر روی ایده های اخلاقی از یک منبع متفاوت استفاده کنند: اصول اخلاقی برای هدایت آزمایشات مربوط به حیوانات. به طور خاص، Russell and Burch (1959) در کتاب اصلی خود، Principles of Techniques Experimental Humanity ، سه اصل را پیشنهاد کردند که باید تحقیقات حیوانی را هدایت کنند: جایگزینی، اصلاح و کاهش دهند. من می خواهم پیشنهاد کنم که این سه R را نیز می توان در یک شکل کمی اصلاح کرد - برای هدایت طراحی آزمایش های انسانی. به خصوص،

  • جایگزین: در صورت امکان آزمایشات را با روش های کمتر تهاجمی جایگزین کنید.
  • اصلاح: درمان را اصلاح کنید تا آن را به عنوان بی ضرر تر که ممکن است.
  • کاهش: تعداد شرکت کنندگان در آزمایش خود را تا حد ممکن کاهش دهید.

به منظور ساخت این سه R، بتن را نشان می دهد و نشان می دهد که چگونه می توانند به طور بالقوه منجر به طراحی تجربی بهتر و انسانی شوند، من یک آزمایش میدانی آنلاین انجام می دهم که بحث های اخلاقی را ایجاد می کند. سپس، من توضیح خواهم داد که سه R چگونه تغییرات بنیادی و عملی را در طراحی آزمایش نشان می دهند.

یکی از آزمایشات زمینه دیجیتالی مورد بحث اخلاقی توسط آدام کرامر، جیمی گیلریو و جفری هنکاک (2014) و به نام "بیماری عاطفی" نامیده شده است. این آزمایش در فیس بوک صورت گرفت و با ترکیب علمی و سوالات عملی در آن زمان، راه حلی که کاربران با فیس بوک ارتباط برقرار کردند، News Feed بود، مجموعه ای از الگوریتم های به روز رسانی وضعیت فیس بوک از طرف دوستان فیس بوک کاربر. بعضی از منتقدان فیس بوک پیشنهاد کرده اند که چرا خوراک خبری به طور عمده پیام های مثبت را نشان می دهد، دوستان جدید خود را نشان می دهند؛ این باعث می شود که کاربران احساس ناراحتی کنند زیرا زندگی آنها در مقایسه با آن کمتر هیجان انگیز است. از سوی دیگر، شاید این اثر کاملا مخالف باشد: ممکن است دوست شما با داشتن یک زمان خوب احساس خوشحالی کند. به منظور رفع این فرضیه های رقابتی - و پیشرفت در درک ما از این که احساسات یک شخص تحت تأثیر احساسات دوستانشان قرار می گیرد، کریمر و همکارانش آزمایشاتی را انجام دادند. آنها برای یک هفته حدود 700 هزار کاربر را به چهار گروه تقسیم کردند: یک گروه «کاهش منفی» که برای پستهایی با کلمات منفی (مثلا «غمگین») به طور تصادفی از نمایش در خوراک اخبار مسدود شده بود؛ یک گروه "مثبت کاهش یافته" برای کسانی که پست هایی با کلمات مثبت (مثلا "شاد") را به صورت تصادفی مسدود کردند؛ و دو گروه کنترل. در گروه کنترل گروه "منفی کاهش یافته"، پستها به صورت تصادفی با همان میزان کاهش یافته به عنوان گروه "منفی کاهش"، بدون در نظر گرفتن محتوای احساسی مسدود شدند. گروه کنترل گروه "مثبت کاهش یافته" به صورت موازی ساخته شد. طراحی این آزمایش نشان می دهد که گروه کنترل مناسب همیشه یک تغییر بدون تغییر نیست. در عوض، گاهی اوقات گروه کنترل درمان را برای ایجاد مقایسه دقیق که یک سوال تحقیق نیاز دارد، دریافت می کند. در همه موارد، پست هایی که از خوراک اخبار مسدود شده بودند، همچنان در اختیار کاربران از طریق سایر قسمت های وب فیس بوک قرار می گرفت.

کرامر و همکارانش دریافتند که برای شرکت کنندگان در شرایط کاهش مثبت، درصد کلمات مثبت در وضعیت به روز رسانی آنها کاهش یافته و درصد کلمات منفی افزایش یافته است. از سوی دیگر، برای شرکت کنندگان در شرایط منفی کاهش، درصد کلمات مثبت افزایش یافته و از کلمات منفی کاهش یافت (شکل 4.24). با این حال، این اثرات بسیار کوچک بود: تفاوت کلمات مثبت و منفی بین درمان ها و کنترل ها در حدود 1000 کلمه بود.

شکل 4.24: شواهد پریشانی عاطفی (کرامر، گیلوری و هنکاک 2014). شرکت کنندگان در حالت منفی کاهش یافته، کلمات منفی کمتری و کلمات مثبت بیشتری را استفاده می کنند، و شرکت کنندگان در حالت کاهش مثبت، از کلمات منفی بیشتری و کلمات مثبت کمتر استفاده می کنند. میله ها خطاهای استاندارد تخمین زده شده را نشان می دهند. تصویر 1 از کرمر، گالیوری و هانکاک (2014) اقتباس شده است.

شکل 4.24: شواهد پریشانی عاطفی (Kramer, Guillory, and Hancock 2014) . شرکت کنندگان در حالت منفی کاهش یافته، کلمات منفی کمتری و کلمات مثبت بیشتری را استفاده می کنند، و شرکت کنندگان در حالت کاهش مثبت، از کلمات منفی بیشتری و کلمات مثبت کمتر استفاده می کنند. میله ها خطاهای استاندارد تخمین زده شده را نشان می دهند. تصویر 1 از Kramer, Guillory, and Hancock (2014) اقتباس شده است.

قبل از بحث درباره مسائل اخلاقی مطرح شده توسط این آزمایش، من می خواهم سه موضوع علمی را با استفاده از برخی از ایده های قبلی در فصل ارائه دهم. اول، معلوم نیست که جزئیات واقعی آزمایش به ادعاهای نظری مرتبط است؛ به عبارت دیگر، پرسش هایی درباره اعتبار سازه وجود دارد. معلوم نیست که شمار کلمه های مثبت و منفی در واقع یک شاخص خوب برای وضعیت عاطفی شرکت کنندگان است زیرا (1) روشن نیست که کلماتی که مردم ارسال می کنند شاخص خوبی از احساسات آنها است و (2) واضح است که روش تجزیه و تحلیل احساسات خاصی که محققان از آن استفاده می کنند قادرند احساسات را به طور قابل اعتماد به دست (Beasley and Mason 2015; Panger 2016) . به عبارت دیگر، ممکن است یک اندازه گیری بد از یک سیگنال غلط وجود داشته باشد. دوم، طراحی و تجزیه و تحلیل آزمایش به ما چیزی در مورد اینکه چه کسی بیشتر تحت تاثیر قرار می گیرد (به عنوان مثال، تجزیه و تحلیل ناهمگونی اثرات درمان وجود دارد) و آنچه که ممکن است مکانیسم باشد وجود ندارد. در این مورد، محققان اطلاعات زیادی در مورد شرکت کنندگان داشتند اما اساسا به عنوان ویدجت در تجزیه و تحلیل مورد استفاده قرار گرفتند. سوم، اندازه اثر در این آزمایش بسیار کوچک بود؛ تفاوت بین درمان و شرایط کنترل حدود 1 در 1000 کلمه است. کرمر و همکارانش در مقاله خود این مطلب را تأیید می کنند که اثر این اندازه مهم است چرا که صدها میلیون نفر هر روز به خبرخوان خود دسترسی دارند. به عبارت دیگر، آنها استدلال می کنند که حتی اگر اثرات برای هر فرد کوچک باشد، آنها در مجموع بزرگ هستند. حتی اگر شما این اظهار نظر را پذیرفتید، هنوز روشن نیست که آیا اثر این اندازه در مورد سوال عمومی علمی در مورد گسترش احساسات مهم است (Prentice and Miller 1992) .

علاوه بر این سؤال های علمی، فقط چند روز پس از این مقاله در مجله "آکادمی ملی علوم" منتشر شد ، محققان و مطبوعات عجیب و غریب بود (من بحث های این بحث را در جزئیات فصل 6 توضیح خواهم داد) ) مسائل مطرح شده در این بحث باعث شد مجله نشریة «نگرانی سرمقاله نگرانی» درباره اخلاق و روند بررسی اخلاقی تحقیق را منتشر کند (Verma 2014) .

با توجه به این زمینه در مورد مسمومیت های عاطفی، من هم اکنون می خواهم نشان دهم که سه R میتوانند پیشرفت های واقعی و عملی را برای مطالعات واقعی نشان دهند (هر چه شما شخصا در مورد اخلاق این آزمایش خاص فکر می کنید). اولین R جایگزین است : محققان باید در صورت امکان با آزمایشات کمتر با تکنیک های مهاجم و خطرناک جایگزین شوند. به عنوان مثال، به جای اجرای یک آزمایش کنترل شده تصادفی، محققان می توانند از آزمایش طبیعی بهره برداری کنند. همان طور که در فصل 2 توضیح داده شده است، آزمایش های طبیعی شرایطی است که در جهان چیزی اتفاق می افتد که تقریبا تخصیص تصادفی درمان ها را تقریب می کند (به عنوان مثال، قرعه کشی برای تصمیم گیری در مورد ارتش). مزیت اخلاقی یک آزمایش طبیعی این است که محقق لازم نیست که درمان را انجام دهد: محیطی برای شما مناسب است. به عنوان مثال، تقریبا همزمان با آزمایش عاطفی، Lorenzo Coviello et al. (2014) بهره برداری از آنچه می تواند به عنوان آزمایش طبیعی اروژن عاطفی نامیده می شود. Coviello و همکارانش کشف کردند که افراد بیشتر کلمات منفی و کلمات مثبت کمتری را در روزهایی که باران می روند ارسال می کنند. بنابراین، با استفاده از تغییرات تصادفی در آب و هوا، آنها قادر به مطالعه تاثیر تغییرات در خوراک خبری بدون نیاز به مداخله بودند. به نظر میرسید که آب و هوا آزمایش آنها را برای آنها انجام میدهد. جزئیات روش آنها کمی پیچیده است، اما مهمترین نکته برای اهداف ما این است که با استفاده از یک آزمایش طبیعی، Coviello و همکاران قادر به یادگیری در مورد گسترش احساسات بدون نیاز به آزمایش خودشان بودند.

دومین از سه Rs اصلاح می شود : محققان باید تلاش کنند تا درمان های خود را اصلاح کنند تا آنها را به عنوان بی عیب و نقص در نظر بگیرند. به عنوان مثال، محققان می توانند محتویات مثبت یا منفی را تقویت کنند تا محتویات مثبت یا منفی را مسدود کنند. این طراحی تقویت محتوای احساسی خبرخوانهای شرکت کنندگان را تغییر داده است، اما به یکی از نگرانیهایی که منتقدان ابراز کردهاند اشاره کردهاند: این آزمایشها موجب شده است شرکتکنندگان از دست دادن اطلاعات مهمی در خوراک اخبار خود داشته باشند. با طراحی مورد استفاده توسط کرامر و همکارانش، پیامی که مهم است، به احتمال زیاد به عنوان یکی از آن ها مسدود شده است. با این حال، با یک طراحی تقویت کننده، پیامهایی که می توانند جایگزین شوند، آنهایی هستند که اهمیت کمتری دارند.

در نهایت، سومین R کاهش می یابد : محققان باید تلاش کنند تا تعداد شرکت کنندگان در آزمایش خود را به حداقل مورد نیاز برای رسیدن به هدف علمی خود کاهش دهند. در آزمایشات آنالوگ، به طور طبیعی به دلیل هزینه های متغیر بالا شرکت کنندگان رخ داد. اما در آزمایشهای دیجیتال، به ویژه کسانی که هزینه صفر متغیر دارند، محققان با محدودیت هزینه در اندازه آزمایش خود مواجه نیستند، و این به این معنی است که ممکن است منجر به آزمایش های غیر ضروری شود.

برای مثال، کریمر و همکارانش می توانند از اطلاعات پیش از درمان در مورد شرکت کنندگانشان مانند نظارت بر رفتار پیش از درمان استفاده کنند تا تحلیل آنها کارآمدتر شود. به طور خاص، به جای مقایسه نسبت کلمات مثبت در شرایط درمان و کنترل، کرامر و همکارانش می توانستند تغییر در نسبت کلمات مثبت بین شرایط را مقایسه کنند؛ رویکردی است که بعضی اوقات طراحی مخلوط (شکل 4.5) نامیده می شود و گاهی اوقات برآوردگر اختلاف در تفاوت است. است که، برای هر شرکت، محققان توانستند نمره تغییر ایجاد کرده اند (بعد از درمان رفتار \(-\) رفتار قبل از درمان) و پس از آن نمرات شرکت کنندگان در شرایط درمان و کنترل مقایسه شده است. این رویکرد تفاوت در تفاوت از لحاظ آماری کارآمدتر است، که به این معنی است که محققان می توانند اعتماد آماری مشابه با استفاده از نمونه های بسیار کوچکتر به دست آورند.

بدون داشتن داده های خام، دشوار است دقیقا بدانید که چگونه یک برآوردگر تفاوت در تفاوت در این مورد می تواند کارآمد باشد. اما ما می توانیم به دیگر آزمایش های مربوط به یک ایده خشن نگاه کنیم. Deng et al. (2013) گزارش دادند که با استفاده از یک برآوردگر اختلاف اختلاف، آنها توانستند واریانس برآوردهای خود را در حدود 50 درصد در سه آزمایش مختلف آنلاین کاهش دهند؛ نتایج مشابهی توسط Xie and Aurisset (2016) . این کاهش 50 درصدی واریانس به این معنی است که محققان احتمال ابتلا به سرطان تخمدان، اگر بتوانند با استفاده از یک روش تجزیه و تحلیل کمی، به عبارت دیگر، با یک تغییر کوچک در تجزیه و تحلیل، 350،000 نفر ممکن است مشارکت در آزمایش داشته باشند.

در این مرحله، شما ممکن است تعجب کنید که چرا محققان باید مراقب باشند که 350،000 نفر بدون نیاز به ابتلا به بیماری های عاطفی باشند. دو ویژگی خاصی از مسمومیت های عاطفی وجود دارد که باعث نگرانی در مورد اندازه های مناسب می شوند و این ویژگی ها توسط بسیاری از آزمایشات دیجیتالی به اشتراک گذاشته شده است: (1) عدم اطمینان در مورد این که آیا آزمایش حداقل به برخی از شرکت کنندگان آسیب می رساند و (2) مشارکت داوطلبانه نبود به نظر می رسد منطقی است که سعی کنید آزمایش هایی انجام دهید که این ویژگی ها به اندازه کوچک ممکن است.

برای روشن شدن، تمایل به کاهش اندازه آزمایش شما به این معنی نیست که شما نباید آزمایش بزرگی، هزینه صفر متغیر را انجام دهید. این بدان معنی است که آزمایشات شما نباید بیشتر از آنچه شما نیاز دارید برای دستیابی به هدف علمی خود باشد. یکی از راه های مهم برای اطمینان از این که یک آزمایش به درستی اندازه است، انجام تجزیه و تحلیل قدرت است (Cohen 1988) . در عصر آنالیز، محققان به طور کلی تجزیه و تحلیل قدرت را انجام دادند تا اطمینان حاصل شود که مطالعه آنها خیلی کوچک نیست (به عنوان مثال، کم قدرت). در حال حاضر، با این حال، محققان باید تجزیه و تحلیل قدرت را انجام دهند تا اطمینان حاصل شود که مطالعه آنها خیلی بزرگ نیست (یعنی بیش از حد).

در نتیجه، سه اصل R را جایگزین، تصحیح و کاهش اصول ارائه می دهد که می تواند به محققان اخلاق را به طرح های تجربی خود بسازد. البته، هر یک از این تغییرات احتمالی در مورد بیماری های هیجانی، تجارت را معرفی می کند. به عنوان مثال، شواهدی از آزمایشات طبیعی همیشه از آزمایشات به صورت تصادفی پاک نیستند، و ممکن است محتوای افزایش یافته از لحاظ منطقی مشکل تر از انجام مسدود کردن محتوا باشد. بنابراین، هدف پیشنهاد این تغییرات دومین تصمیم گیری های دیگر محققان نیست. بلکه این بود که نشان دهد که چگونه سه R در یک وضعیت واقعی ممکن است مورد استفاده قرار گیرد. در حقیقت، مسئله مهارتی ها همیشه در طراحی تحقیقاتی مطرح می شود و در عصر دیجیتال این ترکیبات به طور فزاینده ملاحظات اخلاقی را شامل می شوند. بعدها، در فصل 6، برخی از اصول و چارچوب اخلاقی را ارائه خواهم کرد که می تواند به محققان این مفاهیم را درک و بحث کند.