4.6.2 สร้างจริยธรรมในการออกแบบของคุณ: แทนที่, ปรับแต่งและลด

ทำให้การทดสอบของคุณมีมนุษยธรรมมากขึ้นโดยการเปลี่ยนการทดลองกับการศึกษาไม่ใช่การทดลองปรับแต่งการรักษาและการลดจำนวนของผู้เข้าร่วม

ข้อแนะนำที่สองที่ฉันต้องการเสนอเกี่ยวกับการออกแบบการทดลองดิจิทัลเกี่ยวกับจริยธรรม ในขณะที่การทดลอง Restivo and van de Rijt เกี่ยวกับ barnstars ในวิกิพีเดียแสดงให้เห็นว่าค่าใช้จ่ายที่ลดลงหมายความว่าจริยธรรมจะกลายเป็นส่วนสำคัญของการออกแบบการวิจัย นอกเหนือจากกรอบด้านจริยธรรมที่เป็นแนวทางในการวิจัยเรื่องมนุษย์ซึ่งจะอธิบายไว้ในบทที่ 6 นักวิจัยที่ออกแบบการทดลองแบบดิจิตอลยังสามารถนำมาใช้เป็นแนวคิดเกี่ยวกับจริยธรรมจากแหล่งต่างๆเช่นหลักการทางจริยธรรมที่พัฒนาขึ้นเพื่อเป็นแนวทางในการทดลองเกี่ยวกับสัตว์ โดยเฉพาะอย่างยิ่งในหนังสือ หลักการสำคัญของเทคนิคการทดลองเพื่อมนุษยธรรม Russell and Burch (1959) เสนอหลักการสามประการที่ควรเป็นแนวทางในการวิจัยสัตว์: แทนที่, ปรับแต่งและลด ฉันขอเสนอว่าทั้งสาม R นี้สามารถใช้ในรูปแบบที่มีการปรับเปลี่ยนเล็กน้อยเพื่อเป็นแนวทางในการออกแบบการทดลองของมนุษย์ โดยเฉพาะอย่างยิ่ง,

  • แทนที่: แทนที่การทดสอบด้วยวิธีการที่ไม่รุกรานน้อยที่สุดถ้าเป็นไปได้
  • ปรับแต่ง: ปรับแต่งการรักษาเพื่อให้เป็นอันตรายที่สุดเท่าที่จะเป็นไปได้
  • ลด: ลดจำนวนผู้เข้าร่วมการทดสอบของคุณให้มากที่สุด

เพื่อที่จะทำให้คอนกรีตทั้งสามชิ้นนี้เป็นรูปธรรมและแสดงให้เห็นว่าพวกเขาสามารถนำไปสู่การออกแบบการทดลองที่ดีกว่าและมีมนุษยธรรมมากขึ้นได้อย่างไรฉันจะอธิบายการทดลองภาคสนามออนไลน์ที่สร้างการถกเถียงทางจริยธรรม จากนั้นฉันจะอธิบายว่าคำแนะนำของสาม R นั้นแนะนำการเปลี่ยนแปลงที่เป็นรูปธรรมและเป็นประโยชน์ในการออกแบบของการทดสอบอย่างไร

หนึ่งในการทดลองด้านข้อมูลดิจิทัลที่มีจริยธรรมมากที่สุดคือ Adam Kramer, Jamie Guillroy และ Jeffrey Hancock (2014) และได้รับการเรียกว่า "Emotional Contagion" การทดสอบเกิดขึ้นที่ Facebook และได้รับแรงบันดาลใจจากส่วนผสมของวิทยาศาสตร์และ คำถามเชิงปฏิบัติ ในขณะที่วิธีการที่ผู้ใช้โต้ตอบกับ Facebook เป็นฟีดข้อมูลข่าวสารชุดการอัพเดตสถานะ Facebook จากเพื่อนผู้ใช้ของ Facebook นักวิจารณ์บางคนของ Facebook ได้แนะนำว่าเนื่องจากฟีดข่าวมีโพสต์ในเชิงบวกเป็นอย่างมากที่เพื่อน ๆ แสดงออกมาจากปาร์ตี้ล่าสุดซึ่งอาจทำให้ผู้ใช้รู้สึกเศร้าเพราะชีวิตของพวกเขาดูน่าตื่นเต้นน้อยกว่าเมื่อเปรียบเทียบ ในอีกแง่หนึ่งอาจจะมีผลตรงกันข้าม: บางทีเห็นเพื่อนของคุณมีช่วงเวลาที่ดีจะทำให้คุณรู้สึกมีความสุข เพื่อให้เข้าใจถึงสมมติฐานที่มีการแข่งขันกันเหล่านี้และเพื่อพัฒนาความเข้าใจของเราเกี่ยวกับอารมณ์ของเพื่อนที่ส่งผลกระทบต่อเพื่อนของคุณ Kramer และเพื่อนร่วมงานก็ทำการทดสอบ พวกเขาวางผู้ใช้ประมาณ 700,000 รายเป็นสี่กลุ่มเป็นเวลา 1 สัปดาห์: กลุ่ม "ปฏิเสธไม่ได้" ซึ่งมีผู้โพสต์ข้อความเชิงลบ (เช่น "เศร้า") ถูกบล็อกแบบสุ่มไม่ให้ปรากฏในฟีดข่าว กลุ่ม "positivity-reduced" ที่โพสต์ข้อความบวก (เช่น "happy") ถูกบล็อกแบบสุ่ม และกลุ่มควบคุม 2 กลุ่ม ในกลุ่มควบคุมสำหรับกลุ่ม "ปฏิเสธการลด" โพสต์ถูกบล็อกแบบสุ่มในอัตราเดียวกับกลุ่ม "ปฏิเสธการลด" แต่ไม่คำนึงถึงเนื้อหาทางอารมณ์ กลุ่มควบคุมสำหรับกลุ่ม "positivity-reduced" ถูกสร้างขึ้นแบบคู่ขนาน การออกแบบของการทดลองนี้แสดงให้เห็นว่ากลุ่มควบคุมที่เหมาะสมไม่ใช่สิ่งที่ไม่มีการเปลี่ยนแปลง แต่บางครั้งกลุ่มควบคุมได้รับการรักษาเพื่อสร้างการเปรียบเทียบที่แม่นยำซึ่งเป็นคำถามที่เกี่ยวกับการวิจัย ในทุกกรณีโพสต์ที่ถูกบล็อกจาก News Feed ยังคงมีให้กับผู้ใช้ผ่านทางส่วนอื่น ๆ ของเว็บไซต์ Facebook

Kramer และเพื่อนร่วมงานพบว่าสำหรับผู้เข้าร่วมในสภาพที่มีภาวะบวกลดลงร้อยละของคำในเชิงบวกในการปรับปรุงสถานะของพวกเขาลดลงและเปอร์เซ็นต์ของคำที่เป็นค่าลบเพิ่มขึ้น ในทางตรงกันข้ามสำหรับผู้เข้าร่วมในสภาพที่ลดลงในแง่ลบร้อยละของคำในเชิงบวกเพิ่มขึ้นและคำปฏิเสธลดลง (รูปที่ 4.24) อย่างไรก็ตามผลกระทบเหล่านี้ค่อนข้างเล็ก: ความแตกต่างระหว่างคำพูดทั้งด้านบวกและด้านลบระหว่างการรักษากับการควบคุมคือประมาณ 1 ใน 1,000 คำ

รูปที่ 4.24: หลักฐานการติดเชื้อทางอารมณ์ (Kramer, Guillory, and Hancock 2014) ผู้เข้าร่วมในสภาพที่ลดลงปฏิเสธใช้คำเชิงลบน้อยลงและคำบวกมากขึ้นและผู้เข้าร่วมในสภาพ positivity ลดลงใช้คำเชิงลบมากขึ้นและคำบวกน้อยลง แถบแสดงข้อผิดพลาดมาตรฐานโดยประมาณ ดัดแปลงมาจาก Kramer, Guillory และ Hancock (2014), รูปที่ 1

รูปที่ 4.24: หลักฐานการติดเชื้อทางอารมณ์ (Kramer, Guillory, and Hancock 2014) ผู้เข้าร่วมในสภาพที่ลดลงปฏิเสธใช้คำเชิงลบน้อยลงและคำบวกมากขึ้นและผู้เข้าร่วมในสภาพ positivity ลดลงใช้คำเชิงลบมากขึ้นและคำบวกน้อยลง แถบแสดงข้อผิดพลาดมาตรฐานโดยประมาณ ดัดแปลงมาจาก Kramer, Guillory, and Hancock (2014) , รูปที่ 1

ก่อนที่จะพูดถึงประเด็นด้านจริยธรรมที่ได้จากการทดลองนี้ฉันต้องการอธิบายถึงประเด็นทางวิทยาศาสตร์สามประเด็นโดยใช้แนวคิดบางส่วนจากบทก่อนหน้านี้ ประการแรกยังไม่ชัดเจนว่ารายละเอียดที่แท้จริงของการทดลองเชื่อมโยงกับข้อเรียกร้องทางทฤษฎีอย่างไร กล่าวอีกนัยหนึ่งมีคำถามเกี่ยวกับการสร้างความถูกต้อง ไม่ชัดเจนว่าจำนวนคำบวกและลบเป็นตัวบ่งชี้ที่ดีของสภาวะอารมณ์ของผู้เข้าร่วมเนื่องจาก (1) ไม่ชัดเจนว่าคำที่โพสต์คนเป็นตัวบ่งชี้ที่ดีในอารมณ์ของพวกเขาและ (2) ไม่เป็นเช่นนั้น ชัดเจนว่าเทคนิคการวิเคราะห์ความเชื่อมั่นโดยเฉพาะที่นักวิจัยใช้สามารถ (Beasley and Mason 2015; Panger 2016) ความรู้สึกได้อย่างน่าเชื่อถือ (Beasley and Mason 2015; Panger 2016) กล่าวอีกนัยหนึ่งอาจมีสัญญาณที่ไม่ดีของสัญญาณลำเอียง ประการที่สองการออกแบบและการวิเคราะห์ของการทดลองไม่ได้บอกเราเกี่ยวกับผู้ที่ได้รับผลกระทบมากที่สุด (เช่นไม่มีการวิเคราะห์ความแตกต่างของผลการรักษา) และกลไกที่อาจเกิดขึ้น ในกรณีนี้นักวิจัยมีข้อมูลจำนวนมากเกี่ยวกับผู้เข้าอบรม แต่ส่วนใหญ่ได้รับการปฏิบัติเหมือนเครื่องมือในการวิเคราะห์ ประการที่สามขนาดผลกระทบในการทดลองนี้มีน้อยมาก ความแตกต่างระหว่างเงื่อนไขการรักษาและควบคุมคือประมาณ 1 ใน 1,000 คำ ในเอกสารของพวกเขา Kramer และเพื่อนร่วมงานได้กล่าวว่าผลกระทบของขนาดนี้มีความสำคัญเนื่องจากผู้คนนับร้อยล้านเข้าถึงฟีดข่าวของพวกเขาในแต่ละวัน กล่าวได้ว่าแม้ว่าผลกระทบจะมีขนาดเล็กสำหรับแต่ละบุคคล แต่ก็มีขนาดใหญ่ แม้ว่าคุณจะยอมรับข้อโต้แย้งนี้ แต่ก็ยังไม่ชัดเจนว่าผลกระทบของขนาดนี้มีความสำคัญต่อคำถามทางวิทยาศาสตร์ทั่วไปเกี่ยวกับการแพร่กระจายของอารมณ์ (Prentice and Miller 1992)

นอกเหนือจากคำถามทางวิทยาศาสตร์เหล่านี้แล้วเพียงไม่กี่วันหลังจากที่หนังสือพิมพ์ฉบับนี้ได้รับการตีพิมพ์ใน รายงานการประชุมของ National Academy of Sciences พบว่ามีนักวิจารณ์และนักข่าวคนสำคัญ ๆ มากมายทั้งที่เป็นนักวิจัยและนักข่าว (ฉันจะอธิบายข้อคิดเห็นในการอภิปรายนี้ในรายละเอียดเพิ่มเติมในบทที่ 6 ) ปัญหาที่เกิดขึ้นในการอภิปรายครั้งนี้ทำให้วารสารได้เผยแพร่ "การแสดงความคิดเห็นเชิงบรรณาธิการ" ที่หายากเกี่ยวกับหลักจริยธรรมและกระบวนการทบทวนจริยธรรมในการวิจัย (Verma 2014)

จากข้อมูลเบื้องหลังเรื่อง Emotional Contagion ตอนนี้ผมอยากจะแสดงให้เห็นว่าสาม R สามารถแนะนำการปรับปรุงจริงในทางปฏิบัติสำหรับการศึกษาจริง (สิ่งที่คุณเองอาจคิดเกี่ยวกับจริยธรรมของการทดลองนี้) R คนแรกจะถูก แทนที่ : นักวิจัยควรหาทางเปลี่ยนการทดลองด้วยเทคนิคการรุกรานและเสี่ยงน้อยกว่าถ้าเป็นไปได้ ตัวอย่างเช่นแทนที่จะใช้การทดสอบแบบสุ่มควบคุมนักวิจัยอาจใช้ประโยชน์ จากการทดลองตามธรรมชาติ ตามที่อธิบายไว้ในบทที่ 2 การทดลองตามธรรมชาติเป็นสถานการณ์ที่มีบางสิ่งเกิดขึ้นในโลกที่ใกล้เคียงกับการกำหนดแบบสุ่มของการรักษา (เช่นการจับสลากเพื่อตัดสินว่าใครจะเข้ารับการเกณฑ์ทหาร) ข้อได้เปรียบเชิงจริยธรรมของการทดลองตามธรรมชาติคือนักวิจัยไม่จำเป็นต้องให้การรักษา: สภาพแวดล้อมไม่ได้สำหรับคุณ ตัวอย่างเช่นเกือบพร้อมกันกับการทดสอบการติดต่อทางอารมณ์, Lorenzo Coviello et al. (2014) กำลังใช้ประโยชน์จากสิ่งที่อาจเรียกได้ว่าเป็นการทดสอบตามธรรมชาติของการติดเชื้อทางอารมณ์ (Emotional Contagion) Coviello และเพื่อนร่วมงานค้นพบว่าผู้คนโพสต์คำเชิงลบมากขึ้นและคำพูดเชิงบวกน้อยลงในวันที่ฝนตก ดังนั้นเมื่อใช้รูปแบบที่สุ่มในสภาพอากาศพวกเขาจึงสามารถศึกษาผลกระทบของการเปลี่ยนแปลงในฟีดข่าวโดยไม่จำเป็นต้องเข้าไปแทรกแซงเลย ราวกับว่าสภาพอากาศกำลังดำเนินการทดสอบกับพวกเขา รายละเอียดของขั้นตอนของพวกเขาค่อนข้างซับซ้อน แต่จุดสำคัญที่สุดสำหรับจุดประสงค์ของเราคือการใช้การทดลองตามธรรมชาติ Coviello และเพื่อนร่วมงานสามารถเรียนรู้เกี่ยวกับการแพร่กระจายของอารมณ์โดยไม่ต้องใช้การทดสอบของตัวเอง

ข้อที่สองของสาม Rs คือการ ปรับแต่ง : นักวิจัยควรหาทางปรับแต่งการรักษาเพื่อให้เป็นอันตรายที่สุดเท่าที่จะเป็นไปได้ ตัวอย่างเช่นแทนที่จะบล็อกเนื้อหาที่เป็นบวกหรือลบนักวิจัยอาจเพิ่มเนื้อหาที่เป็นบวกหรือลบ การออกแบบที่สนับสนุนนี้จะเปลี่ยนเนื้อหาทางอารมณ์ของฟีดข่าวของผู้เข้าร่วมประชุม แต่จะกล่าวถึงประเด็นที่นักวิจารณ์วิพากษ์วิจารณ์กันว่าการทดลองอาจทำให้ผู้เข้าร่วมพลาดข้อมูลที่สำคัญในฟีดข่าวของตน ด้วยการออกแบบที่ใช้โดย Kramer และเพื่อนร่วมงานข้อความที่สำคัญมีแนวโน้มที่จะถูกปิดกั้นเป็นสิ่งที่ไม่เป็นเช่นนั้น อย่างไรก็ตามด้วยการออกแบบที่เพิ่มขึ้นข้อความที่จะถูกแทนที่จะเป็นผู้ที่มีความสำคัญน้อยกว่า

ในที่สุดอันดับที่สาม ลดลง : นักวิจัยควรพยายามลดจำนวนผู้เข้าร่วมการทดลองของตนให้เหลือน้อยที่สุดเพื่อให้บรรลุวัตถุประสงค์ทางวิทยาศาสตร์ ในการทดลองแบบอนาล็อกสิ่งนี้เกิดขึ้นตามธรรมชาติเนื่องจากค่าใช้จ่ายผันแปรของผู้เข้าร่วมสูง แต่ในการทดลองแบบดิจิตอลโดยเฉพาะอย่างยิ่งผู้ที่มีต้นทุนผันแปรเป็นศูนย์นักวิจัยไม่ต้องเผชิญกับข้อ จำกัด ด้านค่าใช้จ่ายเกี่ยวกับขนาดของการทดลองของตนและมีศักยภาพที่จะนำไปสู่การทดลองที่มีขนาดใหญ่โดยไม่จำเป็น

ตัวอย่างเช่น Kramer และเพื่อนร่วมงานอาจใช้ข้อมูลก่อนการรักษาเกี่ยวกับผู้เข้าร่วมของพวกเขาเช่นพฤติกรรมการโพสต์เนื้อหาก่อนการรักษาเพื่อให้การวิเคราะห์มีประสิทธิภาพมากขึ้น โดยเฉพาะอย่างยิ่งมากกว่าการเปรียบเทียบสัดส่วนของคำบวกในเงื่อนไขการรักษาและการควบคุม Kramer และเพื่อนร่วมงานอาจเปรียบเทียบการ เปลี่ยนแปลง ในสัดส่วนคำบวกระหว่างเงื่อนไข วิธีการที่บางครั้งเรียกว่าการออกแบบผสม (รูปที่ 4.5) และบางครั้งเรียกว่าตัวประเมินความแตกต่างในความแตกต่าง นั่นคือสำหรับผู้เข้าร่วมแต่ละคนนักวิจัยสามารถสร้างคะแนนการเปลี่ยนแปลง (พฤติกรรมการรักษาก่อนการรักษา \(-\) ก่อนแล้วจึงเปรียบเทียบคะแนนการเปลี่ยนแปลงของผู้เข้าร่วมในเงื่อนไขการรักษาและการควบคุม วิธีการที่แตกต่างในความแตกต่างนี้มีประสิทธิภาพมากขึ้นทางสถิติซึ่งหมายความว่านักวิจัยสามารถบรรลุความมั่นใจทางสถิติเดียวกันโดยใช้ตัวอย่างที่เล็กกว่ามาก

หากไม่มีข้อมูลดิบเราจะทราบได้อย่างชัดเจนว่าในกรณีนี้จะมีตัวประมาณค่าความแตกต่างระหว่างความแตกต่างได้มากน้อยแค่ไหน แต่เราสามารถดูการทดลองอื่น ๆ ที่เกี่ยวข้องกับแนวคิดที่หยาบได้ Deng et al. (2013) รายงานว่าโดยใช้รูปแบบของตัวประมาณค่าความแตกต่างในความแตกต่างพวกเขาสามารถลดความแปรปรวนของค่าประมาณได้ประมาณ 50% ในการทดลองออนไลน์ 3 แบบ ผลที่คล้ายกันได้รับรายงานจาก Xie and Aurisset (2016) การลดความแปรปรวน 50% นี้หมายความว่านักวิจัย Emotional Contagion อาจสามารถตัดตัวอย่างได้ครึ่งหนึ่งหากใช้วิธีการวิเคราะห์ที่แตกต่างกันเล็กน้อย กล่าวอีกนัยหนึ่งด้วยการเปลี่ยนแปลงเล็ก ๆ น้อย ๆ ในการวิเคราะห์อาจมีผู้เข้าร่วมการทดสอบประมาณ 350,000 คน

เมื่อมาถึงจุดนี้คุณอาจสงสัยว่าทำไมนักวิจัยถึงต้องดูแลถ้ามีคน 350,000 คนใน Emotional Contagion โดยไม่จำเป็น คุณลักษณะเฉพาะสองประการของ Emotional Contagion ที่ทำให้เกิดความกังวลเกี่ยวกับขนาดที่เหมาะสมมากเกินไปและคุณลักษณะเหล่านี้จะถูกใช้ร่วมกันโดยการทดลองภาคสนามจำนวนมาก: (1) มีความไม่แน่นอนว่าการทดสอบจะทำให้เกิดอันตรายแก่ผู้เข้าร่วมบางคนอย่างน้อยและ (2) การมีส่วนร่วม ไม่ใช่ความสมัครใจ ดูเหมือนว่าจะพยายามทำให้การทดลองที่มีคุณสมบัติเหล่านี้มีขนาดเล็กที่สุดเท่าที่จะเป็นไปได้

เพื่อให้ชัดเจนความปรารถนาในการลดขนาดของการทดสอบของคุณไม่ได้หมายความว่าคุณจะไม่ควรทดลองใช้ค่าใช้จ่ายที่มีค่าเป็นศูนย์เป็นจำนวนมาก นั่นหมายความว่าการทดลองของคุณไม่ควรมีขนาดใหญ่กว่าที่คุณต้องการเพื่อให้บรรลุวัตถุประสงค์ทางวิทยาศาสตร์ของคุณ วิธีหนึ่งที่สำคัญเพื่อให้แน่ใจว่าการทดสอบมีขนาดที่เหมาะสมคือต้องทำการ วิเคราะห์พลังงาน (Cohen 1988) ในยุคอนาล็อกนักวิจัยมักทำการวิเคราะห์กำลังเพื่อให้แน่ใจว่าการศึกษาของพวกเขาไม่เล็กเกินไป (เช่นภายใต้การขับเคลื่อน) อย่างไรก็ตามขณะนี้นักวิจัยควรทำการวิเคราะห์กำลังเพื่อให้แน่ใจว่าการศึกษาของพวกเขาไม่ใหญ่จนเกินไป (กล่าวคือใช้พลังงานมากเกินไป)

สรุปได้ว่าทั้งสาม R's-replace, refine และ reduction-provide หลักการที่สามารถช่วยนักวิจัยสร้างจรรยาบรรณในการออกแบบการทดลองของพวกเขาได้ แน่นอนว่าการเปลี่ยนแปลงที่เป็นไปได้เหล่านี้ต่อ Emotional Contagion เป็นการแนะนำข้อบกพร่องทางการค้า ตัวอย่างเช่นหลักฐานจากการทดลองตามธรรมชาติไม่ได้มีความสะอาดเท่าการทดลองแบบสุ่มและการเพิ่มเนื้อหาอาจทำได้ยากกว่าการปิดกั้นเนื้อหา ดังนั้นวัตถุประสงค์ของการแนะนำการเปลี่ยนแปลงเหล่านี้ไม่ได้เป็นการคาดเดาที่สองของการตัดสินใจของนักวิจัยรายอื่น แต่ก็เพื่อเป็นการแสดงให้เห็นว่าสาม R สามารถนำมาใช้ในสถานการณ์จริงได้อย่างไร ในความเป็นจริงปัญหาการค้าขึ้นมาขึ้นตลอดเวลาในการออกแบบการวิจัยและในยุคดิจิตอลเหล่านี้ trade-offs มากขึ้นจะเกี่ยวข้องกับการพิจารณาทางจริยธรรม ต่อมาในบทที่ 6 ฉันจะเสนอหลักการและกรอบด้านจริยธรรมที่สามารถช่วยนักวิจัยทำความเข้าใจและพูดถึงการไม่ชอบต่อเรื่องนี้ได้