4.6.2 Ndërtimi i etikës në dizajnin tuaj: zëvendëso, përsosni dhe reduktoni

Bëjnë eksperiment tuaj më humane duke zëvendësuar eksperimente me studimet jo-eksperimentale, rafinimit trajtimet, si dhe zvogëlimin e numrit të pjesëmarrësve.

Pjesa e dytë e këshillave që unë do të doja të ofroj në lidhje me dizajnimin e eksperimenteve digjitale ka të bëjë me etikën. Si eksperimenti i Restivo dhe van de Rijt në barnstars në Wikipedia tregon, kostoja e zvogëluar do të thotë se etika do të bëhet një pjesë gjithnjë e më e rëndësishme e dizajnit të kërkimit. Përveç kornizave etike që drejtojnë kërkimin e lëndëve njerëzore që do të përshkruaj në kapitullin 6, hulumtuesit që hartojnë eksperimente digjitale mund të përdorin edhe ide idesh nga një burim tjetër: parimet etike të zhvilluara për të udhëhequr eksperimentet që përfshijnë kafshët. Në veçanti, në librin e tyre historik Parimet e Humane Experiment Technique , Russell and Burch (1959) propozuan tre parime që duhet të udhëzojnë hulumtimin e kafshëve: zëvendësojnë, përsosin dhe reduktojnë. Do të doja të propozoja që këto tre R mund të përdoren gjithashtu - në një formë paksa të modifikuar - për të udhëhequr hartimin e eksperimenteve njerëzore. Veçanërisht,

  • Replace: Replace eksperimente me metoda më pak invazive, nëse është e mundur.
  • Refine: Refine trajtimin për të bërë atë të padëmshme të jetë e mundur.
  • Zvogëloni: Zvogëloni numrin e pjesëmarrësve në eksperimentin tuaj sa më shumë që të jetë e mundur.

Për të bërë këto tre R konkrete dhe të tregojnë se si ato potencialisht mund të çojnë në një dizajn eksperimental më të mirë dhe humane, unë do të përshkruaj një eksperiment në terren në terren që ka krijuar debat etik. Pastaj, unë do të përshkruaj se si tre R-të sugjerojnë ndryshime konkrete dhe praktike në hartimin e eksperimentit.

Një nga eksperimentet më të debatuara në terren në fushën etike u zhvillua nga Adam Kramer, Jamie Guillroy dhe Jeffrey Hancock (2014) dhe është quajtur "Infeksioni Emocional". Eksperimenti u zhvillua në Facebook dhe u motivua nga një përzierje e shkencore dhe pyetje praktike. Në atë kohë, mënyra dominante që përdoruesit ndërvepruan me Facebook ishte News Feed, një grup i algoritmisht i kuruar i përditësimeve të statusit të Facebook nga miqtë e Facebook të një përdoruesi. Disa kritikë të Facebook kanë sugjeruar se për shkak se News Feed ka kryesisht postime pozitive - miqtë që shfaqin partinë e tyre të fundit - kjo mund të shkaktojë që përdoruesit të ndihen të trishtuar, sepse jeta e tyre dukej më pak emocionuese në krahasim. Nga ana tjetër, ndoshta efekti është pikërisht e kundërta: ndoshta duke parë mikun tuaj që ka një kohë të mirë do të bëjë që ju të ndiheni të lumtur. Për të trajtuar këto hipoteza konkurruese - dhe për të avancuar kuptimin tonë se si ndjenjat e një personi janë të ndikuar nga emocionet e miqve të saj - Kramer dhe kolegët drejtuan një eksperiment. Ata vendosën rreth 700,000 përdorues në katër grupe për një javë: një grup "negativitet-reduktuar", për të cilin postimet me fjalë negative (p.sh. "të trishtuar") u bllokuan në mënyrë të rastësishme nga paraqitja në News Feed; një grup "pozitivitet-reduktuar" për të cilin postet me fjalë pozitive (p.sh. "lumtur") u bllokuan në mënyrë të rastësishme; dhe dy grupe kontrolli. Në grupin e kontrollit për grupin "negativitet të reduktuar", postimet u bllokuan rastësisht në të njëjtën shkallë si grupi "reduktuar negativitet", por pa marrë parasysh përmbajtjen emocionale. Grupi i kontrollit për grupin "pozitivitet-reduktuar" u ndërtua në mënyrë paralele. Dizajni i këtij eksperimenti ilustron që grupi i duhur i kontrollit nuk është gjithmonë një pa ndryshime. Përkundrazi, ndonjëherë, grupi i kontrollit merr një trajtim me qëllim që të krijojë një krahasim të saktë që kërkon një kërkesë. Në të gjitha rastet, postimet që ishin bllokuar nga Feed News ishin ende në dispozicion të përdoruesve përmes pjesëve të tjera të faqes së Facebook.

Kramer dhe kolegët zbuluan se për pjesëmarrësit në gjendjen e reduktuar të pozitivitetit, përqindja e fjalëve pozitive në përditësimet e statusit të tyre u ul dhe përqindja e fjalëve negative u rrit. Nga ana tjetër, për pjesëmarrësit në kushtet e reduktimit të negativitetit, përqindja e fjalëve pozitive u rrit dhe ai i fjalëve negative u zvogëlua (figura 4.24). Megjithatë, këto efekte ishin mjaft të vogla: dallimi në fjalë pozitive dhe negative midis trajtimeve dhe kontrolleve ishte rreth 1 në 1,000 fjalë.

Figura 4.24: Dëshmi e ngjitjes emocionale (Kramer, Guillory, dhe Hancock 2014). Pjesëmarrësit në kushtet e reduktimit të negativitetit përdorën më pak fjalë negative dhe fjalë më pozitive, dhe pjesëmarrësit në kushtet e reduktimit të pozitivitetit përdorën më shumë fjalë negative dhe fjalë më pak pozitive. Bare përfaqësojnë gabimet e vlerësuara standarde. Përshtatur nga Kramer, Guillory, dhe Hancock (2014), figura 1.

Figura 4.24: Dëshmi e ngjitjes emocionale (Kramer, Guillory, and Hancock 2014) . Pjesëmarrësit në kushtet e reduktimit të negativitetit përdorën më pak fjalë negative dhe fjalë më pozitive, dhe pjesëmarrësit në kushtet e reduktimit të pozitivitetit përdorën më shumë fjalë negative dhe fjalë më pak pozitive. Bare përfaqësojnë gabimet e vlerësuara standarde. Përshtatur nga Kramer, Guillory, and Hancock (2014) , figura 1.

Para diskutimit të çështjeve etike të ngritura nga ky eksperiment, do të doja të përshkruaja tri çështje shkencore duke përdorur disa nga idetë e mëparshme në kapitull. Së pari, nuk është e qartë se si detajet aktuale të eksperimentit lidhen me pretendimet teorike; me fjalë të tjera, ka pyetje rreth ndërtimit të vlefshmërisë. Nuk është e qartë se akuzat pozitive dhe negative janë në të vërtetë një tregues i mirë i gjendjes emocionale të pjesëmarrësve, sepse (1) nuk është e qartë se fjalët që njerëzit paraqesin janë një tregues i mirë i emocioneve të tyre dhe (2) nuk është e qartë se teknika e analizës së ndjenjave të veçanta që kërkuesit përdorën është në gjendje të nxjerrë në pah emocionet (Beasley and Mason 2015; Panger 2016) . Me fjalë të tjera, mund të ketë një masë të keqe të një sinjali të njëanshëm. Së dyti, dizajni dhe analiza e eksperimentit nuk na tregon asgjë se kush është më i ndikuar (dmth. Nuk ka analiza të heterogjenitetit të efekteve të trajtimit) dhe çfarë mekanizmi mund të jetë. Në këtë rast, hulumtuesit kishin shumë informacione rreth pjesëmarrësve, por ato u trajtuan në thelb si widgets në analizë. Së treti, madhësia e efektit në këtë eksperiment ishte shumë e vogël; diferenca midis kushteve të trajtimit dhe kontrollit është rreth 1 në 1000 fjalë. Në letrën e tyre, Kramer dhe kolegët e bëjnë rastin që një efekt i kësaj madhësie është i rëndësishëm, sepse qindra miliona njerëz arrijnë çdo ditë në Feed News Feed. Me fjalë të tjera, ata argumentojnë se edhe nëse efektet janë të vogla për secilin person, ato janë të mëdha në total. Edhe nëse do ta pranonit këtë argument, ende nuk është e qartë nëse një efekt i kësaj madhësie është i rëndësishëm në lidhje me pyetjen më të përgjithshme shkencore rreth përhapjes së emocioneve (Prentice and Miller 1992) .

Përveç këtyre pyetjeve shkencore, vetëm disa ditë pasi ky botim u botua në Proceedings of the National Academy of Sciences , ka pasur një protestë të madhe nga të dy studiuesit dhe nga shtypi (unë do të përshkruaj argumentet në këtë debat në më shumë detaje në kapitullin 6 ). Çështjet e ngritura në këtë debat shkaktuan që revista të botonte një shprehje të rrallë editoriale për shqetësim në lidhje me etikën dhe procesin e rishikimit etik të hulumtimit (Verma 2014) .

Duke pasur parasysh këtë sfond rreth ngjitjes emocionale, tani do të doja të tregoja se të tre R-të mund të sugjerojnë përmirësime konkrete dhe praktike për studimet e vërteta (çfarëdo që mund të mendoni personalisht për etikën e këtij eksperimenti të veçantë). R i pari është zëvendësuar : hulumtuesit duhet të kërkojnë të zëvendësojnë eksperimentet me teknikat më pak invazive dhe të rrezikshme, nëse është e mundur. Për shembull, në vend që të ekzekutonte një eksperiment të kontrolluar me randomizim, studiuesit mund të kishin shfrytëzuar një eksperiment natyror . Siç përshkruhet në kapitullin 2, eksperimentet natyrore janë situata ku ndodh diçka në botë që përafron caktimin e rastësishëm të trajtimeve (p.sh., një lotari për të vendosur se kush do të hartohet në ushtri). Përparësia etike e një eksperimenti natyror është se studiuesi nuk duhet të japë trajtime: mjedisi e bën këtë për ju. Për shembull, pothuajse në të njëjtën kohë me eksperimentin e ngjitjes emocionale, Lorenzo Coviello et al. (2014) po shfrytëzonin atë që mund të quhet një eksperiment natyror i Infeksionit Emocional. Coviello dhe kolegët zbuluan se njerëzit dërgojnë fjalë më negative dhe më pak fjalë pozitive në ditët kur bie shi. Prandaj, duke përdorur ndryshime të rastësishme në mot, ata ishin në gjendje të studiojnë efektin e ndryshimeve në Feed News pa nevojën për të ndërhyrë fare. Ishte sikur moti po drejtonte eksperimentin e tyre për ta. Detajet e procedurës së tyre janë paksa të komplikuara, por pika më e rëndësishme për qëllimet tona këtu është se duke përdorur një eksperiment natyror, Coviello dhe kolegët ishin në gjendje të mësonin për përhapjen e emocioneve pa nevojën për të drejtuar eksperimentin e tyre.

E dyta nga tre R është përpunuar : hulumtuesit duhet të kërkojnë të përmirësojnë trajtimet e tyre për t'i bërë ato të padëmshme sa të jetë e mundur. Për shembull, në vend që të bllokonte përmbajtjen që ishte ose pozitive ose negative, studiuesit mund të kishin rritur përmbajtjen që ishte pozitive ose negative. Ky dizajn nxitës do të kishte ndryshuar përmbajtjen emocionale të News Feeds të pjesëmarrësve, por kjo do të kishte adresuar një nga shqetësimet që kritikët shprehnin: eksperimentet mund të kenë shkaktuar që pjesëmarrësit të humbin informacion të rëndësishëm në Feedin e tyre të News. Me dizajnin e përdorur nga Kramer dhe kolegët, një mesazh që është i rëndësishëm ka gjasa që të bllokohet si një që nuk është. Megjithatë, me një dizajn nxitës, mesazhet që do të zhvendoseshin do të ishin ato që janë më pak të rëndësishme.

Së fundi, R i tretë është zvogëluar : hulumtuesit duhet të kërkojnë të zvogëlojnë numrin e pjesëmarrësve në eksperimentin e tyre në minimumin e nevojshëm për të arritur objektivin e tyre shkencor. Në eksperimentet analoge, kjo ndodhi natyrshëm për shkak të kostove të larta të ndryshueshme të pjesëmarrësve. Por në eksperimentet dixhitale, veçanërisht ato me kosto zero të ndryshueshme, hulumtuesit nuk përballen me një kufizim kostoje në madhësinë e eksperimentit të tyre dhe kjo ka potencialin që të çojë në eksperimente të panevojshme.

Për shembull, Kramer dhe kolegët mund të kenë përdorur informacionin e para-trajtimit për pjesëmarrësit e tyre - siç është sjellja e postimeve para trajtimit - për të bërë analizën e tyre më efikase. Më konkretisht, në vend që të krahasojmë proporcionin e fjalëve pozitive në kushtet e trajtimit dhe kontrollit, Kramer dhe kolegët mund ta krahasojnë ndryshimin në proporcion të fjalëve pozitive midis kushteve; një metodë që nganjëherë quhet një dizajn i përzier (figura 4.5) dhe nganjëherë quhet një vlerësues i dallimeve në ndryshime. Kjo është, për secilin pjesëmarrës, hulumtuesit mund të kenë krijuar një rezultat ndryshimi (sjellja pas trajtimit \(-\) sjelljes para trajtimit) dhe pastaj krahasuan rezultatet e ndryshimit të pjesëmarrësve në kushtet e trajtimit dhe kontrollit. Kjo qasje e diferencave në ndryshime është statistikisht më efikase, që do të thotë se hulumtuesit mund të arrijnë të njëjtin besim statistikor duke përdorur mostra shumë më të vogla.

Pa pasur të dhëna të papërpunuara, është e vështirë të dish saktësisht se sa më efikas do të ishte një vlerësues i ndryshimeve në ndryshime në këtë rast. Por ne mund të shikojmë eksperimente të tjera të lidhura për një ide të përafërt. Deng et al. (2013) raportuan se duke përdorur një formë të vlerësuesit të diferencës në dallime, ata ishin në gjendje të reduktonin variancën e vlerësimeve të tyre me rreth 50% në tre eksperimente të ndryshme në internet; rezultate të ngjashme janë raportuar nga Xie and Aurisset (2016) . Kjo reduktim 50% e variancës do të thotë se studiuesit e Infeksionit Emocional mund të kenë qenë në gjendje të ulnin kampionin e tyre në gjysmën e tyre, nëse ata kishin përdorur një metodë pak më të ndryshme të analizës. Me fjalë të tjera, me një ndryshim të vogël në analizë, 350,000 njerëz mund të jenë kursyer pjesëmarrjen në eksperiment.

Në këtë pikë, ju mund të pyesni pse studiuesit duhet të kujdesen nëse 350.000 njerëz ishin në Panele Emocionale pa nevojë. Ekzistojnë dy karakteristika të veçanta të Përmbajtjes Emocionale që bëjnë shqetësime me madhësinë e tepërt të përshtatshme dhe këto karakteristika ndahen nga shumë eksperimente në fushën digjitale: (1) ekziston paqartësi nëse eksperimenti do të shkaktojë dëmtime të paktën disa pjesëmarrës dhe (2) pjesëmarrje nuk ishte vullnetar. Duket e arsyeshme të përpiqet të mbajë eksperimente që kanë këto karakteristika aq të vogla sa të jetë e mundur.

Për të qenë i qartë, dëshira për të zvogëluar madhësinë e eksperimentit tënd nuk do të thotë që ju nuk duhet të bëni eksperimente të mëdha me kosto të ndryshueshme zero. Kjo thjesht do të thotë se eksperimentet tuaja nuk duhet të jenë më të mëdha se sa duhet për të arritur qëllimin tuaj shkencor. Një mënyrë e rëndësishme për t'u siguruar që një eksperiment është me përmasa të përshtatshme është të kryejë një analizë të fuqisë (Cohen 1988) . Në epokën analoge, hulumtuesit në përgjithësi kanë bërë analiza të fuqisë për të siguruar që studimi i tyre nuk ishte shumë i vogël (dmth. Nën-powered). Tani, megjithatë, hulumtuesit duhet të bëjnë analizën e fuqisë për të siguruar që studimi i tyre nuk është shumë i madh (dmth., Mbi-powered).

Në përfundim, të tre R-të zëvendësojnë, përsosin dhe reduktojnë-japin parime që mund të ndihmojnë hulumtuesit të ndërtojnë etikën në planet e tyre eksperimentale. Natyrisht, secila prej këtyre ndryshimeve të mundshme në Infeksionin Emocional paraqet pengesa. Për shembull, dëshmitë nga eksperimentet natyrore nuk janë gjithmonë aq të pastra sa ato nga eksperimentet e rastësishme dhe rritja e përmbajtjes mund të jetë logjistikisht më e vështirë për tu zbatuar sesa bllokimi i përmbajtjes. Pra, qëllimi i sugjerimit të këtyre ndryshimeve nuk ishte të mendonte më parë vendimet e studiuesve të tjerë. Përkundrazi, ishte për të ilustruar se si të tre R-të mund të aplikoheshin në një situatë realiste. Në të vërtetë, çështja e kompromiseve vjen gjatë gjithë kohës në hartimin e hulumtimit dhe në epokën digjitale, këto shkëmbime do të përfshijë gjithnjë e më shumë konsiderata etike. Më vonë, në kapitullin 6, do të ofroj disa parime dhe korniza etike që mund t'i ndihmojnë kërkuesit të kuptojnë dhe diskutojnë këto pengesa.