4.6.2 etyk yn jo ûntwerp: ferfange, ferfiere, feroarje

Meitsje jo eksperimint minskliker troch ferfangen eksperiminten mei net-eksperimintele stúdzjes, raffinaazjetechnyk foar de behannelings, en it ferminderjen fan it tal dielnimmers.

De twadde advys dy't ik graach oanbiede wolle oer it ûntwerpen fan digitale eksperiminten giet om etyk. As de Restivo en van de Rijt eksperimintearje op barnstars yn Wikipedia sjen litte, fermindere kosten betsjuttet dat etika wurdt in hieltyd wichtiger diel fan it ûndersyksûntwerp. Neist it etiïske ramt fan it ûndersyk fan minsklike ûnderwerpen dy't ik yn haadstik 6 liede kin, kinne ûndersikers fan digitale eksperiminten ek op etyske ideeën tekenje fan in oare boarne: de etyske prinsipes dy't ûntwikkele binne om eksperiminten te beheljen mei dieren. Benammen yn har boekenboek Principles of Humane Experimentaltechnik , Russell and Burch (1959) útstelde trije útgongspunten dy't dieresûndersyk liede moatte: ferfiere, ferfiere, ferleegje. Ik soe graach útjaan dat dizze trije R 's ek brûkt wurde kinne - yn in wat modifisearre foarm - om it ûntwerp fan minsklike eksperiminten te leegjen. Yn't bysonder,

  • Ferfange: ferfange eksperiminten mei minder invasive metoaden as mooglik.
  • Ferfange: Feroare de behanneling om it sa harmless mooglik te meitsjen.
  • Redigearje: It tal dielnimmers op jo eksperiment ferkocht safolle mooglik.

Om dy konkrete trije R 's konkreet te meitsjen en sjen te litten hoe't se potinsjeel liede kinne foar in bettere en mear humane eksperimintele ûntwerp, sil ik in online fjild eksperimint beskriuwe dy't etikale diskusje hat. Dan sil ik beskriuwe hoe't de trije R's konkrete en praktyske wizigingen oanpasse oan it ûntwerp fan 'e eksperiment.

Ien fan 'e saaklikste debatearre digitale fjildekseksjes waard útfierd troch Adam Kramer, Jamie Guillroy, en Jeffrey Hancock (2014) en is te hjitten hoe "Emotionale Contagion". It eksperimint fûn plak op Facebook en waard motivearre troch in ming fan wittenskiplik en praktyske fragen. Op it stuit is de dominante manier dy't gebrûk makke is mei Facebook is it News Feed, in algoritmysk kurrisearre set fan Facebook-status-fernijingen fan 'e Facebook-freonen fan' e brûker. Guon kritisy fan Facebook hawwe oansteld dat de News Feed hat meast positive poëzy-freonen dy't harren lêste partij sjen litte - it koe feroarsaakke brûkers feroarsake om't harren libben minder spannend wie yn fergeliking. Oan 'e oare kant, miskien is it effekt krekt it tsjinoerstelde: miskien sjogge jo freon dy't in goeie tiid hat om jo tefreden te fielen. Om dizze konkurrearjende hyptezen oan te rjochtsjen - en ús ynsjoch te meitsjen fan hoe't de emoasjes fan in persoan belutsen binne troch har emoasjes fan freonen - Kramer en kollega's rûn in eksperimint. Se setten sa'n 700.000 brûkers yn fjouwer groepen ien wike: in groep "negativity-reduced", foar wa't berjochten mei negative wurden (bgl. "Dreech") willekeurich blokkearre waarden fan it ferskinen yn 'e News Feed; In "positiviteit-reduksje" groep foar wa't posten mei positive wurden (bgl. "glêd") willekeurich blokkearre waarden; en twa kontrôlesgroepen. Yn 'e kontrôlesgroep foar de "negativity-reduced" groep waarden posten op itselde tillefoan as wierskynlik as de "negativity-reduced" groep blokkearre, mar sûnder oandiel foar de emosjonele ynhâld. De kontrôtgroep foar de "positiviteit-reduksje" groep waard op in parallelle moade konstruearre. It ûntwerp fan dit eksperimint lit sjen dat de passende kontrolgroup net altyd ien is sûnder feroaring. Faaks wurdt, somtiden, de kontrôtgroep in behanneling krije om de krekte fergeliking te meitsjen dat in ûndersyksfraach nedich is. Yn alle gefallen binne de posten dy't troch de News Feed blokkearre waarden, noch foar brûkers te krijen troch oare dielen fan 'e webside fan Facebook.

Kramer en kollega's fûnen dat foar dielnimmers yn 'e posityf-fertsjustere betingst it percentage fan positive wurden yn har status updates wiene en it persintaazje negative wurden wurden ferhege. Oan 'e oare kant, foar dielnimmers yn' e negativity-redukte kondysje, waard it persintaazje positive positive wurden en de negative wurden wurden ôfnommen (figuer 4.24). Dizze effekten wienen lykwols hiel lyts: it ferskil yn positive en negative wurden tusken behannelingen en kontrôles wie sawat 1 yn 1.000 wurden.

Figure 4.24: Bewissiging fan emosjonele contagion (Kramer, Guillory, en Hancock 2014). Dielnimmers yn 'e negativity-ferlege betingsten brûkten minder negative wurden en positive positive wurden, en dielnimmers yn' e posityf-fertsjustere betingsten brûkten mear negative wurden en minder positive wurden. Bars fertsjintwurdigje de standert fouten. Adaptearre fan Kramer, Guillory, en Hancock (2014), figuer 1.

Figure 4.24: Bewissiging fan emosjonele contagion (Kramer, Guillory, and Hancock 2014) . Dielnimmers yn 'e negativity-ferlege betingsten brûkten minder negative wurden en positive positive wurden, en dielnimmers yn' e posityf-fertsjustere betingsten brûkten mear negative wurden en minder positive wurden. Bars fertsjintwurdigje de standert fouten. Adaptearre fan Kramer, Guillory, and Hancock (2014) , figuer 1.

Foar it besprekken fan 'e etale problemen dy't troch dit eksperimint opsteld wurde, wol ik graach trije wittenskiplike problemen beskiede mei help fan guon fan' e ideeën fan earder yn it haadstik. Earst is it net dúdlik hoe't de echte details fan it eksperimint ferbine mei de teoretyske oanfragen; yn oare wurden, binne der fragen oer konkrete jildichheid. It is net dúdlik dat it positive en negative wurd wurdich is in goeie yndikaasje fan 'e emosjonele steat fan dielnimmers omdat (1) it is net dúdlik dat de wurden dy't minsken post binne in goed yndikaasje fan harren emoasjes en (2) it is net Ferklearje dat de spesjale sentimentaltechnyske technyk dy't de brûkte ûndersikers yn betroubere ynderlike emoasjes (Beasley and Mason 2015; Panger 2016) betelje kinne. Mei oare wurden, it kin in minne mjitte wêze fan in fertsjinne sinjaal. Twad, it ûntwerp en analyze fan it eksperimint fertelt ús neat oer wa't it meast beynfloede is (dus is der gjin analyze fan heterogeniteit fan behannele effekten) en wat de meganisme wêze kin. Yn dit gefal hie de ûndersikers in protte ynformaasje oer de dielnimmers, mar se waarden essentiell behannele as widgets yn 'e analyze. Tredde, de effektgrutte yn dit eksperimint wie tige lyts; it ferskil tusken behanneling en kontrôlemonden is sawat 1 yn 1.000 wurden. Yn har papier meitsje Kramer en kollega's it gefal dat in effekt fan dizze grutte is wichtich, om't hûnderten miljoenen minsken tagelyk tagonklik meitsje fan harren News Feed. Mei oare wurden sizze se dat ek as effekten lyts binne foar elke persoan, se binne grut yn aggregaat. Sels as jo dit argumint akseptearje, is it noch net dúdlik as in effekt fan dizze grutte is wichtich foar de algemiene wittenskiplike fraach oer de breedte fan emoasje (Prentice and Miller 1992) .

Neist dizze wittenskiplike fragen, justjes dagen nei dit papier waard publisearre yn Proceedings fan de Nasjonale Akademy fan Wittenskippen , wie der in geweldige raffing fan beide ûndersikers en de parse (ik sil de arguminten yn dit debat yn detailje beskriuwe yn haadstik 6 ). De ûnderwerpen dy't yn dit debat opnommen waarden feroarsake it tydskrift in seldsume "redaksjeel ekspressie fan soarch" oer de etik en it etikale evaluaasjeproses foar it ûndersyk (Verma 2014) .

Op grûn fan 'e eftergrûn oer Emosjonele tsjinst, soe ik no graach sjen litte dat de trije R's konkrete, praktyske ferbetteringen foar echte stúdzjes kinne advisearje (wat jo kinne persoanlik tinke oer de etyk fan dit bepaalde eksperimint). De earste R is ferfange : ûndersikers moatte soargje om eksperiminten te ferfangen troch minder invasive en risikoare techniken, as mooglik. Bygelyks, yn stee fan in randomisearre kontrolearre eksperimint, kinne de ûndersikers in natuerlik eksperiment brûke . As beskreaun is yn haadstik 2, natuerlike eksperiminten binne situaasjes wêr't eat wat yn 'e wrâld komt, dy't de willekeurige opdracht fan behannelingen (bygelyks in lotterij nei de besluten dy't bepaald wurdt yn it militêr). It etikale foardiel fan in natuerlik eksperimint is dat de ûndersiker gjin behannelingen leveret: it miljeu docht dat foar jo. Bygelyks, hast tagelyk mei it eksperimente Emotionale Contagion, Lorenzo Coviello et al. (2014) wiene it gebrûk fan wat kin in natuerlik eksperimint Emosjonele Fergion neamd wurde. Coviello en kollega's ûntduts dat minsken mear negative wurden en minder positive wurden poste op dagen dêr't it reint. Dêrom, troch gebrûk fan willekeurige fariaasje yn it waar, kinne se it effekt fan wizigingen yn 'e Nijs Feed ûndersykje sûnder de needsaak om yndruk te meitsjen. It wie as wie it waar har eksperimint foar har rinne. De details fan har prosedueres binne in bytsje yngewikkeld, mar it wichtichste punt foar ús doelen is dat troch in natuerlike eksperimint Coviello en kollega's leare kinne oer de breedte fan emoasjes sûnder de needsaak om har eigen eksperimint te rinnen.

De twadde fan 'e trije Rs is te ferbetterjen : ûndersikers moatte soargje om har behannelingen te ferbetterjen om se sa harmless mooglik te meitsjen. Bygelyks, ynstee fan blokkearjen fan ynhâld dat positive of negatyf wie, kinne de ûndersikers ynhâld hawwe dy't positive of negatyf hawwe. Dit opnij ûntwerp soe de emosjonele ynhâld fan 'e nijsfeesten feroare hawwe, mar it soe ien fan' e soargen hawwe dat kritisy útdrukt: dat de eksperiminten de dielnimmers koene hawwe om wichtige ynformaasje yn harren News Feed te missen. Mei it ûntwerp dat Kramer brûkt en kollega's, is in berjocht dat wichtich is as wierskynlik blokkearre as ien dat net is. Doch mei in ferheegjen ûntwerp, wurde de berjochten dy ferwurke wurde soene wêze dyjingen dy't minder wichtich binne.

Uteinlik is de tredde R is fergrutte : ûndersikers moatte socht wurde it tal dielnimmers te ferleegjen yn har eksperiment oant it minimum nedich is om har wittenskiplik doel te berikken. Yn analoge eksperiminten kaam dit fansels natuerlik fanwege de hege fariabele kosten fan dielnimmers. Mar yn digitale eksperiminten, benammen dy mei variable fariantkosten, sjogge ûndersikers net in kostberens op 'e grutte fan har eksperiment, en dit hat it potensjele probleem om in ûnfergonklike grutte eksperiminten te lieden.

Kramer en kollega's kinne bygelyks pre-behannele ynformaasje brûke oer har dielnimmers - lykas pre-behannelingsgedrach - om har analyse effisjinter te meitsjen. Mear spesifyk, yn ferliking mei it fergelykjen fan it oanpart fan positive wurden yn 'e behanneling en kontrolearjen, kinne Kramer en kollega's de feroaring yn' e ferhâlding fan positive wurden tusken betingsten fergelykje; in oanpak dy't somtmal in mingde ûntwerp neamd (figuer 4.5) en soms ek in differinsje-yn-ûnderskate skatting neamd wurdt. Dat is, foar elke dielnimmer, de ûndersikers in feroaringsnota (postbehandelinggedrach \(-\) foar behanneling fan gedrach makke krigen hawwe kinne en fergelykje de wizigingsskoaren fan dielnimmers yn 'e behanneling en kontrôle. Dit ferskil tusken ferskillende statistyske effekten is in effisjinte statistysk, dat betsjut dat ûndersikers itselde statistysk fertrouwen mei in protte lytsere samples realisearje kinne.

Sûnder de rôze gegevens hawwe it dreech te witten krekt hoefolle effisjint in differins-yn-ferskate skatting wêze soe yn dit gefal. Mar wy kinne sjogge nei oare relatearre eksperiminten foar in rûge idee. Deng et al. (2013) rapportearre dat troch it brûken fan in foarm fan 'e differinsje-yn-ûnderskate skatting, kinne se de fariant fan har skatting fergrutte troch sawat 50% yn trije ferskillende online eksperiminten; Xie and Aurisset (2016) resultaten binne rapportearre troch Xie and Aurisset (2016) . Dizze 50% fereale reduksje betsjuttet dat de ûndersochters fan Emotionale Fertsjinsten mooglik har seifer yn 'e helte siede kinne as se in lyts oare ûndersyk metoade brûkt hawwe. Mei oare wurden, mei in lytse feroaring yn 'e analyze, kinne 350.000 minsken besparre wurde yn' e eksperiment.

Op dit stuit kinne jo fragen oer hoefolle ûndersikers soarchje moatte as 350.000 minsken yn 'e Emoasjeal Fergunning nedich binne. Der binne twa bepaalde funksjes fan emosjonele kontakten dy't it belang meitsje mei in heule grutte passend, en dizze funksjes binne dield troch in protte digitale fjilden eksperiminten: (1) is der wissichheid oer oft it eksperimint feroarsake sil op syn minst guon dielnimmers en (2) partisipaasje wie net frijwillich. It liket ridlik te besykjen om eksperiminten te hâlden dy't dizze funksjes sa lyts mooglik hawwe.

Om dúdlik te meitsjen, is de winsk om de grutte fan jo eksperimint te ferleegjen net betsjuttend dat jo net grutte fariabele eksperiminten nedich wêze moatte. It betsjuttels allinich dat jo eksperiminten net grutter wêze moatte as jo jo wittenskiplike doelstelling berikke moatte. Ien wichtige manier om te soargjen dat in eksperimint is goed bedrige is om in krêftûndersyk (Cohen 1988) . Yn 't it analoere leeftyd wienen ûndersikers algemien krêftûndersyk om derfoar te soargjen dat har stúdzje net te lyts wie (dus, ûnder betekene). No, lykwols, ûndersikers moatte macht-analyse dwaan om derfoar soargje dat har stúdzje net te grut is (dus, over-powered).

Yn it folslein meitsje de trije R's-ferfangen, ferfeelingen en redigearje-prinsipe dy't soargje kinne dat ûndersikers de etyk yn har eksperiminteel ûntwerpen bouwe. Fansels jildt elke fan dizze mooglike feroaringen nei Emosjonele Fergrysje hannelingen. Bygelyks, bewiis fan natuerlike eksperiminten is net altyd sa skjin as dy fan randomisearre eksperiminten, en it ferheegjen fan ynhâld kin logistysk dreech wêze om út te fieren as ynhâld fan blokkearjen. Dus, it doel fan suggestearring fan dizze wizigingen wie net foar twadde redenen de besluten fan oare ûndersikers. Earder wie it om te yllustrearjen hoe't de trije R's yn in realistyske situaasje tapast wurde kinne. Yn 't feit is it probleem fan ôfhannelingen op' e rin fan 'e tiid yn ûndersyndielingsûntwerp, en yn' e digitale leeftyd sille dizze ferhannelingen hieltyd mear etikale oerienkomsten hawwe. Letter yn haadstik 6 sil ik guon útgongspunten en etiïteare ramten oanbiede dy't de ûndersikers helpe kinne en begjinne dizze ûndernimmers te begripen.