4.6.2 Ferfange, Refine, en Reduceren

Dizze oersetting is makke troch in kompjûter. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 Ferfange, Refine, en Reduceren

Meitsje jo eksperimint minskliker troch ferfangen eksperiminten mei net-eksperimintele stúdzjes, raffinaazjetechnyk foar de behannelings, en it ferminderjen fan it tal dielnimmers.

It twadde stik fan advys dat ik graach te bieden oer it ûntwerpen fan digitale eksperiminten giet etyk. As de Restivo en Van de Rijt eksperimint op barnstars yn Wikipedy shows, sakke kosten betsjut dat etyk wurdt in hieltyd wichtiger ûnderdiel fan ûndersyk ûntwerp. Neist de etyske kaders liedend minsklike ûnderwerpen ûndersyk dat ik beskriuwe yn haadstik 6, ûndersikers ûntwerpen digitale eksperiminten kinne ek lûke op etyske ideeën út in oare boarne: de etyske útgongspunten ûntwikkele te begelieden eksperiminten wêrby't bisten. Yn it bysûnder, yn har landmark boek Utgongspunten fan minske Experimental Technique, Russell and Burch (1959) útstel trije útgongspunten dy't moatte guide bist ûndersyk: Ferfange, Refine, en Reduceren. Ik soe graach foarstelle dat dizze trije R 's kinne ek brûkt wurde-yn in wat oanpaste foarm-te begelieden it ûntwerp fan minsklike eksperiminten. Yn't bysonder,

Ferfange: Ferfange eksperiminten mei minder invasive metoaden as mooglik
Refine: Refine de behanneling om it sa ûnskuldich as mooglik
Ferminderje: ferminderje it oantal dielnimmers yn jo eksperimint safolle mooglik

Om te meitsje dizze trije R fan beton en sjen litte hoe't se kinne mooglik liede ta bettere en minskliker eksperimintele design, ik beskriuwe in online fjild eksperimint dat generated etysk debat. Doe ik beskriuwe hoe't de trije R fan suggest konkrete en praktyske feroarings oan it ûntwerp fan it eksperimint.

Ien fan de meast ethically debattearre digitale fjild eksperiminten is "Emotional contagion," dat waard útfierd troch Adam Kramer, Jamie Gillroy, en Jeffrey Hancock (2014) . It eksperimint fûn plak op Facebook en waard ynjûn troch in miks fan wittenskiplike en praktyske fragen. By de tiid, de dominant wei dat brûkers interacted mei Facebook wie de News Feed, in algorithmically curated set fan Facebook status updates fan in brûker fan Facebook freonen. Guon kritisy fan Facebook hie suggerearre dat omdat it News Feed hat meast positive berjochten-freonen sjocht ôf harren lêste partij-it koe feroarsaakje brûkers te fiele sad omdat harren libben lykje minder spannend yn ferliking. Oan de oare kant, miskien it effekt is krekt it tsjinoerstelde; miskien sjen dyn freon mei in goede tiid soe meitsje jo fiele lokkich? Om te pakken dy konkurrearjende hypoteze-en om foarút ús begryp fan hoe't in persoan fan emoasjes wurde beynfloede troch har freonen 'emoasjes-Kramer en kollega rûn in eksperimint. De ûndersikers pleatst oer 700.000 brûkers yn fjouwer groepen foar ien wike: in "negativity redusearre" groep, foar wa't berichten mei negative wurden (bygelyks, tryst) waarden willekeurich útsletten net de News Feed; in "positivity fermindere" groep foar wa't berichten mei positive wurden (bygelyks, lokkich) waarden willekeurich warre; en twa kontrôle groepen. Yn de kontrôle groep foar de "negativity fermindere" groep, berichten waarden willekeurich blokkearre op itselde taryf as de "negativity redusearre" groep, mar sûnder each foar de emosjonele ynhâld. De kontrôle groep foar de "positivity redusearre" groep waard oanlein yn in parallel moade. It ûntwerp fan dit eksperimint yllustrearret dat de geskikte kontrôle groep is net altyd ien mei gjin feroarings. Leaver, soms de kontrôle groep krijt in behanneling om te meitsjen de krekte ferliking dat in ûndersyk fraach fereasket. Yn alle gefallen, de berjochten dy't waarden útsletten fan it nijs Feed wiene noch beskikber foar brûkers troch oare parten fan de Facebook webside.

Kramer en kollega fûn dat foar de dielnimmers yn 'e positivity fermindere betingst, it persintaazje fan de positive wurden yn harren status updates ôfnommen en it persintaazje fan negative wurden tanommen. Oan de oare kant, foar dielnimmers oan de negativity fermindere betingst, it persintaazje fan de positive wurden grutter en it persintaazje fan negative wurden ôfnommen (Figuer 4.23). Mar, dy effekten wiene hiel lyts: it ferskil yn positive en negative wurden tusken behannelingen en kontrôles wie likernôch 1 yn 1.000 wurden.

Figuer 4.23: Evidence fan emosjonele contagion (Kramer, Groenland, en Hancock 2014). Persintaazje fan positive wurden en negative wurden troch eksperimintele betingst. Bars represent estimated standert flaters.

Figuer 4.23: Evidence fan emosjonele contagion (Kramer, Guillory, and Hancock 2014) . Persintaazje fan positive wurden en negative wurden troch eksperimintele betingst. Bars represent estimated standert flaters.

Ik haw set in diskusje fan 'e wittenskiplike aspekten fan dit eksperimint yn' e fierder stúdzjeseal seksje oan de ein fan it haadstik, mar spitigernôch, dit eksperimint is meast bekende foar it oanmeitsjen fan etysk debat. Krekt dagen nei dizze papier waard publisearre yn Skiednis fan 'e Nasjonale Akademy fan Wittenskippen, der wie in enoarm leven meitsje fan beide ûndersikers en de parse. Oanfal om it papier rjochte op twa wichtige punten: 1) dielnimmers net biede gjin tastimming bûten de standert Facebook betingsten-fan-tsjinst foar in behanneling dat guon gedachte kin skea oan dielnimmers en 2) de stúdzje hie net ûndergien tredde-partij Ethiopia review (Grimmelmann 2015) . De etyske fragen steld yn dit debat soarge it tydskrift te gau publisearjen in seldsume "redaksje útdrukking fan soarch" oer 'e etyk en etyske review proses foar it ûndersyk (Verma 2014) . Yn de jierren dêrnei, it eksperimint hat fierder te wêzen in boarne fan yntinse debat en ferskil fan miening, en dit ûnienigens kin hie de ûnbedoeld effekt fan it riden yn 'e skaden soad oare eksperiminten dy't wurde útfierd troch bedriuwen (Meyer 2014) .

Mei it each op dat eftergrûn oer Emotional contagion, ik soe no graach sjen dat de 3 R fan kin suggest konkreet, praktyske ferbetterings foar echte stúdzjes (wat jo miskien persoanlik tinke oer de etyk fan dizze bysûndere eksperimint). De earste R is Ferfange: ûndersikers moatte sykje nei ferfangen eksperiminten mei minder invasive en risikofolle techniken, as it heal kin. Bygelyks, as rint in eksperimint, de ûndersikers koenen hawwe misbrûke in natuerlike eksperimint. Lykas beskreaun yn haadstik 2, natuerlike eksperiminten binne situaasjes dêr't wat bart yn 'e wrâld dat approximates it samar opdracht behannelingen (bygelyks, in kâns jaan om te besluten wa't wurdt opsteld yn de militêre). It foardiel fan in natuerlike eksperimint is dat de ûndersykster hat gjin te leverjen behannelingen; it miljeu docht dat foar dy. Yn oare wurden, mei in natuerlike eksperimint, ûndersikers soe net nedich om bearjendewei manipulearje minsken fan News Feeds.

Yn feite, hast Tagelyk mei de Emotional contagion eksperimint, Coviello et al. (2014) wie benutten wat koe wurde neamd in Emotional contagion natuerlike eksperimint. Har oanpak, dy't brûkt in technyk neamd ynstrumintale fariabelen, is in bytsje complicated as jo ha nea sjoen it foar. Sa, om om út te lizzen wêrom't dat wie nedich, lit ús bouwe oan it. It earste idee dat guon ûndersikers kin moatte studearje emosjonele contagion soe wêze te ferlykjen dyn berjochten op dagen dêr't jo News Feed wie tige posityf foar dyn berjochten op dagen dêr't jo News Feed wie tige negatyf. Dizze oanpak soe wêze fyn as it doel wie krekt te foarsizze de emosjonele ynhâld fan jo berjochten, mar dizze oanpak is problematysk as it doel is om te bestudearjen de motivearring effekt fan jo Nijs Feed op jo berjochten. Om sjen it probleem mei dizze ûntwerp, beskôgje Thanksgiving. Yn de US, positive berjochten spike en negative berjochten sjitlead op Thanksgiving. Sa, op Thanksgiving, ûndersikers koe sjen dat jo News Feed wie tige posityf en dat jo posted positive dingen ek. Mar, jo positive berjochten koenen binne feroarsake troch Thanksgiving net troch de ynhâld fan jo News Feed. Ynstee, om te skatten it kausale effekt ûndersikers nedich wat, dat feroaret de ynhâld fan jo News Feed sûnder direkt feroaret jo emoasjes. Gelokkich, der is wat as dat bart al de tiid: it waar.

Coviello en kollega fûn dat bolletje yn immen syn stêd sil, op trochsneed, ôfnimme it oanpart fan berjochten dy't posityf troch likernôch 1 persintaazje punt en fergrutsjen it oanpart fan berjochten dy't negatyf troch likernôch 1 persintaazje punt. Doe, Coviello en kollega misbrûke dit feit te studearjen emosjonele contagion sûnder it ferlet om bearjendewei manipulearje immen fan News Feed. Yn essinsje wat se diene mei mjitte hoe't dyn berjochten waarden beynfloede troch it waar yn 'e stêden dêr't dyn freonen wenje. Om sjen wêrom't dit makket sin, yntinke dat jimme libje yn New York City en jo hawwe in freon dy't wennet yn Seattle. No yntinke dat ien dei it begjint reint yn Seattle. Dizze rein yn Seattle sil net direkt ynfloed op dyn stimming, mar it sil jo Nijs Feed te wêzen minder posityf en mear negatyf omdat fan dyn freon syn berjochten. Sa, de rein yn Seattle willekeurich manipulates jo News Feed. Skeakel dizze yntuysje yn in betrouber statistyske proseduere is yngewikkeld (en de eksakte oanpak brûkt troch Coviello en kollega is in bytsje net-standert) dus ik haw set in mear detaillearre diskusje yn de fierdere stúdzjeseal seksje. De meast wichtige ding om te ûnthâlden oer Coviello en kollega fan oanpak is dat it ynskeakele harren te studearjen emosjonele contagion sûnder it ferlet om rinne in eksperimint dat koe mooglik skea dielnimmers, en it kin wêze it gefal dat yn in protte oare ynstellings kinne jo ferfange eksperiminten mei oare techniken.

Twadde yn de 3 Rs is Refine: ûndersikers moatte sykje nei finen harren behannelingen om dat de lytste skea mooglik. Bygelyks, ynstee blokkearjende ynhâld dat wie òf posityf of negatyf, de ûndersikers koenen hawwe opfierde ynhâld dat wie posityf of negatyf. Dat it stimulearjen fan ûntwerp soe hawwe feroare de emosjonele ynhâld fan dielnimmers nijs Feeds, mar it soe hawwe bod ien fan de soarch dat kritisy útdrukt: dat de eksperiminten koe hawwe feroarsake dielnimmers te missen wichtige ynformaasje yn har News Feed. Mei it ûntwerp brûkt troch Kramer en kollega, in berjocht dat is wichtich is as nei alle gedachten te wurde blokkearre as ien dat is net. Mar, mei in it stimulearjen fan ûntwerp, de berjochten dy't soe wurde displaced soe wêze dyjingen dy't minder wichtich.

Ta beslút, it tredde R is Reduceren: ûndersikers moatte sykje nei ferminderjen it tal fan dielnimmers yn harren eksperimint, as it heal kin. Yn it ferline, dit reduksje barde fansels omdat de fariabele kosten fan analoge eksperiminten wie heech, dy't oanmoedige ûndersyk te optimalisearjen harren ûntwerp en analyze. Lykwols, as der nul fariabele kosten gegevens, ûndersikers net gesicht in kosten twang op de grutte fan harren eksperimint, en dit hat de mooglikheden om liede ta ûnnedich grutte eksperiminten.

Bygelyks, Kramer en kollega koene hawwe brûkt pre-behanneling ynformaasje oer harren dielnimmers-lykas pre-behanneling reaksje gedrach-om harren analyze effisjinter. Mear spesifyk, ynstee fergelykjen it oanpart fan de positive wurden yn de behanneling en kontrôle betingsten, Kramer en kollega koe hawwe fergelike de feroaring yn de ferhâlding fan de positive wurden tusken betingsten; in oanpak faak neamd ferskil-yn-ferskillen en dat is nau besibbe oan it mingd ûntwerp dat ik beskreaun earder yn it haadstik (Figure 4.5). Dat is, foar eltse dielnimmer, de ûndersikers koe hawwe makke in feroaring skoare (post-behanneling gedrach - pre-behanneling gedrach) en dêrnei ferlike de feroaring skoares fan dielnimmers oan de behanneling en kontrôle betingsten. Dit ferskil-yn-ferskillen oanpak is effisjinter statistysk, wat betsjut dat ûndersikers kinne berikken deselde statistyske fertrouwen mei help folle lytsere gebrûk. Yn oare wurden, troch net behanneljende dielnimmers as "widgets", ûndersikers kinne faak mear sekuere rûzings.

Sûnder de rauwe gegevens is it dreech om te witte krekt hoe folle effisjinter in ferskil-yn-ferskillen oanpak soe west hawwe yn dit gefal. Mar, Deng et al. (2013) dat yn trije online eksperiminten op de Bing sykmasine se wienen by steat om te ferminderjen de fariânsje fan harren rûzings troch likernôch 50%, en ferlykbere resultaten binne rapportearre foar guon online eksperiminten by Netflix (Xie and Aurisset 2016) . Dy 50% fariânsje ferminderjen betsjut dat de Emotional contagion ûndersikers soe hawwe kinnen snijden harren stekproef yn de helte as se hiene brûkt in wat oare analyze metoaden. Yn oare wurden, mei in lytse feroaring yn de analyze, 350.000 minsken miskien binne sparre partisipaasje yn it eksperimint.

Op dit punt jo miskien wêze ôffreegje wêrom't ûndersikers moatte soarch as 350.000 minsken wiene yn Emotional contagion ûnnedich. Der binne twa bysûndere skaaimerken fan Emotional contagion dy't om soarch mei ûnevenredich grutte passende, en dizze funksjes wurde dield troch in soad digitale fjild eksperiminten: 1) is der ûnwissichheid oer de fraach oft it eksperimint sil feroarsaakje skea oan op syn minst in pear dielnimmers en 2) dielname wie net frijwillich. Yn eksperiminten mei dizze twa skaaimerken it liket oan te rieden om de eksperiminten sa lyts mooglik.

Yn konklúzje, de trije R's-Ferfange, Refine, en beheinen-fersoargje prinsipes dy't kinne helpe ûndersikers bouwen etyk yn harren eksperimintele ûntwerpen. Fansels, elk fan dizze mooglike feroarings te Emotional contagion yntrodusearret hannel-offs. Bygelyks, bewiis fan natuerlike eksperiminten is net altyd sa skjin as bewiis fan willekeurich eksperiminten en it stimulearjen miskien hawwe mear logistically dreech te fieren as blok. Sa, it doel fan suggesting dizze feroarings wie net oan twadde-rieden de besluten fan oare ûndersikers. Krektoarsom, it wie te yllustrearje hoe't de trije R fan koe wurde tapast yn in realistyske situaasje.