4.6.2 Replace, të përsosin, dhe Ulja

Ky përkthim u krijua nga një kompjuter. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 Replace, të përsosin, dhe Ulja

Bëjnë eksperiment tuaj më humane duke zëvendësuar eksperimente me studimet jo-eksperimentale, rafinimit trajtimet, si dhe zvogëlimin e numrit të pjesëmarrësve.

Pjesa e dytë e këshillave që unë do të doja për të ofruar në lidhje me dizajnimin eksperimente dixhitale ka të bëjë me etikën. Si eksperimenti Restivo dhe van de Rijt në barnstars në shfaqje Wikipedia, ul kostot do të thotë se etika do të bëhet një pjesë gjithnjë e më e rëndësishme e dizajnit hulumtues. Përveç kuadër etike udhëzuese subjekteve njerëzore kërkime që unë do të përshkruajnë në Kapitullin 6, studiuesit dizajnimin eksperimente digjitale mund të tërheqë në idetë etike nga një burim tjetër: parimet etike të zhvilluara për të drejtuar eksperimente që përfshijnë kafshët. Në veçanti, në parimet e tyre të librave historike e Technique humane eksperimentale, Russell and Burch (1959) propozoi tre parimet që duhet të udhëheqin kërkime të kafshëve: Replace, të përsosin, dhe të reduktuar. Do të doja të propozojë që këto tre R-së mund të përdoret-në edhe një modifikuar pak formë, për të drejtuar hartimin e eksperimenteve njerëzore. Veçanërisht,

Replace: Replace eksperimente me metoda më pak invazive nëse është e mundur
Përsosin: përsosin trajtim për ta bërë atë sa më të padëmshme të jetë e mundur
Ulja: Ulja e numrit të pjesëmarrësve në eksperiment tuaj sa më shumë të jetë e mundur

Në mënyrë që të betonit këtyre tre R-së dhe të tregojnë se si ata potencialisht mund të çojë në hartimin më të mirë dhe më humane eksperimentale, unë do të përshkruaj një eksperiment në internet fushë që gjeneruar debat etike. Pastaj unë do të përshkruajnë se si tre R-së sugjerojnë ndryshime konkrete dhe praktike për hartimin e eksperimentit.

Një nga eksperimentet më të debatuara etike fushë dixhital është "Emotional Contagion", e cila është kryer nga Adam Kramer, Jamie Gillroy, dhe Jeffrey Hancock (2014) . Eksperimenti u zhvillua në Facebook dhe u motivuar nga një përzierje e pyetjeve shkencore dhe praktike. Në atë kohë, mënyra dominuese që përdoruesit të ndërvepruar me Facebook ishte News Feed, një grup kuruar algorithmically e Facebook rejat e statusit nga miqtë e një përdoruesi në Facebook. Disa kritikë të Facebook kanë sugjeruar se për shkak të News Feed ka kryesisht pozitive Mesazhe-miq duke treguar off e tyre të fundit partia-it mund të shkaktojë përdoruesit të ndjehemi të pikëlluar, sepse jeta e tyre duket më pak emocionuese në krahasim. Nga ana tjetër, ndoshta efekti është pikërisht e kundërta; ndoshta duke parë mikun tuaj të paturit e një kohë të mirë do të bëjnë të ndjeheni të lumtur? Me qëllim të adresimit këto konkurrojnë hipotezë-dhe për të çuar përpara të kuptuarit tonë se si emocionet e një personi janë të ndikuar nga miqtë e saj 'emocione-Kramer dhe kolegët u zhvillua një eksperiment. Hulumtuesit vendosur rreth 700,000 përdorues në katër grupe për një javë: një grup "negativitet reduktuar", për të cilin mesazhet me fjalë negative (p.sh., i trishtuar) u bllokuan rastësisht shfaqet në News Feed; një grup i "positivity reduktuar" për të cilin mesazhet me fjalë pozitive (p.sh., të lumtur) u bllokuan rastësisht; dhe dy grupe të kontrollit. Në grupin e kontrollit për grupin "negativitet reduktuar", mesazhet ishin bllokuar rastësisht në të njëjtin ritëm si grupin "negativitet reduktuar", por pa lidhje me përmbajtjen emocionale. Grupi i kontrollit për grupin "positivity reduktuar", është ndërtuar në një mënyrë paralele. Dizajni i këtij eksperimenti tregon se grupi i kontrollit i duhur nuk është gjithmonë një pa ndryshime. Përkundrazi, ndonjëherë grupi i kontrollit merr një trajtim në mënyrë që të krijojnë krahasimin e saktë që një pyetje kërkimore kërkon. Në të gjitha rastet, postet që ishin bllokuar nga News Feed ishin ende në dispozicion për përdoruesit me pjesë të tjera të internetit Facebook.

Kramer dhe kolegët e gjeti se për pjesëmarrësit në positivity reduktuar gjendjen, përqindja e fjalëve pozitive në përditësimet e tyre statusit ulur dhe përqindja e fjalëve negative rritje. Nga ana tjetër, për pjesëmarrësit në gjendjen negativitet reduktuar, përqindja e fjalëve pozitive rritur dhe përqindja e fjalëve negative zvogëluar (Figura 4.23). Megjithatë, këto efekte ishin mjaft të vogël: dallimi me fjalë pozitive dhe negative midis trajtimeve dhe kontrollet ishte rreth 1 në 1.000 fjalë.

Figura 4.23: Dëshmi e infektimit emocional (Kramer, Guillory dhe Hancock 2014). Përqindja e fjalëve pozitive dhe negative fjalë me kusht eksperimentale. Bare përfaqësojnë vlerësuar gabimet standarde.

Figura 4.23: Dëshmi e infektimit emocional (Kramer, Guillory, and Hancock 2014) . Përqindja e fjalëve pozitive dhe negative fjalë me kusht eksperimentale. Bare përfaqësojnë vlerësuar gabimet standarde.

Unë e kam vënë një diskutim të aspekteve shkencore të këtij eksperimenti në seksionin mëtejshme leximit në fund të kapitullit, por për fat të keq, ky eksperiment është më i njohur për të gjeneruar debat etik. Vetëm pak ditë pasi ky studim është publikuar në Proceedings of Akademisë Kombëtare të Shkencave, ka pasur një protestë e madhe nga të dy studiuesve dhe shtypit. Zemërim rreth letrës fokusuar në dy pika kryesore: 1) pjesëmarrësit nuk ofrojnë ndonjë pëlqim përtej standardeve drejtim-i-shërbimit të Facebook për një trajtim që disa mendimi mund të shkaktojë dëm të pjesëmarrësve dhe 2) studimi nuk kishte pësuar një pale të tretë etike shqyrtim (Grimmelmann 2015) . Pyetjet etike e ngritura në këtë debat ka shkaktuar ditar për të shpejt të publikojë një "shprehje editoriale të shqetësimit" të rrallë në lidhje me etikën dhe procesin e shqyrtimit etike për hulumtim (Verma 2014) . Në vitet e mëvonshme, eksperimenti ka vazhduar të jetë një burim i debatit intensiv dhe mosmarrëveshje, dhe kjo mosmarrëveshje mund të ketë pasur efektin e paqëllimshëm të makinës në hijet shumë eksperimente të tjera që janë duke u kryer nga kompanitë (Meyer 2014) .

Duke pasur parasysh se background rreth infektimit emocional, unë tani do të doja të tregojnë se 3 R-së mund të sugjerojnë konkrete, përmirësime praktike për studime reale (çdo gjë që ju mund të personalisht të mendoni në lidhje me etikën e këtij eksperimenti të veçantë). Para R është Replace: hulumtuesit duhet të kërkojnë të zëvendësojnë eksperimente me teknikat më pak invazive dhe të rrezikshme, nëse është e mundur. Për shembull, në vend se drejtimin e një eksperiment, studiuesit mund të ketë shfrytëzuar një eksperiment natyror. Siç përshkruhet në Kapitullin 2, eksperimentet natyrore janë situata ku diçka ndodh në botë që përafron caktimin e rastësishëm të trajtimeve (p.sh., një llotari të vendosë se kush do të hartohet në ushtri). Përparësia e një eksperimenti natyror është se studiuesi nuk ka për të ofruar trajtime; mjedisi bën këtë për ju. Me fjalë të tjera, me një eksperiment natyror, studiuesit nuk do të kishte nevojë për të manipuluar eksperimentalisht njerëzve Lajme.

Në fakt, pothuajse njëkohësisht me eksperiment emocionale sëmundje ngjitëse, Coviello et al. (2014) është shfrytëzuar atë që mund të quhet një Emotional eksperiment natyror ngjitje. Qasja e tyre, e cila përdor një teknikë të quajtur variablave instrumentale, është pak e komplikuar në qoftë se ju kurrë nuk kam parë atë më parë. Pra, në mënyrë që të shpjegojë se pse ajo ishte e nevojshme, le të ndërtuar deri në atë. Ideja e parë që disa studiues mund të keni për të studiuar ngjitjen emocionale do të jetë për të krahasuar mesazhet e tua në ditët kur News juaj Feed ishte shumë pozitive për postimet tuaja në ditët ku News juaj Feed ishte shumë negative. Kjo qasje do të jetë mirë në qoftë se qëllimi ishte vetëm për të parashikuar përmbajtjen emocionale të postimeve tuaja, por kjo qasje është problematike, nëse qëllimi është për të studiuar efektin shkakësore e News Feed tuaj në mesazhet tuaja. Për të parë problemin me këtë dizajn, e konsiderojnë Falenderimeve. Në SHBA, mesazhe pozitive hollë dhe mesazhe negative bien në Falenderimeve. Kështu, në Falenderimeve, studiuesit mund të shihni se News juaj Feed ishte shumë pozitiv dhe që ju të postuar gjëra pozitive si. Por, mesazhet e tua pozitive mund të jetë shkaktuar nga Falenderimeve jo nga përmbajtja e News Feed tuaj. Në vend të kësaj, për të vlerësuar shkakësore studiuesit efekt duhet diçka që ndryshon përmbajtjen e News Feed tuaj pa ndryshuar direkt emocionet tuaja. Për fat të mirë, nuk është diçka si kjo ndodh gjithë kohës: të motit.

Coviello dhe kolegët gjetur se një ditë me shi në qytetin e dikujt do, mesatarisht, të ulur përqindjen e posteve që janë pozitiv me rreth 1 pikë përqindje dhe për të rritur përqindjen e posteve që janë negative me rreth 1 pikë përqindjeje. Pastaj, Coviello dhe kolegët shfrytëzuar këtë fakt për të studiuar ngjitje emocionale, pa nevojën për të manipuluar eksperimentalisht askujt News Feed. Në thelb ajo që ata bënë është masë se si mesazhet e tua u ndikuar nga moti në qytetet ku jetojnë miqtë tuaj. Për të parë se pse kjo ka kuptim, imagjinoni se ju jetoni në New York City dhe ju keni një mik i cili jeton në Seattle. Tani imagjinoni se një ditë ajo fillon të bie shi në Seattle. Ky shi në Seattle nuk do të ndikojë drejtpërdrejt në disponimin tuaj, por ajo do të shkaktojë News juaj Feed të jetë më pak pozitive dhe më negative për shkak të posteve të mikut tuaj. Kështu, shiu në Seattle rastësisht manipulon të News Feed. Duke e kthyer këtë intuitë në një procedurë statistikore të besueshme është e komplikuar (dhe qasja e saktë e përdorur nga Coviello dhe kolegët është një organizatë jo-standard bit) kështu që unë kam vënë një diskutim më të detajuar në seksionin mëtejshme leximit. Gjëja më e rëndësishme për të kujtuar rreth Coviello dhe qasja e kolegut është se ajo mundësuar atyre për të studiuar ngjitje emocionale, pa nevojën për të drejtuar një eksperiment që potencialisht mund të dëmtojë pjesëmarrësit, dhe kjo mund të jetë rasti se në shumë mjedise të tjera që ju mund të zëvendësojë eksperimente me tjetrin teknikat.

E dytë në 3 Rs është Refine: hulumtuesit duhet të kërkojnë të përsosin trajtimin e tyre në mënyrë që të shkaktojë dëm më të vogël të mundshme. Për shembull, në vend se duke bllokuar përmbajtje që ishte pozitive ose negative, studiuesit mund të rritur përmbajtjen që ishte pozitive ose negative. Ky dizajn rritjen do të kishte ndryshuar përmbajtjen emocionale të pjesëmarrësve News Feeds, por ajo do të kishte adresuar një shqetësim që kritikët u shpreh: se eksperimentet mund të ketë shkaktuar pjesëmarrësit të humbasë informacion të rëndësishëm në News Feed të tyre. Me dizajn të përdorur nga Kramer dhe kolegët, një mesazh që është e rëndësishme është si të ngjarë të jetë e bllokuar si një që nuk është. Megjithatë, me një dizajn po rrit, mesazhet që do të zhvendosur do të jenë ata që janë më pak të rëndësishme.

Së fundi, i treti R është Ulja: hulumtuesit duhet të kërkojnë për të zvogëluar numrin e pjesëmarrësve në eksperiment e tyre, nëse është e mundur. Në të kaluarën, kjo ulje ka ndodhur natyrshëm për shkak se kostoja e ndryshueshme e eksperimenteve analoge ishte i lartë, i cili inkurajoi kërkime për të optimizuar hartimin dhe analizën e tyre. Megjithatë, kur ka të dhëna të zero kosto variabile, studiuesit nuk përballen me një pengesë të kostos në madhësinë e eksperimentit të tyre, dhe kjo ka potencial që të çojë në eksperimente të panevojshme të mëdha.

Për shembull, Kramer dhe kolegët mund të ketë përdorur informacionin para-trajtimit në lidhje me pjesëmarrësit e-tilla tyre si para-trajtimi postimit sjellje-për të bërë analiza e tyre më të efektshme. Më konkretisht, në vend se krahasuar përqindjen e fjalëve pozitive në trajtimit dhe kontrollit kushtet, Kramer dhe kolegët mund të ketë krahasuar ndryshimin në përqindjen e fjalëve pozitive mes kushteve; Një qasje e quajtur shpesh dallimi-in-dallimeve dhe e cila është e lidhur ngushtë me dizajn të përzier që kam përshkruar më parë në kapitullin (Figura 4.5). Kjo është, për çdo pjesëmarrës, studiuesit mund të ketë krijuar një rezultat ndryshim (post-trajtim të sjelljes - sjellja e para-trajtimit) dhe pastaj në krahasim me rezultatet e ndryshimeve të pjesëmarrësve në trajtimit dhe kontrollit të kushteve. Kjo qasje dallimi-in-dallimeve është më efikas statistikisht, që do të thotë se studiuesit mund të arrijë të njëjtin besim statistikore duke përdorur mostra shumë më të vogël. Me fjalë të tjera, duke mos e trajtuar pjesëmarrësit si "Widgets", studiuesit mund të shpesh marrin vlerësime më të sakta.

Pa pasur të dhënat e papërpunuara është e vështirë të dini saktësisht se sa më efikas një qasje dallimi-in-dallimet do të kishte qenë në këtë rast. Por, Deng et al. (2013) ka raportuar se në tri eksperimente online në search engine Bing ata ishin në gjendje për të reduktuar grindje e vlerësimeve të tyre me rreth 50%, dhe rezultatet të ngjashme janë raportuar për disa eksperimente në internet në Netflix (Xie and Aurisset 2016) . Kjo ulje grindje 50% do të thotë se studiuesit Emocionale infektimit mund të ketë qenë në gjendje për të shkurtuar mostër e tyre në gjysmën e në qoftë se ata kishin përdorur metoda pak më të ndryshme të analizës. Me fjalë të tjera, me një ndryshim të vogël në analizë, 350.000 njerëz mund të kanë qenë të kursyer pjesëmarrjen në eksperiment.

Në këtë pikë ju mund të pyesin se pse hulumtuesit të kujdesit në qoftë se 350,000 njerëz ishin në infektimit emocional panevojshme. Ka dy karakteristika të veçanta të infektimit emocional që e bëjnë bëjnë me madhësinë e tepruar është e përshtatshme, dhe këto karakteristika janë të ndarë nga shumë eksperimente në terren dixhitale: 1) ka pasiguri nëse eksperimenti do të shkaktojë dëm të paktën disa pjesëmarrës dhe 2) pjesëmarrja nuk ishte vullnetare. Në eksperimentet me këto dy karakteristika duket e këshillueshme për të mbajtur eksperimente sa më i vogël.

Në përfundim, të tre R's-Replace, Pastrues, dhe për të zvogëluar, të sigurojë parime që mund të studiuesit të ndërtojnë etikën në planet e tyre eksperimentale. Sigurisht, secili prej këtyre ndryshimeve të mundshme të infektimit emocional prezanton kompromise. Për shembull, të dhënat nga eksperimentet natyrore nuk është gjithmonë aq e pastër si provë nga eksperimentet randomized dhe rritja mund të ketë qenë më e logjistike vështirë për t'u zbatuar se bllok. Pra, qëllimi i sugjeruar këto ndryshime të mos ishte për të dytë me mend vendimet e studiuesve të tjerë. Përkundrazi, ajo ishte për të ilustruar se si tre R-së do të mund të zbatohet në një situatë reale.