4.6.2 Skipta, betrumbæta, og draga úr

Gerðu tilraun þín mannúðlegri með því að skipta tilraunir með non-tilrauna rannsóknum, fínpússa meðferðir, og draga úr fjölda þátttakenda.

Annað stykki af ráð sem mig langar til að bjóða um að hanna stafrænar tilraunir varðar siðfræði. Eins Restivo og van de Rijt tilraun á barnstars á Wikipediu sýnir, minnkuð kostnað þýðir að siðfræði verður sífellt mikilvægari þáttur í hönnun rannsókna. Í viðbót við siðferðilegum ramma leiðarljósi mönnum rannsóknir sem ég lýsa í 6. kafla, vísindamenn hanna stafrænar tilraunir geta einnig draga á siðferðilegum hugmyndum frá öðrum aðilum: siðareglurnar þróað til að fylgja tilraunir með dýr. Einkum í kennileiti bók sinni Principles of mannúðlegri Tilraunastöð Technique, Russell and Burch (1959) lagði þrjár grundvallarreglur sem eiga leiða dýra rannsóknir: skipta, betrumbæta, og draga úr. Mig langar til að leggja til að geta einnig vera notaður í örlítið breyttri þessir þrír R er form til að leiðbeina hönnun mönnum tilraunir. Einkum,

  • Skipta: Skipta tilraunir með minna ífarandi aðferðum ef mögulegt
  • Refine: Betrumbæta meðferð til að gera það eins skaðlaus og mögulegt
  • Minnka: Draga úr fjölda þátttakenda í tilrauninni eins mikið og mögulegt er

Til þess að gera steypu þessar þrjár R og sýna hvernig þeir geta hugsanlega leitt til betri og mannúðlegri tilrauna, ég lýsa netinu Field tilraun sem mynda siðferðileg umræðu. Þá ég að lýsa því hvernig þrír R er benda til steypu og hagnýt breytingar á hönnun tilraunarinnar.

Eitt af því sem mest siðferðilega rætt stafræna sviði tilrauna er "Emotional Contagion," sem var gerð af Adam Kramer, Jamie Gillroy og Jeffrey Hancock (2014) . Tilraunin fór fram á facebook og var hvatinn af blöndu af vísindalegum og hagnýtum spurningum. Á þeim tíma var ríkjandi leiðin sem notendur samskipti við Facebook var News Feed, sem algorithmically Sýningarstjóri sett af Facebook stöðuuppfærslur frá Facebook vini notanda. Sumir gagnrýnendur Facebook hafði lagt til að því News Feed hefur að mestu leyti jákvæð innlegg-vinir sýna burt nýjustu sína aðila-það gæti valdið notendum að vera sorgmædd vegna þess að líf þeirra virðast síður spennandi í samanburði. Á hinn bóginn, ef til vill er að meta áhrif einmitt hið gagnstæða; kannski sjá vin þinn sem hefur góðan tíma myndi gera þér líður vel? Í því skyni að takast þetta samkeppni tilgátu-og að fara skilning okkar á því hvernig tilfinningar einstaklingsins eru áhrif af vinum sínum 'tilfinningar-Kramer og samstarfsmenn hljóp tilraun. Rannsakendur sett um 700.000 notendur í fjóra hópa í eina viku: a "neikvæðni minnka" hóp, fyrir hvern innlegg með neikvæðum orðum (td sorglegt) voru af handahófi lokað birtist fréttastraumi; a "jákvæðni minnka" hóp fyrir hvern innlegg með jákvæð orð (td hamingjusamur) voru af handahófi læst; og tveir samanburðarhópsins. Í samanburðarhópnum fyrir "neikvæðni minnka" hóp, innlegg voru af handahófi lokað á sama hraða og "neikvæðni minnkað" hóp en án tillits til tilfinninga efni. Samanburðarhópurinn fyrir "jákvæðni minnkað" hóp var smíðuð í samhliða tísku. The hönnun af þessari tilraun sýnir að viðeigandi eftirlit hópur er ekki alltaf eitt án nokkurra breytinga. Frekar, stundum fær samanburðarhópurinn meðferð í því skyni að skapa nákvæma samanburð að rannsóknir spurning krefst. Í öllum tilvikum, innlegg sem voru útilokaðir frá fréttastraumi voru enn í boði fyrir notendur með öðrum hlutum Facebook website.

Kramer og samstarfsmenn í ljós að fyrir þátttakendur í jákvæðni minnkað ástand, hlutfall jákvæðra orða í stöðu uppfærslur þeirra lækkuðu og hlutfall neikvæðra orða aukist. Á hinn bóginn, fyrir þátttakendur í neikvæðni minnkað ástandi, sem hlutfall af jákvæðum orðum aukin og hlutfall neikvæðra orða minnkað (mynd 4.23). Hins vegar þessi áhrif voru alveg lítill: munurinn á jákvæðum og neikvæðum orðum milli meðferða og eftirlit var um 1 af hverjum 1.000 orðum.

Mynd 4.23: Vísbendingar um tilfinningalegt smiti (Kramer, Guillory og Hancock 2014). Hlutfall jákvæðra orðum og neikvæð orð með tilrauna ástandi. Súlurnar tákna áætlað staðlaðar villur.

Mynd 4.23: Vísbendingar um tilfinningalegt smiti (Kramer, Guillory, and Hancock 2014) . Hlutfall jákvæðra orðum og neikvæð orð með tilrauna ástandi. Súlurnar tákna áætlað staðlaðar villur.

Ég hef sett umfjöllun um vísindalegum þáttum þessarar tilraunar í frekari lestur kafla í lok kaflans, en því miður, þessi tilraun er mest þekktur fyrir að útbúa siðferðileg umræðu. Nokkrum dögum eftir að þessi grein var birt í Proceedings of National Academy of Sciences, það var gífurleg vein úr báðum rannsakendum og stutt. Outrage kringum pappír áherslu á tvö helstu atriði: 1) þátttakendur ekki veita nein samþykki umfram venjulegu Facebook skilmálum-of-þjónustu fyrir meðferð sem sumir hugsun gætu valdið skaða á þátttakendur og 2) rannsókn hefði ekki farið í þriðja aðila siðferðileg endurskoðun (Grimmelmann 2015) . Siðferðileg vakna í þessari umræðu olli Tímaritið fljótt birta sjaldgæf "ritstjórn tjáningu áhyggjur" um siðfræði og siðferðileg endurmatsferlið fyrir rannsóknir (Verma 2014) . Á síðari árum, að tilraunin hefur haldið áfram að vera uppspretta af mikilli umræðu og ágreiningi, og þetta ósætti kann að hafa haft óviljandi áhrif af akstri í skugganum margar aðrar tilraunir sem eru gerðar af fyrirtækjum (Meyer 2014) .

Í ljósi þess að bakgrunnur um Emotional smiti, myndi ég nú vilja til að sýna að 3 R er getur stungið steypu, hagnýtar úrbætur fyrir alvöru rannsóknum (hvað sem þú gætir persónulega finnst um siðferði þessarar tilteknu tilraun). Fyrsti R er skipt út fyrir: vísindamenn ættu að leitast við að skipta tilraunir með minna ífarandi og áhættusamt tækni, ef mögulegt er. Til dæmis, frekar en að keyra tilraun, vísindamenn getað hagnýtt náttúrulega tilraun. Eins og lýst er í 2. kafla, eru náttúruleg tilraunir aðstæður þar sem eitthvað gerist í heiminum sem er um það bil handahófi úthlutun meðferðir (td happdrætti til að ákveða hver verður herkvaðningu). Kosturinn við náttúrulega tilraun er að rannsakandinn þarf ekki að skila meðferðir; umhverfi gerir það fyrir þig. Með öðrum orðum, með náttúrulegum tilraun, vísindamenn myndi ekki hafa þörf til að tilraunum vinna fréttir fólks.

Í raun, nánast samtímis með tilfinningalegum smiti tilrauninni, Coviello et al. (2014) var að nýta það sem kalla mætti ​​Emotional Contagion náttúrulega tilraun. Nálgun þeirra, sem notar tækni sem kallast instrumental breytur, er dálítið flókið ef þú hefur aldrei séð það áður. Svo, í því skyni að útskýra hvers vegna það var þörf, við skulum byggja upp að henni. Fyrsta hugmynd að sumir vísindamenn gætu þurft að læra tilfinningalegt smitað væri að bera innleggjum þínum á dögum þar News Feed þinn var mjög jákvætt að innlegg þín á dögum þar News Feed þitt var mjög neikvæð. Þessi nálgun væri fínt ef markmiðið var bara að spá tilfinningalega efni innlegg þitt, en þessi aðferð er erfið ef markmiðið er að kanna orsakasamhengi áhrif News Feed á innlegg þitt. Að sjá vandann með þessari hönnun, íhuga þakkargjörð. Í Bandaríkjunum, jákvæð innlegg hækkun og neikvæð innlegg hrynja á Thanksgiving. Þannig á Thanksgiving, vísindamenn gátu séð að News Feed þitt var mjög jákvæð og að þú staða jákvæða hluti eins og heilbrigður. En, jákvæð innlegg þín gæti hafa orsakast af Thanksgiving ekki efni News Feed. Þess í stað, í því skyni að meta orsakatengsl áhrif vísindamenn þurfa eitthvað sem breytir innihaldi Fréttir Feed án beint breyta tilfinningar þínar. Sem betur fer, það er eitthvað eins og að gerast allan tímann: veðri.

Coviello og samstarfsmenn í ljós að rigningardegi í borginni einhvers mun að meðaltali minnka hlutfall innlegg sem eru jákvæð um 1 prósentu og auka hlutfall innlegg sem eru neikvæð um 1 prósentu. Þá Coviello og samstarfsmenn nýttu þessa staðreynd til að læra tilfinningalega smitað án þess að þurfa að tilraunum vinna neinum News Feed. Í raun hvað þeir gerðu er mælikvarði hvernig færslurnar þínar voru áhrif af veðri í borgum þar sem vinir þínir lifa. Til að sjá hvers vegna þetta vit, ímynda sér að þú býrð í New York og þú hafa a vinur sem býr í Seattle. Nú ímynda sér að einn daginn það byrjar að rigna í Seattle. Þetta rigning í Seattle verður ekki bein áhrif á skap þitt, en það mun valda News Feed til að vera minna jákvæð og fleira neikvætt vegna þess innlegg vinkonu þinnar. Svona, rigning í Seattle vinnur handahófi fréttastraumi þína. Beygja þennan innsæi í áreiðanlegum tölfræðilegum aðferð er flókið (og nákvæm aðferð notuð af Coviello og samstarfsmenn er dálítið non-staðall) þannig að ég hef sett nánari umfjöllun í frekari lestur kafla. The mikilvægur hlutur til muna um Coviello og nálgun samstarfsmaður er að það gerði þeim kleift að rannsaka tilfinningalega smitað án þess að þurfa að keyra tilraun sem gæti hugsanlega skaðað þátttakendur, og það kann að vera raunin að í mörgum öðrum stillingum er hægt að skipta tilraunir með aðra aðferðir.

Í öðru lagi í 3 Rs er Betrumbæta: vísindamenn ættu að leitast við að betrumbæta meðferðir þeirra í því skyni að valda minnstu skaða mögulegt. Til dæmis, frekar en að hindra efni sem var annaðhvort jákvæð eða neikvæð, sem vísindamenn getað eflt efni sem var jákvæð eða neikvæð. Þessi auka hönnun hefði breytt tilfinningalegt innihald þátttakenda fréttir, en það hefði beint einn af áhyggjum sem gagnrýnendur lýstu: að tilraunirnar gætu hafa valdið þátttakendum að missa af mikilvægum upplýsingum í News Feed þeirra. Með hönnun notuð af Kramer og samstarfsmenn, skilaboð sem er mikilvægt er líklegri til að vera læst eins og einn sem er ekki. Hins vegar, með og skilar hönnun, skilaboð sem yrði flosnað væri þeim sem eru minna máli.

Að lokum, þriðja R er Minnka: vísindamenn ættu að reyna að draga úr fjölda þátttakenda í tilraun þeirra, ef mögulegt er. Í the fortíð, þessi minnkun gerðist náttúrulega vegna þess að breytilegur kostnaður hliðstæðum tilraunum var mikil, sem hvatti rannsóknir til að hámarka hönnun þeirra og greiningu. En þegar það er núll breytilega gögn kostnaður, ekki vísindamenn andlit ekki kostnaðarlíkan aðhald stærð tilraun þeirra, og þetta hefur tilhneigingu til að leiða til óþarfa stórum tilraunum.

Til dæmis, Kramer og samstarfsmenn getað notað upplýsingar pre-meðferð um þátttakendur-ss formeðferð innleggs their hegðun-til að gera greiningu þeirra skilvirkari. Nánar tiltekið, frekar en að bera saman hlutfall jákvæðra orð í meðferð og eftirlit aðstæður, Kramer og samstarfsmenn gæti hafa borið saman breytingar á hlutfalli jákvæðra orða milli aðstæður; nálgun oft kölluð munur-í-mismun og er nátengd blönduðu hönnun sem ég lýst fyrr í kaflanum (mynd 4.5). Það er, fyrir hvern þátttakanda, sem vísindamenn getað skapað breyta stöðuna (eftir meðferð hegðun - formeðferð hegðun) og síðan bornar saman breytingin skorar á þátttakendur í meðferð og eftirlit aðstæður. Þessi munur-í-mismun nálgun er skilvirkari tölfræðilega, sem þýðir að vísindamenn hægt að ná sömu tölfræðilegra traust með miklu minni sýni. Með öðrum orðum, með því að meðhöndla þátttakendur eins og "búnaður", vísindamenn geta oft fengið nákvæmari áætlanir.

Án þess að hafa hrátt gögn sem það er erfitt að vita nákvæmlega hversu mikið skilvirkari munur-í-mismun nálgun hefði verið í þessu tilfelli. En, Deng et al. (2013) greint frá því að í þremur netinu tilraunir á Bing leitarvél þeir gátu til að minnka dreifni áætlunum þeirra um 50%, og hefur verið greint svipaðar niðurstöður fyrir sumir online tilraunir á Netflix (Xie and Aurisset 2016) . Þessi 50% dreifni lækkun þýðir að Emotional smitun vísindamenn gæti hafa tekist að skera sýnishorn þeirra í tvennt ef þeir höfðu notað örlítið mismunandi aðferðir greiningu. Með öðrum orðum, með örlítið breytingu á greiningu, 350.000 manns gætu hafa verið hlíft þátttöku í tilrauninni.

Á þessum tímapunkti sem þú gætir verið að spá hvers vegna vísindamenn ættu að hugsa ef 350.000 manns voru í Emotional smitaðist óþörfu. Það eru tvær sérstök einkenni Emotional smitaðist sem gera áhyggjuefni með miklum stærð við, og þessar aðgerðir eru hluti af mörgum stafrænum tilraunum á sviði: 1) það er óvissa um hvort tilraunin vilja valda skaða til að minnsta kosti sumum þátttakendum og 2) þátttaka var ekki sjálfboðavinnu. Í tilraunum með þessum tveimur eiginleikum virðist ráðlegt að halda tilraunir eins lítil og mögulegt er.

Að lokum, þrír R's-Skipta, betrumbæta, og draga-veita meginreglur sem geta hjálpað vísindamenn byggja siðfræði í tilraunaskyni hönnun þeirra. Auðvitað, hver af þessum hugsanlegar breytingar á Emotional smitaðist kynnir málamiðlanir. Til dæmis, vísbendingar úr náttúrulegum tilraunum er ekki alltaf eins hreint og gögnum frá slembuðum tilraunum og auka gætu hafa verið meira skipulagslega erfiðara að framkvæma en blokk. Svo, í þeim tilgangi að leggja þessar breytingar var ekki að second-giska á ákvarðanir annarra vísindamanna. Frekar, það var að sýna hvernig þrír R er mætti ​​beita raunhæf aðstæðum.