4.6.2 sostituire, perfezionare e ridurre

Questa traduzione è stato creato da un computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 sostituire, perfezionare e ridurre

Fai la tua esperimento più umano, sostituendo gli esperimenti con gli studi non sperimentali, affinando i trattamenti, e la riduzione del numero dei partecipanti.

Il secondo consiglio che mi piacerebbe offrire sulla progettazione di esperimenti digitali riguarda l'etica. Mentre l'esperimento Restivo e van de Rijt sulla Barnstars in spettacoli di Wikipedia, diminuito i costi significa che l'etica diventeranno una parte sempre più importante del disegno di ricerca. Oltre ai quadri etici che guidano sperimentazione umana che descriverò nel capitolo 6, i ricercatori progettano esperimenti digitali possono anche attingere idee etiche da una fonte diversa: i principi etici sviluppati per guidare esperimenti su animali. In particolare, nei loro principi di riferimento del libro di tecnica sperimentale Humane, Russell and Burch (1959) hanno proposto tre principi che dovrebbero guidare la ricerca sugli animali: sostituire, perfezionare e ridurre. Mi piacerebbe proporre che questi tre R possono essere utilizzati in una forma leggermente modificata anche a guidare la progettazione di esperimenti umani. In particolare,

Sostituire: sostituire gli esperimenti con metodi meno invasivi se possibile
Affina: raffinare il trattamento per renderlo il più innocuo possibile
Ridurre: Ridurre il numero di partecipanti nel vostro esperimento, per quanto possibile

Al fine di rendere concreto questi tre R e mostrano come possono potenzialmente portare a disegno sperimentale migliore e più umano, io descrivere un esperimento sul campo in linea che ha generato dibattito etico. Poi Descriverò come il tre R suggeriscono cambiamenti concreti e pratici per la progettazione dell'esperimento.

Uno degli esperimenti sul campo digitale più eticamente discussi è "Emotional Contagion", che è stato condotto da Adam Kramer, Jamie Gillroy, e Jeffrey Hancock (2014) . L'esperimento ha avuto luogo su Facebook ed è stata motivata da un mix di questioni scientifiche e pratiche. A quel tempo, il modo dominante che gli utenti hanno interagito con Facebook è stato il News Feed, un insieme algoritmicamente a cura di aggiornamenti di stato di Facebook dagli amici di Facebook di un utente. Alcuni critici di Facebook avevano suggerito che poiché il News Feed è per lo più positive post-amici che mostrano il loro ultimo partito potrebbe causare agli utenti di sentirsi triste perché le loro vite sembrano meno eccitante in confronto. D'altra parte, forse l'effetto è esattamente l'opposto; forse vedere il tuo amico con un buon tempo ti fa sentire felice? Per far fronte a questi concorrenti ipotesi e per far progredire la nostra comprensione di come le emozioni di una persona sono influenzati dai suoi amici emozioni-Kramer e colleghi correvano un esperimento. I ricercatori hanno collocato circa 700.000 utenti in quattro gruppi per una settimana: un gruppo di "negatività ridotto", per i quali i messaggi con parole negative (ad esempio, triste) sono stati bloccati in modo casuale la visualizzazione di News Feed; una "positività ridotto" gruppo per il quale i messaggi con parole positive (ad esempio, felice) sono stati bloccati in modo casuale; e due gruppi di controllo. Nel gruppo di controllo per il gruppo "negatività ridotto", i messaggi sono stati bloccati casualmente alla stessa velocità come il gruppo "negatività ridotto", ma senza riguardo al contenuto emotivo. Il gruppo di controllo per il gruppo "positività ridotto" è stato costruito in modo parallelo. Il design di questo esperimento illustra che il gruppo di controllo appropriato non è sempre uno senza modifiche. Piuttosto, a volte il gruppo di controllo riceve un trattamento al fine di creare il confronto precisa che una domanda di ricerca richiede. In tutti i casi, i messaggi che sono stati bloccati dal News Feed erano ancora a disposizione degli utenti attraverso altre parti del sito di Facebook.

Kramer e colleghi hanno scoperto che per i partecipanti al positività ridotto condizione, la percentuale di parole positive nei loro aggiornamenti di stato diminuito e la percentuale di parole negative aumentato. D'altra parte, per i partecipanti nella condizione negatività ridotta, la percentuale di parole positive aumentata e la percentuale di parole negative diminuita (Figura 4.23). Tuttavia, questi effetti sono abbastanza piccole: la differenza in termini positivi e negativi tra i trattamenti e controlli è stato di circa 1 su 1.000 parole.

Figura 4.23: La prova di contagio emotivo (Kramer, Guillory, e Hancock 2014). Percentuale di parole positive e parole negative di condizione sperimentale. Bar rappresentano stimati gli errori standard.

Figura 4.23: La prova di contagio emotivo (Kramer, Guillory, and Hancock 2014) . Percentuale di parole positive e parole negative di condizione sperimentale. Bar rappresentano stimati gli errori standard.

Ho messo una discussione degli aspetti scientifici di questo esperimento nella ulteriore sezione di lettura al termine del capitolo, ma purtroppo, questo esperimento è più conosciuto per la generazione di dibattito etico. Pochi giorni dopo questo documento è stato pubblicato in Proceedings of the National Academy of Sciences, c'era un enorme clamore da entrambi i ricercatori e alla stampa. Outrage intorno alla carta incentrata su due punti principali: 1) i partecipanti non hanno presentato alcuna consenso oltre i termini di servizio standard di Facebook per un trattamento che qualche pensiero potrebbe causare danni ai partecipanti e 2) lo studio non ha subito terze parti etico recensione (Grimmelmann 2015) . Le questioni etiche sollevate in questo dibattito ha causato la rivista di pubblicare rapidamente un raro "espressione editoriale di preoccupazione" per l'etica e il processo di revisione etica per la ricerca (Verma 2014) . Negli anni successivi, l'esperimento ha continuato ad essere una fonte di intenso dibattito e di disaccordo, e questo disaccordo può aver avuto l'effetto indesiderato di guidare nelle ombre molti altri esperimenti che vengono eseguite da società (Meyer 2014) .

Dato che di base sul contagio emotivo, vorrei ora di dimostrare che il 3 di R può suggerire concreti, miglioramenti pratici per gli studi reali (qualunque cosa si potrebbe pensare personalmente l'etica di questo particolare esperimento). La prima R è sostituire: i ricercatori dovrebbero cercare di sostituire gli esperimenti con tecniche meno invasive e rischiose, se possibile. Ad esempio, invece di eseguire un esperimento, i ricercatori hanno potuto hanno sfruttato un esperimento naturale. Come descritto nel capitolo 2, gli esperimenti naturali sono situazioni in cui qualcosa accade nel mondo che approssima l'assegnazione casuale dei trattamenti (ad esempio, una lotteria per decidere chi sarà chiamato alle militare). Il vantaggio di un esperimento naturale è che il ricercatore non deve fornire trattamenti; l'ambiente che fa per voi. In altre parole, con un esperimento naturale, i ricercatori non avrebbero bisogno di manipolare sperimentalmente delle persone news feed.

Infatti, quasi in concomitanza con l'esperimento emotivo Contagion, Coviello et al. (2014) sfruttava quello che potrebbe essere chiamato un emotivo esperimento naturale contagio. Il loro approccio, che utilizza una tecnica chiamata variabili strumentali, è un po 'complicato se non avete mai visto prima. Quindi, al fine di spiegare il motivo per cui è stato necessario, cerchiamo di costruire ad esso. La prima idea che alcuni ricercatori potrebbero dover studiare contagio emotivo sarebbe quello di confrontare i tuoi messaggi nei giorni in cui il vostro News Feed è stata molto positiva per i tuoi post nei giorni in cui il vostro News Feed è stato molto negativo. Questo approccio sarebbe bene se l'obiettivo era solo per prevedere il contenuto emotivo dei tuoi post, ma questo approccio è problematico se l'obiettivo è quello di studiare l'effetto causale del vostro News Feed nei tuoi post. Per vedere il problema con questo disegno, in considerazione del Ringraziamento. Negli Stati Uniti, i messaggi positivi Spike e messaggi negativi precipitare il giorno del Ringraziamento. Così, il giorno del Ringraziamento, i ricercatori potrebbero vedere che il vostro feed di notizie è stato molto positivo e che hai postato cose positive pure. Ma, i tuoi messaggi positivi potrebbero essere stati causati da Ringraziamento non dal contenuto del vostro News Feed. Invece, al fine di valutare la causale ricercatori effetto hanno bisogno di qualcosa che cambia il contenuto del vostro News Feed senza modificare direttamente le vostre emozioni. Per fortuna, c'è qualcosa di simile accade per tutto il tempo: il tempo.

Coviello e colleghi hanno scoperto che un giorno di pioggia nella città di qualcuno, in media, diminuire la percentuale di tutti i messaggi che sono positivi per circa 1 punto percentuale e aumentare la percentuale di tutti i messaggi che sono negativi per circa 1 punto percentuale. Poi, Coviello e colleghi hanno sfruttato questo fatto per studiare contagio emotivo, senza la necessità di manipolare sperimentalmente di nessuno News Feed. In sostanza quello che hanno fatto è la misura di come i tuoi messaggi sono stati influenzati dal clima nelle città dove vivono i tuoi amici. Per capire perché questo ha un senso, immaginate di vivere a New York e si dispone di un amico che vive a Seattle. Ora immaginate che un giorno inizia a piovere a Seattle. Questa pioggia di Seattle non influenzerà direttamente il vostro stato d'animo, ma farà sì che la vostra fonte di notizie ad essere meno positivo e più negativo a causa di tutti i messaggi del tuo amico. Così, la pioggia di Seattle manipola in modo casuale il vostro News Feed. Girando questa intuizione in una procedura statistica affidabile è complicato (e l'approccio esatto utilizzato da Coviello e colleghi è un non-standard di bit) così ho messo una discussione più dettagliata in ulteriore sezione di lettura. La cosa più importante da ricordare su Coviello e l'approccio del collega è che ha permesso loro di studiare contagio emotivo, senza la necessità di eseguire un esperimento che potrebbe potenzialmente danneggiare i partecipanti, e può essere il caso che in molte altre impostazioni è possibile sostituire gli esperimenti con altri tecniche.

In secondo luogo nei 3 RS è Perfeziona: i ricercatori dovrebbero cercare di perfezionare i loro trattamenti in modo da causare il danno più piccolo possibile. Ad esempio, invece di bloccare il contenuto che è stato positivo o negativo, i ricercatori hanno potuto hanno aumentato il contenuto che è stato positivo o negativo. Questo design aumentando avrebbe cambiato il contenuto emotivo dei partecipanti feed di notizie, ma sarebbe affrontato una delle preoccupazione che i critici hanno espresso: che gli esperimenti possono aver causato ai partecipanti di perdere informazioni importanti nella loro News Feed. Con il disegno utilizzato da Kramer e colleghi, un messaggio che è importante è la stessa probabilità di essere bloccato come uno che non è. Tuttavia, con un disegno amplificazione, i messaggi che verrebbero spostati sarebbero quelle che sono meno importanti.

Infine, la terza R è Diminuire: ricercatori dovrebbero cercare di ridurre il numero di partecipanti nella loro esperimento, se possibile. In passato, tale riduzione è accaduto naturalmente perché il costo variabile di esperimenti analogici era alto, che ha incoraggiato la ricerca per ottimizzare la loro progettazione e analisi. Tuttavia, quando ci sono dati sui costi variabili pari a zero, i ricercatori non affrontare un vincolo di costo delle dimensioni del loro esperimento, e questo ha il potenziale per portare a inutilmente grandi esperimenti.

Ad esempio, Kramer e colleghi avrebbero potuto usare le informazioni pre-trattamento dei loro partecipanti, ad esempio pre-trattamento post-comportamenti per rendere la loro analisi più efficiente. In particolare, anziché confrontare la proporzione di parole positivi nelle condizioni di trattamento e di controllo, Kramer e colleghi potrebbero hanno confrontato la variazione della percentuale di parole positive tra condizioni; un approccio spesso chiamato differenza nelle differenze e che è strettamente correlato al disegno misto che ho descritto in precedenza nel capitolo (Figura 4.5). Cioè, per ogni partecipante, i ricercatori potrebbe aver creato una variazione del punteggio (comportamento post-trattamento - comportamento pre-trattamento) e poi confrontato i punteggi di cambiamento dei partecipanti nelle condizioni di trattamento e di controllo. Questo approccio differenza nelle differenze è più efficiente statisticamente, il che significa che i ricercatori possono ottenere la stessa affidabilità statistica utilizzando campioni molto piccoli. In altre parole, da non trattare i partecipanti come "widget", i ricercatori possono spesso ottenere stime più precise.

Senza avere i dati grezzi è difficile sapere esattamente quanto più efficiente un approccio differenza nelle differenze sarebbe stato in questo caso. Ma, Deng et al. (2013) ha riferito che in tre esperimenti online sul motore di ricerca Bing sono stati in grado di ridurre la varianza di loro stime di circa il 50%, e risultati simili sono stati riportati per alcuni esperimenti on-line su Netflix (Xie and Aurisset 2016) . Questa riduzione della varianza del 50% significa che i ricercatori contagio emotivo potrebbero essere stati in grado di tagliare loro campione a metà se avessero usato un po 'diversi metodi di analisi. In altre parole, con un piccolo cambiamento nell'analisi, 350.000 persone avrebbero potuto essere risparmiati partecipazione all'esperimento.

A questo punto si potrebbe chiedere perché i ricercatori dovrebbero importa se 350.000 persone erano in contagio emotivo inutilmente. Ci sono due caratteristiche particolari di contagio emotivo che rendono la preoccupazione con dimensioni eccessive del caso, e queste caratteristiche sono comuni a molti esperimenti sul campo digitali: 1) non vi è incertezza sul fatto che l'esperimento causerà danno almeno alcuni partecipanti e 2) la partecipazione non è stata volontaria. In esperimenti con queste due caratteristiche sembra opportuno mantenere gli esperimenti più piccolo possibile.

In conclusione, i tre R's-sostituire, perfezionare e ridurre-forniscono i principi che possono aiutare i ricercatori a costruire l'etica nei loro progetti sperimentali. Naturalmente, ognuno di questi possibili cambiamenti al contagio emotivo introduce compromessi. Ad esempio, le prove da esperimenti naturali non è sempre così pulito come prova da esperimenti randomizzati e aumentando avrebbe potuto essere più logisticamente difficili da implementare di blocco. Quindi, lo scopo di suggerire questi cambiamenti non era di indovinare le decisioni di altri ricercatori. Piuttosto, era per illustrare come le tre R potrebbe essere applicato in una situazione realistica.